Wikidata est la base de données structurée du projet Wikimedia. Elle contient plus de 110 millions d'entités, chacune avec des propriétés typées et sourcées. OpenAI, Anthropic et les autres labs LLM intègrent Wikidata dans leurs corpus d'entraînement — c'est une des sources les plus denses et les plus structurées disponibles sur internet.
Pour les marques fine drinks, cela signifie : l'entité Wikidata de votre maison est l'une des premières choses qu'un LLM apprend sur vous. Une entrée avec 30 propriétés renseignées dans 12 langues vs une entrée avec 5 propriétés en français uniquement — l'écart de représentation est de l'ordre de 5 à 10x.