Comment se construit le benchmark Benchfolk entre les LLMs ?▾
Chaque LLM (ChatGPT/GPT-4o, Perplexity/sonar-pro, Claude/Sonnet 4.6) reçoit exactement les mêmes 15 prompts par catégorie, dans le même ordre, sans context d'historique (fresh session). On relève les marques citées, leur position (top 1, top 3, top 5, mentionnée), et la nature de la recommandation (expert, générique, catégorie). Le score de citation = (citations × pondération position) / nombre de prompts.
Les LLMs sont-ils consistants d'un test à l'autre ?▾
Partiellement. La température des modèles introduit une variabilité — un LLM peut citer Bollinger sur 8/15 prompts un jour et 7/15 le lendemain. Pour corriger ce biais, Benchfolk moyenne les résultats sur 3 passes consécutives. La variabilité résiduelle est de ±1-2 prompts, jugée acceptable pour le scoring mensuel.
Perplexity est-il plus fiable que ChatGPT pour les recommandations fine drinks ?▾
Différent, pas nécessairement plus fiable. Perplexity est plus récent (web-grounded) et sourcé — utile pour des recommandations actualisées. ChatGPT reflète des préférences plus stables issues de corpus d'entraînement larges — utile pour comprendre la perception de long terme d'une marque. Les deux sont complémentaires dans le benchmark Benchfolk.
Claude cite-t-il différemment des marques par rapport à ChatGPT ?▾
Sur les prompts generics, les trois LLMs convergent sur les grandes maisons. Les différences apparaissent sur les prompts de niche : Claude a tendance à davantage nuancer ses recommandations et à mentionner des contextes (occasion, budget, profil du buveur). ChatGPT est plus direct dans ses top 3. Perplexity est plus factuel et sourcé.
À quelle fréquence le benchmark est-il mis à jour ?▾
Le benchmark public Benchfolk est mis à jour mensuellement. La prochaine mise à jour est prévue pour juin 2026. Les clients abonnés reçoivent leur benchmark en temps réel (mise à jour hebdomadaire ou quotidienne selon le plan).
Peut-on comparer les scores du benchmark entre mai 2026 et mai 2025 ?▾
Non — les modèles LLMs évoluent entre les versions (GPT-4o vs GPT-4 Turbo), ce qui rend les comparaisons historiques non pertinentes. Benchfolk tracke les changements dans le temps uniquement avec la même version de modèle. Un historique comparable commence avec la version lockée (30 prompts fixés) disponible depuis Q1 2026.