BENCHMARKS22 mai 2026· 8 min de lecture

Comment mesurer le taux de mention d'une marque dans un LLM

Pourquoi le rank SERP ne sert plus à rien, et comment construire un score à quatre axes — mention rate, position dans la réponse, share of voice, sentiment — qui tient face à la variance des modèles.

T
Tomáš Havel
Lead Researcher · GEO methodology
Comment mesurer le taux de mention d'une marque dans un LLM

Il n'y a pas de rank-1 dans une conversation. Quand un client demande à GPT-5.1 « quel CRM B2B me recommandes-tu pour une équipe de 12 commerciaux ? », le modèle renvoie une phrase — pas dix liens bleus. Comment, alors, mesurer la performance de votre marque dans cette phrase ?

La réponse courte : on ne mesure pas un rang, on mesure quatre choses, et on les agrège.

Les quatre axes

LES QUATRE SIGNAUX MESURABLES
Mention rate
% des réponses où la marque apparaît
Position
rang moyen dans la liste générée
Share of voice
% des mentions vs concurrents
Sentiment
polarité de la mention (–1 à +1)

Chacun isolément ment. Le mention rate à 84% est inutile si vous êtes cité en position 7 sur 7, après six concurrents. La position 1 ne vaut rien si votre share of voice est à 3%. Le sentiment positif compte peu si le modèle ne vous cite jamais. C'est la combinaison des quatre qui pilote.

Pourquoi SERP n'est plus un proxy

DONNÉE TERRAIN

Sur notre panel de 2 800 réponses LLM cross-modèles, la corrélation entre le rank Google et le mention rate IA est de 0,18. Autrement dit : la position dans Google n'explique presque rien de ce que les modèles disent. On l'a retiré de nos dashboards en mars 2026.

Beaucoup d'équipes continuent à pondérer leurs efforts sur la base du rank SERP par habitude. C'est une boussole cassée. Les modèles ont leurs propres priors, leurs propres retrievals, leurs propres biais — et ces signaux ne sont presque jamais alignés avec ce que Google montre.

Comment on mesure, concrètement

  1. 01
    Construire le jeu de prompts catégorie
    200 questions naturelles couvrant intent buyer (38%), intent comparatif (28%), intent recommandation (34%). C'est le minimum statistique pour que la mesure tienne sur 4 modèles.
  2. 02
    Tourner chaque prompt 5 fois
    La variance intra-modèle est réelle. Sur GPT-5.1, deux runs identiques donnent des réponses différentes dans 22% des cas. On moyenne sur 5 itérations pour stabiliser.
  3. 03
    Parser les réponses avec une grille
    Détection de la marque (string match + alias + synonymes), extraction de la position (1er nommé, 2e, etc.), comparaison à la set concurrents, scoring sentiment.
  4. 04
    Agréger par modèle puis cross-model
    Un dashboard par modèle (GPT-5.1, Claude 4.6, Grok 4, DeepSeek V3) plus un score cross-model pondéré par market share du modèle dans votre catégorie.

Le piège de la moyenne

Ne reportez pas une moyenne unique

À FAIRE
Reporter par modèle, par segment de prompt, par cohorte de marques. La granularité révèle des patterns que la moyenne cache.
À ÉVITER
Diriger sur un seul chiffre agrégé. La moyenne masque les drops catégorie et les biais par modèle — vous êtes aveuglés au moment où il faut réagir.

Et les biais de modèle

Chaque modèle a ses préférences. GPT-5.1 surreprésente les marques US tech (cohérent avec son training set), Claude 4.6 tend à être plus prudent et cite plus de sources officielles, Grok 4 a un biais conversationnel qui favorise les marques au ton plus jeune, DeepSeek V3 montre une variance plus large entre runs.

!
ATTENTION AUX BIAIS LATENTS

Si vous mesurez sur un seul modèle, vous mesurez ses biais autant que votre performance. Mesurez sur au moins 3 modèles avant de tirer une conclusion sur votre catégorie.

Et après

Une fois la mesure stabilisée, le pilotage GEO devient possible. Vous savez où vous êtes (mention rate baseline), où vous voulez aller (cible mention rate Q+1), et quel signal vous fait bouger (lift après feed). C'est le minimum opérationnel — sans ça, vous opérez à l'aveugle.

T
Tomáš Havel
LEAD RESEARCHER · GEO METHODOLOGY

Lancez les quatre étapes vous-même.

Déposez votre URL. On baseline votre catégorie sur les 4 modèles majeurs en 6 heures.

Essayer Rankfeed →
DIGEST HEBDOMADAIRE

Recevez le prochain field report

Un email tous les dimanches. Données terrain, deltas de release, zéro marketing.