Il n'y a pas de rank-1 dans une conversation. Quand un client demande à GPT-5.1 « quel CRM B2B me recommandes-tu pour une équipe de 12 commerciaux ? », le modèle renvoie une phrase — pas dix liens bleus. Comment, alors, mesurer la performance de votre marque dans cette phrase ?
La réponse courte : on ne mesure pas un rang, on mesure quatre choses, et on les agrège.
Les quatre axes
Chacun isolément ment. Le mention rate à 84% est inutile si vous êtes cité en position 7 sur 7, après six concurrents. La position 1 ne vaut rien si votre share of voice est à 3%. Le sentiment positif compte peu si le modèle ne vous cite jamais. C'est la combinaison des quatre qui pilote.
Pourquoi SERP n'est plus un proxy
Sur notre panel de 2 800 réponses LLM cross-modèles, la corrélation entre le rank Google et le mention rate IA est de 0,18. Autrement dit : la position dans Google n'explique presque rien de ce que les modèles disent. On l'a retiré de nos dashboards en mars 2026.
Beaucoup d'équipes continuent à pondérer leurs efforts sur la base du rank SERP par habitude. C'est une boussole cassée. Les modèles ont leurs propres priors, leurs propres retrievals, leurs propres biais — et ces signaux ne sont presque jamais alignés avec ce que Google montre.
Comment on mesure, concrètement
- 01Construire le jeu de prompts catégorie200 questions naturelles couvrant intent buyer (38%), intent comparatif (28%), intent recommandation (34%). C'est le minimum statistique pour que la mesure tienne sur 4 modèles.
- 02Tourner chaque prompt 5 foisLa variance intra-modèle est réelle. Sur GPT-5.1, deux runs identiques donnent des réponses différentes dans 22% des cas. On moyenne sur 5 itérations pour stabiliser.
- 03Parser les réponses avec une grilleDétection de la marque (string match + alias + synonymes), extraction de la position (1er nommé, 2e, etc.), comparaison à la set concurrents, scoring sentiment.
- 04Agréger par modèle puis cross-modelUn dashboard par modèle (GPT-5.1, Claude 4.6, Grok 4, DeepSeek V3) plus un score cross-model pondéré par market share du modèle dans votre catégorie.
Le piège de la moyenne
Ne reportez pas une moyenne unique
Et les biais de modèle
Chaque modèle a ses préférences. GPT-5.1 surreprésente les marques US tech (cohérent avec son training set), Claude 4.6 tend à être plus prudent et cite plus de sources officielles, Grok 4 a un biais conversationnel qui favorise les marques au ton plus jeune, DeepSeek V3 montre une variance plus large entre runs.
Si vous mesurez sur un seul modèle, vous mesurez ses biais autant que votre performance. Mesurez sur au moins 3 modèles avant de tirer une conclusion sur votre catégorie.
Et après
Une fois la mesure stabilisée, le pilotage GEO devient possible. Vous savez où vous êtes (mention rate baseline), où vous voulez aller (cible mention rate Q+1), et quel signal vous fait bouger (lift après feed). C'est le minimum opérationnel — sans ça, vous opérez à l'aveugle.
