L’optimisation des sites web pour la recherche générative par IA représente la prochaine étape du SEO, et la plupart des marketeurs chargés de générer du trafic organique cherchent des moyens d’améliorer leur visibilité sur les moteurs de recherche génératifs. Mais que se passe-t-il si l’un des conseils les plus courants en matière de recherche générative par IA est erroné ?
De nombreux articles sont publiés sur le sujet, et la plupart d’entre eux abordent des thèmes communs :
- Utiliser des hiérarchies de titres claires
- Rédiger du contenu conversationnel
- Créer des Questions Fréquentes (FAQ) et des comparatifs
- Développer l’autorité du site pour une thématique donnée
- Ajouter un schéma de données structuré
Bien que toutes ces suggestions soient pertinentes et contribuent incontestablement à améliorer la facilité d’utilisation, l’exploration et l’indexation de votre contenu, nos recherches ont montré que l’ajout d’un schéma n’est pas nécessairement corrélé à une meilleure visibilité sur les moteurs de recherche génératifs par IA. Mais avant de tirer des conclusions hâtives, approfondissons un peu la question.
Le rôle du balisage de schéma
Le balisage de schéma est un code qui met en évidence les données structurées à l’aide d’annotations standard pour aider les moteurs de recherche à comprendre le contenu d’un site web. En termes simples, si votre page web contient des données pouvant être structurées dans un tableau (par exemple, la marque, le modèle, l’année de fabrication ou la couleur d’une voiture), le schéma vous permet de signaler la présence de ces valeurs de données structurées aux moteurs de recherche et aux LLM, afin qu’ils comprennent à quoi ces données se rapportent.
Les sites e-commerce, les publications de recherche, les listes d’événements, les sites d’avis et les listes de podcasts ne sont que quelques exemples qui tirent parti de la diversité des schémas disponibles. Les moteurs de recherche comme Google explorent les données au sein du balisage de schéma et peuvent les utiliser pour les indexer de manière appropriée afin de les utiliser dans des résultats de recherche optimisés tels que les listes d’achats, les vidéos intégrées ou les avis.
Plus récemment, les LLM, utilisés par l’IA, exploitent les données structurées contenues dans les schémas pour alimenter leur base de connaissances.
Données essentielles pour la recherche générative
ChatGPT, Google Gemini et autres systèmes de recherche générative s’appuient sur une compréhension sémantique approfondie du contenu pour synthétiser leurs réponses. Lors de la récupération de l’information, ces systèmes analysent et extraient les pages web pour extraire les faits pertinents. Les modèles génératifs sont plus sujets aux « hallucinations » lorsque les données sources sont inexactes ou peu fiables.
Le balisage de schéma est un mécanisme essentiel permettant aux sites web de contribuer au graphe de connaissances sur lequel reposent les moteurs de recherche génératifs. Un site web mal structuré complique la compréhension d’informations clés telles que le prix des produits (site ecommerce), la composition des recettes (site de cuisine) ou les dates d’enregistrement des podcasts (site de podcast).
Cependant, le balisage de schéma n’est pas le seul mécanisme permettant à l’IA d’extraire ces données. Nos recherches montrent que les algorithmes modernes sont capables de comprendre des informations bien structurées, même sans schéma.
Résultats de nos recherches
Nous avons interrogé plus de 2 000 invites sur chacune des trois plateformes de recherche d’IA les plus populaires : ChatGPT, Google AI Overview et Perplexity. Les réponses synthétisées par ces plateformes comprenaient 9 000 sources de citation. Une citation est tout site web ou marque mentionné dans une réponse de recherche IA, accompagné d’un lien vers l’URL source.
Nos spécialistes des données et nos experts GEO ont analysé les sources citées afin de détecter la présence et les types de schémas utilisés sur ces pages web.
Le balisage de schéma contribue-t-il à accroître la visibilité de la marque dans la recherche générative ?
Globalement, 81 % des pages web citées incluaient un balisage de schéma, et seulement 19 % n’en incluaient aucun.
À partir de ces seules données, on pourrait conclure que l’inclusion d’un schéma est indispensable pour être cité dans les réponses générées par l’IA. Mais ce serait une hypothèse erronée.
Pour comprendre cela, il est important d’identifier les types de schémas pertinents.
Types de schémas pratiques pour l’optimisation de la recherche générative
Tous les balisages de schéma ne mettent pas en évidence le contenu susceptible d’être directement cité dans les réponses générées par l’IA. Des attributs tels que « Person » et « Organization » peuvent définir l’auteur de l’article et le nom de l’entreprise, mais ils ne fournissent aucune information spécifique sur le contenu de la page.
Lorsque l’on considère le contenu principal recherché par les utilisateurs dans les réponses générées par l’IA, d’autres types de schémas sont plus importants pour baliser cette information :
- HowTo – Instructions expliquant comment faire quelque-chose en suivant une séquence d’étapes.
- FAQPage – Page présentant une ou plusieurs questions fréquemment posées.
- Question – Question spécifique dans une FAQ.
- Product – Tout produit ou service proposé.
- Event – Tout événement, tel qu’un concert ou un match, se déroulant à une heure et un lieu précis.
- Review – Avis sur un film, un livre etc.
En analysant nos données, nous avons constaté que l’utilisation de ces schémas liés au contenu était beaucoup moins fréquente dans les sources citées.
Schéma le plus utilisé par les sources de citation de recherche IA
Le schéma Person s’est avéré le plus populaire : 58,9 % des sources citées l’utilisent. Cela correspond aux exigences de qualité et d’autorité de la recherche IA. Les auteurs fiables, réputés pour la qualité et l’exactitude de leur contenu, sont susceptibles d’être cités plus souvent.
Les schémas Article et ListItem semblent moins importants. C’est paradoxal : si l’utilisation d’un schéma était si importante, on pourrait s’attendre à ce que les listes utilisant le schéma ListItem soient beaucoup plus fréquentes parmi les sources citées. Or, 57,6 % des sources citées n’utilisent pas le schéma ListItem, alors même que les listes sont très populaires et que les résultats de recherche par IA sont souvent présentés sous forme de liste pour plus de simplicité. De même, 59,3 % des sources citées n’utilisent pas le schéma Article.
Même les schémas plus spécifiques aux FAQ et aux produits n’ont que peu ou pas d’impact sur la visibilité des sources dans les réponses IA. Seulement 1,8 % des sources citées utilisaient le schéma FAQPage, 6,9 % le schéma Product et 3,1 % le schéma Question. Les schémas HowTo et Review étaient présents dans moins de 1 % des sources citées.
Impact du balisage de schéma sur la citation par les moteurs de recherche IA génératifs
L’analyse des données de chacun des moteurs de recherche IA les plus populaires a révélé une variabilité dans l’importance relative du schéma selon les plateformes.
Quel balisage de schéma est important pour les citations Google AI Overview ?
Le schéma Person a une certaine importance, puisque 56 % des sources citées l’utilisent. Étonnamment, le nombre de sources citées n’utilisant pas d’autres schémas est supérieur à celui des sources utilisant d’autres schémas ! Les schémas Organization et Article ne semblent pas être des facteurs importants pour les citations Google AIO. La recherche Google AI ne tient pas compte non plus de l’utilisation du schéma ListItem dans le contenu, même lorsque la requête demande une liste d’éléments.
Quel balisage de schéma est important pour les citations ChatGPT ?
ChatGPT est la seule plateforme d’IA conversationnelle dont la fonction de recherche valorise le schéma. La plateforme d’IA la plus populaire au monde accorde une grande importance au schéma Person, avec 70,4 % des sources citées l’incluant. La confiance, l’autorité, l’exactitude et la fiabilité des sources sont essentielles pour ChatGPT afin de garantir la fiabilité de ses réponses. Il n’est donc pas surprenant que l’outil d’Open AI accorde une grande importance au schéma « Person », car l’identification du nom de l’auteur permet de relier l’article à son graphe social, ce qui fournit une indication de l’autorité et de la fiabilité de la source.
Les schémas Organization et Article sont également importants. ChatGPT accorde plus d’importance au schéma ListItem que toute autre plateforme de recherche d’IA, mais cela ne constitue pas un obstacle aux citations ou aux mentions.
Quel balisage de schéma est important pour les citations de Perplexity ?
Les facteurs de citation de Perplexity semblent être à l’opposé de ceux de ChatGPT. Les schémas Person, Organization et Article n’ont aucune incidence sur la probabilité d’être cité. Les sites web sans ces schémas étaient plus visibles sur Perplexity. La plateforme ne s’intéresse pas non plus au schéma ListItem, même si les réponses sur Perplexity peuvent souvent s’appuyer sur des informations contenues dans des listes.
Études de cas : Exemples concrets de résultats génératifs basés sur des schémas
Vérifier l’utilisation du balisage de schéma est très simple grâce au validateur de balisage de schéma. Cet outil pratique permet de vérifier le balisage correct du schéma d’un site web. Cet outil permet d’analyser des études de cas de sites web fréquemment cités afin de déterminer si et comment ils utilisent le schéma.
Wikipédia – Wikipédia, l’un des sites web les plus cités, utilise le schéma avec parcimonie. Les wikis répertoriant 50 sources, un tableau des principaux articles, des vignettes et des informations clés ne comportent généralement que quelques attributs de schéma, principalement liés à l’article lui-même, mais quasiment rien pour aider les IAs pour extraire des détails sur le contenu du wiki, pas même une description sommaire !
Reddit – Autre source de citation extrêmement populaire, notamment pour les Google AI Overview, Reddit n’utilise pas le balisage schema.org sur ses pages, à l’exception de quelques balises articleBody mal codées.
TripAdvisor – TripAdvisor, l’un des sites d’avis de voyage les plus populaires, utilise le schéma FAQPage pour mettre en avant les questions et réponses sur ses pages de discussion les plus populaires (par exemple, « Quels sont les restaurants les plus populaires à Londres ? »). Bien que le balisage ait été mis en place pour répondre aux questions de recherche vocale, il a également permis au site de se démarquer du contenu généré par les utilisateurs et d’obtenir les réponses les plus fréquemment citées sur ChatGPT, Perplexity et Google.
Points clés à retenir
Globalement, le balisage de schéma semble avoir une importance très limitée en termes de classement, de visibilité ou de citation pour les principales plateformes de recherche IA. L’utilisation d’un code HTML approprié est bien plus importante. Par exemple, baliser des listes avec <ul><li>…</li></ul> ou des listes numérotées avec <ol><li>…</li></ol> permet d’obtenir le même résultat.
Cela ne signifie pas pour autant que vous ne devez pas utiliser le balisage de schéma. Le schéma reste important pour la recherche organique, et il est judicieux de rendre vos données clés plus facilement accessibles et compréhensibles pour les LLM. Cependant, si vous n’utilisez pas encore de schéma, pas de panique, à condition d’utiliser un balisage HTML sémantique et un code clair.
Améliorez votre visibilité grâce à l’IA dans vos recherches
Méthodologie
ChatGPT, Google AI Overview et Perplexity ont été sélectionnés comme cibles de cette étude, car ce sont les trois moteurs de recherche IA les plus utilisés. La recherche a débuté par l’identification d’un large éventail d’invites issues de recherches Google populaires au Royaume-Uni, en Europe et aux États-Unis, couvrant divers sujets, de la littérature au e-commerce en passant par la culture populaire. Les invites ont été exécutées manuellement et dans des outils d’IA comme Otterly.ai, qui suivent les réponses des recherches IA, afin de comparer les résultats, d’assurer une certaine cohérence et d’éliminer tout biais potentiel.
Les citations incluses dans les réponses de l’IA ont été vérifiées manuellement par notre équipe d’analystes GEO et SEO afin d’être classées, puis analysées par l’outil SEO Screaming Frog afin de détecter l’utilisation de schémas sur les URL citées. Les citations légitimes devaient inclure une mention de site web ou de marque dans la réponse de recherche de l’IA, ainsi qu’un lien vers l’URL source. Les liens rompus, les URL 404 (page introuvable) et les pages web hallucinées ont été supprimés.