- 1. Comment fonctionnent les moteurs de recherche
- 1.1 Les moteurs de recherche utilisent des robots d'exploration (crawlers) pour collecter le contenu des pages web sur le réseau
- 1.2 Un indexeur crée des tables à partir des pages web collectées et les organise en base de données
- 1.3 Lorsqu'un utilisateur effectue une recherche sur Google, l'algorithme de recherche affiche les pages web les plus pertinentes
- 2. Indices sur le contenu de qualité : les Consignes aux évaluateurs de la qualité de la recherche Google
- 2.1 Évaluation de la qualité de la page (Page Quality, PQ)
- 2.2 Évaluation de la satisfaction des besoins de l'utilisateur (Needs Met, NM)
- 2.3 Conclusion : les moteurs de recherche « s'efforcent » d'imiter les humains
Parfois, l'intuition humaine ne correspond pas à la logique d'un algorithme méticuleux. Par exemple, il n'est pas encore difficile de faire la distinction entre un dessin humain et un dessin généré par l'IA, ou entre un article écrit par un humain et un autre par l'IA. Nous pensons instinctivement qu'un article écrit par un humain contient « plus de sincérité ». Peu importe la richesse du contenu ou la qualité de l'organisation, les textes écrits par l'IA manquent souvent d'âme. C'est le jugement humain.
Avec l'émergence de VEO3, la production de vidéos générées par l'IA a également commencé à se multiplier. Parfois, sur les Reels d'Instagram, vous voyez des « vidéos d'accidents » qui vous interrogent, et dans les commentaires, vous trouvez souvent : « C'est une fausse vidéo créée par l'IA ». Le sentiment de choc s'estompe alors rapidement. Rien n'a changé, mais notre perception de la nature de la vidéo (IA ou non) modifie le pouvoir et le statut de ce contenu.
Aujourd'hui, les œuvres de l'IA sont monnaie courante sur YouTube et dans les résultats de recherche Google. Alors, est-ce « déraisonnable » que les œuvres de l'IA soient captées par l'algorithme ? C'est sur ce sujet que je voudrais me pencher aujourd'hui.
1. Comment fonctionnent les moteurs de recherche
Les moteurs de recherche utilisent des robots d'exploration (crawlers) pour collecter le contenu des pages web sur le réseau
Un crawler est une sorte de bot. Les méthodes d'exploration sont variées. Par exemple, si j'ai créé un site web, son adresse est nécessairement enregistrée sur un serveur DNS (Domain Name Server) à moins qu'il ne fonctionne que localement sur mon ordinateur. Le robot d'exploration de Google peut alors collecter l'adresse de mon site web via le DNS, ou il peut la collecter en suivant un lien vers mon site web placé par quelqu'un d'autre. S'il a déjà exploré mon site web, il peut revenir en se basant sur cet historique, ou il peut le collecter via le sitemap que j'ai soumis. En bref, il « met en œuvre toutes sortes de méthodes » pour rassembler les documents web accessibles sur le réseau.
Le fichier robot.txt sert à indiquer quoi collecter et quoi ne pas collecter. Le propriétaire du site web rédige ce fichier lui-même et le place dans le dossier racine de son site.
Un indexeur crée des tables à partir des pages web collectées et les organise en base de données
Lorsqu'un utilisateur effectue une recherche sur Google, un algorithme de recherche affiche les pages web les plus pertinentes
Le processus de l'algorithme de recherche peut être divisé en trois étapes principales. Premièrement, il analyse la requête de l'utilisateur via l'analyse morphologique et la tokenisation pour en comprendre la signification essentielle. Ensuite, il recherche rapidement les documents candidats liés au mot-clé dans la base de données d'index de Google. Enfin, il applique de nombreux algorithmes de classement pour trier les résultats de recherche, en tenant compte de facteurs de personnalisation comme la localisation, l'appareil et l'historique de recherche de l'utilisateur, pour afficher le résultat final. C'est pourquoi les résultats de recherche peuvent être différents entre votre appareil et une connexion VPN depuis un autre pays. Le fait d'apparaître en tête des résultats de recherche ainsi finalisés ne dépend pas seulement du nombre de mots-clés, mais de la page évaluée de manière globale sur sa fiabilité, sa qualité et l'engagement des utilisateurs.
2. Indices sur le contenu de qualité : les Consignes aux évaluateurs de la qualité de la recherche Google
« Il y a des articles de piètre qualité qui apparaissent en haut des résultats. L'idée que la qualité compte est un mensonge. »
Bien que nous ne puissions pas connaître l'algorithme, il existe un document qui nous donne un aperçu de ce que Google « recherche » dans son moteur de recherche : ce sont les Consignes aux évaluateurs de la qualité de la recherche Google. Voici en quoi consiste leur contenu.
Évaluation de la qualité de la page (Page Quality)
Les évaluateurs de la qualité de la recherche (des humains) jugent dans quelle mesure une page atteint son objectif. Bien sûr, il n'est pas question d'évaluer toutes les pages web, ils travaillent avec un échantillon sélectionné. Les notes vont du plus bas (Lowest) au plus haut (Highest).
- Note la plus haute : Attribuée lorsque la page a un objectif bénéfique et l'atteint de manière exceptionnelle.
- Note la plus basse : Attribuée aux pages ayant un objectif malveillant, trompeur ou dangereux pour les personnes ou la société.
- Note intermédiaire : Peut être attribuée lorsque la page atteint un objectif bénéfique mais n'est pas au niveau de la note la plus haute, ou lorsqu'elle présente à la fois de bonnes et de mauvaises caractéristiques.
- Note basse : Attribuée lorsque la page a un objectif bénéfique mais présente des lacunes importantes.
Pour juger de la qualité d'une page, les évaluateurs tiennent compte du critère **E-E-A-T (Expérience, Expertise, Autorité, Fiabilité)**.
- Expérience (Experience) : Le créateur a-t-il une expérience directe du sujet ?
- Expertise (Expertise) : Le créateur est-il un expert dans le domaine ?
- Autorité (Authoritativeness) : Quelle est l'autorité du créateur, du contenu et du site web ?
- Fiabilité (Trustworthiness) : Le contenu de la page est-il précis, honnête, sûr et digne de confiance ?
En particulier, des critères de qualité très élevés s'appliquent aux sujets YMYL (Your Money or Your Life) qui peuvent avoir un impact significatif sur la vie des gens, tels que la santé et la finance. L'idée, que l'on voit parfois circuler, selon laquelle les articles sur la santé ou la finance sont peu référencés dans les recherches, est basée sur cette section des consignes.
Évaluation de la satisfaction des besoins de l'utilisateur (Needs Met)
Cette évaluation se concentre sur la manière dont les résultats de recherche satisfont les besoins de l'utilisateur.
- Comprendre l'intention de l'utilisateur : Les évaluateurs déterminent l'intention de l'utilisateur en se basant sur la requête et sa localisation (par exemple, pour la recherche de « cafés à Londres »).
- Notes : Les notes vont de « Répond pleinement » (Fully Meets), « Répond largement » (Highly Meets), « Répond modérément » (Moderately Meets), « Répond légèrement » (Slightly Meets) à « Ne répond pas » (Fails to Meet).
- Exemple : Si la requête est « batman » et que l'utilisateur est aux États-Unis, un résultat de recherche sur la ville de « Batman » en Turquie ne répondra pas du tout à l'intention de l'utilisateur et recevra donc la note « Ne répond pas ».
Conclusion : les moteurs de recherche « s'efforcent » d'imiter les humains
En conclusion, le moteur de recherche de Google ne se contente pas d'une simple correspondance de mots-clés, il essaie d'imiter les critères humains pour juger un bon article. Grâce à d'innombrables mises à jour d'algorithmes et processus d'évaluation, dans l'environnement numérique actuel où il est difficile de distinguer un article écrit par un humain d'un article écrit par l'IA, on peut voir l'effort pour fournir aux gens les informations les plus utiles et les plus fiables. Ces « Consignes aux évaluateurs de la qualité de la recherche Google » ne sont pas un algorithme en soi, mais plutôt un document qui montre que les personnes appelées « évaluateurs » s'efforcent d'améliorer le moteur de recherche. Alors, si quelqu'un demande « Comment expliquer que des articles de piètre qualité soient en haut des classements ? », la seule réponse est que l'algorithme n'est pas encore parfait. L'algorithme attribue un rang en agrégeant de nombreux « signaux de classement ». Au lieu de « comprendre » directement la qualité du contenu, il « infère » la qualité à travers des signaux indirects.
Par exemple, si un article a reçu de nombreux backlinks d'autres sites web fiables, ou si les gens cliquent sur la page et y passent beaucoup de temps, l'algorithme peut à tort considérer cet article comme « utile ». Autrement dit, l'algorithme ne fait que tirer des conclusions basées sur une grande quantité de données indirectes, et il a encore ses limites pour porter un jugement qualitatif comme un humain. L'expression « Qu'est-ce que la qualité ? » est purement humaine et n'a, en réalité, rien à voir avec l'algorithme lui-même.
À l'avenir, j'ai l'intention d'expérimenter tous les concepts liés au SEO et d'observer et d'enregistrer les changements sur mon blog (un autre que celui-ci).