- 1. 検索エンジンが動作する仕組み
- 1.1 検索エンジンは、クローラー(一種のボット)を使ってネットワークに拡散しているウェブページの内容を収集する
- 1.2 インデクサーを通じて収集したウェブページをテーブル化し、データベースに格納する
- 1.3 ユーザーがGoogle検索窓で検索すると、検索アルゴリズムが関連性の高いウェブページを検索結果として表示する
- 2. 高品質な記事のヒント:Googleの検索品質評価ガイドライン
- 2.1 1. ページ品質(Page Quality)評価
- 2.2 2. ユーザーのニーズ充足度(Needs Met)評価
- 2.3 結論:検索エンジンは人間を模倣しようと努力している
時々、人間の直感と徹底したアルゴリズムのロジックが一致しないことがある。例えば、人間が描いた絵とAIが描いた絵、人間が書いた文章とAIが書いた文章は、今のところ区別することは難しくないが、私たちは本能的に人間が書いた文章に「より誠意が込められている」と判断する。どんなに内容が多く、どんなに整理された文章であっても、AIが書いた文章にはどこか冷たさを感じる。それが人間の判断だ。
最近はVEO3が登場して以来、AI動画の制作も活発になり始めた。時々インスタグラムのリールで「事故動画」として、どうしてこんなことが起きたんだろうと思ってコメント欄を見ると、「これ、AIが作った偽の動画ですよ」というコメントが付いていることがよくある。その瞬間、ドキッとした気持ちはすぐに冷めてしまう。何も変わっていないが、それがAIかどうかという私たちの認識によって、そのコンテンツが持つ力、そのコンテンツの地位が変わってしまうのだ。
最近はYouTubeでも、Googleの検索結果でもAIの作品が氾濫している。AIの作品がアルゴリズムに乗ることが「不合理」なのだろうか? 今日はこのテーマについて考えてみたいと思う。
1. 検索エンジンが動作する仕組み
検索エンジンは、クローラーを使ってネットワークに拡散しているウェブページの内容を収集する
クローラーは一種のボットだ。クローリングの方法は様々だ。例えば、私がウェブサイトを作った場合、私のコンピューターでローカルに動作するものでない限り、そのウェブサイトのアドレスは必然的にDNS(ドメインネームサーバー)に登録される。すると、GoogleのクローラーがこのDNSを通じて私のウェブサイトのアドレスを収集することもできるし、他の人が自分の記事に貼った私のウェブサイトへのリンクをたどって収集することもできる。あるいは、すでに私のウェブサイトを収集した履歴があれば、その記録に基づいて再び収集に来ることもあるし、私が提出したサイトマップを通じて収集することもできる。簡単に言えば、「あらゆる手段を動員して」ネットワーク上でアクセス可能なウェブドキュメントを集めるのだ。
robot.txtファイルは、このとき何を収集し、何を収集しないかを案内する役割を果たす。このファイルは、ウェブサイトの所有者が直接作成してウェブサイトのルートフォルダに置く。
インデクサーを通じて収集したウェブページをテーブル化し、データベースに格納する
ユーザーがGoogle検索窓で検索すると、検索アルゴリズムが関連性の高いウェブページを検索結果として表示する
検索アルゴリズムが実際に動作する過程は、大きく3つの段階に分けられる。まず、ユーザーの検索語を形態素解析とトークン化の過程を経て核心的な意味を把握する。次に、Googleが保有するインデックスデータベースから該当キーワードに関連する候補ドキュメントを素早く検索する。最後に、数多くのランキングアルゴリズムを適用して検索結果を並べ替え、ユーザーの位置、デバイス、検索履歴といったパーソナライズ要素まで反映して最終的に表示する。だから、自分のデバイスで検索したときと、VPNをオンにして他の国のIPでアクセスしたときとでは、検索結果が異なることが起こるのだ。このように完成した検索結果のトップに立つのは、単にキーワードを多く入れた記事ではなく、信頼性や品質、ユーザーの反応まで複合的に評価されたページなのだ。
2. 高品質な記事のヒント:Googleの検索品質評価ガイドライン
「記事の内容もいまいちで適当に書いたものでも検索上位に出るじゃないか。記事の質が良くなきゃいけないなんて嘘っぱちだ。」
アルゴリズムは私たちが知ることはできないが、Googleが検索エンジンにおいて何を「追求しているか」を垣間見ることができるドキュメントがある。それが、Googleの検索品質評価ガイドラインだ。ここに書かれている内容は、大まかに以下のとおりだ。
ページ品質(Page Quality)評価
検索品質評価者(人間)は、ページが目的をどれだけうまく達成しているかを評価する。もちろん、すべてのウェブページを評価するのは不可能であり、選ばれたサンプルだけを対象に行う。評価のランクは最低(Lowest)から最高(Highest)まで分けられている。
- 最高ランク:ページが有益な目的を持っており、その目的を非常に見事に達成している場合に与えられる。
- 最低ランク:信頼できず、欺瞞的で、人や社会に有害な目的を持つページに与えられる。
- 中間ランク:ページが有益な目的を達成しているが、最高ランクには及ばない場合、または良い点と低い品質の特徴が混在している場合に与えられる。
- 低いランク:有益な目的を持っていても、重要な点で不足している部分がある場合に与えられる。
評価者は、ページの品質を判断するためにE-E-A-T(経験、専門性、権威性、信頼性)という基準を考慮する。
- 経験(Experience):著者がそのテーマについて直接的な経験があるか。
- 専門性(Expertise):著者がその分野の専門家であるか。
- 権威性(Authoritativeness):著者、コンテンツ、ウェブサイトにどれほどの権威があるか。
- 信頼性(Trustworthiness):ページの内容が正確で、正直で、安全で、信頼できるか。
特に、健康、財政など、人々の生活に重大な影響を与える可能性のあるYMYL(Your Money or Your Life)のテーマについては、非常に高い品質基準が適用される。時々、健康知識や株式に関する記事を書くと検索に引っかかりにくいという話を聞くことがあるが、その根拠となるのがこの項目だ。
2. ユーザーのニーズ充足度(Needs Met)評価
この評価は、検索結果がユーザーのニーズをどれだけ満たしているかに焦点を当てる。
- ユーザーの意図把握:評価者は、クエリとユーザーの位置(例:「ロンドンのカフェ」を検索したとき)に基づいてユーザーの意図を把握する。
- 評価ランク:「完全に満たしている」(Fully Meets)、「非常に満たしている」(Highly Meets)、「ある程度満たしている」(Moderately Meets)、「少し満たしている」(Slightly Meets)、「全く満たしていない」(Fails to Meet)に分けられる。
- 例:もし検索語が「batman」で、ユーザーがアメリカにいる場合、トルコの都市「バトマン」に関する検索結果はユーザーの意図を全く満たしていないため、「全く満たしていない」という評価を受けることになる。
結論:検索エンジンは人間を模倣しようと「努力」している
結論として、Googleの検索エンジンは単なるキーワードの一致度を超え、人間が判断する良い記事の基準を模倣しようと努力している。この「Google検索品質評価ガイドライン」は、結局のところ、あるアルゴリズムそのものではなく、評価者と呼ばれる人々が検索エンジンをより良くするためにこのような努力をしている、という意味程度に見ることができる。だから、「記事の内容が良くないのに上位に表示されるのはどう説明するのか」と誰かに問われたら、「まだアルゴリズムが完璧ではないから」としか言えないだろう。アルゴリズムは数多くの「シグナル(Ranking Signals)」を総合して順位を付ける。コンテンツの品質を直接的に「理解」するのではなく、間接的なシグナルを通じて品質を「推論」する方式なのだ。
例えば、その記事が信頼できる他のウェブサイトから多くの被リンクを受けていたり、人々がそのページをクリックして長く滞在したりするなどの肯定的なシグナルが多ければ、アルゴリズムはその記事を「有益な」記事だと誤解する可能性がある。つまり、アルゴリズムは数多くの間接的なデータに基づいて結論を出すだけで、人間のように定性的な判断を下すことにはまだ限界があるのだ。「何が高品質なのか」は、あくまで人間的な表現であり、実はアルゴリズムとは何の関係もないのだ。
今後は、SEOに関連するすべての概念を実験してみて、私が運営しているブログ(これとは別のブログ)にどのような変化があるかを観察し、記録していくつもりだ。