最近の Google インデックス状況

最近投稿した記事のインデックス状況を表にまとめてみた。

screenshot

最近投稿した記事のインデックス表

エージェント(agent)というのは、Googlebot(クローラー)の種類のこと。 「Googlebot スマートフォン」と「Googlebot デスクトップ」があり、基本的にはスマートフォン版 Googlebotが使われる。つまり、モバイル環境としてページをクロールするという意味だ。


Search Console から URL を手動で送信すると、比較的すぐにインデックスされる。ただし手動送信には1日の上限がある。 そのページが手動送信によってインデックスされたかどうかは、この画面で確認できる:

screenshot

「手動送信されたインデックス依頼」かどうかの確認画面

「インデックス作成」の欄にあるユーザー指定の正規 URLにその URL が記載されていれば、 それは自分が手動でリクエストしてインデックスされたという意味だ。記載されていなければ、Google が自動でクロールしに来たということになる。


クロールは Googlebot がページを訪れること。 インデックスは、そのページを解析して Google のデータベースに登録すること。 クロールされなければインデックスはされないし、インデックスされなければ当然検索結果にも表示されない。


クロール予算(Crawl Budget)

混乱する前に、まず落ち着いて整理してみよう。深呼吸……。

Googlebot にはクロール予算という概念がある。 クロールには Google 側の時間・リソース・エネルギーが必要で、実はかなりのコストがかかる。 (まさかロボットの事情まで考える日が来るとは…) だから、全サイトを無制限にクロールできるわけではなく、サイトの信頼性・権威性によって割り当てが決まる。


え?信頼できる大規模サイト? → 予算大幅アップ!


クロール予算とクロール頻度は同じではないが、予算が多いほど Google は頻繁に訪れる。 それだけサイトを信頼しているという意味だし、多くのリソースを割く価値があると判断されるからだ。 Reddit や 2ch/5ch のような巨大コミュニティの投稿が、内容は大したことがなくてもすぐ検索結果に出るのはこのため。

一方、私のように作ったばかりの小さな個人ブログは、クロール予算が非常に少ない。 その少ない予算の中で 404 ページが多かったりすると、Googlebot が無駄足を踏んだ分、他のページをクロールする機会が失われてしまう。 さらに、500 / 502 / 503 のようなサーバーエラーは予算を大きく引き下げる。

開発中にサーバーエラーを何度か出したこともあるし、 一時的に中身のない大量の URL が生成されたこともあった。 そういうものが積み重なって、Google が割り当てる予算を減らした可能性もある。 さらに、長期間更新がないと Googlebot の訪問頻度も落ちる。変化がないサイトに頻繁に来る必要がないから当たり前だ。


とりあえず……しばらくは手動送信せず様子を見て、数日後またクロールの傾向をチェックしてみようと思う。