我最近的 Google 收录趋势

我把最近文章的收录情况简单做成了一个表格。

screenshot

▲ 最近发布文章的收录情况表

这里的“Agent”指的是Googlebot（爬虫）的类别，包括“Googlebot 智能手机”和“Googlebot 桌面版”。一般情况下，默认使用的是Googlebot 智能手机，也就是以移动端环境进行抓取。

通过 Search Console 手动提交 URL，通常能很快触发收录。但手动提交每天是有限额的。要判断某个页面是否“因我手动提交而被收录”，可以看这里：

screenshot

▲ 是否为“手动提交收录请求”的判断界面

如果在“用户声明的规范 URL”中出现了该文章的 URL，那就说明这是我手动提交的收录请求。如果没有出现，则表示 Google 自己抓取并收录了。

抓取（Crawling）指的是 Googlebot 来访问页面；收录（Indexing）是指 Google 对页面进行分析并写入自己的数据库。没有抓取就不可能有收录，而没有收录当然也无法出现在搜索结果中。

抓取预算（Crawl Budget）

在迷茫之前，我们先冷静理一理。深呼吸……

Googlebot 其实有一个概念叫抓取预算。抓取网页对 Google 来说都是成本，要花时间、资源和能耗（没想到有一天我也会替机器人着想…）。所以它不可能对所有网站无差别地无限抓取，而是会根据网站的权威度分配预算。

什么？大而可信的网站？那当然要给高预算！

抓取预算和抓取频率不是一个概念，但预算越高，Google 通常抓得越频繁——因为它信任这个网站，并愿意投入更多资源。这也解释了为什么 Reddit、DCInside 这种大型社区的帖子能几乎秒级被抓取。

但我呢？我的这个刚建好的小型个人博客？抓取预算一定是非常、非常、非常有限的。如果在这个有限预算里，Google 遇到很多 404 页面，那它本来能抓取的其他页面机会就被浪费了。更严重的是：500 / 502 / 503 等服务器错误会进一步拉低抓取预算。

开发过程中我也确实制造过这种服务器错误……某次还生成过大量空页面 URL。这样的情况当然都有可能让 Google 降低分配给我的预算。而且如果我很久不更新文章，Googlebot 也会来得更少——毕竟网站没什么变化，它也没必要常来。

暂时……我先不再手动提交收录，等几天再观察抓取趋势。