有时,人类的直觉与严谨的算法逻辑不符。例如,区分人类创作的画作和AI画作,或人类写的文章和AI写的文章,目前还不太难。我们本能地认为人类写的文章“倾注了更多心血”。不管内容多么丰富,组织多么完善,AI写的文章总是缺乏情感。这就是人类的判断。
最近,随着VEO3的出现,AI视频的制作也开始活跃起来。有时在Instagram Reels上看到所谓的“事故视频”,正当你在评论区想这是怎么回事时,会看到“这是AI制作的假视频”的评论。那一瞬间,心中猛地一沉的感觉很快就消失了。虽然什么都没有改变,但根据我们对内容是AI还是非AI的判断,我们接受它的“心态”也随之改变。
如今,YouTube和谷歌搜索结果中都充斥着AI作品,那么,AI作品被算法青睐是“不合理的”吗? 今天我想就这个话题进行思考。
1. 搜索引擎的工作方式
搜索引擎使用爬虫抓取网络上分散的网页内容
爬虫是一种机器人。抓取方式多种多样。例如,如果我创建了一个网站,除非它只在我的电脑上本地运行,否则其网址必然会在DNS(域名服务器)上注册。谷歌爬虫就可以通过DNS收集我的网站地址,或者通过别人文章中链接到我网站的链接进入并收集,或者如果它以前收集过我的网站,它会根据记录再次前来收集,或者通过我提交的网站地图来收集。简单来说,就是“想尽一切办法”收集网络上可访问的网页文档。
robot.txt文件的作用是告诉爬虫哪些内容可以收集,哪些内容不能收集。这个文件由网站所有者亲自编写并放置在网站的根文件夹中。
通过索引器将收集的网页制成表格并数据库化
用户在谷歌搜索栏中输入搜索词时,通过搜索算法显示相关度高的网页
搜索算法的实际工作过程大致可分为三个阶段。首先,它通过形态分析和分词过程来解析用户的搜索词的核心含义。然后,它会在谷歌持有的索引数据库中快速搜索与该关键词相关的候选文档。最后,它会应用许多排名算法对搜索结果进行排序,并结合用户的位置、设备、搜索历史等个性化因素,最终显示出来。这就是为什么在你的设备上搜索和开启VPN使用其他国家IP搜索时,结果会不同的原因。能够排在最终搜索结果最前面的,不仅仅是关键词多的文章,而是在信赖性、质量和用户反馈等多个方面综合评估后表现优异的页面。
2. 优质文章的线索:谷歌搜索质量评估指南
“我看到有些文章内容很一般,写得很随便,却能排在搜索结果前面,所以说文章质量要好都是骗人的。”
我们无法了解算法,但有一个文档可以让我们一窥谷歌在搜索引擎方面“追求什么”,那就是谷歌搜索质量评估指南。它所传达的内容大致如下。
页面质量(Page Quality)评估
搜索质量评估员(真人)评估页面在多大程度上实现了其目的。当然,不可能评估所有网页,他们只使用经过挑选的样本。评级从最低(Lowest)到最高(Highest)。
- 最高评级:当页面有一个有益的目的并非常出色地实现该目的时获得。
- 最低评级:当页面有一个不值得信赖、具有欺骗性、对个人或社会有害的目的时获得。
- 中等评级:当页面实现了有益的目的但未达到最高评级,或者同时具有优缺点时,可能会获得此评级。
- 低评级:当页面有一个有益的目的,但在某些重要方面存在缺陷时获得。
评估员会参考E-E-A-T(经验、专业性、权威性、可信赖性)标准来判断页面质量。
- 经验(Experience):作者对该主题是否有直接经验。
- 专业性(Expertise):作者是否是该领域的专家。
- 权威性(Authoritativeness):作者、内容和网站的权威性如何。
- 可信赖性(Trustworthiness):页面内容是否准确、诚实、安全和可靠。
特别是在健康、金融等可能对人们的生活产生重大影响的YMYL(Your Money or Your Life)主题上,会应用非常高的质量标准。有时会看到有人说,关于健康知识或股票的文章很难被搜索到,其原因就是这一项。
用户需求满足度(Needs Met)评估
这项评估侧重于搜索结果在多大程度上满足了用户的需求。
- 理解用户意图:评估员根据查询词和用户位置(例如,搜索“伦敦的咖啡馆”时)来判断用户的意图。
- 评级:分为“完全满足”(Fully Meets)、“高度满足”(Highly Meets)、“中等满足”(Moderately Meets)、“轻微满足”(Slightly Meets)和“未能满足”(Fails to Meet)。
- 示例:如果搜索词是「batman」,用户在美国,那么关于土耳其城市“Batman”的搜索结果完全没有满足用户的意图,因此会获得“未能满足”的评级。
结论:搜索引擎“努力”模仿人类
总而言之,谷歌的搜索引擎不仅仅是匹配关键词,它试图模仿人类判断好文章的标准。通过无数的算法更新和评估过程,在今天这个连AI文章和人类文章都难以区分的数字环境中,我们可以看到它为人们提供最有用的、最可靠的信息所做的努力。这套“谷歌搜索质量评估指南”并非一种算法,而是一群被称为“评估员”的人为了让搜索引擎变得更好所做的努力。 所以,如果有人问:“内容很一般却能排在前面怎么解释?”,唯一的答案就是算法还不够完善。算法是通过整合无数的“排名信号”(Ranking Signals)来排名,它不是直接“理解”内容的质量,而是通过间接信号来“推断”质量。
例如,如果一篇文章从其他可信赖的网站获得了大量反向链接,或者人们点击进入该页面并停留了很长时间,那么算法可能会误认为这是一篇“有用的”文章。也就是说,算法只是根据大量的间接数据得出结论,它在进行像人类一样的定性判断方面仍然存在局限性。“什么是优质?”这个词是纯粹的人类表达,实际上与算法本身无关。
接下来,我计划通过实验所有与SEO相关的概念,观察并记录我在运营的博客(不是这个博客)上发生的变化。