가끔 인간의 직관이 철두철미한 알고리즘의 로직과 맞지 않을 때가 있다. 예를 들어 무엇이 인간의 그림이고, 무엇이 AI 그림인지, 무엇이 인간이 쓴 글이고, 무엇이 AI가 쓴 글인지 아직까지는 구분하는 게 어렵지 않은데, 우리는 본능적으로 인간이 쓴 글에 "더 정성이 들어갔다"고 판단한다. 아무리 내용이 많고 아무리 정돈이 잘된 글이라고 하더라도, AI가 쓴 글은 좀처럼 정이 없다. 그게 인간의 판단이다. 

요즘은 VEO3가 등장한 이후 AI 영상의 생산도 활발해지기 시작했다. 가끔 인스타 릴스에 "사고 영상"이라고 해서 어떻게 이런 일이 있지 하고 댓글창을 보면, "이거 AI로 만든 가짜 영상이에요"라는 댓글이 달려 있는 경우가 종종 있다. 그 순간 철렁했던 마음은 금방 식어버린다. 아무것도 변하지 않았지만, 이것이 AI인지 아닌지 판단하는 우리의 인식에 따라 그 콘텐츠가 가진 힘, 그 콘텐츠의 지위가 달라져 버리는 것이다.

요즘은 유튜브에도, 구글 검색 결과에도 AI의 작품이 판을 치는데, AI의 작품이 알고리즘을 타는 것이 "불합리한" 것일까? 오늘은 이 주제에 대해서 생각을 해 보려고 한다.

검색 엔진이 작동하는 방식

검색 엔진은 크롤러를 이용해 네트워크에 퍼져 있는 웹페이지의 내용을 긁어 간다

크롤러는 일종의 이다. 크롤링 방식은 다양하다. 예를 들어 내가 웹사이트를 만들었다면, 내 컴퓨터에서만 로컬로 작동하는 게 아닌 이상 그 웹사이트의 주소는 DNS(도메인 네임 서버)에 필연적으로 등록된다. 그러면 이 DNS를 통해 구글 크롤러가 내 웹사이트 주소를 수집해 갈 수도 있고, 다른 사람이 본인의 글에 걸어 둔 내 웹사이트 링크를 타고 들어와 수집할 수도 있고, 이미 내 웹사이트를 수집했던 이력이 있다면 그 기록을 기반으로 다시 수집하러 올 수도 있고, 내가 제출한 사이트맵을 통해 수집할 수도 있다. 쉽게 말하면 "온갖 방법을 동원해" 네트워크상에서 접속 가능한 웹 문서들을 모으는 것이다.

robot.txt 파일은 이때 무엇을 수집해 가고, 무엇을 수집하지 말라고 안내하는 역할을 한다. 이 파일은 웹사이트 주인이 직접 작성해서 웹사이트의 루트 폴더에 둔다.

인덱서를 통해 수집한 웹페이지를 테이블로 만들어 데이터베이스화한다

구글 서치 콘솔을 보면 "색인(index)이 생성된 페이지"라는 표현이 자주 보인다. 이는 내 웹사이트가 구글의 데이터베이스에 들어가 데이터베이스화 되었다는 뜻이다. 검색 알고리즘은 구글의 데이터베이스 안에서 작동하기 때문에 색인이 되지 않으면 당연히 검색도 되지 않는다. 이 단계에서 페이지 로딩 속도가 지나치게 느리거나, 중복 페이지이거나, 글의 품질이 낮으면 1차적으로 걸러진다.

사용자가 구글 검색창에 검색을 하면, 검색 알고리즘을 통해 관련도가 높은 웹페이지를 검색 결과로 보여준다

"알고리즘을 탄다"라는 표현이 있듯, 어떤 콘텐츠가 일명 "떡상"하기 위해서는 알고리즘이 치명적으로 중요하다. 하지만 알고리즘을 모두 알 수 있다면, 모든 제작자가 그 알고리즘에 맞춰 콘텐츠를 만들 것이고, 그럼 알고리즘이라는 의미 자체가 없어질 것이다. 유튜브 알고리즘도, 구글 검색 알고리즘도 당연히 극비다.

검색 알고리즘이 실제로 작동하는 과정은 크게 세 단계로 볼 수 있다. 먼저 사용자의 검색어를 형태소 분석과 토큰화 과정을 거쳐 핵심 의미를 파악한다. 그다음 구글이 보유한 인덱스 데이터베이스에서 해당 키워드와 연관된 후보 문서를 빠르게 검색한다. 마지막으로 수많은 랭킹 알고리즘을 적용해 검색 결과를 정렬하고, 사용자의 위치, 기기, 검색 기록 같은 개인화 요소까지 반영해 최종적으로 보여준다. 그래서 그냥 내 기기에서 검색했을 때랑, VPN을 켜고 다른 나라의 IP로 접속했을 때랑 검색 결과가 다른 일이 생기는 것이다. 이렇게 완성된 검색 결과의 맨 앞줄에 서는 것은 단순히 키워드를 많이 넣은 글이 아니라, 신뢰성과 품질, 사용자 반응까지 복합적으로 평가받은 페이지다.

양질의 글에 대한 단서: 구글 품질 평가 가이드라인

"글 내용도 별로 없고 막 쓴 것도 검색 상단에 뜨던데? 글 질이 좋아야 한다는 거 다 구라임."

알고리즘은 우리가 알 수 없지만, 구글이 검색 엔진에 있어서 무엇을 "추구하는지"를 엿볼 수 있는 문서는 있는데, 바로 구글 품질 평가 가이드라인이다. 여기서 말하는 내용은 대략 이렇다.

페이지 품질(Page Quality) 평가

검색 품질 평가사들(사람)은 페이지가 목적을 얼마나 잘 달성하는지 평가한다. 당연히 모든 웹페이지를 다 평가하는 건 말이 안 되고, 선별된 샘플만 갖고 진행한다. 등급은 최저(Lowest)부터 최고(Highest)까지 나뉜다.

평가사들은 페이지의 품질을 판단하기 위해 E-E-A-T(경험, 전문성, 권위성, 신뢰성)라는 기준을 고려한다.

특히 건강, 재정 등 사람의 삶에 중대한 영향을 미칠 수 있는 YMYL(Your Money or Your Life) 주제에 대해서는 매우 높은 품질 기준이 적용된다. 가끔 건강 지식이나 아니면 주식 등에 대한 글을 쓰면 검색에 잘 안 잡힐 거라는 말이 도는 걸 볼 수 있는데, 그 말의 근거가 되는 것이 바로 이 항목이다. 

2. 사용자 만족도(Needs Met) 평가

이 평가는 검색 결과가 사용자의 필요를 얼마나 충족시키는지에 초점을 맞춘다.

결론: 검색 엔진은 인간을 모방하려 "노력"한다

결론적으로, 구글의 검색 엔진은 단순히 키워드 일치도를 넘어 사람이 판단하는 좋은 글의 기준을 모방하려고 한다. 이 "구글 품질 평가 가이드라인"이라는 것은, 결국 어떤 알고리즘인 게 아니고, 그냥 평가사라고 불리는 사람들이 검색 엔진을 더 나아지게 만들기 위해 이런 노력을 하고 있다는 의미 정도로 볼 수 있다. 그래서 "글 내용이 별로인데 상단에 뜨는 건 어떻게 설명하냐"라고 누가 묻는다면, 그건 아직 알고리즘이 완벽하지 않기 때문이라고밖에 할 수 없다. 알고리즘은 수많은 '신호(Ranking Signals)'를 종합해서 순위를 매기는데, 콘텐츠의 품질을 직접적으로 '이해'하는 게 아니라, 간접적인 신호들을 통해 품질을 '추론'하는 방식인 것이다.

예를 들어, 해당 글이 신뢰할 만한 다른 웹사이트로부터 많은 백링크를 받았거나, 사람들이 그 페이지를 클릭하고 오래 머무르는 등의 긍정적인 신호들이 많다면, 알고리즘은 그 글을 "유용한" 글이라고 오해할 수 있다. 즉, 알고리즘은 수많은 간접적인 데이터들을 바탕으로 결론을 내릴 뿐, 사람처럼 정성적인 판단을 내리는 것은 아직 한계가 있는 것이다. "무엇이 양질인가"는 철저한 인간의 표현일 뿐, 사실 알고리즘과는 아무 상관이 없다. 

앞으로는 SEO와 관련된 모든 개념들을 실험해 보면서, 내가 운영 중인 블로그(이거 말고 다른 블로그)에 어떤 변화가 있는지를 관찰해서 기록해 볼 생각이다.