내 최근 구글 인덱싱 경향
내 최근 포스트들의 색인(indexing) 여부를 표로 정리해 보았다.
▲ 최근 포스팅들의 인덱싱 상태 표
- Posting Date: 내가 글 작성한 날짜
- Indexing: 인덱싱이 되었는가?
- Last Crawled: 마지막으로 구글이 크롤링한 날짜
- Agent Used: 크롤링에 사용된 에이전트
- Manually Requested: 내가 직접 요청 제출
여기서 에이전트(agent)라는 건 구글봇(크롤러)의 종류를 말하는데, '구글봇 스마트폰'이 있고, '구글봇 데스크탑'이 있다. 구글봇 스마트폰이 기본 에이전트이고, 스마트폰에서의 환경을 크롤링하는 걸 뜻한다.
구글 서치 콘솔을 통해 직접 URL을 제출하면, 어렵지 않게 인덱싱은 금방 된다. 하지만 직접 인덱싱하는 데에는 하루 개수 제한이 있다. 인덱싱이 된 웹페이지가 내가 제출한 요청에 의한 것인지는 여길 보면 알 수 있다:
▲ ‘수동 제출된 인덱싱 요청’ 여부 확인 화면
'색인생성'란의 사용자 선언 표준 URL에 해당 URL이 들어가 있으면 이건 내가 요청을 직접 제출한 거다. 저게 없으면 구글이 알아서 와서 크롤링을 해 갔다고 보면 된다.
크롤링은 구글봇이 해당 웹페이지에 접근을 한 것이고, 인덱싱은 그렇게 접근한 문서를 분석해서 자기 데이터베이스에 기록을 한 거다. 그러니까 크롤링을 안 했다면, 당연히 인덱싱은 안 되는 게 정상이다. 인덱싱이 안 되었으면, 검색 결과에도 당연히 뜰 수가 없다.
크롤링 예산 (Crawl Budget)
혼란스러워하기 전에 잘 따져 보자. 심호흡...
구글봇에는 크롤링 예산이라는 게 있다. 크롤링하는 것도 따지고 보면 전부 다 비용이다. 구글봇 입장에서 시간과 에너지가 들어간다. (내가 이제 로봇의 입장까지 고려해야 한다니!) 그래서 웹페이지라는 이유로 닥치는대로 다 크롤링을 할 수는 없는 것이고, '사이트의 권위'에 따라 크롤링 예산을 편성한다.
어? 믿을만한 대형 사이트? 크롤링 예산 높게 책정!
크롤링 예산이랑 크롤링을 하는 빈도가 같은 개념인 건 아닌데, 예산이 높으면 아무래도 자주 크롤링을 하기도 한다. 그만큼 사이트를 신뢰한다는 거고, 그만큼 거기에 많은 에너지를 쏟겠다는 뜻이니 말이다. 그래서 레딧, 디시인사이드 그런 대형 커뮤니티의 글들은 글 자체의 내용이 별 게 없어도 상단에 바로바로 잘 노출된다. 아주 그냥, 옆에서 언제 올리나 지켜보고 있다가 글을 올리는 순간 긁어가는 수준이다.
근데 나는 이제 막 개발을 끝낸 극소형(?) 개인 블로그, 아마 크롤링 예산이 아주, 아주, 아주 적게 책정되어 있을 것이다. 그러니까 구글봇은 나에게는 구두쇠와도 같은데, 만약 나에게 할애하는 비용이 제한적인 상황에서 내 웹사이트에 404 같은 에러 페이지가 많이 뜬다면, '그 에러 페이지를 맞딱뜨리느라 소비되는 비용'이 있기 때문에 다른 페이지를 긁어갈 기회는 줄어들겠지. 500/502/503 같은 서버 에러는 더 크게 예산을 삭감한다.
개발 중에 당연히 서버 코드 오류로 이 에러도 몇 번 났었는데 그 때문인가... 아니면 아무 내용 없는 URL이 대거 생성된 적이 있었는데, 혹시 그거 때문인가... 예산 깎일 여지가 많기는 했다. 새 글을 잘 안 올리면 구글봇이 더 드물게 방문하기도 한다. 뭐 없는데 괜히 방문하면 비용 나가니까, 이것도 당연...?
일단은... 일단은 수작업으로 인덱싱 안 하고 며칠만 더 기다려 보자. 그러고 나서 패턴을 다시 살펴봐야겠다.