El método definitivo para comprobar cuándo Googlebot rastreó tu sitio web

Categoría: Laboratorio SEO, Registro de Desarrollo
Autor: 운영자
Fecha: 11/30/2025, 10:03:45 AM

📑 Índice

1. Cómo comprobar si Googlebot realmente visitó mi sitio web
2. Las páginas que Googlebot revisa con frecuencia
2.1 robots.txt
2.2 Publicaciones y recursos antiguos
2.3 Publicaciones recientes

¿Cómo no se me ocurrió antes?

Mucha gente se pregunta frustrada: “¿Por qué no se indexa mi nueva entrada del blog?”. Yo era igual. Sentía que Google ignoraba por completo mi blog y que estaba librando una batalla solitaria en medio del vasto desierto del Internet.

Pero al estudiar un poco, descubrí que el crawling no es más que Googlebot enviando una solicitud para obtener páginas de mi sitio, y esas solicitudes se guardan en el servidor como logs. Los logs contienen todo: la fecha y hora de la solicitud y cómo mi servidor respondió.

Pues bien, vamos allá.

Cómo comprobar si Googlebot visitó mi sitio

Uso Ubuntu como sistema operativo y Nginx como servidor web. Otros servidores conocidos son Apache y Caddy.

Para ver las solicitudes de Googlebot, ejecuté este comando en el terminal del servidor:

sudo grep -i "Googlebot" /var/log/nginx/access.log

Aparece una enorme cantidad de registros, así que los copié y se los pedí a Gemini para que los resumiera...

captura Resumen de los registros de acceso de Googlebot generado por Gemini

Yo pensaba que Googlebot nunca venía. Pero en realidad venía siempre, continuamente, incluso justo antes de que yo mirara los logs. Googlebot estaba entrando y saliendo sin parar.

Las páginas que Googlebot revisa con frecuencia

robots.txt

La página más solicitada fue robots.txt. Como indica qué páginas no deben ser rastreadas, es normal que Googlebot la revise constantemente.

Publicaciones y recursos antiguos

La segunda categoría más frecuente fueron páginas previamente indexadas. Muchas ya no existen, así que mi servidor devolvía 404. Googlebot vuelve a estas URLs porque ya las conoce de antes.

Publicaciones recientes

¿Y qué pasa con las publicaciones nuevas que Googlebot aún no conoce? Al revisar el log de ayer con este comando:

sudo grep -i "Googlebot" /var/log/nginx/access.log.1

Aparecen registros como estos:

captura Registro donde Googlebot solicita un archivo XML del sitemap

Googlebot solicitó un archivo XML de mi sitemap, el que contiene la lista de artículos para un idioma específico.

Esto significa que, aunque Google no consulta el sitemap “todo el tiempo”, sí lo usa ocasionalmente para comprobar si hay contenido nuevo.

En la práctica, las publicaciones recientes no se rastrean “ordenadas y meticulosamente de más antiguas a más nuevas”. Googlebot empieza desde algún enlace que encontró por casualidad y desde ahí se va expandiendo poco a poco.

Normalmente publico mis entradas en seis idiomas, y entre mis artículos recientes Googlebot solo había rastreado ciertas versiones de ciertos idiomas. Probablemente rastree el resto poco a poco. Una vez rastreado un artículo y analizado sin problemas, será indexado y aparecerá en los resultados de búsqueda.

Todo esto ya lo sabía “en teoría”, pero verlo con mis propios ojos en los logs fue muy emocionante. Así que… así es como funciona realmente.

Han Dong-sun

Du Dong-sun

Se Dong-sun