Crawlers de Google: El Funcionamiento Interno de Googlebot y el Cambio de Rangos de IP

En Google Search Central, Gary Illyes proporciona más información sobre el funcionamiento interno de Googlebot y anuncia un cambio de ubicación para los rangos de IP. Esta información concreta puede tener un impacto directo en cómo se rastrea e indexa su sitio.

Puntos Clave:

Googlebot no es un solo robot: se basa en una infraestructura central compartida por decenas de servicios de Google (Shopping, AdSense, etc.).
Googlebot descarga solo los primeros 2 MB de una página HTML (excluyendo PDF): todo lo que exceda este umbral se ignora, no se descarga, no se procesa y no se indexa.
Los rangos de IP de los rastreadores de Google están cambiando: se debe hacer la transición a /crawling/ipranges/ en los próximos 6 meses.
El orden de los elementos en su HTML tiene una verdadera importancia: las etiquetas críticas deben estar lo más arriba posible en el código.

Googlebot Nunca Ha Sido Un Solo Robot

Este es uno de los mitos más persistentes en SEO. En los años 2000, Google solo tenía un producto y, por lo tanto, un solo rastreador, y el nombre "Googlebot" se mantuvo. Sin embargo, hoy en día, Googlebot es en realidad uno de los muchos clientes en una infraestructura de rastreo central.

Cuando ve que "Googlebot" aparece en sus registros de servidor, solo está observando el tráfico de búsqueda de Google. Muchos otros servicios, como Google Shopping o AdSense, utilizan esta misma infraestructura bajo diferentes nombres de rastreadores. La lista de los principales rastreadores está documentada en el sitio web de la Infraestructura de Rastreo de Google.

Límite de 2 MB: Entendiendo Realmente Lo Que Google Descarga

Este tema, planteado por Google hace unas semanas, es el más técnico y probablemente el más importante para los webmasters. Googlebot descarga solo los primeros 2 MB de cada URL HTML, incluidos los encabezados HTTP. Para los PDF, este límite se ha establecido en 64 MB. Para los rastreadores que no especifican un límite, el valor predeterminado es de 15 MB.

Lo que realmente ocurre:

La descarga se corta en 2 MB. Googlebot no rechaza la página, simplemente corta la descarga exactamente en el umbral de 2 MB. La parte recibida se envía luego a los sistemas de indexación y al Servicio de Renderizado Web (WRS) como si fuera el archivo completo.
Todo lo que excede es invisible. Los bytes más allá de este umbral no se reciben, no se procesan, no se indexan. Para Googlebot, simplemente no existen.
Los recursos relacionados se obtienen por separado. Cada recurso referenciado en HTML (excepto medios, fuentes y algunos archivos exóticos) se descarga por WRS con su propio contador de bytes, independientemente de la página principal.

Para la mayoría de los sitios, 2 MB de HTML representan un volumen significativo. Sin embargo, algunas implementaciones pueden causar problemas: imágenes en formato base64 integradas directamente en el HTML, bloques grandes de CSS o JavaScript, o menús grandes que aparecen al principio del código. Si estos elementos empujan su contenido textual o datos estructurados más allá del umbral, Googlebot nunca podrá verlos.

Renderizar: Lo Que Hace el Servicio de Renderizado Web Con Estos Bytes

Una vez que se han recibido los bytes, WRS entra en acción. Al igual que un navegador moderno, ejecuta JavaScript y CSS del lado del cliente y trata de entender el estado final de la página. También procesa las solicitudes XHR para comprender mejor el contenido textual y la estructura de la página, pero no carga imágenes o videos.

Dos puntos importantes a tener en cuenta: WRS solo puede ejecutar el código que realmente se descarga a través del proceso de descarga y opera sin estado. Borra los datos de almacenamiento local y de sesión en cada solicitud, lo que puede afectar la interpretación de elementos dinámicos dependientes de JavaScript.

Mejores Prácticas para Optimizar el Rastreo de Sus Páginas

Google ofrece varias recomendaciones directamente aplicables:

Mantenga su HTML ligero. Exporte CSS y JavaScript a archivos separados. Estos recursos se obtienen de forma independiente y vienen con su propio límite de 2 MB.
Coloque sus elementos críticos en la parte superior del documento. Las etiquetas meta, el título, los canónicos, los enlaces y los datos estructurados básicos deben estar en las primeras etapas del código HTML, eliminando así el riesgo de caer por debajo del umbral.
Monitoree sus registros de servidor. Los tiempos de respuesta altos hacen que Google reduzca automáticamente la frecuencia de rastreo de sus rastreadores, evitando así sobrecargar su infraestructura.

Google señala que este límite de 2 MB no es fijo y evolucionará a medida que la web avance.

Cambio de Rangos de IP para los Crawlers

Al mismo tiempo, Google anuncia que los archivos JSON que enumeran los rangos de IP de sus rastreadores están cambiando de ubicación. Estos archivos, que anteriormente estaban disponibles en /search/apis/ipranges/ en developers.google.com, se están trasladando a una ubicación más general: developers.google.com/crawling/ipranges/.

Este cambio refleja una realidad mencionada anteriormente: estos rangos de IP no están relacionados únicamente con Googlebot Search. La antigua ruta permanecerá accesible durante el período de transición, pero Google planea eliminarla y implementar una redirección en 6 meses. La documentación oficial ha sido actualizada para redirigir a la nueva ubicación.

Comentarios

(4 Comentarios)

MK

Müslüm Korkmaz

Es realmente interesante el cambio en los rangos de IP de Googlebot. ¿Cómo afectará esto nuestras estrategias de SEO?
SY

Seda Yıldırım

¿Podemos obtener más información sobre el límite de 2 MB? ¿Cómo podría ser esto un problema especialmente para sitios grandes?
ZT

Zeynep Tüfekçi

¿Es realmente importante el orden de los elementos en HTML? ¿Podrían dar más ejemplos sobre esto?
KŞ

Kara Şimşek

Me gustaría obtener más información sobre el funcionamiento de WRS. ¿Cómo afecta las interacciones con JavaScript?