Google Crawlers : Le fonctionnement interne de Googlebot et le déplacement des plages IP

Gary Illyes de Google Search Central fournit plus d'informations sur le fonctionnement interne de Googlebot et annonce un déplacement des plages IP pour ses fichiers. Ces informations concrètes peuvent avoir un impact direct sur la façon dont votre site est exploré et indexé.

Points Clés :

Googlebot n'est pas un seul robot : il repose sur une infrastructure centrale partagée par des dizaines de services Google (Shopping, AdSense, etc.).
Googlebot ne télécharge que les 2 Mo initiaux d'une page HTML (hors PDF) : tout ce qui dépasse ce seuil est ignoré, non pris en compte, non traité et non indexé.
Les plages IP des robots de Google sont en train de changer : un passage à l'adresse /crawling/ipranges/ doit avoir lieu dans les 6 mois.
L'ordre des éléments dans votre HTML a une réelle importance : les balises critiques doivent se trouver le plus haut possible dans le code.

Googlebot n'a Jamais Été un Unique Robot

C'est l'un des mythes les plus tenaces du SEO. Dans les années 2000, Google n'avait qu'un seul produit et donc un seul robot, et le nom "Googlebot" est resté. Cependant, aujourd'hui, Googlebot est en réalité l'un des autres clients d'une infrastructure d'exploration centrale.

Lorsque vous voyez "Googlebot" dans vos journaux de serveur, vous n'observez que le trafic de recherche Google. De nombreux autres services, comme Google Shopping ou AdSense, utilisent cette même infrastructure sous différents noms de robots. La liste des principaux robots est documentée sur le site Web de l'infrastructure d'exploration de Google.

Limite de 2 Mo : Comprendre Ce Que Google Télécharge Réellement

Ce sujet, soulevé par Google il y a quelques semaines, est le plus technique et probablement le plus important pour les webmasters. Googlebot ne télécharge que les 2 Mo initiaux de chaque URL HTML, y compris les en-têtes HTTP. Pour les PDF, cette limite est fixée à 64 Mo. La valeur par défaut pour les robots qui ne spécifient pas de limite est de 15 Mo.

Voici ce qui se passe réellement :

Le téléchargement est interrompu à 2 Mo. Googlebot ne rejette pas la page, il interrompt simplement le téléchargement exactement à la limite de 2 Mo. La partie reçue est ensuite transmise aux systèmes d'indexation et au Web Rendering Service (WRS) comme si c'était le fichier complet.
Tout ce qui dépasse est invisible. Les octets au-delà de ce seuil ne sont pas pris, ne sont pas traités, ne sont pas indexés. Pour Googlebot, ils n'existent tout simplement pas.
Les ressources associées sont téléchargées séparément. Chaque ressource référencée dans le HTML (à l'exception des médias, des polices et de certains fichiers exotiques) est téléchargée par le WRS avec son propre compteur d'octets, indépendamment de la page principale.

Pour la plupart des sites, 2 Mo de HTML représentent un volume significatif. Cependant, certaines applications peuvent poser problème : les images en format base64 intégrées directement dans le HTML, de larges blocs de CSS ou de JavaScript, ou de grands menus situés en haut du code. Si ces éléments poussent votre contenu textuel ou vos données structurées au-delà du seuil, Googlebot ne pourra jamais les voir.

Rendu : Que Fait le Web Rendering Service Avec Ces Octets

Une fois les octets reçus, le WRS entre en jeu. Comme un navigateur moderne, il exécute JavaScript et CSS côté client et tente de comprendre l'état final de la page. De plus, il traite les requêtes XHR pour mieux comprendre le contenu textuel et la structure de la page, mais ne charge pas d'images ou de vidéos.

Deux points importants à garder à l'esprit : Le WRS ne peut exécuter que le code qui a été réellement téléchargé par le processus de téléchargement et fonctionne sans état. À chaque requête, il efface les données de stockage local et de session, ce qui peut avoir un impact sur l'interprétation des éléments dynamiques dépendants de JavaScript.

Bonnes Pratiques pour Optimiser l'Exploration de Vos Pages

Google propose plusieurs recommandations directement applicables :

Gardez votre HTML léger. Externisez le CSS et JavaScript dans des fichiers séparés. Ces ressources sont téléchargées indépendamment et viennent avec leur propre quota de 2 Mo.
Placez vos éléments critiques en haut du document. Les balises meta, les titres, les canoniques, les liens et les données structurées de base doivent figurer le plus tôt possible dans le code HTML, afin d'éliminer le risque de tomber en dessous du seuil.
Surveillez vos journaux de serveur. Des temps de réponse élevés entraînent une réduction automatique de la fréquence d'exploration par les robots de Google, ce qui évite de surcharger votre infrastructure.

Google indique que cette limite de 2 Mo n'est pas fixe et évoluera à mesure que le web se développe.

Déplacement des Plages IP des Robots

En même temps, Google annonce que les fichiers JSON listant les plages IP de ses robots sont en train de changer. Ces fichiers, qui étaient auparavant disponibles à l'adresse /search/apis/ipranges/ sur developers.google.com, sont déplacés vers un emplacement plus général : developers.google.com/crawling/ipranges/.

Ce changement reflète une réalité mentionnée précédemment : ces plages IP ne concernent pas seulement Googlebot Search. L'ancien chemin restera accessible pendant la période de transition, mais Google prévoit de le retirer et de mettre en œuvre une redirection dans 6 mois. La documentation officielle a été mise à jour pour rediriger vers le nouvel emplacement.

Commentaires

(4 Commentaires)

MK

Müslüm Korkmaz

Il est vraiment intéressant que les plages d'IP de Googlebot changent. Comment cela affectera-t-il nos stratégies SEO ?
SY

Seda Yıldırım

Pouvons-nous obtenir plus d'informations sur la limite de 2 Mo ? Quel problème cela pourrait-il poser, en particulier pour les grands sites ?
ZT

Zeynep Tüfekçi

L'ordre des éléments dans le HTML est-il vraiment important ? Pouvez-vous donner plus d'exemples à ce sujet ?
KŞ

Kara Şimşek

Je voudrais en savoir plus sur le fonctionnement de WRS. Comment cela affecte-t-il les interactions avec JavaScript ?