Google Crawlers: Das Innenleben von Googlebot und die Verschiebung der IP-Bereiche

Gary Illyes von Google Search Central gibt weitere Einblicke in das Innenleben von Googlebot und kündigt eine Verschiebung der IP-Bereiche für die Dateien an. Diese konkreten Informationen können direkte Auswirkungen darauf haben, wie Ihre Website gecrawlt und indexiert wird.

Wichtige Punkte:

Googlebot ist kein einzelner Roboter: Er basiert auf einer zentralen Infrastruktur, die von Dutzenden von Google-Diensten (Shopping, AdSense usw.) geteilt wird.
Googlebot lädt nur die ersten 2 MB einer HTML-Seite herunter (außer PDFs): Alles, was diese Schwelle überschreitet, wird ignoriert, nicht erfasst, nicht verarbeitet und nicht indexiert.
Die IP-Bereiche der Google-Crawler werden verschoben: Innerhalb der nächsten 6 Monate muss auf die Adresse /crawling/ipranges/ umgestiegen werden.
Die Reihenfolge der Elemente in Ihrem HTML hat eine echte Bedeutung: Kritische Tags sollten so weit oben wie möglich im Code platziert werden.

Googlebot war nie ein einzelner Roboter

Dies ist einer der hartnäckigsten Mythen im SEO. In den 2000er Jahren hatte Google nur ein Produkt und somit nur einen Crawler, und der Name "Googlebot" blieb. Heute ist Googlebot jedoch tatsächlich einer von mehreren Clients in einer zentralen Crawling-Infrastruktur.

Wenn Sie in Ihren Serverprotokollen "Googlebot" sehen, beobachten Sie nur den Google-Suchverkehr. Viele andere Dienste wie Google Shopping oder AdSense nutzen dieselbe Infrastruktur unter verschiedenen Crawler-Namen. Eine Liste der Hauptcrawler ist auf der Website der Google Crawling Infrastructure dokumentiert.

2 MB Grenze: Verstehen, was Google wirklich herunterlädt

Dieses Thema, das vor einigen Wochen von Google angesprochen wurde, ist der technischste und wahrscheinlich wichtigste Punkt für Webmaster. Googlebot lädt nur die ersten 2 MB jeder HTML-URL herunter, einschließlich der HTTP-Header. Für PDFs wurde diese Grenze auf 64 MB festgelegt. Für Crawler ohne Grenzangabe beträgt der Standardwert 15 MB.

Die Realität ist:

Der Download wird bei 2 MB gestoppt. Googlebot lehnt die Seite nicht ab, sondern stoppt den Download einfach genau an der 2 MB-Schwelle. Der erfasste Teil wird dann so behandelt, als wäre es die vollständige Datei, und an die Indexierungssysteme und den Web Rendering Service (WRS) weitergeleitet.
Alles, was darüber hinausgeht, ist unsichtbar. Die Bytes jenseits dieser Schwelle werden nicht erfasst, nicht verarbeitet und nicht indexiert. Für Googlebot existieren sie einfach nicht.
Verwandte Ressourcen werden einzeln erfasst. Jede Ressource, die im HTML referenziert wird (außer Medien, Schriftarten und einigen exotischen Dateien), wird vom WRS mit ihrem eigenen Byte-Zähler unabhängig von der Hauptseite heruntergeladen.

Für die meisten Websites stellen 2 MB HTML ein erhebliches Volumen dar. Einige Anwendungen können jedoch Probleme verursachen: Bilder im base64-Format, die direkt in HTML integriert sind, große CSS- oder JavaScript-Blöcke oder große Menüs, die am Anfang des Codes stehen. Wenn diese Elemente Ihren Textinhalt oder strukturierte Daten über die Schwelle hinausdrängen, kann Googlebot sie niemals sehen.

Rendern: Was der Web Rendering Service mit diesen Bytes macht

Sobald die Bytes erfasst wurden, kommt der WRS ins Spiel. Ähnlich wie ein moderner Browser führt er JavaScript und CSS clientseitig aus und versucht, den endgültigen Zustand der Seite zu verstehen. Außerdem verarbeitet er XHR-Anfragen, um den Textinhalt und die Struktur der Seite besser zu verstehen, lädt jedoch keine Bilder oder Videos.

Zwei wichtige Punkte, die Sie beachten sollten: WRS kann nur den Code ausführen, der tatsächlich durch den Download-Prozess heruntergeladen wurde, und arbeitet zustandslos. Bei jeder Anfrage löscht es lokale und Sitzungsdaten, was sich auf die Interpretation dynamischer Elemente, die von JavaScript abhängen, auswirken kann.

Best Practices zur Optimierung des Crawlings Ihrer Seiten

Google bietet einige direkt umsetzbare Empfehlungen:

Halten Sie Ihr HTML leicht. Exportieren Sie CSS und JavaScript in separate Dateien. Diese Ressourcen werden unabhängig erfasst und kommen mit ihrem eigenen 2 MB-Kontingent.
Platzieren Sie Ihre kritischen Elemente an den Anfang des Dokuments. Meta-Tags, Titel, Kanoniken, Links und grundlegende strukturierte Daten sollten so früh wie möglich im HTML-Code platziert werden, um das Risiko zu minimieren, unter die Schwelle zu fallen.
Überwachen Sie Ihre Serverprotokolle. Hohe Antwortzeiten führen dazu, dass Google die Crawlfrequenz seiner Crawler automatisch reduziert, um Ihre Infrastruktur nicht zu überlasten.

Google weist darauf hin, dass diese 2 MB-Grenze nicht fest ist und sich weiterentwickeln wird, während das Web sich entwickelt.

Verschiebung der IP-Bereiche der Crawler

Gleichzeitig kündigt Google an, dass die JSON-Dateien, die die IP-Bereiche seiner Crawler auflisten, verschoben werden. Diese Dateien, die zuvor unter /search/apis/ipranges/ auf developers.google.com verfügbar waren, werden an einen allgemeineren Ort verschoben: developers.google.com/crawling/ipranges/.

Diese Änderung spiegelt eine zuvor erwähnte Tatsache wider: Diese IP-Bereiche sind nicht nur mit Googlebot Search verbunden. Der alte Pfad bleibt während der Übergangszeit zugänglich, aber Google plant, ihn zu entfernen und innerhalb von 6 Monaten eine Weiterleitung einzurichten. Die offiziellen Dokumente wurden aktualisiert, um auf den neuen Standort weiterzuleiten.

Kommentare

(4 Kommentare)

MK

Müslüm Korkmaz

Es ist wirklich interessant, dass sich die IP-Bereiche von Googlebot ändern. Wie wird sich das auf unsere SEO-Strategien auswirken?
SY

Seda Yıldırım

Könnten wir mehr Informationen über die 2 MB-Grenze erhalten? Wie könnte das insbesondere für große Websites ein Problem darstellen?
ZT

Zeynep Tüfekçi

Ist die Reihenfolge der Elemente im HTML wirklich wichtig? Können Sie dazu mehr Beispiele geben?
KŞ

Kara Şimşek

Ich möchte mehr Informationen über die Funktionsweise von WRS erhalten. Wie beeinflusst es die Interaktionen mit JavaScript?