Google Crawlers: Googlebot'un İç İşleyişi ve IP Aralıklarının Yer Değiştirmesi

Google Search Central'da Gary Illyes, Googlebot'un iç işleyişi hakkında daha fazla bilgi veriyor ve IP aralıklarının dosyaları için bir yer değişikliği duyuruyor. Bu somut bilgiler, sitenizin nasıl tarandığı ve dizine eklendiği üzerinde doğrudan etkili olabilir.

Önemli Noktalar:

Googlebot tek bir robot değildir: onlarca Google hizmeti (Alışveriş, AdSense vb.) tarafından paylaşılan merkezi bir altyapıya dayanır.
Googlebot, bir HTML sayfasının yalnızca ilk 2 MB'ını (PDF hariç) indirir: bu eşiği aşan her şey göz ardı edilir, alınmaz, işlenmez ve dizine eklenmez.
Google tarayıcılarının IP aralıklarının dosyaları yer değiştiriyor: önümüzdeki 6 ay içinde /crawling/ipranges/ adresine geçiş yapılması gerekiyor.
HTML'nizdeki öğelerin sırası gerçek bir öneme sahiptir: kritik etiketler kodda mümkün olan en üstte yer almalıdır.

Googlebot Asla Tek Bir Robot Olmamıştır

Bu, SEO'nun en inatçı mitlerinden biridir. 2000'li yıllarda, Google yalnızca bir ürüne sahipti ve dolayısıyla tek bir tarayıcıya sahipti, ve "Googlebot" adı kaldı. Ancak bugün, Googlebot aslında merkezi bir tarama altyapısındaki diğer istemcilerden biridir.

Sunucu günlüklerinizde "Googlebot" gördüğünüzde, yalnızca Google Arama trafiğini gözlemliyorsunuz. Google Alışveriş veya AdSense gibi birçok diğer hizmet, bu aynı altyapıyı farklı tarayıcı adları altında kullanmaktadır. Ana tarayıcıların listesi, Google Tarama Altyapısı web sitesinde belgelenmiştir.

2 MB Sınırı: Google'ın Gerçekten Ne İndirdiğini Anlamak

Google tarafından birkaç hafta önce gündeme getirilen bu konu, en teknik ve muhtemelen web yöneticileri için en önemli noktadır. Googlebot, her HTML URL'sinin yalnızca ilk 2 MB'ını indirir, HTTP başlıkları dahil. PDF'ler için bu sınır 64 MB olarak belirlenmiştir. Sınır belirtmeyen tarayıcılar için varsayılan değer 15 MB'dır.

Gerçekten olanlar:

İndirme 2 MB'da kesiliyor. Googlebot sayfayı reddetmez, yalnızca indirmeyi tam olarak 2 MB eşiğinde keser. Alınan kısım daha sonra dizine ekleme sistemlerine ve Web Rendering Service (WRS) iletilir sanki bu tam dosyaymış gibi.
Aşan her şey görünmez. Bu eşiğin ötesindeki baytlar alınmaz, işlenmez, dizine eklenmez. Googlebot için bunlar basitçe yoktur.
İlişkili kaynaklar ayrı ayrı alınır. HTML'de referans verilen her kaynak (medya, fontlar ve bazı egzotik dosyalar hariç) WRS tarafından kendi bayt sayacı ile indirilir, ana sayfadan bağımsız olarak.

Çoğu site için, 2 MB HTML önemli bir hacmi temsil eder. Ancak bazı uygulamalar sorun yaratabilir: HTML'ye doğrudan entegre edilmiş base64 formatındaki resimler, geniş CSS veya JavaScript blokları veya kodun başında yer alan büyük menüler. Eğer bu öğeler metin içeriğinizi veya yapılandırılmış verilerinizi eşiğin ötesine itiyorsa, Googlebot bunları asla göremez.

Render: Web Rendering Service'in Bu Baytlarla Ne Yaptığı

Baytlar alındıktan sonra, WRS devreye girer. Modern bir tarayıcı gibi, JavaScript ve CSS'i istemci tarafında çalıştırır ve sayfanın nihai durumunu anlamaya çalışır. Ayrıca, metin içeriğini ve sayfanın yapısını daha iyi anlamak için XHR isteklerini işler, ancak resimleri veya videoları yüklemez.

Aklınızda bulundurmanız gereken iki önemli nokta: WRS yalnızca indirme işlemi tarafından gerçekten indirilen kodu çalıştırabilir ve durumsuz çalışır. Her istekte yerel ve oturum depolama verilerini siler, bu da JavaScript'e bağlı dinamik öğelerin yorumlanması üzerinde etkili olabilir.

Sayfalarınızın Taramasını Optimize Etmek İçin İyi Uygulamalar

Google, doğrudan uygulanabilir birkaç öneri sunmaktadır:

HTML'nizi hafif tutun. CSS ve JavaScript'i ayrı dosyalara dışa aktarın. Bu kaynaklar bağımsız olarak alınır ve kendi 2 MB kotası ile gelir.
Kritik öğelerinizi belgenin en üstüne yerleştirin. Meta etiketler, başlık, kanonikler, bağlantılar ve temel yapılandırılmış veriler, HTML kodunda mümkün olan en erken aşamada yer almalıdır, böylece eşiğin altına düşme riski ortadan kalkar.
Sunucu günlüklerinizi izleyin. Yüksek yanıt süreleri, Google'ın tarayıcılarının tarama sıklığını otomatik olarak azaltmasına neden olur, böylece altyapınızı aşırı yüklemez.

Google, bu 2 MB sınırının sabit olmadığını ve web geliştikçe evrileceğini belirtmektedir.

Crawler'ların IP Aralıkları İçin Yer Değiştirme

Aynı zamanda, Google, tarayıcılarının IP aralıklarını listeleyen JSON dosyalarının yer değiştirdiğini duyuruyor. Bu dosyalar, daha önce /search/apis/ipranges/ adresinde developers.google.com üzerinde mevcutken, daha genel bir konuma taşınıyor: developers.google.com/crawling/ipranges/.

Bu değişiklik, daha önce bahsedilen bir gerçeği yansıtıyor: bu IP aralıkları sadece Googlebot Search ile ilgili değildir. Eski yol geçiş süresi boyunca erişilebilir kalacak, ancak Google bunu kaldırmayı ve 6 ay içinde bir yönlendirme uygulamayı planlıyor. Resmi belgeler, yeni konuma yönlendirecek şekilde güncellenmiştir.

Yorumlar

(4 Yorum)

MK

Müslüm Korkmaz

Googlebot'un IP aralıklarının değişmesi gerçekten ilginç. Bu durum SEO stratejilerimizi nasıl etkiler?
SY

Seda Yıldırım

2 MB sınırı hakkında daha fazla bilgi alabilir miyiz? Özellikle büyük siteler için bu nasıl bir sorun yaratabilir?
ZT

Zeynep Tüfekçi

HTML'deki öğelerin sırası gerçekten önemli mi? Bu konuda daha fazla örnek verebilir misiniz?
KŞ

Kara Şimşek

WRS'nin çalışma mantığı hakkında daha fazla bilgi almak isterim. JavaScript ile etkileşimleri nasıl etkiliyor?