Google Crawlers: Il Funzionamento Interno di Googlebot e il Trasferimento degli Intervalli IP

Gary Illyes su Google Search Central fornisce ulteriori informazioni sul funzionamento interno di Googlebot e annuncia un trasferimento degli intervalli IP per i file. Queste informazioni concrete possono avere un impatto diretto su come il tuo sito viene scansionato e indicizzato.

Punti Chiave:

Googlebot non è un singolo robot: si basa su un'infrastruttura centrale condivisa da decine di servizi Google (Shopping, AdSense, ecc.).
Googlebot scarica solo i primi 2 MB di una pagina HTML (esclusi i PDF): tutto ciò che supera questa soglia viene ignorato, non acquisito, non elaborato e non indicizzato.
Gli intervalli IP dei crawler di Google stanno cambiando: entro i prossimi 6 mesi è necessario passare all'indirizzo /crawling/ipranges/.
L'ordine degli elementi nel tuo HTML ha una reale importanza: i tag critici devono trovarsi il più in alto possibile nel codice.

Googlebot Non È Mai Stato Un Singolo Robot

Questo è uno dei miti più ostinati nel SEO. Negli anni 2000, Google aveva solo un prodotto e quindi un solo crawler, e il nome "Googlebot" è rimasto. Tuttavia, oggi, Googlebot è in realtà uno dei tanti client in un'infrastruttura di scansione centrale.

Quando vedi "Googlebot" nei tuoi log del server, stai osservando solo il traffico di ricerca di Google. Molti altri servizi, come Google Shopping o AdSense, utilizzano la stessa infrastruttura sotto nomi di crawler diversi. L'elenco dei crawler principali è documentato sul sito web dell'infrastruttura di scansione di Google.

Limite di 2 MB: Comprendere Cosa Scarica Davvero Google

Questo argomento sollevato da Google alcune settimane fa è il punto più tecnico e probabilmente il più importante per i webmaster. Googlebot scarica solo i primi 2 MB di ogni URL HTML, inclusi gli header HTTP. Per i PDF, questo limite è fissato a 64 MB. Per i crawler che non specificano un limite, il valore predefinito è 15 MB.

La realtà è:

Il download si interrompe a 2 MB. Googlebot non rifiuta la pagina, ma interrompe semplicemente il download esattamente al limite di 2 MB. La parte acquisita viene quindi inviata ai sistemi di indicizzazione e al Web Rendering Service (WRS) come se fosse il file completo.
Tutto ciò che supera è invisibile. I byte oltre questa soglia non vengono acquisiti, elaborati o indicizzati. Per Googlebot, semplicemente non esistono.
Le risorse correlate vengono acquisite separatamente. Ogni risorsa referenziata nell'HTML (esclusi media, font e alcuni file esotici) viene scaricata da WRS con il proprio contatore di byte, indipendentemente dalla pagina principale.

Per la maggior parte dei siti, 2 MB di HTML rappresentano un volume significativo. Tuttavia, alcune applicazioni possono creare problemi: immagini in formato base64 integrate direttamente nell'HTML, ampi blocchi di CSS o JavaScript o grandi menu situati all'inizio del codice. Se questi elementi spingono il tuo contenuto testuale o i tuoi dati strutturati oltre la soglia, Googlebot non potrà mai vederli.

Render: Cosa Fa il Web Rendering Service Con Questi Byte

Dopo che i byte sono stati acquisiti, entra in gioco WRS. Proprio come un browser moderno, esegue JavaScript e CSS lato client e cerca di comprendere lo stato finale della pagina. Inoltre, elabora le richieste XHR per comprendere meglio il contenuto testuale e la struttura della pagina, ma non carica immagini o video.

Due punti importanti da tenere a mente: WRS può eseguire solo il codice che è stato effettivamente scaricato dal processo di download e opera senza stato. Cancella i dati di archiviazione locale e di sessione ad ogni richiesta, il che può influenzare l'interpretazione degli elementi dinamici dipendenti da JavaScript.

Buone Pratiche per Ottimizzare la Scansione delle Tue Pagine

Google offre alcuni suggerimenti direttamente applicabili:

Tieni il tuo HTML leggero. Esporta CSS e JavaScript in file separati. Queste risorse vengono acquisite indipendentemente e portano il proprio limite di 2 MB.
Posiziona i tuoi elementi critici in cima al documento. I meta tag, il titolo, i canonici, i link e i dati strutturati fondamentali devono trovarsi il prima possibile nel codice HTML, in modo da ridurre il rischio di scendere sotto la soglia.
Monitora i tuoi log del server. Tempi di risposta elevati possono ridurre automaticamente la frequenza di scansione dei crawler di Google, evitando così di sovraccaricare la tua infrastruttura.

Google sottolinea che questo limite di 2 MB non è fisso e si evolverà man mano che il web si sviluppa.

Trasferimento degli Intervalli IP dei Crawler

Allo stesso tempo, Google annuncia il trasferimento dei file JSON che elencano gli intervalli IP dei suoi crawler. Questi file, precedentemente disponibili all'indirizzo /search/apis/ipranges/ su developers.google.com, vengono spostati in una posizione più generale: developers.google.com/crawling/ipranges/.

Questa modifica riflette una realtà già menzionata: questi intervalli IP non riguardano solo Googlebot Search. Il vecchio percorso rimarrà accessibile durante il periodo di transizione, ma Google prevede di rimuoverlo e applicare un reindirizzamento entro 6 mesi. La documentazione ufficiale è stata aggiornata per reindirizzare alla nuova posizione.

Commenti

(4 Commenti)

MK

Müslüm Korkmaz

È davvero interessante che gli intervalli IP di Googlebot stiano cambiando. In che modo questo influenzerà le nostre strategie SEO?
SY

Seda Yıldırım

Possiamo avere ulteriori informazioni sul limite di 2 MB? In particolare, quale problema potrebbe creare per i grandi siti?
ZT

Zeynep Tüfekçi

È davvero importante l'ordine degli elementi nell'HTML? Potreste fornire ulteriori esempi su questo?
KŞ

Kara Şimşek

Vorrei avere maggiori informazioni sul funzionamento di WRS. In che modo influisce sulle interazioni con JavaScript?