No Google Search Central, Gary Illyes fornece mais informações sobre o funcionamento interno do Googlebot e anuncia uma mudança nos intervalos de IP para seus arquivos. Essas informações concretas podem ter um impacto direto sobre como seu site é rastreado e indexado.
Pontos Importantes:
- O Googlebot não é um único robô: ele se baseia em uma infraestrutura central compartilhada por dezenas de serviços do Google (Shopping, AdSense, etc.).
- O Googlebot baixa apenas os primeiros 2 MB de uma página HTML (exceto PDFs): tudo o que excede esse limite é ignorado, não é capturado, processado ou indexado.
- Os intervalos de IP dos crawlers do Google estão mudando: a transição para /crawling/ipranges/ deve ocorrer nos próximos 6 meses.
- A ordem dos elementos em seu HTML é de real importância: etiquetas críticas devem estar o mais alto possível no código.
O Googlebot Nunca Foi Um Único Robô
Esse é um dos mitos mais persistentes do SEO. Nos anos 2000, o Google tinha apenas um produto e, portanto, um único crawler, e o nome "Googlebot" ficou. No entanto, hoje, o Googlebot é na verdade um dos vários clientes em uma infraestrutura central de rastreamento.
Quando você vê "Googlebot" em seus logs de servidor, está apenas observando o tráfego de busca do Google. Muitos outros serviços, como Google Shopping ou AdSense, utilizam essa mesma infraestrutura sob diferentes nomes de crawlers. A lista dos crawlers principais está documentada no site da Infraestrutura de Rastreamento do Google.
Limite de 2 MB: Entendendo o Que o Google Realmente Baixa
Esse tópico, levantado pelo Google há algumas semanas, é o mais técnico e provavelmente o mais importante para webmasters. O Googlebot baixa apenas os primeiros 2 MB de cada URL HTML, incluindo cabeçalhos HTTP. Para PDFs, esse limite é definido em 64 MB. O valor padrão para crawlers que não especificam um limite é de 15 MB.
O que realmente acontece:
- O download é interrompido em 2 MB. O Googlebot não rejeita a página, apenas interrompe o download exatamente no limite de 2 MB. A parte capturada é então enviada para os sistemas de indexação e para o Serviço de Renderização da Web (WRS) como se fosse o arquivo completo.
- Tudo o que excede é invisível. Os bytes além desse limite não são capturados, processados ou indexados. Para o Googlebot, eles simplesmente não existem.
- Recursos relacionados são capturados separadamente. Cada recurso referenciado no HTML (exceto mídias, fontes e alguns arquivos exóticos) é baixado pelo WRS com seu próprio contador de bytes, independentemente da página principal.
Para a maioria dos sites, 2 MB de HTML representam um volume significativo. No entanto, algumas implementações podem causar problemas: imagens no formato base64 integradas diretamente ao HTML, blocos extensos de CSS ou JavaScript, ou grandes menus no início do código. Se esses elementos empurrarem seu conteúdo textual ou dados estruturados além do limite, o Googlebot nunca poderá vê-los.
Renderização: O Que o Serviço de Renderização da Web Faz Com Esses Bytes
Após os bytes serem capturados, o WRS entra em ação. Como um navegador moderno, ele executa JavaScript e CSS no lado do cliente e tenta entender o estado final da página. Além disso, processa solicitações XHR para entender melhor o conteúdo textual e a estrutura da página, mas não carrega imagens ou vídeos.
Dois pontos importantes a serem lembrados: O WRS só pode executar o código que foi realmente baixado pelo processo de download e opera sem estado. A cada solicitação, ele limpa os dados de armazenamento local e de sessão, o que pode impactar a interpretação de elementos dinâmicos dependentes de JavaScript.
Boas Práticas para Otimizar o Rastreamento de Suas Páginas
O Google oferece algumas sugestões diretamente aplicáveis:
- Mantenha seu HTML leve. Exporte CSS e JavaScript para arquivos separados. Esses recursos são capturados independentemente e vêm com seu próprio limite de 2 MB.
- Coloque seus elementos críticos no topo do documento. Meta tags, títulos, canônicos, links e dados estruturados básicos devem estar o mais cedo possível no código HTML, eliminando o risco de cair abaixo do limite.
- Monitore seus logs de servidor. Altos tempos de resposta fazem com que os crawlers do Google reduzam automaticamente a frequência de rastreamento, evitando sobrecarregar sua infraestrutura.
O Google observa que esse limite de 2 MB não é fixo e evoluirá à medida que a web se desenvolve.
Mudança de Intervalos de IP dos Crawlers
Ao mesmo tempo, o Google anuncia que os arquivos JSON listando os intervalos de IP de seus crawlers estão mudando. Esses arquivos, que anteriormente estavam disponíveis em /search/apis/ipranges/ no developers.google.com, estão sendo movidos para um local mais geral: developers.google.com/crawling/ipranges/.
Essa mudança reflete uma realidade mencionada anteriormente: esses intervalos de IP não dizem respeito apenas ao Googlebot Search. O caminho antigo permanecerá acessível durante o período de transição, mas o Google planeja removê-lo e implementar um redirecionamento em 6 meses. A documentação oficial foi atualizada para redirecionar para o novo local.
Comentários
(4 Comentários)