Des informations récentes obtenues ici et là concernant Google (et parfois Bing) répondent cette semaine aux questions suivantes : Est-il possible de rejeter complètement un TLD et comment ? La limite de crawl de Google est-elle définitive ?
Goossip #1Comment Rejeter un TLD
John Mueller (Google) a expliqué qu'il est possible de rejeter un TLD (par exemple .xyz) via la directive domain:abc dans le fichier de rejet de lien. Pour cela, il suffit d'ajouter domain:xyz au fichier de rejet afin de bloquer tous les liens provenant de ce TLD. Cependant, il n'est pas possible de faire des exceptions pour des noms de domaine spécifiques au sein du TLD rejeté.
Pourquoi c'est utile : Les TLD bon marché avec des conditions d'utilisation appropriées sont largement utilisés par les spammeurs. Cette fonctionnalité permet de gagner du temps au lieu de rejeter un à un des centaines de noms de domaine.
John Mueller admet que cela n'est pas officiellement documenté car c'est un outil très puissant ("un grand marteau"). Cependant, étant donné qu'il existe encore de bons sites dans tous les TLD, Google hésite à le recommander clairement.
Taux de fiabilité : ⭐⭐⭐ Nous sommes d'accord !
Avez-vous déjà pensé à utiliser une boule de démolition pour tuer un moustique ? Cette technique est un peu semblable. Bien que la procédure ne soit pas nouvelle, elle est peu connue en raison de son caractère radical et un peu risqué.
Goossip #2Les Limites de Crawl de Googlebot Sont Flexibles
Dans le dernier épisode de Search Off The Record, Gary Illyes et Martin Splitt ont révélé que les limites de crawl de Googlebot sont beaucoup plus flexibles que ce que nous pensons. La limite de 15 Mo est une limite par défaut définie au niveau de l'infrastructure pour protéger les serveurs de Google. Ce n'est pas définitif : chaque équipe interne peut la modifier. Par exemple, Google Search peut la réduire à 2 Mo, tandis que pour les PDF, cette limite peut atteindre jusqu'à 64 Mo.
Pourquoi ces limites existent : Ce n'est pas seulement une question de bande passante, mais aussi de protection de l'infrastructure. Le traitement d'un document excessivement volumineux (conversion, indexation, etc.) peut surcharger les systèmes de Google.
Martin Splitt a souligné que Googlebot n'est pas un système fixe et uniforme, mais fonctionne plutôt comme un service dont les paramètres peuvent être ajustés. Les paramètres peuvent varier en fonction du type de contenu (HTML, PDF, images), du projet et même de la vitesse d'indexation souhaitée.
Taux de fiabilité : ⭐⭐⭐ Nous sommes d'accord !
C'est un détail intéressant (et utile) qui soulagera un peu les professionnels et pourra rassurer ceux qui ont été affectés par les récentes déclarations de Google sur ce sujet.
Commentaires
(8 Commentaires)