Crawl caching proxy


Crawl caching proxy

Matt Cutts fait la lumière sur le système de cache inter-robots crawl caching proxy mis en place par Google.
Afin d’éviter de consommer trop de bande passante, Google a mise en place en même temps que la “migration BigDaddy” un système de mise en cache inter-robots, fonctionnant un peu à la manière des caches de fournisseurs d’accès.

Là où auparavant le(s) robot(s) de chaque service Google (GoogleBot, AdSense MediaBot, blogsearch, etc…) allait récupérer la page nécessaire à son service, les pages indexées par les différents robots sont disponibles aux autres robots également.

Par exemple: Si le service “X” a eu besoin de récupérer les pages d’un site, et que le service “Y” en a besoin un peu plus tard, Google va parfois utiliser la page qui se trouve dans le “caching proxy”.

La question se posait de savoir si les autres robots que le robot dit “d’indexation” (GoogleBot) suivent les règles édictées par le fichier robots.txt; Matt Cutts rassure le public en indiquant que si l’indexation est interdite à un robot, le fait qu’un autre robot ait pu récupérer la page ne permet pas pour autant au robot “interdit de lecture” de récupérer cette même page.

Les robots continuent de respecter les règles édictées par robots.txt.

A noter également que les données contenues dans le “crawl caching proxy” ne sont pas les mêmes données que celles qui sont affichées lorsqu’on clique sur le lien “Page en cache” dans les résultats de recherche.

Matt Cutts attire l’attention sur le fait que la participation au programme AdSense ou le fait de participer à blogsearch ne permet pas d’obtenir “plus de visites des robots” ou un meilleur positionnement dans l’index de quelque façon que ce soit.

A lire également:

  • QualiSEO: une liste de 500 annuaires ! (2)
  • Google Analytics: nouvelles fonctionnalités + AdSense (0)
  • Résultats Google au format RSS (3)
  • Mort au Duplicate Content ! (15)
  • JavaScript Test: Google Chrome/FireFox/Internet Explorer (11)
  • Télécharger Google Chrome (5)
  • pagesperso.aol.fr: un site malveillant ? (3)
  • Google sur le point d'acquérir Digg (3)
  • ǝlƃooƃ noʎ ʞɔnɟ (9)
  • Secret Story: les denières 24h via Google ! (6)
  • AdSense ciblera bientôt le comportement de l'internaute (7)
  • Busby SEO challenge: black, white or pink ? (4)
  • Indexation express ? (1)
  • Ręceprecz odtybetu (concours SEO) (7)
  • Splash Page: Google passe l'intro (2)



  • Ajouter  Google Reader S'abonner via Mon Yahoo Ajouter  Netvibes Ajouter ce site sur Bookmarks.fr S'abonner via Bloglines

    Ajouter un commentaire