17 mai, 2006 at 14:30
· Dans la catégorie Référencement
Dans un long billet, Matt Cutts revient sur la mise en place de Bigdaddy, la désindexation de certains sites, et fournit des éléments laissant à penser qu’une stratégie de liens trop fortement basée sur l’achat de liens ou l’échange de liens réciproques peut être nuisible.
Sur Bigdaddy : Cette mise à jour logicielle de de l’algorithme a concerné essentiellement la partie du moteur dédiée au crawling, et dans une moindre mesure, celle dédiée à l’indexation. Débuté en décembre 2005, le déploiement de Bigdaddy s’est achevé fin mars.
De nombreux webmasters ont signalé au début de Bigdaddy la désindexation d’une partie de leur site. Après examen, il s’est avéré que les sites désindexés affichaient en général des liens de qualité douteuse, comme des liens réciproques trop systématiques, ou des liens vers des réseaux identifiés comme étant du spam. En conséquence, la tolérance de l’algorithme a été revue à la hausse, afin d’indexer plus de pages de ce type.
Certains sites continuent cependant d’afficher un nombre réduit de pages indexées. Matt Cutts donne quelques pistes pour expliquer ce phénomène : “Je m’intéresserais en priorité à la qualité de mes liens si je voulais voir plus de pages crawlées. Depuis cet update, nous avons amélioré la façon dont nous traitons les liens réciproques et l’achat de liens (…) Si vous étiez crawlé plus fréquemment avant l’update, et que vous échangez beaucoup de liens réciproques, ne soyez pas surpris si le nouveau robot a désormais d’autres priorités et vient moins fréquemment (…) Il est probable que des webmasters très actifs dans l’échange de liens se voient moins crawlés (…) Si vous avez un site qui ne fait que de l’affiliation, il serait bon de penser à la valeur ajoutée que votre site apporte à l’utilisateur”.
Transcrit avec l’autorisation expresse de Sébastien Billard (Bigdaddy et stratégie de liens)
28 avril, 2006 at 10:00
· Dans la catégorie Produits & Services Google
De nouvelles fonctionnalités pour Google Sitemaps…
En vous connectant à votre compte Google Sitemaps, vous pourrez constater quelques changements, non seulment en ce qui concerne le look&feel de Google Sitemaps, mais également du point de vue des différentes fonctionnalités offertes.
Google Sitemaps est conçu et pensé comme une interface de dialogue entre Google et les webmasters, avec pour objectif de fournir un maximum d’informations permettant d’optimiser la visite des sites Internet par Google, autant que leur indexation.
Nouvelles méthodes de vérification
La plupart des fonctionnalités de Google Sitemaps ne sont accessibles qu’aux détenteurs des sites (ayant accès au serveur - et non pas uniquement au contenu), ce qui grevait beaucoup de webmasters qui ne pouvaient utiliser le système de vérification de Google Sitemaps (un ficher vide nommé GOOGLE***.html à placer à la racine du site…). L’équipe de Sitemaps a mis en place une méthode de vérification alternative qui utilise une balise META à insérer dans la section de la page d’accueil.
Lire la suite »
26 avril, 2006 at 12:00
· Dans la catégorie Produits & Services Google
Matt Cutts fait la lumière sur le système de cache inter-robots crawl caching proxy mis en place par Google.
Afin d’éviter de consommer trop de bande passante, Google a mise en place en même temps que la “migration BigDaddy” un système de mise en cache inter-robots, fonctionnant un peu à la manière des caches de fournisseurs d’accès.
Là où auparavant le(s) robot(s) de chaque service Google (GoogleBot, AdSense MediaBot, blogsearch, etc…) allait récupérer la page nécessaire à son service, les pages indexées par les différents robots sont disponibles aux autres robots également.
Par exemple: Si le service “X” a eu besoin de récupérer les pages d’un site, et que le service “Y” en a besoin un peu plus tard, Google va parfois utiliser la page qui se trouve dans le “caching proxy”.
La question se posait de savoir si les autres robots que le robot dit “d’indexation” (GoogleBot) suivent les règles édictées par le fichier robots.txt; Matt Cutts rassure le public en indiquant que si l’indexation est interdite à un robot, le fait qu’un autre robot ait pu récupérer la page ne permet pas pour autant au robot “interdit de lecture” de récupérer cette même page.
Les robots continuent de respecter les règles édictées par robots.txt.
A noter également que les données contenues dans le “crawl caching proxy” ne sont pas les mêmes données que celles qui sont affichées lorsqu’on clique sur le lien “Page en cache” dans les résultats de recherche.
Matt Cutts attire l’attention sur le fait que la participation au programme AdSense ou le fait de participer à blogsearch ne permet pas d’obtenir “plus de visites des robots” ou un meilleur positionnement dans l’index de quelque façon que ce soit.
20 avril, 2006 at 11:00
· Dans la catégorie Référencement, Google AdSense
Des résultats en provenance de MediaBot (AdSense Mediapartners bot) utilisées par Big Daddy…
Matt Cutts a confirmé dernièrement que le robot Mediapartners de Google AdSense indexe des pages et les fournit à l’index de Big Daddy.
On retrouve des preuves que le passage du robot d’AdSense Mediapartners (à des fins de ciblage des publicités contextuelles Google AdSense) se retrouvent dans les résultats de recherche de Google.

Matt Cutts confirme ces rumeurs à propos de résultats glanés par Mediabot qui se retrouvent dans Big Daddy. Matt Cutts indique qu’il s’agit d’un moyen de préservation de bande passante qui fait que GoogleBot et MediaBot contribuent tous deux à l’index de Big Daddy.
Matt Cutts indique qu’il n’y a rien à y gagner d’un point de vue positionnement. Le fait qu’un contenu ait été indexé par GoogleBot ou par MediaBot ne changerait rien en termes de positionnement dans l’index. Néanmoins, il indique aussi que cela pourrait servir de méthode de détection de pages masquées (cloaking) à l’un des deux robots.
Force est de constater qu’il existe une faille, en ce sens qu’un contenu qui serait interdit à l’indexation par GoogleBot (via robots.txt) pourrait néanmoins être indexé par MediaBot.
Source: JenSense (anglais)
Addendum: Après vérification, les conditions d’utilisation du programme Google AdSense stipulent à l’article 16. que Google s’autorise à indexer et à mettre les pages en cache:
“En outre, vous autorisez Google à accéder au(x) Site(s), à indexer et à mettre en cache tout ou partie du(des) Site(s), y compris par des moyens automatiques tels que des robots d’indexation (« spiders ») ou d’exploration (« crawlers ») Web.”