Les erreurs sont parfois une occasion d’apprendre, et le mois dernier j’ai fait une des plus belles bêtises qui soit, heureusement sur un site dont le propriétaire est à la fois mon client et mon mari… autrement dit, une bêtise interne.

En cours de développement de la nouvelle version de notre agence de voyage à Ouarzazate, j’ai chargé sur la version en production le robots.txt de la version de développement, avec un joli « Disallow:* »

La sanction a été très rapide mais je ne m’en suis pas aperçue tout de suite, car on était en pleine période de bouleversements dans les SERPS, et je voyais que les concurrents sur les requêtes plongeaient aussi, ou remontaient (mais pas moi). Ayant déjà vécu ce genre de bouleversements, je ne me suis pas inquiétée avant que le trafic chute brutalement, c’est-à-dire que Google ne m’envoyait plus qu’une dizaine de visiteurs, et avait désindexé presque toutes mes pages.

Coup d’adrénaline, coup d’oeil à la console GoogleWebmaster Tools, identification du problème, correction, et attente… nous étions le 5 février, et selon le graphique de passage du bot, j’avais envoyé le mauvais robots.txt le 23 janvier. Il avait donc eu tout le temps de faire son effet.
Et on voit maintenant sur la courbe de passage du bot un beau trou…

 

Du 5 février à maintenant, j’ai plus que régulièrement interrogé mes stats, toutes mes stats, pour voir si j’arrivais peu à peu à remonter le problème. J’en ai tiré un certain nombre d’informations, sur le fonctionnement des « GoogleTools » et ce à quoi ils peuvent vraiment servir.

La structure du site et des sitemaps

La partie francophone du site est gérée de façon séparée, avec une géolocalisation.

Il y a trois sitemaps, pour des raisons pratiques : un pour le site proprement dit, un pour le blog, généré par un plugin, et un pour les fichiers .kml. Et donc un sitemap de sitemap, qui est le seul soumis dans GWT.

Au niveau du blog, il y a un problème identifié de duplicate content sur les pages de catégories, avec deux versions d’url : celle avec uniquement l’identifiant de la catégorie, et celle avec toute la hiérarchie des catégories mères. C’est un problème qui sera réglé dans la prochaine version. Les urls présentes dans le sitemap du blog sont les « mauvaises » url, avec toute la hiérarchie de catégorie, les « bonnes » urls sont dans le site, sous forme de liens internes.

Dans le blog, les urls « primaires » (celles avec l’appel du paramètre), et les archives calendaires sont interdites par le robots.txt. Il y a donc environ une centaine de pages qui sont légitimement bloquées par le robots.txt

Le rythme de ré-​​indexation

La journée du 5 au 6 février a été assez longue et stressante.
En effet, Google ne charge le robots.txt qu’une fois toutes les 24 heures, et bien sûr il l’avait chargé une heure avant que je m’aperçoive du problème.
La désindexation a donc continué, pour s’arrêter seulement à partir du 7 février.

J’ai deux sources d’informations différentes :

  • le tableau de bord de GWT, dont les informations sont fausses
  • le résultat de la requête site:mondomaine, avec deux chiffres : le total des pages, et les pages sans les résultats complémentaires

Ces deux derniers chiffres sont très différents de ceux indiqués dans GWT.

Réindexation des pages (GWT vs. commande site)

Google a eu un comportement que je qualifierais de « glouton ». Il a d’abord rechargé dans l’index secondaire toutes les pages qu’il pouvait trouver, puis il a fait son tri, et a commencé à ré-​​indexer dans l’index primaire, à un rythme plus calme. Puis, au bout de deux semaines, il a supprimé — et il continue à le faire — les pages qu’il jugeait inutiles. A partir du 19–20 février, il diminue fortement le nombre de pages « inutiles », tout en continuant à augmenter le nombre de pages indexées.

Nombre de pages par index

Et pendant ce temps, le nombre de pages indiquées comme indexées dans GWT est totalement décalé de ce qui ressort dans les SERPs.

La ré-​​indexation en détail

J’ai donc regardé en détail par sitemap, et exécuter tous les jours une requête avec Advanced Web Ranking pour savoir quelles étaient mes pages indexées.

Voici le tableau de synthèse des trois sitemaps :

Indexation des différents sitemap

Alors que le sitemap maitre est chargé tous les jours, les sitemaps qui montrent réellement les urls ne sont pas chargés tous les jours.

Or j’ai écrit quelques articles dans le blog, qui ont été immédiatement indexés.
C’est une confirmation : Google ne se base pas en priorité sur le sitemap pour crawler les pages d’un site et découvrir les nouveautés.

Alors que selon GWT, aucun de mes 104 fichiers kml ne sont indexés, en réalité, il y en a au moins 4 dans les résultats de la commande site.

Enfin, et c’est là ce que je trouve le plus intéressant, comment Google a-​​t-​​il traité mes pages de catégories en duplicate content ?
Quelques unes, assez rares, apparaissent toutes les deux dans les pages indexées.
Quand une seule url apparait, c’est en majorité l’url qui est linkée dans le site (l’url courte donc), or celle ci apparait le plus souvent dans des liens in-​​texte, ou dans des menus dont les ancres sont variées. A l’inverse, les urls présentes dans le sitemap (donc avec la hiérarchie de catégorie) ont dans le blog des ancres moins optimisées, et se trouvent dans des pavés beaucoup moins variés quant au contenu.

Le linking interne et externe est vraiment le premier critère d’indexation, puisque ce sont mes pages sans liens externes qui ont été les dernières à disparaître de l’index (en fait c’était les seules qui restaient quand je me suis aperçue du problème), et les pages les plus fortement linkées ont été les premières à revenir.

En revanche, le linking n’est pas un critère de positionnement. Une fois ré-​​indexées, des pages avec un très faible linking peuvent être beaucoup mieux positionnées que d’autres.

Google vous ment

De la même façon que les infos sur les sitemaps ne reflètent pas la réalité de l’index, les infos sur les liens, internes et externes, ne reflètent pas la réalité.

  1. Elles sont mises à jour avec beaucoup de retard : aujourd’hui les liens les plus récents selon GWT datent de fin janvier
  2. des liens manifestement identifiés par Google (apparaissant notamment dans les referrers dans Google Analytics) ne sont pas mentionnés dans GWT

Durant cette période, j’ai essayé de pousser Google en appuyant fortement sur les communiqués de presse. Or ces liens n’apparaissent pas, ou avec beaucoup de retard, alors que mon outil de suivi des backlinks (Advanced Link Manager) les détecte dès l’indexation du communiqué de presse.

Google est glouton, mais il est pudique. Il n’a manifestement pas envie qu’on puisse voir ce qu’il mange, et comment.

D’où l’intérêt d’outils autres pour suivre son positionnement et ses backlinks.

Google vous dit la vérité

En revanche, quand Google vous indique un problème sur votre site, il est réel.

C’est l’erreur que j’ai faite, de ne pas surveiller d’assez près les avertissements. J’en connaissais un certain nombre, qui allaient être réglés dans la prochaine version, et je me concentrais sur le développement.

Aujourd’hui, je surveille mes problèmes d’exploration quotidiennement.

Suivant de façon détaillée les pages indexées, j’ai constaté que même l’amélioration de la qualité des pages (indications sur les balises meta et title) avait un impact sur l’indexation de ces pages.

En conclusion, le sitemap n’est pas un outil qui vous permet de dire à Google ce qu’il doit faire, mais un outil qui permet à Google de vous indiquer ses propres problèmes.

La situation au bout de deux semaines

J’ai retrouvé — et assez rapidement — mes positions sur les requêtes les plus concurrentielles.
Je n’ai pas retrouvé toutes mes positions sur les nombreuses petites requêtes qui constituaient ma longue traîne, et Google a encore une bonne centaine de mes pages à réindexer.
Le niveau de visites est presque revenu à la normale.

Évolution des pages et des visites

Pendant que j’étais au creux de la vague, le taux de rebond avait chuté fortement : moins de visites, mais plus qualifiées, manifestement.

Cet incident s’est produit en même temps qu’il y a eu les problèmes de crawl chez OVH. Si je vois chez moi quelle est la durée de retour à la normale, suite à un problème d’une durée à peu près similaire (mais avec un impact plus fort, à cause du robots.txt), je pense que les SERPS vont être encore instables sur une bonne semaine pour un certain nombre de requêtes où j’ai de nombreux concurrents chez OVH… ça tombe bien, ce sera à peu près le moment du lancement de la V4 !

Que pensez-vous de cet article ?
Super0
Bien0
Bof0
Nul0
Poster un commentaire