Je ne sais pas si vous vous souvenez de la crise Wikio ? coZop a la chance de ne pas être aussi gros, mais sinon, sur le fond, il y a autant à dire, sinon plus.

Si vous ne connaissez pas, coZop est un site du type Paperblog, c’est à dire une plateforme sur laquelle on s’inscrit pour faire republier ses articles, et bénéficier ainsi d’une plus grande diffusion. Les articles sont republiés intégralement ce qui suscite de nombreuses questions sur les risques de duplicate content et le « vol » de contenu, interrogations bien légitimes auxquelles coZop répond sur son blog.

Avant de détailler ce qui me fait bien rire, je tiens à repréciser : il faut savoir ce qu’on attend de ses plateformes, et ne pas tenter de les utiliser pour augmenter son positionnement, son indexation, ou son trafic. En revanche, si on cherche simplement à diffuser ses idées plus largement, elles sont utiles.

Maintenant rentrons dans le vif du sujet 🙂

Pour Cozop, le duplicate content n’est pas dangereux, il est même utile pour valoriser votre site

Premier post à ce sujet, le 18 février 2008, le Duplicate Content n’est pas un danger pour vous.

Ça commence très honnêtement :
Si personne ne peut avoir de certitude à ce sujet parce que personne ne connaît les détails des algorithmes des moteurs, celui de Google en particulier

mais ça se gâte tout de suite après

mon expérience me prouve que republier des billets ne nuit pas à leur référencement, et RankSpirit est de mon avis.

Pas de bol, ce n’est pas ce que dit RankSpirit. En fait RankSpîrit dit même exactement le contraire, le duplicate content est dangereux.

La « sandbox », le « blacklistage » ou la perte de « PageRank » ne découlent jamais d’un phénomène de « Duplicate Content », excepté dans un cas bien particulier : lorsque deux pages sont très exactement identiques (lire à ce sujet la page « URL canonique » du site Annuaire-​​Info). Les pages qui sont retirées des résultats ne sont pas pour autant désindexées. Elles figurent toujours dans les index des moteurs de recherche et conservent leurs PageRank (sauf dans le cas particulier évoqué ci-​​dessus). Si une petite portion de leur contenu est originale (cas de pages similaires, mais non identiques) elles figureront toujours dans les résultats de recherche portant sur ce contenu original.

En clair : le duplicate content ne pénalisera pas un site entier, mais il enverra la page dupliquée dans les profondeurs des résutats annexes, sauf pour les parties considérées comme originales.

Et donne plusieurs exemples d’où il ressort qu’en gros, c’est le site avec le plus fort PR qui passe en premier.
Depuis les choses ont évolué, et Google tente d’identifier la page source, mais cette identification passe par deux critères : la page indexée en premier (donc le site le plus gros, le plus souvent mis à jour, qui sera crawlé beaucoup plus régulièrement et qui a de fortes chances d’être indexé avant la source), et le site avec le meilleur trustrank.
Et ce ne sont que des améliorations de l’algo, sans aucune garantie.

Si on ne pouvait pas spammer les résultats, ça se saurait.

Copier un article le valorise, au contraire, dit coZop

Là j’avoue que je suis tordue de rire sous mon bureau… je vous laisse juge :

les articles de wikipedia sont souvent republiés à tour de bras. Cela n’empêche pas wikipedia d’être presque systématiquement dans les tops résultats.

La prééminence de Wikipedia sur les autres sites est liée à son énorme volume, à son linking interne, à son absence de liens sortants en dofollow, et surtout à son énorme trustrank, certainement pas aux copies de ses articles.

D’ailleurs dans un autre article, — décidément le sujet est sensible — on voit bien que la vision coZop n’est absolument pas orientée vers le référencement et les mécanismes web.

Est-​​ce qu’en dupliquant sur des milliers de sites la Déclaration Universelle des droits de l’homme nous diminuons sa valeur ? Non. Au contraire, nous lui donnons plus de visibilité. C’est le principe des tracts qu’on colle partout. Plus des textes sont dupliqués, plus ils ont de chances de trouver des lecteurs.

Si je me replace au cœur du sujet, la duplication sur des milliers de site de cette déclaration conduit à une mission impossible pour le petit webmaster pour positionner un article même original sur ce sujet. La masse de contenu tue l’originalité.
Pour le webmaster, la « valeur » d’une page c’est sa capacité à monter dans les résultats.
C’est sa capacité à drainer du trafic vers son site (et éventuellement à promouvoir d’autres articles).
Bref, c’est sa capacité à être remarquée.
Le duplicate content tue cette originalité.

L’incompréhension manifeste du mécanisme de duplicate content

Continuant ma lecture, je vois que Google lui même confirme ne pas pénaliser les contenus dupliqués.
Surprise, grande nouvelle, tremblement dans le monde du référencement.
Je me précipite vers la source Google citée.

Comment dire ? Est ce parce qu’elle est en anglais ?

J’y lis une explication sur les mécanismes de duplicate content internes à un site, (notamment avec le problème des urls menant vers un contenu identique), et un avertissement très clair :

Syndicate carefully: If you syndicate your content on other sites, Google will always show the version we think is most appropriate for users in each given search, which may or may not be the version you’d prefer. However, it is helpful to ensure that each site on which your content is syndicated includes a link back to your original article. You can also ask those who use your syndicated material to block the version on their sites with robots.txt.

Donc en français :

Syndiquez vos contenus avec précaution : si vous mettez vos contenus sur d’autres sites, Google montrera toujours la version qu’il considère comme étant la plus pertinente pour une recherche donnée, qui peut être ou pas la version que vous préféreriez. Quoi qu’il en soit, il est utile pour y parvenir que les sites qui syndiquent votre contenu fassent un lien vers la source originale. Vous pouvez aussi leur demander de bloquer l’indexation sur leur site avec un fichier robots.txt

Et en explication claire : Google fait ce qu’il veut, comme il veut, c’est le contenu d’une page donnée qui compte. Le seul moyen efficace, c’est que l’agrégateur bloque l’indexation de son propre contenu (mais dans ce cas… walou l’agrégateur).

Pour transcrire cela en « Google confirme ne pas pénaliser les contenus dupliqués » il faut avoir de sérieuses lacunes en anglais, ou en mécanismes web, ou les deux (je m’abstiens bien sûr de tout procès en mauvaise foi).

Le lien retour est il efficace ?

J’ai étudié quelques pages coZop.
En moyenne, il y a plus de 70 liens. (Mais moins de 100, ce qui montre une attention aux consignes de base de Google, celle là a été bien comprise).
Et un seul lien vers la source de l’article

Le pire, c’est que ce lien n’est absolument pas optimisé. On aurait pu espérer par exemple qu’il reprenne le titre de l’article, histoire de donner à l’auteur une petite ancre qui va bien ?

Raté.

Il y a selon coZop 1.155.582 articles. Il y a donc 1.155.582 liens avec le même libellé, « accéder à la source ».
Et 1.155.582 liens vers le contenu dupliqué sous forme de page à imprimer, sur coZop bien sûr, contenu qui n’est pas interdit dans le fichier robots.txt.

Je vous copie celui ci dans sa grande simplicité :

User-agent: *
Disallow: /_ajax/
Disallow: / _ /
User-agent: LiteFinder
Disallow: /
Sitemap:

De deux choses l’une, ou coZop n’a pas cherché à éviter le duplicate content sur les versions imprimables, qui sont sous la forme cozop.com/_print/nom d’article, ou alors ils pensent que /​_​/​ fait le travail, et dans ce cas ils interdisent aussi leur sitemap.

Ce qui en soit n’est pas très grave, puisque voici le contenu du sitemap


Une url retour avec une ancre répétitive, perdue au milieu de plusieurs dizaines d’ancres textuelles internes dans le site ne fait pas le poids pour prouver la source originale d’une page. Et surtout le contenu rajouté par coZop donne plus de poids au contenu dupliqué, c’est la force de ses agrégateurs

Edit : les liens sur les versions imprimables sont en noindex nofollow. Honte à moi, je n’avais pas vu. Donc pas de duplicate content sur cette page.

coZop et les droits d’auteurs

Un des côtés sympathiques de cette entreprise un peu amateur, c’est la volonté affichée de partager les revenus.

Après tout, si on détourne du positionnement, on peut donner des sous à la place.
C’est le fond de leur idée de base, l’auteur qui voit son livre « copié » à de multiples exemplaires en reçoit des revenus supplémentaires.

Affichée, mais réelle ?
Les bons comptes font les bons amis, je me servirai uniquement des chiffres donnés par coZop.
700 USD de revenus AdSense en novembre 2008. (Je ne donnerai pas le CPM, je vous rappelle que vous ne devez pas diffuser ces chiffres selon le contrat AdSense).
Partagés à 50% avec les auteurs.
Bien.
Donc 350 USD.
A partager avec 7.821 sources.
Ce qui nous fait 4,5 centimes par auteur.
Je ne vais pas être mauvaise langue, mais en 15 jours de revenus partagés sur WRI, j’ai fait largement mieux.

Bon 4 centimes par mois et par auteur, ça nous fait 2.500 mois pour atteindre le seuil des 100 euros de reversement.

coZop est une banque virtuelle qu’ils disent… même en imaginant que 20%, allez 10% des auteurs fassent 80% des revenus, il va falloir très sérieusement optimiser la pub pour que ça soit un jour autre chose qu’un partage virtuel.

Mais il y a autre chose de très drôle dans gestion des droits d’auteurs chez coZop.
N’importe qui peut inscrire un flux chez eux. — ce qui est le cas de la plupart des agrégateurs.
Mais si quelqu’un vous a inscrit, et que vous voulez en partir, là ça devient plus compliqué.
Il faut identifier votre site. Après tout, why not ?

C’est la méthode d’identification qui est croquignolette.
Voilà les instructions qu’un webmaster a reçu :
Pour récupérer une source, nous devons nous assurer que vous en êtes le propriétaire.
Avant de valider ce formulaire, placez sur www.example.com/ le lien suivant : < 'a href=" -http://cozop.com" rel="codeidentification">Je publie sur coZop< / 'a>

Tout BL est bon à prendre ?

Alors juste pour info, la méthode du Dieu Google tout puissant qui ne pénalise pas le duplciate content au contraire ça lui prouve que le texte a de la valeur (j’en rigole encore) : charger sur son espace ftp un petit fichier avec un nom unique. Il suffit de chercher à afficher le fichier, et voir si on a un code 200 ou un code 404.
Pas besoin d’un BL particulièrement énervant quand on cherche à quitter un site qui vous pose des problèmes.

Et la poire pour la soif

C’est cette demande « technique » :
Nous préparons une nouvelle version du robot pour essayer de mieux capturer les articles non publiés en intégralité dans les flux. Dès sa mise en ligne, la restitution de ces articles devrait être meilleure.
PS : Pour faciliter le travail du robot, essayez de structurer les templates de vos blogs. Veillez par exemple à ce que le contenu d’un article soit positionné dans une div. De nombreux blogs possèdent une structure flottante et notre robot a souvent du mal à délimiter les articles. Le titre, la date et les commentaires devraient idéalement se situer dans une div différente par rapport au corps du texte. Nous espérons toutefois réussir à rattraper même ces cas de figure.

Je rêve.
Enfin c’est pas grave, parce que jamais je ne publierai sur coZop. Mais je vais m’abonner à leur blog. Malgré toutes les pages en 404.

Que pensez-vous de cet article ?
Super0
Bien0
Bof0
Nul0
Poster un commentaire