La presse, Google et le fichier robots.txt…


google

Google vient d’annoncer une modification de son mode de lecture du fichier robots.txt. Une occasion pour revisiter les rapports entre la presse française et le géant américain.

Le fichier robots.txt permet aux programmes d’indexation automatiques des moteurs de recherche de vérifier, avant de tout archiver, quels fichiers, quels répertoires le propriétaire du site est prêt à laisser archiver, ou pas. En clair, on peut y définir si tel ou tel répertoire, tel ou tel fichier est librement indexable par les moteurs de recherche.

La presse française, qui n’a pas encore réussi à transformer l’arrivée du Web en opportunité financière pour compenser ses pertes de recettes et de lecteurs, cherche depuis très longtemps comment tirer un bénéfice de ce nouveau canal. Une idée lui est venue il y a un certain temps : faire payer ceux qui ont largement bénéficié d’Internet en termes financiers. Première cible Google. Mais comment faire ?

En l’accusant de pillage.

Google News reprend en effet de courtes citations des articles de presse et pointe ses visiteurs vers les sites des éditeurs.

Sur le papier, ça ressemble à une opportunité gratuite pour les sites de presse de gagner des lecteurs.

Vu par le secteur de la presse, cela se traduit par : Google gagne de l’argent sur notre dos avec son service, en vendant de la publicité. Sans nous, pas de contenu, donc pas de service, donc pas de recettes. Google doit donc partager les bénéfices.

Concrètement, Google devrait rémunérer les différents éditeurs de presse français pour chaque article indexé, c’est-à-dire rendu accessible par le moteur de recherche. En contrepartie, les médias renonceraient à leur droit de s’opposer à toute indexation. Un projet de loi en ce sens a déjà été remis par l’association à Matignon et aux ministères de la Communication et de l’Economie numérique.

Expliquait en 2012 Nathalie Collin, présidente de l’association de la presse d’intérêt politique et générale (IPG) et co-présidente du « Nouvel Observateur« .

S’ils se sentent pillés, les journaux ont un moyen très efficace pour empêcher Google de le faire. C’est là que l’on revient à notre fameux fichier robots.txt.

En ajoutant les lignes suivantes :

User-agent: Googlebot
User-agent: Googlebot-News
User-agent: Googlebot-Image
User-agent: Googlebot-Video
User-agent: Googlebot-Mobile
Disallow: /

Les contenus des sites de presse ne seraient plus référencés par les robots de Google.

Ce qui n’est évidemment pas le cas.

La plupart des fichiers robots.txt de la presse française ouvre grandes les portes de l’indexation, y compris pour Google News. On y découvre, par exemple sur celui du Nouvel Observateur, une liste interminable de robots indexeurs qui n’ont pas le droit d’indexer le site. Ainsi que quelques articles qui, probablement suite à une décision de justice, ne doivent pas être indexés.

Voici quelques liens vers des fichiers robots.txt pour les curieux :

 

Laissez un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *