Google vient de bloquer 749 millions d’URL pour les archives d’Anna

Qui diable est Anna ?

Anna’s Archive, un site Web populaire pour le piratage de livres et d’articles, semble être dans le collimateur de Google, selon la publication TorrentFreak sur les droits d’auteur et les droits numériques. Le géant de la recherche aurait empêché quelque 749 millions d’URL d’archives d’Anna d’apparaître dans les résultats de recherche, a découvert TorrentFreak, après avoir examiné un récent rapport de transparence.

La suppression n’était pas nécessairement ciblée, car Google supprime régulièrement du contenu à la demande des détenteurs de droits d’auteur. Au moment d’écrire ces lignes, Google a supprimé des liens vers 15 125 359 564 pages depuis 2011. Mais il s’agit du dernier d’une saga en cours, provoquée par l’IA, qui voit les détenteurs de droits d’auteur sévir contre les soi-disant « bibliothèques fantômes », et cela représente déjà environ 5 % des retraits globaux de Google.

Anna’s Archive est une plateforme de livres électroniques piratés

Personnellement, je n’avais pas entendu parler d’Anna’s Archive, ce qui est logique : c’est un acteur plus récent dans le domaine. La plateforme est apparue en 2022, peu de temps après que son prédécesseur, Z-Library, ait vu ses domaines saisis par le ministère américain de la Justice. Depuis lors, il fonctionne discrètement sur son propre petit coin d’Internet, servant de moteur de recherche open source d’œuvres littéraires qui renvoie à des sources gratuites accessibles au public lorsqu’elles existent, et à des téléchargements piratés lorsqu’ils n’existent pas. Comme Z-Library, elle a été bloquée par les FAI allemands et poursuivie en justice aux États-Unis, mais reste opérationnelle.

On peut y penser un peu comme Pirate Bay, mais pour les œuvres littéraires, mais à plus grande échelle (impressionnant étant donné sa nouveauté). TorrentFreak note que seulement 4,2 millions d’URL de Pirate Bay ont été supprimées de Google, ce qui est dérisoire comparé aux chiffres d’Anna’s Archive.

Le scraping de l’IA pourrait être un facteur

Cet écart pourrait être dû à des demandes de retrait plus agressives de la part des éditeurs et des auteurs, puisque plus de 1 000 utilisateurs distincts ont émis des demandes de retrait à ce jour, selon les données de Google. Il s’agit à la fois d’individus et de grands noms comme Penguin Random House, et leur diligence pourrait être liée à la position d’Anna’s Archives sur l’IA, car le site a admis avoir fourni gratuitement un accès à 30 développeurs LLM pour se former sur ses « archives illégales de livres », et héberge toujours ouvertement des pages librement accessibles aux autres.

La direction que prendront les détenteurs de droits d’auteur et les lecteurs à partir d’ici reste en suspens. Il est important de noter que, malgré toutes les apparences du contraire, Google n’est pas propriétaire d’Internet. Supprimer un site de son moteur de recherche n’empêche pas les utilisateurs de le visiter directement, et les trois domaines Anna’s Archive (annas-archive.org, annas-archive.se et annas-archive.li) restent actifs.

De plus, Anna’s Archive n’héberge pas elle-même de contenu piraté, mais fournit simplement aux utilisateurs des liens où ils peuvent le trouver. Tout cela le place dans une zone grise juridique, ce qui, lorsqu’il est soutenu par la nature open source du site et par son fort engagement en faveur de l’idéal selon lequel « la conservation et l’hébergement de ces fichiers sont moralement justes », signifie que cela est susceptible de continuer sous une forme ou une autre pendant des années.

Néanmoins, comme des entreprises comme Meta ont utilisé du contenu piraté pour entraîner leurs modèles d’IA, il est probable que les actions de Google deviendront plus courantes et que d’autres sites, voire des entités juridiques, pourraient emboîter le pas. Planifiez en conséquence. (Et si, comme moi, vous vous demandez « Qui diable est Anna ? » la FAQ de l’archive a une réponse : « Vous êtes Anna. » C’est un clin d’œil aux téléchargeurs anonymes qui lui fournissent une grande partie de son matériel.)