Avec de plus en plus d’IA apparaissant dans les recherches Google ces derniers temps, je me suis penché très dur sur ce seul mot magique qui fait fonctionner Internet: Reddit. Il a ses problèmes, mais ajouter « Reddit » à une recherche est toujours le pari le plus sûr que j’ai d’obtenir une opinion honnête d’une vraie personne, ce qui est plus que ce que je peux dire pour d’autres plateformes. Malheureusement, il semble que l’astuce « Reddit » soit sur le point de devenir beaucoup moins utile, et encore une fois, vous pouvez en blâmer l’IA.
Le problème avec tout forum en direct est que les informations viennent et viennent pendant que les gens suppriment les anciens publications et les nouvelles mises à jour rompent les parties plus anciennes du site. Il y avait un moyen de contourner cela, mais à l’avenir, cette échappatoire se ferme.
Oui, Reddit est sur le point de commencer à bloquer les archives Internet. Le site, géré par un organisme à but non lucratif dédié à la préservation de l’Internet ouvert, est hébergeant la machine Wayback, une façon populaire de parcourir les pages Internet qui ne sont plus actives ou qui ont changé de manière significative depuis leur première hausse. Entrez simplement une URL dans la zone de recherche de la machine, et vous pourrez parcourir les captures de ce à quoi ressemblait cette page, allant parfois aussi loin que les années 1990.
C’est un moyen utile de voir comment un site a changé ou d’accès à des informations censées être révolues depuis longtemps. Dans le cas de Reddit, vous pouvez l’utiliser pour regarder, par exemple, une revue d’hôtel qui a été supprimée depuis. Bien sûr, vous pourriez vous sentir un peu gênant de lire un article qui a été délibérément supprimé, mais parce que la suppression de tous vos fils lorsque vous quittez le service est une pratique courante, la machine Wayback est un excellent moyen de préserver le contenu utile bien dans le futur et d’empêcher les mèmes classiques de devenir des médias perdus.
Malheureusement, alors que Reddit dit que ce n’est pas contre la machine Wayback en général, il est sur le point d’empêcher les archives Internet d’indexer quoi que ce soit, mais la page d’accueil de Reddit, ce qui signifie que les seules archives qu’il pourront continuer seront des listes de ce qui était populaire sur Reddit un certain jour. Les sous-verres et les publications individuels seront bloqués.
Ce n’est pas totalement inutile, disons que si vous êtes chercheur sur Internet, mais cela rendra tous les futurs threads Reddit beaucoup plus temporaires, et nuira certainement aux recherches sur le Web. Si je passe en revue un hôtel maintenant, puis supprime mon fil, les utilisateurs dans un mois ou deux ne pourront pas le voir facilement. Du bon côté, les archives existantes ne doivent pas être affectées par ce bloc, au moins à moins que Reddit ne demande aux archives Internet de retirer les captures existantes. Mais au fil du temps, le manque d’archives Reddit ne fera que devenir un problème plus important.
Alors pourquoi cela se passe-t-il? Fondamentalement, Reddit n’aime pas les entreprises d’IA grattant le contenu de son site, du moins sans le payer d’abord.
« Internet Archive fournit un service au Web ouvert », a déclaré le porte-parole de Reddit, Tim Rathschmidt, à The Verge, « mais nous avons été informés des cas où les sociétés d’IA violent les politiques de plate-forme, y compris les nôtres, et de gratter les données de la machine Wayback. »
Essentiellement, Reddit veut contrôler étroitement les sociétés d’IA avec lesquelles il travaille (il est poursuivi à ce sujet auparavant), et a empêché la plupart d’entre eux de ramper son site. Cependant, avec certains qui se tournent ensuite vers le grattage des pages Reddit capturés par les archives Internet, la société va maintenant également réprimer ces captures. Fondamentalement, nous payons le prix de quelques mauvaises pommes.
Rathschmidt a déclaré à The Verge que les limites des archives Internet commenceraient à « s’accélérer » aujourd’hui, bien qu’il ne soit pas entièrement clair sur la façon. J’ai contacté Reddit pour plus de détails, mais pour l’instant, j’ai vérifié le double, et je suis toujours en mesure d’accéder aux archives qui existent déjà, donc au moins Reddit n’est pas encore devenu nucléaire.
En ce qui concerne les futurs messages, tout pourrait ne pas être perdu. Le Verge a également parlé au directeur de Wayback Machine, Mark Graham, qui a déclaré que les archives Internet avaient une « relation de longue date avec Reddit » et qu’il y a « des discussions en cours à ce sujet ».
