Les scientifiques stockaient autrefois de l'acier pré-nucléaire ; aujourd'hui, nous stockons du contenu pré-IA

duJambon

Le catalogue récemment annoncé rassemble des sources antérieures à 2022 non touchées par la contamination de ChatGPT et de l’IA.

Ancien dirigeant de Cloudflare John Graham-Cumming, a récemment annoncé le lancement d’un site web, lowbackgroundsteel.ai, qui traite le contenu créé par l’homme avant l’apparition de l’IA comme une ressource précieuse – une capsule temporelle d’expression créative organique datant d’une époque où les machines n’étaient pas encore présentes dans le débat. « L’idée est de pointer vers des sources de textes, d’images et de vidéos créées avant l’explosion du contenu généré par l’IA », a écrit Graham-Cumming sur son blog la semaine dernière. La raison ? Préserver ce qui rendait les médias non IA si singulièrement humains.

Le nom de l’archive provient d’un phénomène scientifique de l’époque de la Guerre froide. Après le début des essais nucléaires en 1945, les radiations atmosphériques ont contaminé la production mondiale d’acier. Pendant des décennies, les scientifiques ayant besoin de métal exempt de radiations pour leurs instruments sensibles ont dû récupérer de l’acier provenant d’épaves de navires d’avant-guerre. Les scientifiques ont appelé cet acier « acier à faible bruit de fond ». Graham-Cumming établit un parallèle avec le web actuel, où le contenu généré par l’IA se mélange de plus en plus aux contenus créés par l’homme et les contamine.

Avec l’avènement de modèles d’IA générative comme ChatGPT et Stable Diffusion en 2022, il est devenu beaucoup plus difficile pour les chercheurs de garantir que les médias trouvés sur Internet ont été créés par des humains sans recourir à des outils d’IA. ChatGPT, en particulier, a déclenché une avalanche de textes générés par l’IA sur le web, forçant au moins un projet de recherche à cesser complètement ses activités.

Cette victime était wordfreq , une bibliothèque Python créée par la chercheuse Robyn Speer. Elle permettait de suivre la fréquence d’utilisation des mots dans plus de 40 langues en analysant des millions de sources, dont Wikipédia, des sous-titres de films, des articles de presse et les réseaux sociaux. Cet outil était largement utilisé par les universitaires et les développeurs pour étudier l’évolution du langage et créer des applications de traitement automatique du langage. Le projet a annoncé en septembre 2024 qu’il ne serait plus mis à jour car « le Web dans son ensemble regorge de données incomplètes générées par de grands modèles de langage, écrites par personne pour ne rien communiquer ».

Certains chercheurs s’inquiètent également de l’entraînement des modèles d’IA sur leurs propres résultats, ce qui pourrait entraîner une dégradation de la qualité au fil du temps – un phénomène parfois appelé « effondrement du modèle ». Cependant, des données récentes suggèrent que cette crainte pourrait être exagérée dans certaines conditions. Une étude de Gerstgrasser et al. (2024) suggère que l’effondrement du modèle peut être évité lorsque les données synthétiques s’accumulent aux côtés des données réelles, plutôt que de les remplacer entièrement. En fait, lorsqu’elles sont correctement organisées et combinées à des données réelles, les données synthétiques issues des modèles d’IA peuvent contribuer à l’entraînement de modèles plus récents et plus performants.

Une capsule temporelle de l’expression humaine

Graham-Cumming est un expert en préservation des technologies. Ingénieur logiciel et écrivain britannique, il est surtout connu pour avoir créé POPFile , un logiciel open source de filtrage du courrier indésirable, et pour avoir obtenu des excuses du gouvernement britannique pour ses persécutions envers le décrypteur Alan Turing – des excuses présentées par le Premier ministre Gordon Brown en 2009.

Il s’avère que son site web, avant l’IA, n’est pas nouveau, mais il est resté sans annonce jusqu’à présent. « Je l’ai créé en mars 2023 pour centraliser les ressources en ligne non contaminées par du contenu généré par l’IA », a-t-il écrit sur son blog.

Le site Web pointe vers plusieurs archives majeures de contenu pré-IA, notamment un vidage Wikipédia d’août 2022 (avant la sortie de ChatGPT en novembre 2022), la collection de livres du domaine public du projet Gutenberg, les archives photographiques de la Bibliothèque du Congrès et l’ Arctic Code Vault de GitHub - un instantané de code open source enterré dans une ancienne mine de charbon près du pôle Nord en février 2020. Le projet wordfreq apparaît également sur la liste, congelé à une époque antérieure à la contamination par l’IA qui rendait sa méthodologie intenable.

Le site accepte les soumissions d’autres sources de contenu pré-IA via sa page Tumblr . Graham-Cumming souligne que le projet vise à documenter la créativité humaine d’avant l’ère de l’IA, et non à critiquer l’IA elle-même. Avec la fin des essais nucléaires atmosphériques et le retour du rayonnement de fond à des niveaux naturels, l’acier à faible teneur en carbone est finalement devenu inutile pour la plupart des usages. La question de savoir si le contenu pré-IA suivra une trajectoire similaire reste ouverte.

Il semble néanmoins raisonnable de protéger dès maintenant les sources de créativité humaine , y compris les archives, car ces dépôts pourraient s’avérer utiles à des fins que peu de gens apprécient actuellement. Par exemple, en 2020, j’ai proposé de créer une « arche cryptographique » – une archive horodatée de médias pré-IA, dont l’authenticité pourrait être vérifiée par les futurs historiens, et qui aurait été collectée avant ma date limite, alors arbitraire, du 1er janvier 2022. Les déchets de l’IA polluent bien plus que le discours actuel ; ils pourraient aussi obscurcir les archives historiques.

Pour l’instant, lowbackgroundsteel.ai se présente comme un modeste catalogue d’expressions humaines issues de ce qui pourrait un jour être considéré comme la dernière ère pré-IA. Il s’agit d’un projet d’archéologie numérique marquant la frontière entre les cultures humaines et les cultures hybrides homme-IA. À une époque où il devient de plus en plus difficile de distinguer les productions humaines de celles des machines, ces archives pourraient s’avérer précieuses pour comprendre l’évolution de la communication humaine avant l’arrivée de l’IA dans le chat.

Source: https://arstechnica.com/ai/2025/06/why-one-man-is-archiving-human-made-content-from-before-the-ai-explosion/

Planète Warez

Light

Dim

Dark

Les scientifiques stockaient autrefois de l'acier pré-nucléaire ; aujourd'hui, nous stockons du contenu pré-IA