Wikipédia perd 8 % de pages vues par les humains en un an et met ça sur le compte de l’IA

Raccoon

La fondation Wikimedia lance un signal d’alarme, constatant une baisse du nombre de pages vues par des humains au cours des derniers mois. Elle s’inquiète du fait que cela entraine une baisse du nombre de bénévoles enrichissant l’encyclopédie.

La fondation Wikimedia a publié un billet de blog ce vendredi 17 octobre dans lequel elle décrit une « baisse du nombre de pages vues par les utilisateurs sur Wikipédia au cours des derniers mois, soit une diminution d’environ 8 % par rapport aux mêmes mois en 2024 ».

Nombre de pages vues par des humains pour toutes les versions linguistiques de Wikipédia depuis septembre 2021, avec révision du nombre de pages vues depuis avril 2025. Wikimedia Fundation

Marshall Miller, directeur de produit, y explique que la fondation a actualisé sa méthode pour identifier si un visiteur est un humain ou un robot. En effet, vers le mois de mai, elle a observé un trafic anormal venant du Brésil que ses systèmes identifiaient jusque là comme des visiteurs humains alors qu’il s’agissait vraisemblablement de consultations par des crawlers de services.

Un petit peu avant, la fondation évoquait déjà le sérieux problème que provoquaient les crawlers d’IA pour le web, en générant un trafic « sans précédent et présentent des risques et des coûts croissants ».

Les crawlers des IA deviennent un sérieux problème pour le web, même pour Wikimédia

Impact des services d’IA sur la consultation directe de l’encyclopédie participative

Ici, c’est un autre effet de ces services qu’évoque la fondation. « Nous pensons que ces baisses reflètent l’impact de l’IA générative et des réseaux sociaux sur la manière dont les gens recherchent des informations, en particulier avec les moteurs de recherche qui fournissent directement des réponses aux internautes, souvent basées sur le contenu de Wikipédia », explique Marshall Miller.

Tout ça n’est pas une surprise pour la fondation qui ajoute que « cette évolution progressive n’est pas propre à Wikipédia ». « De nombreux autres éditeurs et plateformes de contenu font état de changements similaires, les utilisateurs passant davantage de temps sur les moteurs de recherche, les chatbots IA et les réseaux sociaux pour trouver des informations. Ils subissent également la pression que ces entreprises exercent sur leur infrastructure ». En juin dernier, nous relayions les inquiétudes de responsables de sites web (notamment scientifiques et/ou bénévoles).

Les fichiers robots.txt sont les premiers boucliers des sites web contre les crawlers intempestifs. Et Wikipédia ne s’en prive pas. La version anglophone de l’encyclopédie a un fichier robots.txt très détaillé, avec des commentaires. Ainsi, on peut y trouver, par exemple, une section listant des user-agents comme HTTrack ou Microsoft.URL.Control surmontée du commentaire : « Certains robots sont connus pour causer des problèmes, en particulier ceux conçus pour copier des sites entiers. Veuillez respecter le fichier robots.txt ». On peut y voir aussi que les crawlers Mediapartners-Google, utilisés par Google pour son service Adsense, sont bloqués avec juste comme commentaires le fait qu’ils sont reliés à de la pub. La partie francophone a peu ou prou la même liste avec quelques ajouts dans son robots.txt.

Mais cette première protection ne suffit plus. Comme l’expliquait Cloudflare en août dernier, Perplexity utilisait deux types de bots en fonction des autorisations des éditeurs concernant l’IA. L’entreprise déguisait ainsi parfois ses crawlers utilisés à des fins d’entrainement d’IA en navigateurs tout ce qu’il y a de plus classique.

La fondation Wikimedia rappelle que « presque tous les grands modèles linguistiques (LLM) s’entraînent sur les jeux de données de Wikipédia, et les moteurs de recherche et les plateformes de réseaux sociaux donnent la priorité à ses informations pour répondre aux questions de leurs utilisateurs ». Et elle y voit du positif pour le projet qu’elle chapote : « cela signifie que les gens lisent les connaissances créées par les bénévoles de Wikimedia partout sur Internet, même s’ils ne visitent pas wikipedia.org. Ces connaissances créées par l’homme sont devenues encore plus importantes pour la diffusion d’informations fiables en ligne ».

Le risque d’une baisse de la participation au projet

Mais elle y voit aussi un risque, et pas seulement sur ses infrastructures : « avec moins de visites sur Wikipédia, moins de bénévoles vont développer et enrichir le contenu, et moins de donateurs individuels vont soutenir ce travail ».

Défendant le projet Wikipédia, la fondation en donne, sans surprise, une vision opposée de celle récemment véhiculée par Elon Musk annonçant son projet personnel Grokipedia. « Wikipédia est le seul site de cette envergure à appliquer des normes de vérifiabilité, de neutralité et de transparence qui alimentent l’information sur tout Internet, et elle continue d’être essentielle pour répondre aux besoins quotidiens des gens en matière d’information, d’une manière invisible », assure-t-elle.

Le défi pour la fondation est donc que les lecteurs sachent que ce contenu vient bien de Wikipédia et qu’ils continuent à y contribuer. Le programme Wikimedia Enterprise est censé pousser les entreprises à attribuer correctement les contenus. La fondation assure travailler sur des manières d’amener les générations qui sont plus sur YouTube, TikTok, Roblox, et Instagram à collaborer à l’encyclopédie.

Source : next.ink

michmich

Pas sûr que ça soit (que) la faute de l’I.A.

Ern Dorr

Quand ils seront devenus moins woke peut-être qu’ils regagneront des lecteurs.

60430815-d57e-42f7-b70c-6f5d4bfcf359-10ea3ef9-b96e-4e4c-8095-3e27e4ff6134-live-long-amp-prosper.jpg

kahlezion

Les titans ‘’ Wikipedia vs IA ‘’ qui va survivre à ce combat ??

Aerya

Comme il était plus simple d’aller sur Google que d’ouvrir un dictionnaire ou une encyclopédie, il est assurément plus simple de poser une question, via le micro, à une IA que d’aller chercher et lire une information.

Planète Warez

Light

Dim

Dark

Wikipédia perd 8 % de pages vues par les humains en un an et met ça sur le compte de l’IA

Impact des services d’IA sur la consultation directe de l’encyclopédie participative

Le risque d’une baisse de la participation au projet