L’avenir de l’innovation de l’IA pourrait dépendre de l’issue d’un débat mondial sur le droit d’auteur. Aux États-Unis, les ayants droit prennent une ligne dure, poursuivant une action en justice contre les sociétés d’IA qui utilisent des œuvres protégées par le droit d’auteur sans autorisation. Cependant, d’autres pays adoptent des approches plus indulgentes, permettant aux modèles d’IA d’apprendre des vastes ensembles de données trouvées dans les bibliothèques «pirates». Ce «schisme du droit d’auteur» pourrait avoir des conséquences d’une grande portée.
Le gouvernement chinois est appelé, par exemple, pour considérer l’introduction d’une exception de texte et d’exploration de données (TDM) pour l’IA. D’autres pays, dont le Japon, ont déjà écrit des exceptions d’IA en droit. Cela soulève des préoccupations. Pas seulement pour les titulaires de droits d’auteur, mais aussi pour les géants de la technologie américaine.
Aux États-Unis, les exceptions explicites des droits d’auteur pour l’apprentissage de l’IA sont inexistantes. Au contraire, il existe plusieurs poursuites de grande envergure aux États-Unis où les entreprises technologiques, notamment Meta, Openai et Google, sont accusées de violation du droit d’auteur.
Les ayants droit accusent ces entreprises de former leurs LLM (modèles de prévision de langage, par abus A.I.) sur le contenu obtenu à partir de sources non autorisées, y compris les bibliothèques de pirates. Ces référentiels se sont avérés être une mine d’or, car elles contenaient une grande quantité de texte, gratuite pour la prise. Le problème, cependant, est que les détenteurs de droits d’auteur n’ont jamais donné la permission de l’utiliser.
Il faudra des années avant que ces cas ne soient décidés et, en attendant, les bibliothèques pirates telles que Z-Library, Libgen et les archives d’Anna sont interdites. Dans les pays où la loi est plus indulgente ou opaque, cela pourrait être une histoire entièrement différente. Cela pourrait créer un schisme d’auteur avec des conséquences potentiellement profondes.
Deepseek ♡ Archives d’Anna
Cette semaine, des centaines de nouveaux articles ont été publiés sur le dernier modèle d’IA publié par la société chinoise Deepseek. Ce modèle n’est pas seulement précis, il est également beaucoup moins cher à gérer, tout en diminuant considérablement les coûts de développement de l’IA.
Selon les experts, Deepseek constitue une menace pour la domination et le leadership américains de l’IA. Bien que les premières réponses soient souvent exagérées, cela montre que le développement de l’IA est une entreprise sérieuse et à enjeux élevés.
Bien que l’innovation de Deepseek ne provienne pas des bibliothèques d’ombres, la société les a utilisées comme entrée clé. Les publications récentes ont été moins transparentes quant à leurs sources de données, mais un article antérieur mentionne clairement une dépendance aux archives d’Anna.
«Nous avons nettoyé 860k en anglais et 180k chinois des archives d’Anna», déclare un journal VL Deepseek , publié en mars dernier.
La lettre d’amour incitée de Deepseek aux archives d’Anna
8422ad30-930f-470d-a48d-2a628ba53df4-image.png
Les équipes AI travaillent avec les archives d’Anna
Deepseek n’est pas seul dans ce domaine. Selon les archives d’Anna, de nombreuses équipes d’IA, y compris celles liées aux grandes entreprises américaines et chinoises, ont contacté le site, à la recherche d’un accès rapide aux données.
Les archives d’Anna propose de travailler avec les sociétés d’IA en échange d’un généreux don ou d’un commerce de données. Alors que les entreprises américaines reculent généralement en raison de problèmes de droit d’auteur, d’autres équipes travaillent avec plaisir avec la bibliothèque Shadow.
«Nous avons fourni environ 20 à 30 entreprises / équipes avec l’ensemble de notre ensemble de données. Ce sont les mêmes données que sur notre page Torrents, mais elles ont accès aux serveurs SFTP à grande vitesse. »
“Habituellement, cela est en échange d’un grand don monétaire ou, à l’occasion, en échange de bons ensembles de données qu’ils ont acquis”, ajoute «Archiviste d’Anna» , notant que toutes les données qu’ils obtiennent sont partagées publiquement.
La bibliothèque Shadow a fourni des copies de plusieurs e-mails expurgés où les entreprises ont demandé l’accès. Nous ne pouvions pas vérifier indépendamment leur authenticité, mais ils valent la peine d’être partagés.
«Nous sommes un groupe de recherche de C expurgé, en se concentrant actuellement sur les modèles de grandes langues (LLM) et dans le processus d’étude des données. Nous sommes très intéressés par les ressources de haute qualité que vous offrez et aimerions en savoir plus sur les détails. » - Compagnie chinoise
«Nous avons vu votre publication sur Twitter sur la collection de livres académiques chinois numérisée de 7,5 millions de personnes que vous proposez pour la formation LLM si cette entreprise contribue à les numériser via OCR. Nous, chez les expurgés, avons la technologie de pointe de l’art que nous pouvons exploiter et que nous aimerions en discuter avec vous. Nous sommes heureux de partager des échantillons de résultats et de tous les résultats de tous les résultats, mais nous demanderons probablement de garder notre code / pipeline propriétaire. » - Entreprise américaine.
Le «fruit interdit»
Face à des poursuites de plusieurs millions de dollars, les grandes entreprises américaines ne sont plus impatientes de travailler avec les archives d’Anna. Cependant, les équipes d’IA dans d’autres pays sont moins réticents, ce qui crée des tensions.
L’attrait des bibliothèques de l’ombre pour le développement de l’IA s’apparente aux fruits bibliques interdits. Tout comme Adam et Eve ont été tentés par l’arbre de la connaissance, les développeurs d’IA sont attirés par les vastes trêmes de données «libres» au sein de ces collections non autorisées.
Source et plus: https://torrentfreak.com/pirate-libraries-are-forbidden-fruit-for-ai-companies-but-at-what-cost-250131/