L'IA s'entraîne sur les photos des enfants, même lorsque les parents utilisent des paramètres de confidentialité stricts
-
Même les vidéos YouTube non répertoriées sont utilisées pour entraîner l’IA, prévient Watchdog.
Human Rights Watch (HRW) continue de révéler comment des photos d’enfants réels publiées en ligne il y a des années sont utilisées pour former des modèles d’IA qui alimentent des générateurs d’images, même lorsque les plateformes interdisent le scraping et que les familles utilisent des paramètres de confidentialité stricts.
Le mois dernier, Hye Jung Han, chercheur à HRW, a trouvé 170 photos d’enfants brésiliens liées dans LAION-5B , un ensemble de données d’IA populaire construit à partir d’instantanés Common Crawl du Web public. Aujourd’hui, elle a publié un deuxième rapport , signalant 190 photos d’enfants de tous les États et territoires d’Australie, y compris des enfants autochtones qui peuvent être particulièrement vulnérables aux dangers.
Ces photos sont liées dans l’ensemble de données “à l’insu ou sans le consentement des enfants ou de leurs familles”. Ils couvrent toute l’enfance, permettant aux générateurs d’images d’IA de générer des deepfakes réalistes de vrais enfants australiens, selon le rapport de Han. Peut-être plus inquiétant encore, les URL de l’ensemble de données révèlent parfois des informations d’identification sur les enfants, notamment leurs noms et les lieux où les photos ont été prises, ce qui facilite la recherche d’enfants dont les images ne pourraient autrement pas être découvertes en ligne.
Cela expose les enfants à des risques en matière de vie privée et de sécurité, a déclaré Han, et certains parents pensant avoir protégé la vie privée de leurs enfants en ligne ne réalisent peut-être pas que ces risques existent.
À partir d’un simple lien vers une photo montrant « deux garçons, âgés de 3 et 4 ans, souriant jusqu’aux oreilles alors qu’ils tenaient des pinceaux devant une fresque murale colorée », Han a pu retracer « les noms complets et les âges des deux enfants, ainsi que le nom de l’école maternelle qu’ils fréquentent à Perth, en Australie occidentale. Et ce qui est peut-être le plus inquiétant, « les informations sur ces enfants ne semblent exister nulle part ailleurs sur Internet », ce qui suggère que les familles étaient particulièrement prudentes lorsqu’il s’agissait de protéger l’identité de ces garçons en ligne.
Des paramètres de confidentialité plus stricts ont été utilisés dans une autre image que Han a trouvée liée dans l’ensemble de données. La photo montrait “un gros plan de deux garçons faisant des grimaces, capturé à partir d’une vidéo publiée sur YouTube d’adolescents en fête” pendant la semaine suivant leurs examens finaux, a rapporté Han. Celui qui a publié cette vidéo YouTube a ajusté ses paramètres de confidentialité afin qu’elle soit « non répertoriée » et n’apparaisse pas dans les recherches.
Seule une personne disposant d’un lien vers la vidéo était censée y avoir accès, mais cela n’a pas empêché Common Crawl d’archiver l’image, pas plus que les politiques de YouTube interdisant le grattage par l’IA ou la collecte d’informations d’identification.
Contacté pour commenter, le porte-parole de YouTube, Jack Malon, a déclaré à Ars que YouTube avait “indiqué clairement que la suppression non autorisée du contenu YouTube constituait une violation de nos conditions d’utilisation, et nous continuons de prendre des mesures contre ce type d’abus”. Mais Han craint que même si YouTube s’unissait aux efforts visant à supprimer les images d’enfants de l’ensemble de données, le mal serait fait, puisque les outils d’IA se sont déjà entraînés sur elles. C’est pourquoi, plus encore que les parents ont besoin que les entreprises technologiques renforcent leur formation en matière de blocage de l’IA, les enfants ont besoin que les régulateurs interviennent et arrêtent la formation avant qu’elle ne se produise, indique le rapport de Han.
Le rapport de Han arrive un mois avant que l’Australie ne publie un projet réformé de la loi sur la protection de la vie privée du pays. Ces réformes incluent un projet de loi australienne sur la protection des données sur les enfants, connue sous le nom de Code de confidentialité en ligne pour les enfants, mais Han a déclaré à Ars que même les personnes impliquées dans des discussions de longue date sur les réformes ne sont pas « réellement sûres de ce que le gouvernement va annoncer ». en août."
“En Australie, les enfants attendent avec impatience de voir si le gouvernement adoptera des mesures de protection pour eux”, a déclaré Han, soulignant dans son rapport que “les enfants ne devraient pas avoir à vivre dans la peur que leurs photos soient volées et utilisées comme arme contre eux”.
L’IA nuit particulièrement aux enfants australiens
Pour rechercher les photos d’enfants australiens, Han “a examiné moins de 0,0001 pour cent des 5,85 milliards d’images et de légendes contenues dans l’ensemble de données”. Parce que son échantillon était si petit, Han s’attend à ce que ses résultats représentent une sous-estimation significative du nombre d’enfants qui pourraient être touchés par le grattage de l’IA.
“Il est étonnant que sur un échantillon aléatoire d’environ 5 000 photos, je sois immédiatement tombé sur 190 photos d’enfants australiens”, a déclaré Han à Ars. “On pourrait s’attendre à ce qu’il y ait plus de photos de chats que de photos personnelles d’enfants”, puisque LAION-5B est “le reflet de l’ensemble d’Internet”.
LAION travaille avec HRW pour supprimer les liens vers toutes les images signalées, mais le nettoyage de l’ensemble de données ne semble pas être un processus rapide. Han a déclaré à Ars que, sur la base de son échange le plus récent avec l’organisation à but non lucratif allemande, LAION n’avait pas encore supprimé les liens vers des photos d’enfants brésiliens qu’elle avait signalées il y a un mois.
LAION a refusé la demande de commentaires d’Ars.
En juin, le porte-parole de LAION, Nathan Tyler, a déclaré à Ars que, « en tant qu’organisation bénévole à but non lucratif », LAION s’engage à faire sa part pour aider à résoudre le « problème plus vaste et très préoccupant » de l’utilisation abusive des données des enfants en ligne. Mais la suppression des liens de l’ensemble de données LAION-5B ne supprime pas les images en ligne, a noté Tyler, où elles peuvent toujours être référencées et utilisées dans d’autres ensembles de données d’IA, en particulier ceux qui reposent sur Common Crawl. Et Han a souligné que la suppression des liens de l’ensemble de données ne modifie pas les modèles d’IA qui se sont déjà entraînés sur eux.
“Les modèles d’IA actuels ne peuvent pas oublier les données sur lesquelles ils ont été formés, même si ces données ont ensuite été supprimées de l’ensemble de données de formation”, indique le rapport de Han.
Les enfants dont les images sont utilisées pour entraîner des modèles d’IA sont exposés à divers préjudices, a rapporté Han, notamment au risque que les générateurs d’images puissent créer de manière plus convaincante des deepfakes nuisibles ou explicites. En Australie le mois dernier, “environ 50 filles de Melbourne ont signalé que des photos de leurs profils de réseaux sociaux avaient été prises et manipulées à l’aide de l’IA pour créer des deepfakes sexuellement explicites d’elles, qui ont ensuite été diffusées en ligne”, a rapporté Han.
Pour les enfants des Premières Nations – « y compris ceux identifiés dans les légendes comme appartenant aux peuples Anangu, Arrernte, Pitjantjatjara, Pintupi, Tiwi et Warlpiri » – l’inclusion de liens vers des photos menace des préjudices uniques. Parce que culturellement, les peuples des Premières Nations « restreignent la reproduction de photos de personnes décédées pendant les périodes de deuil », Han a déclaré que la formation en IA pourrait perpétuer les préjudices en rendant plus difficile le contrôle de la reproduction des images.
Une fois qu’un modèle d’IA s’entraîne sur les images, il existe d’autres risques évidents pour la vie privée, notamment la crainte que les modèles d’IA soient « notoires pour divulguer des informations privées », a déclaré Han. Les garde-fous ajoutés aux générateurs d’images n’empêchent pas toujours ces fuites, certains outils étant « cassés à plusieurs reprises », a rapporté Han.
LAION recommande aux parents, s’ils sont préoccupés par les risques liés à la vie privée, de supprimer les images d’enfants en ligne, ce qui constitue le moyen le plus efficace de prévenir les abus. Mais Han a déclaré à Ars que c’était “non seulement irréaliste, mais franchement scandaleux”.
“La réponse n’est pas d’appeler les enfants et les parents à supprimer en ligne de magnifiques photos d’enfants”, a déclaré Han. “L’appel devrait porter sur une sorte de protection juridique pour ces photos, afin que les enfants n’aient pas toujours à se demander si leur selfie va être abusé.”
Les enfants australiens ont besoin de plus de protections contre l’IA
La loi australienne sur la protection de la vie privée a été introduite en 1988 et a fait l’objet de plusieurs mises à jour au fur et à mesure de l’évolution des technologies. par le procureur général australien, Mark Dreyfus, et Mais les réformes annoncées qui seront publiées en novembre, seront probablement les mises à jour les plus radicales à ce jour, améliorant la confidentialité en ligne et offrant aux individus des recours juridiques directs en cas de violation de données.
Après ces changements, les plateformes seront probablement tenues de divulguer la manière dont les informations personnelles des Australiens sont utilisées. Et les plateformes devront probablement procéder à des évaluations de certaines collectes de données afin de prévenir des violations de données plus risquées concernant des données particulièrement sensibles, telles que les données biométriques ou de reconnaissance faciale.
Ces réformes “importantes” “contribueront à renforcer le contrôle des individus sur leurs informations personnelles”, a promis Dreyfus, confirmant que “la rapidité de l’innovation technologique et l’essor de l’intelligence artificielle sous-tendent la nécessité d’un changement législatif”.
Mais le discours de Dreyfus ne dit rien d’autre sur l’IA et très peu sur la vie privée des enfants en ligne, notant seulement que « 87 % des parents souhaitent davantage de législation qui protège la vie privée des enfants ». Han a déclaré à Ars qu’il est important que les responsables « trouvent comment protéger l’ensemble des droits d’un enfant dans le monde numérique ». Pour Han, cela signifie non seulement protéger la vie privée des enfants, ou « réfléchir à leur droit d’accéder à l’information », mais « l’ensemble de la portée » des droits des enfants en ligne.
HRW a exhorté les législateurs australiens à prévoir davantage de protections pour les enfants contre l’IA. Ils ont recommandé que le Code de confidentialité en ligne des enfants interdise spécifiquement « le transfert des données personnelles des enfants dans des systèmes d’IA » et « la réplication numérique ou la manipulation non consensuelle de l’image des enfants ». Et pour garantir que les entreprises technologiques soient responsables, la politique devrait également « fournir aux enfants victimes de préjudices des mécanismes leur permettant d’obtenir justice et réparation ». Ces protections devraient être étendues à tous les habitants d’Australie, a recommandé HRW, mais “en particulier aux enfants”.
« L’IA générative est encore une technologie naissante, et les dommages que subissent déjà les enfants ne sont pas inévitables », a déclaré Han. « Protéger dès maintenant la confidentialité des données des enfants contribuera à faire évoluer le développement de cette technologie vers une technologie qui promeut, plutôt que viole, les droits des enfants. »
Vous pensiez qu’utiliser les services de Google et autres étaient gratuit ? Il est temps de passer à la caisse, maintenant.
-
@duJambon
Si tu penses que les gens vont se réveiller (ne parlons même pas de se rebeller, faut pas rêver), c’est pas demain la veille… -
Je m’étonne qu’il n’existe pas un mouvement “j’entraîne l’I.A. à ma façon”!