GauGAN 2 : l’IA de Nvidia crée des paysages réalistes à partir de textes
-
GauGAN 2 est un modèle d’intelligence artificielle développé par les chercheurs de Nvidia. Ce réseau de neurones est capable de générer des images réalistes à partir de textes.
L’intelligence artificielle offre de formidables possibilités, y compris pour la création artistique. En juillet 2019, Nvidia présentait son modèle d’intelligence artificielle GauGAN permettant de générer des images de paysages réalistes. Pour l’anecdote, ce nom est une référence au célèbre peintre impressionniste français Paul Gauguin.
À présent, Nvidia dévoile le nouveau modèle “GauGAN2” . Cette IA combine des techniques comme le mapping par segmentation, la peinture et la génération » text-to-image » en un seul outil. Elle est conçue pour créer des oeuvres d’art photoréalistes mélangeant mots et dessins.
Selon Isha Salian de Nvidia, » en comparaison avec les modèles conçus spécifiquement pour les applications text-to-image ou de segmentation map-to-image, le réseau de neurones de GauGAN2 produit des images plus variées et de meilleure qualité « .
Ainsi, "plutôt que d’avoir besoin de dessiner chaque élément d’une image, il suffit à l’utilisateur d’entrer une courte phrase pour générer rapidement les principaux éléments et le thème d’une image comme une chaîne de montagnes couverte de neige. Il est ensuite possible de customiser ce point de départ avec des esquisses, par exemple pour augmenter la taille d’une montagne spécifique, pour ajouter des arbres en arrière-plan ou des nuages dans le ciel " .
GauGAN 2 : une nouvelle IA de type GAN
Comme son prédécesseur, GauGAN2 comprend les relations entre les éléments tels que la neige, les arbres, l’eau, les fleurs, les buissons ou les montagnes. Il comprend par exemple que le type de précipitation change en fonction de la saison.
Cette intelligence artificielle appartient à la catégorie des GAN ou Generative Adversarial Network (réseaux antagonistes génératifs). Ce type d’IA se compose de deux réseaux de neurones : un générateur, et un discriminateur.Le générateur prend des échantillons, et prédit quelles données correspondent entre elles. En l’occurrence, le générateur de GauGAN prédit quels mots correspondent aux éléments d’une photo de paysage.
Le but de l’entraînement du générateur est de parvenir à tromper le discriminateur, jusqu’à ce que ses prédictions semblent parfaitement réalistes. Ainsi, à partir des retours du discriminateur, le générateur améliore progressivement ses performances.Une nouvelle version entraînée sur 10 millions d’images
Toutefois, le modèle GauGAN 2 apporte des améliorations au premier GauGAN de 2019. Alors que cette IA était entraînée sur environ un million d’images Flickr publiques, GauGAN 2 a été entraîné sur 10 millions d’images.
Cette nouvelle version est capable de traduire de simples descriptions textuelles en images de paysage. Il suffit par exemple d’écrire “coucher de soleil à la plage” pour générer une photo. En ajoutant des adjectifs, comme « coucher de soleil sur une plage rocheuse » ou remplacer des termes comme “coucher de soleil” par « après-midi » ou “jour de pluie” modifie instantanément l’image.
Avec GauGAN2, les utilisateurs peuvent aussi générer une carte de segmentation. Il s’agit de tracer le contour des éléments dans l’image. L’utilisateur peut alors dessiner, et modifier la scène avec des croquis étiquetés avec des termes comme “ciel” , “arbre” , “roche” ou " rivière" . L’IA se charge d’incorporer les brouillons aux images.
Nvidia GauGAN 2 vs OpenAI DALL-E
Cette intelligence artificielle présente des similitudes avec DALL-E : l’IA d’OpenAI capable de générer des images à partir d’un texte. Ces outils sont des générateurs d’idées visuelles. Ils pourraient être exploités dans le domaine du cinéma, des jeux vidéo, de la mode, du design d’intérieur, de la création de produit ou du logiciel.
D’ailleurs, la première version de GauGAN a déjà été utilisée pour créer des “concept arts” pour des films et des jeux vidéo. Pour le futur, Nvidia prévoit de publier le code de GauGAN 2 sur GitHub aux côtés d’une démo interactive sur son hub web Playground dédiée à la recherche en intelligence artificielle.
Le risque de biais discriminatoires
Les modèles GAN présentent toutefois plusieurs limites. L’un des principaux points faibles est un haut potentiel de biais. Par exemple, pour développer DALL-E, OpenAI a utilisé le modèle CLIP pour améliorer la qualité de l’image en identifiant les meilleurs échantillons parmi les centaines générées.
Malheureusement, une étude a ensuite démontré que CLIP a commis davantage d’erreurs de classification pour les individus noirs. Il a également associé les images de femmes à des métiers stéréotypés comme “nounou” ou “femme de ménage” .
Pour l’heure, Nvidia n’a pas précisé si elle a mené des audits de biais pour GauGAN2. Toutefois, la firme précise que ce modèle a plus de 100 millions de paramètres, a été entraîné en moins d’un mois à partir d’images issues d’un dataset propriétaire de photos de paysages. Le modèle se focalise uniquement sur les paysages, et il n’y a aucune photo de personne dans les données d’entraînement. L’entreprise souligne aussi qu’il s’agit uniquement » d’une démo de recherche ".
Nvidia, acteur majeur de la recherche IA
Désormais, Nvidia semble investir massivement dans l’intelligence artificielle. La firme a aussi développé l’outil StyleGAN permettant de générer des images réalistes DeepFakes de personnes n’ayant jamais existé.
En septembre 2018, les chercheurs de Nvidia ont aussi publié une étude décrivant un système capable de créer des scans synthétiques d’un cancer du cerveau. La même année, ils ont présenté un modèle génératif capable de créer des environnements virtuels à partir de vidéos du monde réel.
Si vous souhaitez vous amuser avec GauGAN, vous pouvez utiliser l’outil GAN Paint Studio publiquement disponible. Il permet de télécharger n’importe quelle photographie, et d’éditer l’apparence des bâtiments, de la flore ou de la décoration.
Source : lebigdata.fr
-
Un jour, il suffira d’écrire le scénario d’un film et l’IA le tournera toute seule.
-
Il ne suffit pas de connaître les concepts pour être capable de créer, de vraiment créer et d’exprimer une compréhension d’une manière artistique qui parle aux autres.
La beauté, en particulier, est une chose qui exige de ressentir tout ce que la beauté transmet non seulement à vos yeux, mais aussi à votre être.
Je pense que c’est quelque chose qu’elle ne peut pas encore faire.
L’intelligence artificielle est assez capricieuse voir fantaisiste lorsqu’on lui demande de créer une scène un tant soit peu réaliste, et elle a certainement un penchant pour les interprétations surréalistes plus artistiques…
Dernièrement, je me souviens avoir visionnée un clip vidéo avec Hiyao Miyazaki du Studio Ghibli.
Dans cette vidéo, quelqu’un lui montre ce qu’une IA a réalisé en créant des mouvements pour un modèle humain, et son sentiment était plutôt percutant !
La démonstration montrait à quoi ressemblerait le mouvement d’un corps utilisant sa tête comme une jambe, et les programmeurs étaient très fiers et confiants en disant “on pourrait utiliser cela pour un jeu vidéo de zombies”…^^
Mais Miyazaki a répondu qu’il ressentait fortement que c’est une insulte à la vie elle-même, qu’il se sentait écœuré, et que la personne qui avait conçu cette expérience n’avait aucune idée de ce qu’était la douleur, car elle semblait affligeante et corporelle.
Un petit conseil, vous feriez mieux de ne pas passer trop de temps avec ce genre d’intelligence artificielle, car elle essayera tôt ou tard de vous réduire en esclavage…