225346aa-6262-46e8-a136-45b258bb5101-image.png
Une génération d’image GPT 1.5 créée avec l’invite classique : « un barbare musclé avec des armes à côté d’un téléviseur à tube cathodique, style cinématographique, 8K, éclairage studio »
Pendant la majeure partie des quelque 200 ans d’histoire de la photographie, retoucher une photo de manière convaincante nécessitait soit une chambre noire, soit une certaine maîtrise de Photoshop, soit, au minimum, une main sûre avec des ciseaux et de la colle. Mardi, OpenAI a publié un outil qui simplifie le processus en le réduisant à la simple saisie d’une phrase.
Ce n’est pas la première entreprise à s’y essayer. Si OpenAI travaillait sur un modèle de retouche d’images conversationnel depuis GPT-40 en 2024, Google l’a devancé en commercialisant un prototype public en mars , avant de le perfectionner pour en faire un modèle populaire appelé Nano Banana (et Nano Banana Pro ). L’accueil enthousiaste réservé au modèle de retouche d’images de Google au sein de la communauté de l’IA a attiré l’attention d’OpenAI .
d’OpenAI Le nouveau GPT Image 1.5 est un modèle de synthèse d’images par IA qui, selon les informations disponibles, génère des images jusqu’à quatre fois plus rapidement que son prédécesseur et coûte environ 20 % moins cher via l’API. Ce modèle a été déployé auprès de tous les utilisateurs de ChatGPT mardi et représente une nouvelle avancée vers une manipulation d’images photoréalistes accessible à tous, même sans compétences visuelles particulières.
2e7264df-b343-447a-8fc7-c2acfb622c47-image.png
Original
e264c386-a1a5-4d3c-8a7a-d383ade0bddf-image.png
Ajoute une reine galactique dans l’image originale
GPT Image 1.5 est remarquable car il s’agit d’un modèle d’image « multimodal natif », ce qui signifie que la génération d’images a lieu au sein du même réseau neuronal qui traite les invites linguistiques. (À l’inverse, DALL-E 3 , un générateur d’images OpenAI antérieur intégré à ChatGPT, utilisait une technique différente appelée diffusion pour générer les images.)
Ce nouveau type de modèle, que nous avons présenté plus en détail en mars, traite les images et le texte comme des éléments identiques : des blocs de données appelés « tokens » à prédire, des motifs à compléter. Si vous téléchargez une photo de votre père et tapez « le mettre en smoking à un mariage », le modèle traite vos mots et les pixels de l’image dans un espace unifié, puis génère de nouveaux pixels de la même manière qu’il générerait le mot suivant dans une phrase.
Grâce à cette technique, GPT Image 1.5 peut modifier la réalité visuelle plus facilement que les modèles d’IA précédents, en changeant la pose ou la position d’une personne, ou en restituant une scène sous un angle légèrement différent, avec plus ou moins de succès. Il peut également supprimer des objets, modifier les styles visuels, ajuster les vêtements et affiner des zones spécifiques tout en préservant la ressemblance du visage lors de modifications successives. Vous pouvez dialoguer avec le modèle d’IA au sujet d’une photographie, l’affiner et la corriger, de la même manière que vous réviseriez un brouillon d’e-mail dans ChatGPT.
Fidji Simo, PDG des applications chez OpenAI, a expliqué dans un article de blog que l’interface de chat de ChatGPT n’avait jamais été conçue pour le travail visuel. « Créer et retoucher des images est une tâche différente qui mérite un espace dédié au visuel », a-t-il écrit. C’est pourquoi OpenAI a intégré un espace de création d’images dans la barre latérale de ChatGPT, avec des filtres prédéfinis et des suggestions populaires.
e903e741-5b5d-4197-a316-b94aeed84768-image.png
Original: Harrelson Hall, un célèbre bâtiment circulaire du campus de l’Université d’État de Caroline du Nord (aujourd’hui démoli), a toujours semblé prêt à décoller
6cd88bc4-0b90-4cf1-9920-94f04ed1514f-image.png
Transforme ce bâtiment en ovni en train de décoller
Le lancement de cette fonctionnalité semble être une réponse directe aux avancées technologiques de Google en matière d’IA, notamment la forte croissance du nombre d’utilisateurs de chatbots. En particulier, le modèle d’image Nano Banana de Google (et Nano Banana Pro ) a connu un grand succès sur les réseaux sociaux après sa sortie en août, grâce à sa capacité à afficher du texte avec une relative netteté et à préserver les visages de manière constante malgré les modifications.
Le modèle de synthèse d’images par jetons d’OpenAI permettait auparavant d’effectuer des modifications ciblées à partir d’invites conversationnelles, mais il modifiait souvent les détails du visage et d’autres éléments que les utilisateurs auraient souhaité conserver. GPT Image 1.5 semble conçu pour offrir les mêmes fonctionnalités d’édition que celles déjà proposées par Google. Toutefois, si vous préférez l’ancien générateur d’images ChatGPT, OpenAI précise que la version précédente restera disponible (pour le moment) en tant que GPT personnalisé.
La friction continue de diminuer
GPT Image 1.5 n’est pas parfait. Lors de nos tests, il n’a pas toujours suivi les instructions à la lettre. Cependant, lorsqu’il fonctionne correctement, les résultats semblent plus convaincants et détaillés que le précédent modèle d’image multimodal d’OpenAI. Pour une comparaison plus approfondie, le consultant en logiciels Shaun Pedicini a créé un site web instructif (« GenAI Image Editing Showdown ») qui propose des tests A/B de différents modèles d’images basés sur l’IA.
Bien que nous ayons beaucoup écrit sur ce sujet ces dernières années, il est sans doute utile de rappeler que les obstacles à la retouche et à la manipulation réalistes de photos ne cessent de s’estomper. Ce type de manipulation d’images par IA, fluide, réaliste et sans effort, pourrait entraîner (le jeu de mots est voulu) une réévaluation culturelle de la signification des images pour la société. Pour quelqu’un ayant grandi à une autre époque médiatique, se voir mis en scène dans des situations fictives peut aussi s’avérer quelque peu déstabilisant.
Pendant la majeure partie de l’histoire de la photographie, la réalisation d’un faux convaincant exigeait savoir-faire, temps et ressources. Ces obstacles rendaient la falsification suffisamment rare pour que l’on puisse considérer de nombreuses photographies comme un indicateur raisonnable de la vérité, même si elles pouvaient être manipulées (et l’étaient souvent ). Cette époque est révolue grâce à l’IA, mais GPT Image 1.5 semble lever encore davantage les derniers obstacles.
La possibilité de préserver la ressemblance du visage lors de retouches présente une utilité évidente pour la retouche photo légitime, mais aussi un risque tout aussi évident d’utilisation abusive. Des générateurs d’images ont déjà été utilisés pour créer des images intimes sans consentement et usurper l’identité de personnes réelles.
5c601cf4-9ced-4545-9855-eaf834239ef4-image.png
La reine galactique et le barbare dans l’environnement précédent
Compte tenu de ces risques, les générateurs d’images d’OpenAI ont toujours intégré un filtre bloquant généralement les contenus à caractère sexuel ou violent. Cependant, il reste possible de créer des images compromettantes de personnes sans leur consentement (même si cela enfreint les conditions d’utilisation d’OpenAI) tout en évitant ces sujets. L’entreprise indique que les images générées contiennent des métadonnées C2PA les identifiant comme étant créées par une IA, mais que ces données peuvent être supprimées en réenregistrant le fichier.
En parlant de contrefaçons, le rendu du texte a longtemps constitué une faiblesse des générateurs d’images, qui s’est lentement améliorée . Lorsqu’on demande à certains anciens modèles de synthèse d’images de créer une affiche ou un panneau avec des mots spécifiques, les résultats sont souvent illisibles ou mal orthographiés.
OpenAI affirme que GPT Image 1.5 peut traiter des textes plus denses et plus petits. L’article de blog de l’entreprise présente une démonstration où le modèle a généré l’image d’un journal contenant un article de plusieurs paragraphes, avec titres, signature, tableaux de référence et un corps de texte restant lisible au niveau du paragraphe. Des tests plus approfondis seront nécessaires pour vérifier la fiabilité de ces performances avec des sujets variés.
b88b2a2c-8529-4c49-b184-9b850690fe90-image.png
Un exemple du nouveau modèle GPT Image 1.5 affichant un texte complexe et dense sur un journal simulé
Bien que le journal de l’exemple semble aujourd’hui falsifié, il s’agit d’une étape supplémentaire vers l’ érosion potentielle de la perception qu’a le public des archives historiques pré-Internet, à mesure que la synthèse d’images devient plus réaliste.
OpenAI a reconnu dans un article de blog que le nouveau modèle présente encore des problèmes, notamment une prise en charge limitée de certains styles de dessin et des erreurs lors de la génération d’images exigeant une précision scientifique. L’entreprise estime cependant que le modèle s’améliorera avec le temps. « Nous pensons que nous n’en sommes qu’aux prémices du potentiel de la génération d’images », a-t-elle écrit. Et si l’ on en juge par les progrès réalisés ces trois dernières années en synthèse d’images, il se pourrait bien qu’elle ait raison.
Source: https://arstechnica.com/ai/2025/12/openais-new-chatgpt-image-generator-makes-faking-photos-easy/