Une démonstration de voix d'IA étrangement réaliste suscite à la fois l'étonnement et l'inconfort en ligne
-
Le nouveau modèle de voix IA de Sesame présente des imperfections étranges et est prêt à agir comme un patron en colère.
Fin 2013, le film Her de Spike Jonze imaginait un futur dans lequel les gens établiraient des liens émotionnels avec des assistants vocaux intelligents. Près de 12 ans plus tard, cette prémisse fictive s’est rapprochée de la réalité avec la sortie d’un nouveau modèle de voix conversationnelle de la start-up Sesame, qui a laissé de nombreux utilisateurs à la fois fascinés et déconcertés.
« J’ai essayé la démo et j’ai été vraiment surpris de constater à quel point elle était humaine », a écrit un utilisateur de Hacker News qui a testé le système. « J’ai presque peur de commencer à me sentir émotionnellement attaché à un assistant vocal avec ce niveau de son proche de celui d’un humain. »
Fin février, Sesame a publié une démo du nouveau modèle de discours conversationnel (CSM) de la société qui semble franchir ce que beaucoup considèrent comme la « vallée étrange » du discours généré par l’IA, certains testeurs signalant des connexions émotionnelles avec l’assistant vocal masculin ou féminin (« Miles » et « Maya »).
Lors de notre propre évaluation, nous avons parlé avec la voix masculine pendant environ 28 minutes, parlant de la vie en général et de la façon dont elle décide de ce qui est « bien » ou « mal » en fonction de ses données d’entraînement. La voix synthétisée était expressive et dynamique, imitant les bruits de respiration, les rires, les interruptions et parfois même trébuchant sur les mots et se corrigeant elle-même. Ces imperfections sont intentionnelles.
« Chez Sesame, notre objectif est d’atteindre la « présence vocale », cette qualité magique qui rend les interactions orales réelles, comprises et valorisées », écrit l’entreprise dans un article de blog . « Nous créons des partenaires conversationnels qui ne se contentent pas de traiter les demandes ; ils s’engagent dans un véritable dialogue qui renforce la confiance au fil du temps. Ce faisant, nous espérons exploiter le potentiel inexploité de la voix en tant qu’interface ultime pour l’enseignement et la compréhension. »
Pour écouter un exemple du modèle de voix féminine de Sesame ayant envie de sandwichs au beurre de cacahuète et aux cornichons, capturé par l’utilisateur de Reddit MetaKnowing, voir l’aricle d’origine.
En parcourant les réactions à Sesame trouvées en ligne, nous avons constaté que de nombreux utilisateurs s’étonnaient de son réalisme. « Je m’intéresse à l’IA depuis que je suis enfant, mais c’est la première fois que je vis quelque chose qui me donne vraiment l’impression d’avoir atteint mon objectif », a écrit un utilisateur de Reddit. « Je suis sûr que cela ne dépasse aucun critère ni ne correspond à aucune définition courante de l’IA générale, mais c’est la première fois que j’ai une véritable conversation avec quelque chose que je considère comme réel. » De nombreux autres fils de discussion sur Reddit expriment des sentiments de surprise similaires, les commentateurs déclarant que c’est « stupéfiant » ou « époustouflant ».
Bien que cela puisse paraître exagéré à première vue, tout le monde ne trouve pas l’expérience de Sesame agréable. Mark Hachman, rédacteur en chef chez PCWorld, a écrit qu’il avait été profondément perturbé par son interaction avec l’IA vocale de Sesame. « Quinze minutes après avoir raccroché avec la nouvelle IA « réaliste » de Sesame, je suis toujours paniqué », a déclaré Hachman. Il a décrit comment la voix et le style de conversation de l’IA ressemblaient étrangement à un vieil ami avec qui il était sorti au lycée.
D’autres ont comparé le modèle vocal de Sesame au mode vocal avancé d’OpenAI pour ChatGPT, affirmant que le CSM de Sesame présente des voix plus réalistes, et d’autres sont ravis que le modèle de la démo puisse jouer le rôle de personnages en colère, ce que ChatGPT refuse de faire.
Pour écouter un exemple d’argument avec le CSM de Sesame créé par Gavin Purcell, voir l’aricle d’origine.
« Une qualité quasi humaine »
Sous le capot, le CSM de Sesame atteint son réalisme en utilisant deux modèles d’IA fonctionnant ensemble (un backbone et un décodeur) basés sur l’architecture Llama de Meta qui traite le texte et l’audio entrelacés. Sesame a entraîné trois tailles de modèles d’IA, la plus grande utilisant 8,3 milliards de paramètres (un modèle backbone de 8 milliards plus un décodeur de 300 millions de paramètres) sur environ 1 million d’heures d’audio principalement en anglais.
Le CSM de Sesame ne suit pas l’approche traditionnelle en deux étapes utilisée par de nombreux systèmes de synthèse vocale antérieurs. Au lieu de générer des jetons sémantiques (représentations vocales de haut niveau) et des détails acoustiques (caractéristiques audio à granularité fine) en deux étapes distinctes, le CSM de Sesame s’intègre dans un modèle basé sur un transformateur multimodal à une seule étape, traitant conjointement des jetons de texte et d’audio entrelacés pour produire de la parole. Le modèle vocal d’OpenAI utilise une approche multimodale similaire.
Lors de tests en aveugle sans contexte conversationnel, les évaluateurs humains n’ont montré aucune préférence claire entre la parole générée par CSM et les enregistrements humains réels, ce qui suggère que le modèle atteint une qualité proche de celle de l’humain pour des échantillons de parole isolés. Cependant, lorsqu’ils disposaient d’un contexte conversationnel, les évaluateurs ont toujours systématiquement préféré la parole humaine réelle, ce qui indique qu’il subsiste un écart dans la génération de parole pleinement contextuelle.
Brendan Iribe, cofondateur de Sesame, a reconnu les limites actuelles dans un commentaire sur Hacker News, notant que le système est « encore trop impatient et souvent inapproprié dans son ton, sa prosodie et son rythme » et qu’il a des problèmes avec les interruptions, le timing et le flux des conversations. « Aujourd’hui, nous sommes fermement dans la vallée, mais nous sommes optimistes quant à notre capacité à en sortir », a-t-il écrit.
Trop près pour être confortable ?
Malgré les capacités technologiques impressionnantes de CSM, les avancées en matière d’IA vocale conversationnelle comportent des risques importants de tromperie et de fraude. La capacité à générer un discours très convaincant, semblable à celui d’un humain, a déjà suralimenté les escroqueries par hameçonnage vocal , permettant aux criminels de se faire passer pour des membres de la famille, des collègues ou des figures d’autorité avec un réalisme sans précédent. Mais l’ajout d’une interactivité réaliste à ces escroqueries pourrait les porter à un autre niveau de puissance.
Contrairement aux appels automatisés actuels, qui contiennent souvent des signes révélateurs d’artificialité, l’IA vocale de nouvelle génération pourrait éliminer complètement ces signaux d’alarme. Les voix synthétiques étant de plus en plus difficiles à distinguer de la parole humaine, vous ne saurez peut-être jamais à qui vous parlez à l’autre bout du fil. Cela a incité certaines personnes à partager un mot ou une phrase secrète avec leur famille pour vérifier leur identité.
Bien que la démo de Sesame ne clone pas la voix d’une personne, de futures versions open source d’une technologie similaire pourraient permettre à des acteurs malveillants d’adapter potentiellement ces outils pour des attaques d’ingénierie sociale. OpenAI elle-même a retenu sa propre technologie vocale de déployer à plus grande échelle par crainte d’une utilisation abusive.
Sesame a suscité une discussion animée sur Hacker News à propos de ses utilisations potentielles et de ses dangers. Certains utilisateurs ont rapporté avoir eu de longues conversations avec les deux voix de démonstration, certaines durant jusqu’à la limite de 30 minutes. Dans un cas, un parent a raconté comment sa fille de 4 ans a développé un lien émotionnel avec le modèle d’IA, pleurant après n’avoir plus été autorisée à lui parler.
L’entreprise a annoncé qu’elle prévoyait de rendre open source les « composants clés » de ses recherches sous une licence Apache 2.0, ce qui permettrait à d’autres développeurs de s’appuyer sur ses travaux. Sa feuille de route comprend l’augmentation de la taille du modèle, l’augmentation du volume des ensembles de données, l’extension de la prise en charge linguistique à plus de 20 langues et le développement de modèles « entièrement duplex » qui gèrent mieux la dynamique complexe des conversations réelles.
Vous pouvez essayer la démo de Sesame sur le site Web de l’entreprise, à condition qu’il ne soit pas trop surchargé de personnes souhaitant simuler une dispute animée.
-
Impressionnant ! Tant la voix d’homme que la voix de femme ! Je l’ai même fait parler en français qu’elle a bredouillé en s’excusant / riant. A essayer.