Le VALL-E de Microsoft imite n'importe quelle voix - trois secondes d'enregistrement suffisent
-
Après DALL-E, voici VALL-E : Microsoft et OpenAI ont créé une nouvelle intelligence artificielle (IA) capable d’imiter la voix. Un enregistrement vocal de trois secondes devrait suffire à l’IA.
Aujourd’hui, nous savons : Ce que montrent les photos ou les vidéos ne s’est pas forcément passé ainsi. Depuis ChatGPT et DALL-E, on sait aussi qu’un texte ne doit pas nécessairement sortir de la plume d’un auteur, ou une image du pinceau d’une artiste. Maintenant, c’est au tour de la voix.
VALL-E est un modèle d’IA que Microsoft appelle “Neural Codec Language”. Il permet de créer des profils vocaux et d’imiter la voix correspondante. Trois secondes d’enregistrement de la voix suffisent à l’IA pour imiter ce qu’elle entend de manière naturelle et avec une coloration émotionnelle. Elle peut ensuite lire n’importe quel texte avec la voix. Le son ambiant de l’enregistrement doit également être conservé. La nouvelle IA se prête parfaitement à des fonctions de texte à voix, ce qui pourrait à la rigueur permettre de lire un livre avec la voix de l’auteur.
Microsoft est conscient du potentiel d’abus de cette technologie. C’est pourquoi, dans les futures applications, un protocole sera mis en place pour que le contenu créé par VALL-E puisse être reconnu comme tel.
L’IA donne des résultats impressionnants avec ce que Microsoft présente comme exemples. Pour son entraînement, 60 000 heures d’enregistrement de la langue anglaise ont été traitées. Cela correspond à cent fois l’input des synthèses linguistiques existantes.
Vous pouvez écouter des exemples de VALL-E sur GitHub https://valle-demo.github.io/. En plus de la sortie vocale de VALL-E, les enregistrements d’entrée de trois secondes (Speaker Prompt) sont également disponibles. Vous pouvez également écouter comment le texte saisi est prononcé avec la voix originale (Ground Truth). Et sous Baseline, vous pouvez entendre la comparaison entre les synthèses texte-parole existantes et la qualité sonore. On ne sait pas encore si, quand et sous quelle forme vous pourrez utiliser VALL-E à l’avenir.
-
un pas de plus vers l’usurpation et les mauvaix usages
-
Entre ChatGPT et DALL-E, les plagiaires, et VALL-E, l’usurpateur d’identité, le royaume du fake va se répandre comme une traînée de poudre
-
Il a pourtant l’air si mignon!