Comment faire parler ou chanter les célébrités avec l'I.A.
-
Malgré l’aide des réseaux de neurones, cela demande plus de travail humain que vous ne le pensez.
Récemment, un certain nombre de vidéos musicales virales d’une chaîne YouTube appelée “There I Ruined It” ont inclus des voix générées par l’IA d’artistes musicaux célèbres chantant des paroles de chansons surprenantes de Sir Mix-a-Lot. Un exemple récent, imaginez Elvis chantant les paroles de Baby Got Back. Un autre présente un faux Johnny Cash chantant les paroles de Barbie Girl d’Aqua.
(La vidéo originale d’Elvis a depuis été retirée de YouTube en raison d’une réclamation pour atteinte aux droits d’auteur d’Universal Music Group, mais grâce à la magie d’Internet, vous pouvez quand même l’entendre. -voir l’article original-)
De toute évidence, puisqu’Elvis est mort depuis 46 ans (et Cash depuis 20 ans), aucun des deux hommes n’aurait pu chanter les chansons eux-mêmes. C’est là que l’IA entre en jeu. Mais comme nous le verrons, bien que l’IA générative puisse être incroyable, il y a encore beaucoup de talent humain et d’efforts impliqués dans la création de ces mash-ups musicaux.
Voici par exemple un mash-up de Pulp Fiction:
Pour comprendre comment “There I Ruined It” fait sa magie, nous avons d’abord contacté le créateur de la chaîne, le musicien Dustin Ballard. La réponse de Ballard était peu détaillée, mais il a exposé le flux de travail de base. Il utilise un modèle d’IA appelé so-vits-svc pour transformer sa propre voix qu’il enregistre en celle d’autres artistes. “Ce n’est actuellement pas un processus très convivial (et la formation elle-même est encore plus difficile)”, a-t-il déclaré à Ars Technica dans un e-mail, "mais en gros, une fois que vous avez le modèle formé (basé sur un large échantillon de références audio propres) , puis vous pouvez télécharger votre propre piste vocale, et elle la remplace par la voix que vous avez modélisée. Vous mettez ensuite cela dans votre mix et construisez la chanson autour d’elle.
Mais revenons en arrière une seconde : que signifie “so-vits-svc” ? Le nom provient d’une série de technologies open source enchaînées. La partie “so” provient de " SoftVC " (VC pour “conversion de voix”), qui décompose l’audio source (la voix d’un chanteur) en parties clés qui peuvent être encodées et apprises par un réseau de neurones. La partie “VITS” est un acronyme pour “Variational Inference with adversarial learning for end-to-end Text-to-Speech”, inventé dans cet article de 2021 . VITS prend connaissance du modèle vocal formé et génère la sortie vocale convertie. Et “SVC” signifie “conversion de la voix chantée” - conversion d’une voix chantée en une autre - par opposition à la conversion de la voix parlée de quelqu’un.
Les chansons récentes de There I Ruined It utilisent principalement l’IA à un égard : le modèle d’IA repose sur les performances vocales de Ballard, mais il change le timbre de sa voix en celui de quelqu’un d’autre, de la même manière que la technologie voix à voix de Respeecher peut transformer une voix . la performance de l’acteur de Dark Vador dans la voix de James Earl Jones. Le reste de la chanson provient de l’arrangement de Ballard dans une application musicale conventionnelle.
Pour mieux comprendre le processus de clonage de la voix musicale avec so-vits-svc-fork (une version modifiée de l’original so-vits-svc), nous avons retrouvé Michael van Voorst, le créateur du modèle d’IA vocale d’Elvis que Ballard utilisé dans sa vidéo Baby Got Back. Il nous a guidés à travers les étapes nécessaires pour créer un mash-up d’IA.
“Afin de créer une réplique précise d’une voix, vous commencez par créer un ensemble de données d’échantillons audio vocaux propres de la personne dont vous construisez un modèle vocal”, a déclaré van Voorst. “Les échantillons audio doivent être de qualité studio pour obtenir les meilleurs résultats. S’ils sont de qualité inférieure, cela se reflétera dans le modèle vocal.”
Dans le cas d’Elvis, van Voorst a utilisé des pistes vocales du célèbre concert Aloha From Hawaii du chanteur en 1973 comme matériau de base pour former le modèle vocal. Après une sélection manuelle minutieuse, van Voorst a extrait 36 minutes d’audio de haute qualité, qu’il a ensuite divisées en morceaux de 10 secondes pour un traitement correct. “J’ai écouté attentivement toute interférence, comme le bruit de la bande ou du public, et je l’ai supprimée de mon ensemble de données”, a-t-il déclaré. Aussi, il a essayé de capter une grande variété d’expressions vocales : “La qualité du modèle s’améliore avec des échantillons plus nombreux et variés.”
Ensuite, van Voorst a partagé la série d’étapes quelque peu alambiquées et techniques nécessaires pour effectuer le processus de formation so-vits-svc-fork, répétée ici au cas où cela serait utile pour quiconque voudrait l’essayer :
Une fois que vous avez préparé votre audio, vous le placerez dans la structure de répertoires du programme. Dans mon cas, c’était /dataset_raw/elvis/ Ensuite, vous devrez exécuter quelques commandes dans cet ordre pour commencer à former le modèle. “svc pre-resample” convertit votre audio en fichiers mono 44.1khz. Ensuite, “svc pre-config” télécharge quelques fichiers de configuration et les place dans le bon répertoire. “svc pre-hubert” télécharge et exécute une pré-formation de modèle de parole. Il contient des directives afin que vous obteniez une sortie prévisible lors de la création de votre propre modèle à la dernière étape.
Cette dernière étape est “svc train -t”. Il démarre la formation et ouvre une fenêtre de navigateur avec le TensorBoard . Avec le TensorBoard, vous pouvez suivre l’évolution de votre modèle. Une fois que vous êtes satisfait des résultats, vous pouvez arrêter l’entraînement. Les progrès se mesurent en étapes. Dans les fichiers de configuration, vous pouvez modifier la fréquence à laquelle vous souhaitez écrire le modèle sur le disque. Pour Elvis, je voulais avoir une copie tous les 100 pas et j’ai finalement été satisfait à 211 000 pas.
Après que van Voorst ait exécuté 211 000 étapes de formation, le modèle vocal Elvis AI était prêt à l’action. Ensuite, van Voorst a partagé le modèle avec d’autres en ligne. Là, je l’ai ruiné, le créateur Dustin Ballard a téléchargé le modèle vocal d’Elvis - les gens les partagent fréquemment via les communautés Discord d’amateurs de clonage de voix partageant les mêmes idées - et sa partie du travail a commencé.
Pour créer la chanson, Ballard a ouvert une application de station de travail musicale conventionnelle, telle que Pro Tools , et a importé une piste d’accompagnement instrumentale pour le hit d’Elvis Don’t Be Cruel , joué par des musiciens humains. Ensuite, Ballard a chanté les paroles de Baby Got Back sur l’air de Don’t Be Cruel , enregistrant sa performance. Il a répété la même chose avec tous les chœurs de la chanson. Ensuite, il a passé ses voix enregistrées à travers le modèle Elvis AI de van Voorst en utilisant so-vits-svc, les faisant sonner comme si Elvis les chantait à la place.
Pour que la chanson sonne authentique et aussi proche que possible de l’enregistrement original, a déclaré van Voorst, il est préférable de ne pas utiliser de techniques modernes telles que la correction de hauteur ou l’étirement temporel. " Phraser et chronométrer la voix pendant l’enregistrement est le meilleur moyen de s’assurer que cela sonne naturel", a-t-il déclaré, soulignant certains signes révélateurs dans la Baby Got Back chanson AI. " J’entends des restes d’une fonction d’étirement temporel utilisée sur le mot ‘sprung’ et un peu de correction de hauteur, mais sinon, cela semble très naturel."
Ballard a ensuite importé les voix de style Elvis dans Pro Tools, remplaçant ses voix de guidage originales et les alignant avec la piste d’accompagnement instrumentale. Après le mixage, la nouvelle chanson augmentée par l’IA était terminée et il l’a documentée dans des vidéos YouTube et TikTok.“Pour le moment, des outils comme ceux-ci nécessitent encore beaucoup de préparation et s’accompagnent souvent d’un processus d’installation peu convivial”, a déclaré van Voorst, reconnaissant les obstacles nécessaires pour rendre ce type de mélange possible. Mais à mesure que la technologie progresse, nous verrons probablement des solutions plus faciles à utiliser dans les mois et les années à venir. Pour l’instant, les musiciens techniquement inclinés comme Ballard qui sont prêts à bricoler avec des logiciels open source ont un avantage lorsqu’il s’agit de générer du nouveau matériel à l’aide de l’IA.
Dans une autre vitrine récente de cette technologie, un artiste YouTube connu sous le nom de Dae Lims a utilisé une technique similaire pour recréer la voix d’un jeune Paul McCartney , bien que le résultat semble encore très artificiel. Il a remplacé le chant d’une chanson de 2018 de McCartney, I Don’t Know , par le sien, puis les a convertis en utilisant un modèle de voix du jeune Beatle. Les résultats de qualité relativement élevée que Ballard a obtenus en comparaison peuvent provenir en partie de sa capacité à imiter le phrasé vocal et les manières d’Elvis, ce qui facilite le travail de so-vits-svc de transformer la voix.
Il semble que nous soyons au bord d’une nouvelle ère dans la musique, où l’IA peut imiter efficacement les voix d’artistes légendaires. Les implications de cette technologie sont vastes et incertaines et touchent au droit d’auteur, aux marques et à des problèmes éthiques profonds. Mais pour l’instant, nous pouvons nous émerveiller devant la réalité horriblement étrange que, grâce au pouvoir de l’IA, nous pouvons entendre Elvis chanter à propos de son anaconda - et cela n’a rien à voir avec la Jungle Room.
Source: https://arstechnica.com/information-technology/2023/08/hear-elvis-sing-baby-got-back-using-ai-and-learn-how-it-was-made/
Et: https://planete-warez.net/topic/47/topic-unique-actualités-cinéma-séries/1442Plus de mashups, essayez de cliquer (ça fonctionne parfois):
-