• 1 Votes
    1 Messages
    33 Vues

    Récemment, une IA a réussi à décrypter le code mécanique de l’ADN. Ce qui reste impossible pour l’intelligence humaine. Et cet exploit n’est rien à côté de ce qu’est capable de réaliser la nouvelle technologie mise au point par Microsoft. Intitulée VALL-E, elle est capable de reproduire n’importe quel son en seulement trois secondes.

    Après avoir dévoilé précédemment des modèles d’IA capables de converser avec une personne, Microsoft est revenue cette fois-ci avec une technologie capable de reproduire la voix de personnes vivantes. Pour ce faire, l’outil est capable de parvenir à des résultats satisfaisants en se servant simplement d’un enregistrement de trois secondes provenant de la voix à reproduire.

    Ce qui suffit généralement à reproduire les émotions et les intonations de la personne dont il s’approprie la voix. Ce qui lui permet de créer à sa guise des enregistrements dans lesquels on retrouve même des mots que l’intéressé n’a jamais prononcés.

    Il faut dire qu’aucune intelligence artificielle n’avait jamais réussi à faire aussi mieux que VALL-E dans ce domaine. Pour atteindre ce niveau, l’outil a bénéficié d’un entrainement à partir de 60 000 heures de données vocales. Toutefois, l’IA n’est pas encore parfaite selon un article de l’université Cornell. Ce dernier a réussi à utiliser la technologie pour reproduire plusieurs échantillons de voix.

    Si certains sont très naturels, d’autres par contre sont trop robotiques. Ce qui pourrait néanmoins suffire pour le nouveau projet de livres audio narrés par l’IA d’Apple. Au grand dam des doubleurs de voix et des transcripteurs audio qui pourraient bientôt permettre leur travail.

    Les résultats obtenus grâce au VALL-E sont certes satisfaisants, mais sont encore loin d’être parfaits. À cet effet, Microsoft a indiqué qu’il travaillait à le rendre beaucoup plus performant.

    En attendant, on peut se demander si ce type de technologie ne va pas créer plus de problèmes qu’il n’en résout. Nul doute que les résultats que nous aurons grâce à eux dans les années seront proches de la perfection. De ce fait, s’ils tombent dans les mains de personnes mal intentionnées les conséquentes pourraient être terribles. Les faussaires pourraient l’utiliser par exemple pour se faire passer pour leurs victimes.

    Dans le monde de la politique, ils pourraient permettre à certains de faire dire à leurs adversaires de faux propos. On se souvient des deux citoyens russes qui avaient réussi à se faire passer au téléphone pour le président Emmanuel Macron afin de discuter sans problème avec le président polonais Andrzej Duda. Sans bien sûr parler des deepfakes qui font des dégâts immenses.

    Pour finir, il faut souligner que le VALL-E pose également des soucis de sécurité. Certaines entreprises, généralement les établissements financiers, se servent de la reconnaissance vocale pour contrôler l’identité des appelants. Si les voix générées par l’IA deviennent réalistes, elles pourraient sans aucun problème faire sauter ce type de verrou.

    Source: https://www.fredzone.org/nouvelle-ia-de-microsoft-415853

    Prochainement sur youtube: Dieu lui-même vous dit que la terre est plate.

  • 2 Votes
    1 Messages
    69 Vues

    UVR est dans le même esprit que LALALAAI présenté ici ou de services en ligne permettant de séparer l’audio instrumental de la piste vocale de n’importe quelle chanson. Des trucs comme Acapella Extractor et Vocalise par exemple ou encore ce genre d’intégration dans Ableton.

    Ce sont des outils assez corrects, mais qui ne font pas non plus de miracles.

    Mais c’était sans compter sur Ultimate Vocal Remover GUI (UVR), une interface Windows pour un séparateur de piste qui utilise des réseaux neuronaux pour arriver à ses fins. Je l’ai testé et le résultat est vraiment excellent.

    Alors UVR est vraiment un gros logiciel de plusieurs gigas qui embarque tout le nécessaire pour fonctionner et qui surtout réclame pas mal de puissance machine. Si vous avez une carte graphique Nvidia avec au moins 8 GB de V-RAM c’est l’idéal.

    cbfa8b37-876e-406e-83f2-6f9458d5706f-image.png

    En entrée, vous mettez votre fichier audio (MP3) puis vous sélectionnez un répertoire de sortie et surtout un modèle, les meilleurs étant MDX-Net + UVR MDX Net Main ou Ensemble Mode + Multi AI. Vous pouvez également forcer le GPU ou encore augmenter la réduction de bruit.

    e196e9e6-d2d8-4bd0-b8c7-2feeef0e9288-image.png

    Ainsi, après quelques minutes, vous récupérerez une version instrumentale et une version vocale. Même les ad libs peuvent être extraits ou laissés au choix (modèle karaoké). De quoi faire tous les remix, versions karaoké et samples de vos rêves. C’est magique !

    Si ça vous intéresse de tester l’outil, c’est dispo ici sur Github. Il faudra d’abord télécharger le logiciel, l’installer puis appliquer son patch.
    Lisez bien les instructions sur le site.

    Source

    https://korben.info/ultimate-vocal-remover.html