Microsoft peut imiter n’importe quelle voix en 3 secondes

Capable d’imiter n’importe quelle voix à partir d’un échantillon de 3 secondes, la nouvelle IA VALL-E de Microsoft ne doit surtout pas tomber entre de mauvaises mains.

Publié le 10 janvier 2023 à 10 h 00 min

Par Setra

Avec l’émergence de ChatGPT, le chatbot d’OpenAI, l’intelligence artificielle fait énormément parler d’elle en ce début d’année. D’ailleurs, en ce qui concerne ChatGPT, il se murmure que Microsoft voudrait intégrer ce chatbot ultra-performant à son moteur de recherche Bing, afin de rendre Google obsolète. De plus, la firme de Redmond voudrait investir jusqu’à 10 milliards de dollars dans OpenAI.

Mais en interne, Microsoft développe aussi ses propres outils basés sur l’intelligence artificielle. Et parmi les récentes percées de l’entreprise en la matière, il y a VALL-E. Il s’agit d’un outil “text-to-speech” qui génère une voix synthétique à partir d’un texte. Jusque là, rien de nouveau. Cependant, le logiciel développé par Microsoft se démarque par ses performances. Outre le fait que Microsoft utilise un mécanisme différent de ceux des outils similaires, il a également entraîné son IA avec 60 000 heures d’enregistrements audio en anglais, ce qui est “des centaines” de fois plus élevé que les systèmes existants.

3 secondes suffisent pour imiter une voix

VALL-E est par ailleurs capable d’imiter n’importe quelle voix, en utilisant seulement un échantillon de 3 secondes. En d’autres termes, vous devez seulement prononcer une phrase, et cela suffit à l’intelligence artificielle de la firme de Redmond pour imiter votre voix. “Les résultats des expériences montrent que VALL-E surpasse de manière significative le système TTS zéro-shot de pointe en termes de naturel de la parole et de similarité des locuteurs. De plus, nous constatons que VALL-E pourrait préserver l’émotion de l’orateur et l’environnement acoustique de l’invite acoustique en synthèse”, ajoute Microsoft sur le site de présentation de ce projet (les exemples sont ici).

Clairement, il s’agit du genre de logiciel qu’on ne peut donner à n’importe qui, puisqu’il pourrait être utilisé par des personnes malveillantes pour usurper l’identité d’une personne (avec seulement 3 secondes d’échantillon de la voix de la victime). VALL-E, entre de mauvaises mains, pourrait aussi être utilisé pour créer des deepfake encore plus performants, ou pour diffuser de faux enregistrements audio pour nuire à quelqu’un.

VALL-E ne doit pas tomber entre de mauvaises mains

Fort heureusement, selon Ars Technica, Microsoft n’a pas rendu VALL-E accessible au grand public. Une technologie n’est ni bonne ni mauvaise, tout dépend de l’usage qu’on en fait. Et pour Microsoft, VALL-E pourrait être utilisé pour éditer de vrais enregistrements (et donc ajouter des choses que la personne n’a pas dites). Mais la firme de Redmond pense aussi que VALL-E pourrait être utilisé à créer du contenu s’il est combiné à des “modèles d’IA génératifs” comme… GPT-3 !

En d’autres termes, si un jour, Microsoft intègre ChatGPT ou une intelligence artificielle similaire au moteur de recherche Bing, ou à d’autres logiciels comme Word, Excel ou Outlook, DALL-E pourrait être utilisé pour lire le contenu généré par cette intelligence artificielle. La firme aurait alors un produit complet capable de rivaliser avec Google. Ce logiciel pourrait également accélérer la production de livres audio, sans faire d’enregistrements en studio.

📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.