Deepfake : Ce logiciel est capable de traduire une vidéo en synchronisant les mouvements des lèvres

Des chercheurs indiens ont développé une IA qui traduit et synchronise les mouvements des lèvres de manière quasi parfaite.

Publié le 6 mars 2020 à 13 h 30 min

Par Jean-Yves Alric

Traduire automatiquement une vidéo de manière textuelle ou vocale est désormais une pratique assez courante. Il peut cependant y avoir quelques ratés et le réalisme laisse souvent à désirer. Conscient de cette limite, des chercheurs indiens de l’Institut international des technologies de l’information de la ville de Hyderabad ont créé un tout nouveau système basé sur la deepfake. Il permet de traduire automatiquement une vidéo en synchronisant les mouvements de lèvres, pour rendre l’ensemble plus crédible.

S'abonner à Presse-citron

Une utilisation positive des deeepfakes

Concrètement, pour traduire les vidéos, le dispositif recourt à la reconnaissance vocale. Il s’appuie sur un modèle spécialement formé aux langues régionales indiennes. Il convertit ensuite le texte en voix et c’est alors qu’une autre technologie rentre en action. Les scientifiques ont en effet créé des algorithmes qui permettent de générer des images de façon réaliste appelé LipGAN. Ils sont capables de modifier le mouvement des lèvres de manière à correspondre aux texte traduit de la vidéo originale.

Ce modèle a d’ailleurs été particulièrement pensé pour l’Inde et ses nombreuses spécificités locales. C.V. Jawahar, qui se trouve à l’origine du projet, s’en est expliqué à nos confrères de The Next Web : « Il existe déjà des vidéos superbement créées sur divers sujets par le MIT et d’autres institutions prestigieuses qui sont inaccessibles à un public indien plus large simplement parce qu’elles ne peuvent pas comprendre l’accent. Sans parler des gens qui vivent dans les régions rurales, même moi je ne comprendrais pas ! »

Il reste encore plusieurs problèmes à régler et non des moindres pour arriver à une automatisation parfaite. Les chercheurs précisent notamment que leur système a du mal à gérer la présence de plusieurs visages à l’écran ou lors des phases d’action un peu trop mouvementées. L’expression des visages, une fois la traduction effectuée, nécessite également quelques améliorations. L’équipe travaille donc dur pour trouver des solutions. Si cette technologie parvenait à une phase de commercialisation, on aurait en tout cas un bel exemple d’une utilisation positive des deepfakes.

📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.