Passer au contenu

Deepfakes : cet outil made in France identifie les faux contenus vocaux

Signé Ircam Amplify, l’AI Speech Detector est le fruit d’un savoir-faire accumulé sur plusieurs décennies.

Ircam Amplify, startup tricolore spécialisée dans les technologies de l’audio, vient de lancer l’AI Speech Detector. Cet outil est capable d’identifier les contenus vocaux générés par intelligence artificielle (IA) avec un taux de précision de 98 %. Un dispositif d’autant plus pertinent, alors que les experts s’alarment de la recrudescence des deepfakes audio.

Des décennies d’expertise scientifique

Ircam Amplify s’impose comme un joyau de l’industrie française. La société est directement issue de l’Institut de recherche et coordination acoustique/musique (Ircam), fondé en 1977 par Pierre Boulez. Elle se repose sur des années de recherche et de développement dans le domaine du son pour proposer des solutions uniques sur le marché.

De grandes entreprises ont par exemple fait appel à son savoir-faire pour mener des opérations de marketing uniques, comme faire déguster le son d’un champagne ou reproduire l’odeur d’un parfum en son.

Compte tenu de l’expertise d’Ircam Amplify, il était évident que la firme soit au rendez-vous pour répondre aux défis de l’IA générative. Il y a quelques mois, elle lançait un outil baptisé AI Music Detector, afin de permettre aux acteurs de l’industrie musicale de repérer les morceaux générés par IA en analysant et détectant les informations à l’intérieur des fichiers.

« Vous nous envoyez un morceau et nous sommes capables de dire s’il a été généré par IA et en prime, avec un score de confiance. Par exemple, de 99 % ou de 65 % », détaille Romain Simiand, directeur produit chez Ircam Amplify, dans un entretien accordé à Presse-citron. La société est « la première au monde » à proposer une telle solution, assure-t-il, qui plus est basée sur une technologie interne. L’AI Music Detector s’avère nécessaire pour les distributeurs et les labels qui souhaitent se protéger des faux artistes en leur octroyant, notamment, un gain de temps considérable.

L’AI Speech Detector repère l’utilisation des modèles les plus populaires de génération vocale

S’appuyant sur l’efficacité de ce produit, Ircam Amplify l’a dupliqué et affiné pour qu’il puisse, aussi, détecter les voix générées par intelligence artificielle. Cette version, appelée AI Speech Detector, répond « au besoin de détecter les deepfakes ou clones vocaux, tout ce qui correspond à l’usage de la voix pour des raisons frauduleuses », explique le dirigeant.

Très simplement, la technologie est en mesure de reconnaître une voix qui a été créée par le biais d’un logiciel de génération. Ircam Amplify a pris soin de sélectionner les modèles les plus populaires du marché et de l’entraîner sur ces derniers. « Il existe des centaines de modèles de clones vocaux et de synthèses vocales. Cependant, la plupart d’entre eux reposent sur les mêmes modèles open source. Les développeurs les ajustent légèrement ou les réentraînent un peu, mais dans l’ensemble, les principes de base restent identiques », étaye Romain Simiand.

La société a sélectionné trois modèles propriétaires, dont le controversé ElevenLabs, utilisé pour mettre au point un deepfake audio de Joe Biden, ainsi que trois solutions open source. Il s’agit des dispositifs les plus « accessibles pour des gens malintentionnés ou ceux qui veulent simplement s’amuser avec », poursuit le diplômé des Beaux-Arts. Si un fichier vocal est généré au travers de l’une de ces solutions, l’AI Speech Detector saura l’identifier avec un taux de précision de 98,5 %.

Ai Speech Detector
© Ircam Amplify

Ircam Amplify répond à une demande croissante pour ce type de solutions

Ce type d’alternatives est en demande croissante, alors que les outils d’IA génératifs sont de plus en plus complets et exploités par des cybercriminels pour avoir recours à toutes sortes d’arnaques : imiter la voix d’un dirigeant d’entreprise pour autoriser des transactions frauduleuses, fabriquer des enregistrements compromettants pour faire du chantage, simuler des appels d’urgence ou des témoignages pour appuyer de fausses réclamations, etc.

Romain Simiand illustre l’utilité concrète de l’AI Speech Detector en mettant en lumière sa capacité à automatiser le traitement des fichiers audio : « Dans un centre d’appels ou une rédaction, on peut programmer le système pour transférer automatiquement un fichier jugé authentique à un journaliste ou à la rédaction. À l’inverse, si l’outil est sûr à 99 % qu’il s’agit d’un contenu généré par IA, le fichier peut être directement écarté, ce qui évite toute perte de temps ».

Sa mise sur le marché répond aussi à des enjeux de sécurité publique et de lutte contre la désinformation et les usurpations d’identité digitale.

Des améliorations déjà en cours

Depuis ce 15 octobre, l’outil est disponible via l’API d’Ircam Amplify. Décrite comme une solution Audio-as-a-service, celle-ci inclut des produits audio développées par des chercheurs, allant de l’analyse à la génération en passant par l’IA générative. « N’importe quel industriel ou client sérieux à propos de ses besoins en audio, peut se connecter chez nous une fois et consommer ce que nous proposons », assure le directeur produit.

Petit bémol pour l’instant, l’AI Speech Detector ne peut pas repérer les deepfakes audio en temps réel, mais il revendique tout de même un temps de détection louable, d’une quinzaine de secondes environ. Et la startup ne compte pas s’arrêter en si bon chemin. Elle s’attèle désormais au peaufinement de son produit.

« Notre technologie permettra de décomposer un morceau musical en différentes composantes : voix, guitare, batterie, cuivres, etc. Grâce à cette fonctionnalité, nous pourrons analyser chaque élément séparément, donc déterminer si la voix a été générée artificiellement, tout en vérifiant l’authenticité des autres instruments », indique Romain Simiand.

À l’avenir, il n’est pas exclu que l’AI Speech Detector évolue pour intégrer la détection de nouveaux modèles de génération vocale, renforçant sa polyvalence. Conçu avec une ambition internationale, l’outil a le potentiel de devenir une référence mondiale dans la décisive lutte contre les deepfakes audio.

📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.

Newsletter 🍋

Abonnez-vous, et recevez chaque matin un résumé de l’actu tech