Passer au contenu

Nvidia révolutionne l’audio : cette IA peut créer n’importe quel son sur commande

L’intelligence artificielle s’attaque désormais au monde du son. Nvidia vient de dévoiler un modèle génératif capable de créer ou modifier n’importe quels son, musique ou voix à partir de simples commandes textuelles.

Le « couteau suisse du son ». C’est ainsi que Nvidia présente sa dernière innovation en matière d’intelligence artificielle. Fugatto, diminutif de Foundational Generative Audio Transformer Opus 1, ne se contente pas de générer de la musique ou de modifier des voix comme ses concurrents. Cette IA polyvalente peut créer pratiquement n’importe quel son imaginable, des plus simples aux plus complexes, sur simple commande textuelle.

Un studio de production dans votre poche

« Cette chose est folle », s’enthousiasme Ido Zmishlany, producteur multi-platine et cofondateur de One Take Audio. Pour ce professionnel chevronné, la possibilité de créer instantanément de nouveaux sons en studio ouvre des perspectives créatives inédites. Fugatto permet en effet de prototyper rapidement des idées musicales, d’ajouter ou retirer des instruments d’un morceau existant, ou encore de modifier l’accent et l’émotion d’une voix.

L’histoire de la musique est intimement liée aux avancées technologiques. « La guitare électrique a donné naissance au rock and roll. Quand le sampler est apparu, le hip-hop est né », rappelle Zmishlany. « Avec l’IA, nous écrivons le prochain chapitre de la musique. Nous avons un nouvel instrument, un nouvel outil pour faire de la musique. »

Une IA qui comprend le son comme un humain

Rafael Valle, chef de recherche en audio appliqué chez Nvidia et l’un des architectes du projet, explique : « Nous voulions créer un modèle qui comprenne et génère le son comme les humains ». Cette approche a permis de développer des capacités uniques. Fugatto peut par exemple faire aboyer une trompette ou miauler un saxophone.

Plus impressionnant encore, le modèle peut générer des paysages sonores évoluant dans le temps. Il peut reproduire le son d’un orage qui traverse une zone, avec des coups de tonnerre qui s’intensifient puis s’estompent progressivement dans le lointain. Le système permet même de créer des transitions inédites, comme un orage qui s’apaise pour laisser place au chant des oiseaux à l’aube.

Une technologie accessible et polyvalente

Entraîné sur des millions d’échantillons audio, Fugatto utilise 2,5 milliards de paramètres et a nécessité l’utilisation de 32 GPU NVIDIA H100. Son développement a mobilisé une équipe internationale de chercheurs pendant plus d’un an, renforçant ses capacités multilingues.

Les applications potentielles dépassent largement le cadre musical. Les outils d’apprentissage des langues pourront personnaliser leurs contenus avec n’importe quelle voix choisie par l’utilisateur. Les développeurs de jeux vidéo pourront générer des sons dynamiques qui s’adaptent aux actions des joueurs. Les applications seront de toute évidence infinies.

  • Nvidia lance Fugatto, une IA capable de créer ou modifier n’importe quel son à partir de texte
  • Le modèle peut combiner des instructions complexes pour générer des sons inédits et évolutifs
  • Les applications de Fugatto vont amener la musique dans le futur

📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.

Newsletter 🍋

Abonnez-vous, et recevez chaque matin un résumé de l’actu tech

2 commentaires
2 commentaires
  1. La créativité de l’humain abandonnée pour des prompts, un futur incroyable d’assistés sans imagination, dont les rêves vont disparaître. Techniquement, cet outil (un instrument est un grand mot), reste incroyable dans l’approche.

  2. Bien sûr que l’on se vautre sur la simplicitéde ces systèmes économiques pour l’audio-visuel tant public que professionnel. À l’instar des effets numériques et de la 3D, etc. La conception d’œuvres s’adonnant à la nouveauté promet un genre innovant.
    Les métiers changes : les meuniers, les bateliers, ont fournit de grands romans sur ces thèmes. (D’ailleurs beaucoup d’écrivains et d’intellectuels s’y mettent déjà et expriment la déconvenue qu’apporte l’évolution des choses…).
    Ainsi on pense tout perdre et que les machines nous remplacent et c’est vrai. Les nlles générations les utilisent, les vieilleries n’ont plus cours… Qui a regardé le Napoléon d’Abel Gance ? Ses trois écrans narratifs révolutionnaires ?.
    J’ai passé des nuits à régler des problèmes d’images, de son, de codage et autres joyeusetés que l’informatique imposait à ses adeptes passionnés. Toutes ces choses qu’aujourd’hui filent les trames du changement. Et pour citer rien que Victor Hugo :” j’ai porté mon chaînon de la chaîne éternelle…”.
    Il fallait bien le faire.

Les commentaires sont fermés.