Google est l’un des leaders mondiaux dans le domaine de l’IA et aujourd’hui, il le prouve à nouveau en présentant un nouveau modèle baptisé V2A ou “Video-to-audio”. Comme l’indique le nom donné à ce modèle, il s’agit d’une technologie qui peut prendre une vidéo comme entrée, et produire un son qui correspond à cette vidéo. L’utilisateur peut aussi donner des consignes particulières à l’IA, via des prompts exprimés en langage naturel, afin d’influencer le processus de génération de l’audio.
Aujourd’hui, il existe déjà plusieurs modèles d’IA capables de générer des contenus vidéo. OpenAI a par exemple fait très forte impression en dévoilant son modèle Sora. Google, de son côté, a développé une technologie similaire, baptisée Veo. Cependant, ces modèles génèrent des vidéos muettes. Et l’idée de Google, avec V2A, est de proposer un second modèle qui, combiné à ces technologies, permettra de générer automatiquement des vidéos avec du son. “Il peut également générer des bandes sonores pour une gamme de séquences traditionnelles, notamment des documents d’archives, des films muets et bien plus encore, ouvrant ainsi une gamme plus large d’opportunités créatives”, indique par ailleurs Deepmind, la branche spécialisée dans l’IA de Google.
Comme le montrent les exemples fournis par Google, V2A peut produire une musique palpitante pour une scène de film d’horreur, générer le bruit de fond d’une vidéo sous-marine, ou encore générer un son de batterie sur une vidéo de concert. La firme explique par ailleurs que cette IA peut générer un nombre illimité de sons pour une vidéo, mais il est possible d’affiner les résultats en utilisant des prompts.
V2A n’est pas encore très au point pour les voix
En plus de la musique et des bruits de fond, la nouvelle IA de Google peut même générer des voix, comme le montre la vidéo ci-dessous. Cependant, Google admet que son modèle a encore des difficultés à synchroniser les dialogues avec les vidéos. “V2A tente de générer de la parole à partir des transcriptions d’entrée et de la synchroniser avec les mouvements des lèvres des personnages. Mais le modèle de génération de vidéos couplées ne peut pas être conditionné aux transcriptions. Cela crée un décalage, entraînant souvent une étrange synchronisation labiale, car le modèle vidéo ne génère pas de mouvements de bouche correspondant à la transcription”, lit-on dans la présentation de la firme.
En tout cas, Google estime que V2A se distingue des autres modèles de génération d’audio existant : l’IA est capable de comprendre “les pixels bruts” et les prompts sous forme de texte ne sont qu’une option. Sinon, pour la façon dont cette IA a été développée, Google explique qu’il a entraîné le modèle avec des vidéos, de l’audio, et des annotations, afin que V2A comprenne quels sons correspondent à un événement visuel donné.
Concernant la disponibilité de cette technologie, la firme explique qu’elle va d’abord réaliser des évaluations et des tests, avant d’envisager de rendre V2A accessible au public.
- Google vient de présenter un nouveau modèle d’IA baptisé V2A ou “Video-to-audio”
- Celui-ci est en mesure de produire des sons synchronisés pour une vidéo et l’utilisateur peut donner des consignes spécifiques via un prompt
- V2A peut même produire des voix, mais a encore des problèmes de synchronisation avec les mouvements des lèvres
📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.
