Whisk : l’outil IA de Google qui transforme vos images en œuvres d’art personnalisées

Vous avez la flemme d’écrire pour générer vos images par IA ? Google a trouvé la solution.

Publié le 17 décembre 2024 à 11 h 32 min

Les générateurs d’images par IA ne sont pas nouveaux : DALL-E 3 intégré à ChatGPT, Imagen 3, récemment implémenté dans Gemini, Midjourney ou Stable Diffusion. Tous utilisent le texte pour créer des images plus ou moins réussies : vous tapez votre requête, et l’image apparaît quelques secondes après.

Pour son nouvel outil, Whisk, Google a choisi d’adopter une approche radicalement différente en s’affranchissant de ces contraintes textuelles. Plus intuitif à l’usage, celui-ci utilise un langage universel : celui de l’image. Explications.

Une architecture créative triplement innovante

La singularité de Whisk réside dans sa méthodologie tripartite. L’outil décompose la génération en trois dimensions distinctes : le sujet, la scène et le style, chacune pouvant être alimentée par plusieurs images de référence. Si vous n’avez pas d’image en tête, l’interface de Whisk peut vous en générer une, et en quelques clics il vous proposera des illustrations (faites par IA, bien sûr) adaptées à votre demande.

Propulsé par la dernière version du modèle Imagen 3, Whisk génère simultanément les visuels et leurs descriptions textuelles associées. Google souligne que l’outil est conçu pour « l’exploration visuelle rapide, et non pour des modifications au pixel près ». Les temps de génération, bien que perçus comme agaçants par le testeur de The Verge, Jay Peters, ne semblent pas pour autant rédhibitoires.

Face à un résultat qui ne correspond pas exactement aux attentes, Whisk permet d’affiner progressivement l’image générée. Il est possible de sélectionner une image produite, modifier son prompt textuel sous-jacent ou d’ajuster les images de référence pour guider le système vers le résultat souhaité. Cette boucle de rétroaction rapide – quelques secondes par génération – facilite l’exploration créative par essais successifs. Comme le souligne Google dans son blog : « Whisk peut parfois manquer sa cible », c’est précisément pourquoi l’édition de prompt reste tout de même disponible.

Capture Whisk — L’interface intuitive de Whisk permet aux utilisateurs de façonner des créations uniques en combinant sujet, scène et style visuel. © Jay Peters / the Verge

Parallèlement à Whisk, Google a annoncé que son modèle Veo 2, capable de générer des vidéos photoréalistes, arrive dans une nouvelle version. Cette dernière serait plus à même de comprendre le « langage unique de la cinématographie » et réduirait significativement les artefacts visuels courants et dérangeants comme la multiplication des doigts et autres étrangetés, un problème récurrent des modèles concurrents. Cette nouvelle évolution de Veo 2 sera initialement déployé dans VideoFX, accessible via liste d’attente Google Labs, avant d’enrichir YouTube Shorts « et d’autres produits » courant 2025.

Pour le moment, ni Whisk, ni Veo 2 ne sont disponibles en France, ni en Europe. Le site officiel de Whisk vous accueillera par ce message : « Whisk n’est pas encore disponible dans votre pays ». Après quelques essais, même l’usage d’un VPN n’a rien changé et Google n’a transmis aucune date de lancement officiel pour l’Hexagone.

Whisk utilise des images comme références pour en créer de nouvelles, sans passer par du texte.
L’outil fonctionne en trois étapes : sujet, scène et style, modifiables à chaque itération.
Whisk et Veo 2 ne sont pas encore disponibles en Europe.

📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.

Youtube

Par : Google LLC

4.2 / 5

M175.3 avis

App Store Play Store Actualités