Passer au contenu

Impressionné par le mode voix de ChatGPT ? Ce n’est rien comparé à ce qui vous attend

Le mode voix avancé de ChatGPT est déjà impressionnant, mais celui-ci travaille sur une fonctionnalité qui permettra de discuter avec l’IA tout en utilisant la caméra.

Il y a six mois, OpenAI a fait très forte impression en présentant son nouveau modèle GPT-4o, ainsi que le nouveau mode voix avancé. Cette fonctionnalité s’appuie sur les capacités de GPT-4o à comprendre directement (sans passer par des modèles intermédiaires) le format audio et les images, pour proposer une nouvelle interface qui permet de discuter avec l’IA de manière fluide et naturelle, comme si on discutait avec un humain. Aujourd’hui, ce mode voix avancé est déjà disponible sur ChatGPT, même pour les utilisateurs français. Mais OpenAI prépare une nouveauté encore plus impressionnante : la vidéo en direct.

Une IA qui vous écoute, et qui peut voir

Comme vous pouvez le voir sur la démonstration ci-dessous, il sera possible de discuter avec l’IA de ChatGPT, tout en activant la caméra (et GPT-4o est capable de comprendre ce que vous lui montrez dans la vidéo). C’est comme si vous faisiez un appel avec une vraie personne, avec la vidéo activée. En d’autres termes, l’IA ne sera plus seulement capable de vous entendre, mais aussi de voir.

Et d’après nos confrères d’Android Authority, quelques internautes ont déjà eu la chance de tester cette nouveauté sur une version alpha.

La version beta arriverait bientôt

De plus, bientôt, OpenAI pourrait proposer cette nouveauté à plus d’utilisateurs. En fouillant dans une beta l’application ChatGPT, Android Authority aurait en effet découvert des éléments suggérant que le lancement d’une version beta de cette fonctionnalité est en préparation. Pour rappel, le passage d’une version alpha à la beta signifie que la fonctionnalité se rapproche de la version finale, et que le développeur est prêt à tester celle-ci avec un plus grand nombre de personnes. Dans le cadre du test en beta, OpenAI baptiserait cette fonctionnalité “Live camera”. Celui-ci aurait également prévu un avertissement demandant à l’utilisateur de ne pas se servir de la vision de ChatGPT pour la navigation ou pour toute autre décision qui a un impact sur sa santé ou sa sécurité.

La concurrence est de plus en plus rude dans le domaine de l’IA

Si OpenAI a popularisé l’IA générative, celui-ci fait aujourd’hui face à la concurrence d’autres laboratoires d’IA, comme Anthropic ou la startup française Mistral, mais aussi Google. Sur son application Gemini, Google propose déjà un mode appelé Gemini Live qui concurrence le mode voix avancé. Et récemment, Google a d’ailleurs lancé une application Gemini pour les iPhone qui permet d’accéder à Gemini Live.

  • Au mois de mai, OpenAI a présenté le mode voix avancé de ChatGPT qui permet de discuter avec l’IA comme si on discutait avec un humain
  • Cette fonctionnalité est déjà disponible, mais l’entreprise travaille sur une autre fonctionnalité qui permettra d’ajouter la vidéo en direct à ces interactions
  • Selon Android Authority, cette fonctionnalité de vision sur ChatGPT est déjà disponible en version alpha et elle pourrait bientôt être proposée en beta

📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.

Newsletter 🍋

Abonnez-vous, et recevez chaque matin un résumé de l’actu tech