Alors que certaines rumeurs évoquaient le lancement d’un concurrent de Google, lundi, OpenAI a plutôt levé le voile sur un nouveau modèle baptisé GPT-4o, qui musclera l’application ChatGPT. En attendant le modèle GPT-5, cette nouvelle technologie va transformer la façon dont nous interagissons avec l’intelligence artificielle.
1 – Une combinaison de textes, d’audio et d’images (pour de vrai)
Le “o” de GPT-4o signifie omni. Si ce modèle a le même niveau d’intelligence que GPT-4 en anglais et en codage, OpenAI explique qu’il s’agit d’une étape supplémentaire pour rendre les interactions avec l’IA plus naturelles. “[…] il accepte en entrée n’importe quelle combinaison de texte, d’audio et d’images et génère n’importe quelle combinaison de sorties de texte, d’audio et d’image”, explique le créateur de ChatGPT.
Par exemple, pour les interactions audio, l’application ChatGPT disposait déjà d’un mode “voix”. Cependant, sur ce mode, les commandes vocales de l’utilisateur étaient d’abord traduites en texte pour GPT-4 ou GPT-3.5. Ensuite, les réponses de ces modèles, sous forme de texte, étaient traduites en audio pour l’utilisateur. À cause de ces étapes, des informations, comme le ton de l’utilisateur ou le bruit d’arrière-plan, sont perdues.
Sarcasm with GPT-4o pic.twitter.com/APrYJMvBFF
— OpenAI (@OpenAI) May 13, 2024
Avec GPT-4o, OpenAI se passe de ces transcriptions, puisque ce modèle a été entraîné directement avec du texte, de l’audio et des images. Il s’agit du premier modèle de l’entreprise à combiner tous ces formats (ou modalités). Ainsi, si l’utilisateur envoie un prompt qui inclut les trois formats, le texte, l’audio et les images sont traités directement par GPT-4o, sans modèles intermédiaires. D’après OpenAI, GPT-4o dépasse tous les autres modèles sur la compréhension de l’audio et des images.
2 – Des interactions plus naturelles
Grâce à la combinaison du texte, de l’audio et des images, GPT-4o améliorera la qualité des réponses de l’IA, puisqu’il aura plus d’informations à traiter. Mais ce n’est pas tout : par rapport à GPT-4 ou GPT-3.5, celui-ci est également plus rapide lorsqu’on utilise le mode voix.
Lorsque le mode voix de ChatGPT est utilisé avec GPT-3.5, la réponse arrive après 2,8 secondes. Et avec GPT-4, cette latence est de 5,4 secondes. Mais lorsqu’on utilisera le mode voix avec GPT-4o, ChatGPT pourra répondre aux prompts audio avec une latence moyenne de 320 millisecondes. Pour ceux qui utilisent ChatGPT comme un assistant vocal, cette faible latence rendra les interactions avec l’IA plus naturelles (comme si on discutait avec un humain).
3 – Plus rapide et moins cher
Comme vous le savez peut-être déjà, les technologies d’OpenAI ne sont pas uniquement disponibles sur ChatGPT. En effet, l’entreprise propose ces technologies, via des API, aux développeurs. Parmi les applications qui proposent des assistants basés sur les technologies d’OpenAI, il y a le réseau social Snapchat.
Avec GPT-4o, il sera plus facile, financièrement, pour les développeurs d’exploiter l’IA d’OpenAI pour améliorer leurs applications. En effet, d’après l’entreprise, en plus d’être plus rapide, GPT-4o est 50 % moins cher quand il est utilisé via son API.
4 – Plus accessible
Pour les utilisateurs de l’application ChatGPT, le lancement de GPT-4o marque aussi un tournant. En effet, alors que GPT-4 ou GPT-4 Turbo était réservé aux utilisateurs payants, GPT-4o sera disponible même pour les utilisateurs de la version gratuite.
“Nous commençons à déployer GPT-4o pour les utilisateurs ChatGPT Plus et Team, avec une disponibilité prochaine pour les utilisateurs Enterprise. Nous commençons également à déployer sur ChatGPT Free avec des limites d’utilisation aujourd’hui. Les utilisateurs Plus auront une limite de messages jusqu’à 5 fois supérieures à celle des utilisateurs gratuits, et les utilisateurs Team et Enterprise auront des limites encore plus élevées”, peut-on lire dans l’annonce publiée le 13 mai.
Lorsqu’un utilisateur de la version gratuite de ChatGPT accède à GPT-4o, celui-ci pourra profiter de cette IA dont le niveau d’intelligence est comparable à celui de GPT-4. Il aura aussi la possibilité d’obtenir des réponses provenant du web, et pas uniquement des données d’entraînement de l’IA. Il pourra aussi inclure des photos dans ses requêtes, demander à ChatGPT d’analyser des données et créer des graphiques, ou encore inclure des fichiers dans ses prompts.
- OpenAI lance GPT-4o, un modèle aussi intelligent que GPT-4, mais qui ne se limite pas aux textes
- En effet, OpenAI a ajouté de l’audio et des images aux données d’entraînement, ce qui rend les interactions plus naturelles
- Lors des interactions en mode voix, la latence de l’IA est extrêmement courte
- GPT-4o coûte aussi moins cher, et il est même proposé gratuitement sur ChatGPT
📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.