ChatGPT peut désormais utiliser un navigateur à la place des humains (vidéo)

OpenAI vient de lancer une préversion d’Operator, une nouvelle technologie qui permet à ChatGPT de réaliser des actions pour l’utilisateur, en prenant le contrôle du pointeur et du clavier sur un navigateur intégré.

Publié le 24 janvier 2025 à 12 h 02 min

Par Setra

Bien qu’on ne puisse pas encore parler d’intelligence artificielle générale (ou AGI), on a aujourd’hui accès à des modèles de langage très performants, capables de résoudre des problèmes complexes ou de générer du code informatique. Et la prochaine évolution majeure de l’intelligence artificielle sera l’utilisation des ordinateurs par celle-ci pour accomplir des tâches récurrentes à la place de l’utilisateur.

En 2024, la startup Anthropic a présenté sa technologie Computer User, tandis que Google a levé le voile sur son projet Mariner. Et cette semaine, c’est au tour d’OpenAI de présenter son agent, baptisé “Operator”. Grâce à celui-ci, ChatGPT ne se contente plus de répondre à des prompts, mais peut aussi réaliser des actions, comme un vrai assistant. Selon les explications d’OpenAI, Operator “traite les données brutes des pixels pour comprendre ce qui se passe à l’écran et utilise une souris et un clavier virtuels pour effectuer des actions.”

Dans la démonstration ci-dessous, un employé d’OpenAI demande à ChatGPT de trouver une recette, puis d’ajouter les ingrédients dans un panier sur Instacart (un service qui permet de faire ses courses en ligne). Après avoir trouvé la recette, l’IA s’exécute, en réalisant la tâche qui lui a été confiée sur un navigateur intégré. Grâce à Operator, ChatGPT est capable de naviguer sur le site d’Instacart comme le ferait un humain (en utilisant le curseur et la saisie), pour faire la commande.

S'abonner à Presse-citron

Une préversion est déjà disponible, mais pas en Europe

Cette nouvelle fonctionnalité s’appuie sur un modèle qui combine la vision de GPT-4o à de nouvelles capacités de raisonnement. OpenAI a également dû entraîner son IA à interagir de la même manière que les humains, avec les éléments des interfaces graphiques du web, comme les boutons, les menus, ou les champs de texte. De ce fait, la fonctionnalité ne dépend pas des API des systèmes d’exploitation ou des sites web.

Mais pour le moment, il ne s’agit encore que d’une préversion d’Operator, qui devrait s’améliorer progressivement. Cette préversion est réservée aux utilisateurs de ChatGPT Pro (l’abonnement le plus cher d’OpenAI) et uniquement aux États-Unis. Dans une présentation en direct, Sam Altman indique qu’OpenAI fera en sorte que cette nouvelle technologie devienne plus performante et moins coûteuse. Celui-ci indique par ailleurs que la fonctionnalité devrait prochainement arriver dans d’autres pays. En revanche, le déploiement en Europe prendra plus de temps.

D’autres agents vont arriver

L’objectif d’OpenAI est de proposer un outil qui pourra faire gagner du temps à l’utilisateur, en réalisant certaines tâches répétitives à la place de l’utilisateur. Cependant, celui-ci refusera de réaliser certaines actions risquées, comme les transactions financières. L’IA demandera aussi à l’utilisateur de valider, avant de finaliser une tâche, comme une commande ou l’envoi d’un e-mail. Et celui-ci demandera une surveillance permanente lorsqu’il réalisera des actions sur des sites sensibles, comme les e-mails.

En tout cas, ce n’est qu’un début, puisqu’OpenAI prévoit déjà de lancer d’autres agents dans les semaines ou mois à venir. Et Operator sera, plus tard, proposé aux utilisateurs de l’abonnement ChatGPT Plus.

OpenAI, le créateur de ChatGPT, dévoile son premier agent IA baptisé Operator
Celui-ci peut prendre le contrôle du pointeur et du clavier sur un navigateur intégré pour réaliser des tâches sur le web à la place de l’utilisateur
Cette fonctionnalité est actuellement disponible en préversion pour les abonnés ChatGPT Pro aux États-Unis

📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.