ChatGPT a popularisé l’IA générative et compte aujourd’hui 700 millions d’utilisateurs. Cependant, si vous utilisez l’IA pour le travail, il est possible que vous soyez plus productif si vous utilisez Claude, le chatbot proposé par la société Anthropic. C’est, en tout cas, ce qui est suggéré par une évaluation qui a été réalisée par OpenAI (oui, le créateur de ChatGPT).
Il y a quelques jours, OpenAI a présenté une nouvelle méthode d’évaluation des performances de l’IA appelée GDPval. Et la particularité de cette méthode, d’après l’entreprise, est qu’elle a été conçue pour évaluer les performances des modèles d’intelligence artificielle sur des tâches concrètes et économiquement rentables. Et, étonnamment, d’après cette nouvelle évaluation créée par OpenAI, le modèle Claude Opus 4.1 d’Anthropic serait meilleur que GPT-5.
Claude Opus 4.1 is the most economically valuable model that is public today.
(based on the GDPval benchmark from OpenAI) pic.twitter.com/gEfmO2XbWb
— Tanay Jaipuria (@tanayj) September 25, 2025
Comment ces résultats ont-ils été obtenus ?
Selon les explications d’OpenAI, contrairement aux benchmarks traditionnels, sa méthode d’évaluation GDPval ne repose pas uniquement sur des textes de prompts. “Ils sont accompagnés de fichiers de référence et de contexte, et les livrables attendus comprennent des documents, des diapositives, des diagrammes, des feuilles de calcul et des fichiers multimédias. Ce réalisme fait de GDPval un test plus réaliste de la manière dont les modèles peuvent aider les professionnels”, peut-on lire dans la présentation de cette méthode d’évaluation. Les tâches données aux modèles d’IA, et pour lesquelles les résultats ont été évalués, ont été créées avec des experts pour que celles-ci reflètent leur travail au quotidien.
Dans la présentation de son évaluation, OpenAI admet que Claude Opus 4.1 était le modèle le plus performant, et que celui-ci excelle particulièrement dans l’esthétique (par exemple, pour formater des documents). Quant à GPT-5, celui-ci excelle, en particulier, dans la précision. Néanmoins, OpenAI admet aussi que sa méthode d’évaluation GDPval peut encore être améliorée. Par exemple, l’entreprise compte inclure d’autres activités et plus de tâches. Pour la première version, OpenAI s’est concentré sur 9 industries qui contribuent pour plus de 5 % à l’économie américaine.
- OpenAI a récemment annoncé GDPval, une méthode d’évaluation des modèles d’IA qui est censée mieux représenter l’utilité sur les tâches économiquement rentables
- Et, d’après la première version de cette méthode d’évaluation, Claude Opus 4.1 se positionne devant GPT-5
- OpenAI admet néanmoins que la méthode doit encore être améliorée, par exemple en ajoutant plus de tâches
📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.
