Passer au contenu

Science : l’IA Mythos résout 30 % des 23 problèmes qui déconcertent les humains

Claude a testé les compétences de ses modèles d’IA (dont Claude Mythos et les modèles Claude Opus) en bio-informatique. Les résultats sont impressionnants, puisque l’intelligence artificielle a pu résoudre des problèmes que des experts humains étaient incapables de résoudre.

Claude Mythos, la puissante IA développée par Anthropic, continue de faire parler d’elle. Dans le domaine de la cybersécurité, ses compétences exceptionnelles font peur et suscitent de l’optimisme, en même temps. Cependant, si la couverture médiatique s’est, jusqu’à présent, largement focalisée sur la cybersécurité, il est important de rappeler que Mythos, comme les autres modèles d’IA d’Anthropic, est une IA générative à usage général.

Et, de ce fait, son existence pourrait conduire à des percées majeures dans d’autres domaines, comme la science. En effet, une étude réalisée par Anthropic révèle que Mythos a été en mesure de résoudre des problèmes de bio-informatique que même des experts humains n’étaient pas en mesure de résoudre.

Anthropic crée une nouvelle évaluation et montre le potentiel de Mythos

Pour rappel, la bio-informatique est l’application de l’informatique, des mathématiques et de la statistique à la science biologique. Pour évaluer les compétences de modèles d’IA dans ce domaine, Anthropic a créé un nouveau benchmark appelé BioMysteryBench, composé de 99 questions complexes. Ces problèmes sont difficiles ou même impossibles à résoudre, même si la bonne réponse est vérifiable. Par exemple, l’une de ces questions était : “De quelle espèce virale le patient humain est-il infecté, d’après les données de séquençage d’ARN (RNA-seq) ?”. L’IA est chargée de résoudre ce problème en utilisant des données et des outils, ce qui est compliqué. Cependant, la bonne réponse est facilement vérifiable avec un test PCR.

Sur les 99 questions, 73 ont pu être répondues par un panel d’experts. Claude Mythos a été en mesure de résoudre 82,6 % de ces problèmes solvables par des humains. Pour Claude Opus 4.7, le modèle qu’Anthropic propose déjà au grand public, ce taux était de 78,9 %.

Claude Science Benchmark
© Anthropic

Mais le plus impressionnant est que l’IA est aussi capable de répondre à certaines des 23 questions auxquelles les experts humains n’étaient pas capables de répondre. Pour Claude Mythos, le taux de bonnes réponses était de 29,6 %. Et pour Claude Opus 4.7, le taux était de 27 %.

Comment cet écart s’explique-t-il ?

Anthropic a suivi le raisonnement de Claude Opus 4.6, qui a aussi réussi à résoudre un certain nombre de problèmes insolubles par des experts. Et, d’après celui-ci, l’écart s’explique, en partie, par une propriété spécifique à l’intelligence artificielle : la connaissance. “La vaste base de connaissances sous-jacente de Claude contient des informations sur la biologie structurale, les profils moléculaires et les méta-analyses issues de centaines de milliers d’articles”, indique le laboratoire d’IA. Les humains, de leur côté, auraient été obligés de lancer des méta-analyses ou de combiner de nombreuses bases de données.

Mais, ce n’est pas tout, car l’IA aurait aussi développé de nouvelles techniques pour résoudre un problème, dont les scientifiques pourraient s’inspirer. Pour résumer, lorsque Claude n’est pas sûr d’une réponse, celui-ci combine plusieurs méthodes et combine des éléments de preuves provenant de ces méthodes pour aboutir à une conclusion.

Claude Mythos n’est pas seulement une IA de cybersécurité

Pour le moment, la sortie de Claude Mythos est bloquée (sauf pour quelques organisations), car ses compétences en cybersécurité pourraient être utilisées par des personnes malintentionnées pour découvrir de nouvelles failles de sécurité et exploiter celles-ci (au lieu de les signaler) pour pirater des logiciels. Pour rappel, en utilisant Mythos, Mozilla a découvert 271 failles de sécurité sur Firefox, qu’il a réparées via une mise à jour du navigateur.

Néanmoins, cette étude rappelle que Mythos est aussi très performant dans d’autres domaines et pourrait donc aider l’humanité, si les risques liés à la cybersécurité sont éliminés. Anthropic a d’ailleurs déjà donné un aperçu des compétences de Mythos en codage, en raisonnement ou encore en raisonnement visuel, en publiant une série d’évaluations de celui-ci, lors de la sortie du modèle Opus 4.7.

Claude Science Benchmark
© Anthropic

Et Anthropic a bien l’intention de sortir Claude Mythos, ou un autre modèle du même niveau, lorsqu’il parviendra à éliminer les risques en cybersécurité. D’ailleurs, les mesures qui pourraient être utilisées pour sécuriser Claude Mythos sont aujourd’hui testées sur Claude Opus 4.7.

Ce qu’on en pense

L’annonce de Claude Mythos a fait le buzz grâce aux compétences de cette IA en matière de cybersécurité. Mais la nouvelle étude d’Anthropic réoriente le débat, en faisant comprendre au grand public que ce modèle d’intelligence artificielle aura d’autres utilités, et pourrait mener à d’importantes découvertes scientifiques.

  • L’annonce de Claude Mythos, une IA qui excelle en cybersécurité, a fait le buzz
  • Mais une nouvelle étude d’Anthropic démontre que cette IA a aussi d’importantes compétences scientifiques (dépassant les humains sur certaines questions)
  • La sortie de Mythos est encore bloquée à cause des risques en cybersécurité
  • Mais Anthropic compte sortir ce modèle ou une technologie similaire, lorsqu’il aura trouvé un moyen d’éliminer les risques

📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.

Newsletter 🍋

Abonnez-vous, et recevez chaque matin un résumé de l’actu tech