Des millions de personnes utilisent désormais les agents conversationnels dans leurs vies personnelles ou au travail. Si ces systèmes s’avèrent à bien des égards utiles, ils ont aussi un défaut majeur : ils peuvent inventer de toutes pièces certaines informations ou « halluciner » comme le disent plutôt les chercheurs de cette industrie. Ce doute sur la fiabilité reste l’un des principaux freins à une adoption encore plus massive de ces technologies.
Des erreurs toujours plus fréquentes
Et si l’on en croit une nouvelle enquête du New York Times, le problème est clairement en train d’empirer. Nos confrères ont ainsi noté que les chatbots de raisonnement mis au point par Google, DeepSeek, ou OpenAI commettent plus d’erreurs que par le passé. Ainsi, alors que leurs compétences dans certains domaines, comme les mathématiques s’améliorent, leur maîtrise des faits devient plus fragile. Le pire étant que personne ne sait vraiment pourquoi ni comment améliorer la situation.
Par exemple, lors de ses tests réalisés en interne, OpenAI a noté que o3, son système le plus puissant, hallucinait 33 % du temps, soit plus du double du précédent système de raisonnement o1. Quant au nouveau o4-mini, il présente un taux d’erreurs encore plus élevé : 48 %.
Cité par nos confrères, Amr Awadallah, PDG de Vectara, une startup qui développe des outils d’IA pour les entreprises, et ancien cadre de Google, résume la situation : « Malgré tous nos efforts, ils auront toujours des hallucinations. Cela ne disparaîtra jamais. »
Un danger mortel pour l’IA ?
De son côté, OpenAI fait le dos rond. « Les hallucinations ne sont pas intrinsèquement plus fréquentes dans les modèles de raisonnement, même si nous travaillons activement à réduire les taux plus élevés d’hallucinations observés dans o3 et o4-mini », souligne Gaby Raila, porte-parole de l’entreprise. « Nous poursuivrons nos recherches sur les hallucinations dans tous les modèles afin d’améliorer la précision et la fiabilité », ajoute-t-il.
Si ces erreurs ne sont pas forcément un énorme problème pour certains utilisateurs, elles peuvent s’avérer rédhibitoires dans certains secteurs. Il en va ainsi des professions judiciaires, médicales, ou commerciales. Alors que ces systèmes sont censés automatiser des tâches, le fait de passer trop de temps à chercher une hallucination pourrait même tuer l’attrait pour ces technologies à plus long terme.
Ce qu’il faut retenir :
- Les modèles d’IA de raisonnement commettent encore plus d’erreurs que par le passé
- Personne ne sait exactement pourquoi
- Ce manque de fiabilité est une grosse menace pour le secteur à plus long terme
📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.