Une équipe de chercheurs, dirigée par Tianmin Shu de l’Université Johns Hopkins, vient de recevoir un prix prestigieux pour ses travaux sur la capacité des intelligences artificielles à comprendre les pensées et les intentions humaines. Leur papier, baptisé Multimodal Theory of Mind Question Answering, a mis en exergue les forces et les faiblesses de ces systèmes algorithmiques. Devez-vous craindre que ChatGPT ou Gemini lise dans vos pensées aussi clairement que dans une boule de cristal lorsque vous échangez avec eux ? Pour le moment, non, mais cela pourrait changer.
L’homme et la machine : un fossé cognitif persistant
Les êtres humains excellent naturellement dans l’art de décoder les émotions et les états mentaux de leurs semblables. Une aptitude essentielle pour établir des liens, résoudre des conflits, coopérer, s’adapter à son interlocuteur ou éviter les malentendus. Cette capacité, appelée « Théorie de l’Esprit » (Theory of Mind ou ToM) par les chercheurs en sciences cognitives, nous permet aussi d’attribuer des objectifs, des croyances et des désirs aux autres en observant simplement leur comportement.
Malgré ses progrès fulgurants ; surtout ces deux dernières années, l’intelligence artificielle peine encore à égaler l’Homme dans ce domaine essentiel pour les interactions sociales. Cela peut sembler évident, mais c’est une réalité qu’il faut bien avoir en tête.
Pour évaluer les performances des IA dans ce domaine précis, l’équipe de chercheurs a créé un jeu de données standardisé. C’est-à-dire un ensemble de données structurées et organisées selon des normes précises pour faciliter leur collecte et leur analyse. Celui-ci comprenait 134 vidéos et descriptions textuelles de personnes cherchant des objets dans un environnement domestique. Une scène on ne peut plus classique de la vie quotidienne. Les résultats de l’étude ont révélé des lacunes très importantes chez les IA actuelles, y compris les modèles les plus sophistiqués comme GPT-4V d’OpenAI. Ces derniers sont complètement à la ramasse sur deux aspects fondamentaux de la compréhension humaine.
Premièrement, ils peinent à différencier ce qui se passe réellement dans une situation de ce que la personne observée croit qu’il se passe. Par exemple, si une personne cherche ses clés dans le salon alors qu’elles sont en réalité dans la cuisine, l’IA pourrait confondre l’endroit réel des clés avec l’endroit où la personne pense qu’elles sont.
Ensuite, les modèles éprouvent aussi de grandes difficultés à comprendre comment les croyances et les intentions d’une personne changent au fil du temps. Imaginons que la personne cherchant ses clés décide soudainement de regarder dans la cuisine après avoir fouillé le salon, l’IA pourrait ne pas saisir ce changement de stratégie et la logique derrière.
Une nouvelle approche prometteuse
Pour palier ces limitations, les chercheurs ont développé leur propre modèle de la Théorie de l’Esprit, adapté à l’intelligence artificielle. Une approche combinant plusieurs techniques différentes pour mieux appréhender la complexité de la pensée humaine.
Au cœur de cette méthode se trouve un système de traduction sophistiqué qui transforme les données vidéo et textuelles en un langage que la machine peut interpréter. Ce processus permet de capturer avec précision non seulement l’environnement physique, mais aussi les actions subtiles des individus observés.
Ensuite, l’équipe a intégré dans leur approche la planification bayésienne inverse, une méthode qui permet d’estimer les causes les plus probables d’un événement observé, grâce aux probabilités et en tenant compte des connaissances préalables. Issue des sciences cognitives, elle a été initialement développée our l’analyse de données visuelles. Cette technique permet à l’IA de raisonner de manière plus proche de celle d’un cerveau humain, en inférant les motivations et les croyances à partir des comportements observés.
Pour affiner davantage la compréhension du contexte humain, l’équipe a également incorporé des modèles de langage de taille réduite, spécialement entraînés sur des données d’activités humaines quotidiennes. Ces modèles facilitent le travail de l’IA pour mieux prédire les actions probables d’un individu dans une situation donnée, en se fondant sur une compréhension plus nuancée des comportements humains typiques.
Cette approche multidimensionnelle a porté ses fruits, surpassant de loin les performances des modèles d’IA existants. Les résultats sont probants, tant sur le jeu de données principal élaboré par l’équipe que sur des scénarios réels inédits, démontrant ainsi la robustesse et la polyvalence de cette nouvelle méthode.
Vers des IA véritablement centrées sur l’humain ?
Les implications de cette recherche sont considérables pour l’avenir de l’intelligence artificielle. En mettant en évidence les lacunes actuelles des modèles d’IA et en proposant des pistes d’amélioration, l’équipe contribue ainsi à l’élaboration d’une nouvelle génération d’IA capables de mieux comprendre et interagir avec les humains.
Les chercheurs envisagent déjà d’étendre leurs travaux à des scénarios plus diversifiés, intégrant les émotions humaines et les contraintes situationnelles ; des facteurs augmentant nécessairement le nombre de variables à analyser. L’objectif à long terme est de concevoir des machines totalement centrées sur l’humain, capables d’assister efficacement les individus dans leur vie quotidienne.
Pour le moment, les modèles existants sur le marché sont très efficaces pour traiter un grand nombre de données et de l’information brute. En revanche, comprendre les subtilités de la pensée humaine est encore une tâche qui leur est hors de portée. Toutefois, les résultats de cette étude nous rapprochent à petit pas de cette réalité : des systèmes d’IA qui ne se contenteront plus de deviner, mais qui comprendront réellement ce que nous pensons.
- Une équipe de chercheurs a reçu un prix pour ses travaux sur la capacité des IA à comprendre les pensées humaines.
- Les IA actuelles peinent à saisir les croyances et intentions humaines, et présentent des lacunes importantes.
- Les chercheurs ont développé un modèle prometteur pour mieux adapter les IA à la complexité de la pensée humaine.
📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.
“Les êtres humains excellent naturellement dans l’art de décoder les émotions et les états mentaux de leurs semblables.”
“Cette capacité (…) nous permet aussi d’attribuer des objectifs, des croyances et des désirs aux autres en observant simplement leur comportement.”
–
Je ne suis pas convaincu que nous excellions, nous autres humains, à décoder les émotions et les états mentaux de nos semblables. Je pense plutôt que nous excellons à le croire et que passablement d’incompréhensions mutuelles proviennent de cet excès de confiance.
Un décodage approximatif voire erroné de l’état mental de notre prochain peut aboutir à de fausses conclusions quant à ses croyances, désirs, établir ensuite notre propre comportement en conséquence et ainsi initier un schéma relationnel faussé parce que construit sur une base erronée.
La psychologie en sait quelque chose et serait de moindre utilité si nous excellions dans le déchiffrement de notre prochain, lequel passe par le déchiffrement de nous-mêmes !. Nous nous trompons énormément et souvent.
–
On dit que les femmes se tromperaient moins dans le décodage des pensées de l’autre tant elles seraient dotées d’un “sixième sens” qui les déchiffrerait malgré nous. J’en sais trop rien à vrai dire. Et puis ce serait aborder par là même le champ de l’intuition pour peu que ce “sixième sens” en relève, cette “intelligence convertie capable de penser le réel dans le sens de sa genèse” selon le philosophe Claude Tresmontant. J’en sais trop rien, profane que je suis. Mais si l’intuition est effectivement une composante de l’intelligence j’imagine mal qu’une IA puisse y aspirer. On parle d’intuition, pas de prospective, pas de futurologie, pas d’analyse de probabilités. L’intuition on le sait peut s’affirmer en contradiction totale avec la plausibilité d’un évènement.
–
Mais l’intuition peut tromper, se tromper, nous tromper, ce n’est pas un don mais plutôt, selon moi, une aptitude et ainsi de nature faillible. Pourtant on s’y réfère souvent comme une espèce de “guide” qu’il s’agirait d’écouter plutôt que de nous en remettre à notre raison ; ainsi ce “La première impression est toujours la bonne”, affirmation contredite par le vécu, à fortiori le vécu étoffé : combien de fois ne s’est-on pas rendu compte que nous nous étions totalement trompés sur un individu quand notre “première impression” nous aura ainsi totalement leurré ? Bien souvent dans mon cas.
S’ensuivent des secondes impressions, notamment celles ressenties dans un environnement différent, par exemple une personnage, une personnalité en vue quand interviewé : “Bigre, je ne le/la voyais pas du tout comme ça…”
S’ensuivent les impressions suivantes et en particulier celle qui devrait être la plus éclairante : l’autre face à soi. Face à soi, même après cinquante années de vie commune, sait-on jamais qui “est” l’autre ? Alors au bout d’une heure de dialogue, on a, encore et toujours, que des “impressions” d’autant moins étoffées.
–
Nous sommes assommés d’impressions, pas vrai ? Allez extirper le vrai véridique de ces impressions, tâche ardue et, au final questionnable sur sa pertinence, en tous les cas hors cadre pathologique. Quand Freud clamait qu’une vie non analysée ne valait d’être vécue son disciple Otto Krant ne rétorquait-il pas que c’est une vie non créative qui pose question quant à son sens ?
–
Sur ces paroles, davantage longues que belles, tâchons de nous comprendre autrement que par l’intermédiaire d’une IA 🙂
Quand j’étais au lycée, il y a 20 ans, ll existait un site internet, dont j’ai oublié le nom, qui pouvait deviner ce que tu pensais en moins de 8 questions… Donc c’est pas nouveau…
Bonjour,
C’était Akinator et il existe toujours ! En revanche, il s’appuie sur un système expert, c’est-à-dire une base de données immense et structurée de questions-réponses. Il ne dispose pas vraiment de la capacité d’apprentissage automatique des vraies IA, qui peuvent s’améliorer au fil du temps en analysant de nouvelles données.
Cela dit, il était quand même assez impressionnant.