Depuis la déflagration ChatGPT de novembre 2022, les outils fonctionnant grâce l’IA n’ont de cesse de nous impressionner. Modèles de langage concurrents et successeurs (Claude, Gemini), générateur d’images (Midjourney V6, DALL-E 3), moteurs de recherches conversationnels (Perplexity AI ou ChatGPT Search)… La liste est longue et la dresser intégralement n’aurait que peu d’intérêt pour développer ce qui nous intéresse ici. Ces systèmes restent encore imparfaits et peinent toujours à égaler l’intelligence humaine.
Ce qui leur échappe encore n’est pas une question de puissance de calcul ni de volume de données. Ce n’est pas non plus une limite technologique au sens strict. C’est un décalage plus profond, ancré dans la façon dont les humains perçoivent, souvent sans y penser, les intentions des autres, les micro-variations d’un comportement, l’équilibre d’une interaction. Là où l’IA accumule des représentations, l’humain lit des situations. Cette lecture, immédiate, intuitive, sociale, reste aujourd’hui hors de portée des algorithmes les plus sophistiqués. Le cœur du problème n’est donc pas dans le raisonnement, mais dans la manière dont les modèles interprètent ce qu’ils voient.
L’IA voit tout, mais ne comprend rien
À mesure que les modèles s’améliorent, que les réseaux neuronaux se densifient et que les bases de données atteignent des échelles vertigineuses, le constat s’impose de lui-même : les IA n’ont toujours pas le regard juste. C’est ce qu’a démontré récemment une équipe de chercheurs de l’Université Johns Hopkins, sous la direction de Leyla Isik, spécialiste des sciences cognitives, dans cet article.
Son équipe a organisé une expérience simple : comprendre ce que perçoivent les IA dans une scène sociale élémentaire ; rien de réellement compliqué. Juste deux individus filmés pendant trois secondes, en train d’interagir.
Des centaines de vidéos, toutes extraites d’un jeu de données visuelles, ont été sélectionnées. Chaque séquence a été ensuite réduite à l’essentiel. Pas de sons ou de narration pour accompagner celles-ci. Un panel humain a été sollicité pour juger ces interactions : regardent-ils dans la même direction ? Ont-ils l’air complices ? Est-ce tendu, chaleureux, neutre ?
Les réponses des participants humains ont montré un haut degré de cohérence, suggérant une lecture spontanée et largement partagée des interactions sociales, qu’elles soient factuelles – comme la direction des corps – ou plus nuancées, comme l’ambiance émotionnelle de la scène.
Face à ce même matériau, 350 modèles d’IA ont été mis à l’épreuve : des modèles d’image, de vidéo, et des systèmes de langage auxquels on avait préalablement fourni des légendes. Résultat : tous, sans exception, échouent à retrouver le niveau de consensus des humains. Même les modèles textuels, réputés plus performants, s’effondrent dès qu’il s’agit d’interpréter ce qui ne se dit pas explicitement. « Cette étude montre à quel point ces modèles échouent encore largement sur ce type de tâches », a résumé sobrement Leyla Isik auprès de Popular Science.
L’IA en marge du collectif
Cette incapacité à saisir les codes les plus élémentaires de l’interaction contraste violemment avec les ambitions démesurées que les industriels prêtent à ces systèmes. À Los Angeles, Austin ou Phoenix, les véhicules autonomes de Waymo (Google) circulent déjà au milieu des conducteurs de chair et d’os. Les robots bipèdes de Figure AI ; dont un exemplaire est attendu dans une usine BMW en Caroline du Sud ; sont conçus pour collaborer avec les humains. Partout, les promesses d’« intelligence incarnée » s’appuient sur la disposition présumée des machines à coexister avec nous, à partager nos gestes, notre espace et nos codes.
Toutefois, si l’IA reste sourde aux signaux faibles ; indices que l’humain interprète sans effort ; tout cela risque de tourner à vide. Pour naviguer dans notre monde, la simple détection est insuffisante. Cela exige de comprendre les liens, les intentions, les frictions invisibles.
« Il ne suffit pas de voir une image et de reconnaître des objets ou des visages. Ce qu’on attend désormais de l’IA, ce n’est plus seulement de reconnaître une scène, mais d’en saisir le fil. Comprendre les relations, le contexte, la dynamique d’une interaction sociale : c’est le cap à franchir. Et cette étude montre qu’un angle mort persiste dans la conception même des modèles. », rappelle Kathy Garcia, doctorante et co-autrice de l’étude. Ce que l’IA ne capte pas encore, c’est ce qui se joue entre les données.
Que produit ce manque de discernement ? Rappelez-vous des véhicules autonomes de Waymo, bloquées stupidement sur ce parking, à klaxonner tout en tournant en rond en plein milieu de la nuit. Un incident qui, à lui seul, résume le décalage entre la perception mécanique des IA et la lecture intuitive que ferait n’importe quel conducteur humain. Des enquêtes fédérales ont même été ouvertes aux États-Unis, ciblant Waymo et Zoox, propriété d’Amazon, pour des comportements jugés irréguliers de leurs véhicules sur la voie publique.
L’étude n’a certes pas porté sur les modèles les plus récents développés par OpenAI ou Anthropic. Cependant, l’écart observé est tel que les chercheurs doutent qu’une version plus avancée change fondamentalement la donne. Ce qui fait encore défaut, ce n’est pas la puissance de ces modèles, mais la capacité à saisir ce qui se joue dans la vraie vie.
Il y a, dans notre manière d’observer les autres et l’environnement, une spontanéité qui ne repose pas uniquement sur l’analyse froide, mas sur une mémoire des corps, des postures et des contextes. Le problème ne vient donc pas de l’IA en tant que telle, mais du fait que l’intelligence humaine ne se réduit pas à un empilement de données.
Comme le résume Leyla Isik, « ces résultats montrent bien la nécessité d’associer les sciences cognitives, les neurosciences et l’intelligence artificielle dans des environnements plus dynamiques et réels ». Il existe donc encore un immense fossé entre l’humain et la machine, et celui-ci ne se comblera pas en ajoutant encore des données dans des corpus d’entraînement déjà immenses. Tant que l’IA restera formée par l’abstraction, elle continuera d’échouer ; tant qu’elle restera extérieure à nos contextes, elle restera étrangère à nos intentions. Pour qu’elle progresse, il faudra bien un jour la confronter, sans augmenter sa puissance, à la vie telle qu’elle est réellement : contextuelle, parfois floue et illisible.
- Les IA peinent toujours à interpréter les interactions humaines simples, malgré leurs performances techniques impressionnantes.
- Cette limite, n’est pas qu’un problème de données ou de puissance, mais relève d’une incompréhension structurelle du monde social.
- Tant qu’elles resteront coupées des contextes réels, ces machines ne pourront pas coexister avec nous de façon fiable.
📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.