Cette IA a appris à comprendre le monde comme un être humain

Peut-on vraiment mettre en avant le concept de « compréhension » lorsque l’on parle d’une intelligence artificielle ? Est-elle réellement capable d’élaborer un modèle interne du réel, ou seulement de rejouer ce qu’on lui a montré ? Pour certains, il n’en est pas question, et c’est justement ce qui distingue encore l’humain de ces algorithmes avancés.

Anticiper, s’étonner, établir des liens de corrélation ou saisir les lois gouvernant le réel : des exercices fondateurs de toute intelligence, que le modèle V-JEPA de Meta semble désormais capable d’imiter. En observant des millions de vidéos, cette IA a développé une forme d’intuition du monde physique et est même apte à être « surprise » lorsqu’un événement enfreint les contraintes naturelles du monde réel.

V-JEPA : le modèle d’IA qui raisonne comme un enfant

Le modèle V-JEPA (Video Joint Embedding Predictive Architecture) s’inspire directement du développement cognitif des nouveau-nés : il apprend en observant des vidéos, en inférant des régularités physiques, puis en comparant constamment ses attentes à la réalité. Lorsqu’un objet se volatilise ou traverse un obstacle, le modèle détecte une incohérence, comme le ferait un enfant d’un an, conscient que le monde obéit à certaines lois immuables.

Contrairement à des modèles d’IA conçus pour le grand public (ChatGPT ou Gemini pour ne citer qu’eux), qui analysent les vidéos pixel par pixel, V-JEPA raisonne autrement. Il opère à un niveau d’abstraction supérieur, nommé par les chercheurs espace latent. Cela lui permet de comprendre les liens unissant les objets présents dans les vidéos (morphologie, mouvements, interactions, positions relatives, continuité temporelle, effets de cause à effet et régularités physiques) et d’établir des relations temporelles et causales.

Testée sur le protocole IntPhys, (un benchmark conçu pour évaluer la compréhension intuitive de la physique), V-JEPA a atteint près de 98 % de réussite. Les autres modèles de vision artificielle testés (ViViT de Google, TimeSformer de Facebook AI, VideoMAE, etc.) , limités à la simple reconnaissance d’images, n’obtiennent qu’un score avoisinant 55 %, soit à peine mieux que le hasard statistique.

Lorsqu’un objet disparaît de manière incohérente (une balle qui ne réapparaît pas après avoir roulé derrière un obstacle, par exemple), le modèle enregistre un pic d’« erreur de prédiction », l’équivalent mathématique de la surprise. Il constate donc que le monde qu’il perçoit n’obéit plus à la logique qu’il a apprise. Cette réaction rappelle le comportement d’un enfant confronté à un événement physiquement impossible.

Micha Heilbron, spécialiste des sciences cognitives, est impressionné par cette capacité : « On sait, grâce à la littérature sur le développement, que les bébés n’ont pas besoin d’une grande exposition pour acquérir cette forme de “physique intuitive”. Ce qui rend cette expérience si convaincante, c’est qu’elle prouve qu’un modèle peut y parvenir lui aussi, sans partir d’un savoir préprogrammé ».

Le savoir sans le dire : quand une IA apprend sans langage

Comme un enfant qui apprend à lire le monde par simple exposition à des stimuli, V-JEPA raisonne à partir de ce principe : l’apprentissage auto-supervisé. Aucun humain ne lui dit ce qu’il regarde, aucune aide ne lui dit qu’« un chat saute » ou qu’« une balle roule » lorsqu’il visionne les séquences vidéo. Il découvre seul les régularités ou irrégularités et de là, il se construit des représentations internes, des modèles implicites de ce que « devrait » être la réalité.

Un fonctionnement qui s’apparente à ce que les neurosciences computationnelles nomment un « world model » : un modèle qui s’est construit une carte mentale du monde, dénuée de langage ou de symbolique. À chaque fois qu’il visionne une scène, sa compréhension de la chaîne de causalités ayant mené à ce qu’il voit s’améliore. Même si V-JEPA ne reconnaît pas des objets en eux-mêmes, il comprend la continuité reliant chaque image à la suivante.

Karl Friston, neuroscientifique à University College London, souligne néanmoins que V-JEPA n’a pas encore franchi le cap de la métacognition. Il ignore comment estimer l’incertitude de ses propres prévisions ; lorsqu’il anticipe la suite d’une scène, il ne sait pas à quel point cette anticipation est fiable. Exactement comme un enfant qui devine juste, sans savoir pourquoi ou quand il risque de se tromper.

À cela s’ajoute une mémoire très restreinte, de quelques secondes tout au plus, qui l’empêche de comprendre des situations s’étirant dans le temps comme les humains le font naturellement. Quentin Garrido, chercheur chez Meta en plaisante : « En ce sens, sa mémoire reste comparable à celle d’un poisson rouge ».

V-JEPA est techniquement très impressionnant, cela ne fait aucun doute, mais peut-on réellement affirmer qu’il fait preuve de « compréhension » ou de « conscience » ? Non, pas encore ; il ne comprend pas le monde qui l’entoure, mais parvient à le modéliser, la différence est immense. En revanche, on peut tout à fait avancer qu’il mime le processus par lequel la conscience émerge : l’observation, la prédiction, la confrontation et la révision. Un cycle d’apprentissage qui, dans le cerveau humain, constitue le socle de la cognition, mais qui, chez la machine, ne renvoie qu’à une suite d’opérations statistiques sans intention. V-JEPA apprend, certes, mais sans jamais savoir réellement ce qu’il apprend ; il reste donc prisonnier de l’ignorance la plus absolue, qui nous est strictement réservée : celle de sa propre existence.

Meta a conçu une IA capable d’apprendre seule les lois physiques du monde en observant des vidéos, sans indication humaine.
Le modèle reproduit certains mécanismes cognitifs humains comme la prédiction et la détection d’anomalies, mais sans véritable compréhension.
Malgré sa précision inédite, il reste un système statistique sans conscience ni perception de soi.

📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.