Le mariage entre intelligence artificielle est souvent explosif ; nous en voulons pour preuves les dernières avancées de Figure avec son modèle Helix, qui donne aux robots la capacité de comprendre le langage et de collaborer entre eux. L’un et l’autre se complètent assez brillamment : l’IA donne un « cerveau » aux robots, et les robots lui octroient une enveloppe matérielle, indispensable pour interagir avec le monde physique.
Google Deepmind (filiale de Google) vient justement de lancer Gemini Robotics, une technologie construite sur les fondations de Gemini 2.0, qui offre aux robots la possibilité de comprendre les mots et à les traduire en mouvements. Il est ce qu’on appelle un modèle « Vision-Language-Action » (VLA) : il combine la vision, le langage et l’action.
L’art de la manipulation robotique
Grâce à Gemini Robotics, le système peut traiter et exécute des instructions formulées spontanément par l’utilisateur, sans nécessiter de syntaxe spécifique ni de programmation préalable. Via plusieurs canaux sensoriels, les robots analysent en temps réel leur environnement ; modifications de position des objets, changements d’éclairage, mouvements des personnes ; et peuvent instantanément adapter leurs trajectoires et actions.
Troisième pilier technique de Gemini Robotics : la manipulation fine des objets. Le système dirige parfaitement des tâches à micro-mouvements nécessitant un contrôle moteur d’une précision millimétrique : saisie et manipulation de petits objets, pliage d’origamis, etc.
En plus de ce VLA, Google Deepmind a également développé un « Vision-Language Model » (VLM) parallèlement à Gemini Robotics, un modèle spécifiquement conçu pour la compréhension spatiale avancée. Batpisé Gemini Robotics-ER (Embodied Reasoning), il vient épauler le VLA en donnant un sens aux objets. Le robot comprend ainsi ce qu’il manipule.
Par exemple, face à une tasse, l’algorithme l’analyse dans son entièreté. Géométrie tridimensionnelle complète, attributs fonctionnels (cavité pour contenir du liquide, anse pour la préhension), point d’équilibre optimal durant la manipulation, angle d’approche minimisant les risques de collision ou de renversement, etc. Cela lui permet d’ajuster la pression de préhension en fonction du poids estimé et de la fragilité du matériau.
Gemini Robotics-ER est aussi capable d’apprentissage par observation (in-context learning). Quelques démonstrations humaines suffisent pour que le système extraie les schémas comportementaux sous-jacents et les généralise à des situations nouvelles, sans reprogrammation explicite ni réentraînement complet du modèle.
Et la sécurité dans tout ça ?
L’intégration d’une IA puissante dans des systèmes physiques soulève naturellement des questions de sécurité essentielles, mais Google Deepmind a pensé à tout, ou presque. Sa nouvelle plateforme intègre une architecture de protection multicouche allant du contrôle moteur basique jusqu’à l’analyse sémantique avancée des commandes et actions.
Les mouvements potentiellement dangereux du robot sont limités par des contrôleurs : algorithmes d’évitement de collision en temps réel, limiteurs de force et mécanismes garantissant la stabilité des plateformes mobiles. À chaque instant, Gemini Robotics-ER évalue si une action demandée présente des risques dans son environnement spécifique.
Google Deepmind a même développé un cadre conceptuel directement inspiré des Trois Lois de la Robotique formulées en 1942 par Isaac Asimov. Un ensemble de données nommé ASIMOV qui permet désormais aux chercheurs d’évaluer les implications sécuritaires des actions effectuées par les robots dans divers scénarios réels. Ce système génère automatiquement des « constitutions robotiques » – règles exprimées en langage naturel – qui orientent le comportement des machines selon les contextes d’utilisation.
L’entreprise a déjà annoncé plusieurs partenariats pour tester tout cela dans divers contextes industriels et expérimentaux : Enchanted Tools, Agile Robots, Agility Robots, Boston Dynamics. Quatre acteurs clés de la robotique moderne ; un domaine qui semble se diriger vers un avenir où l’IA occupera une place centrale. L’adaptabilité contextuelle des machines remplacera certainement, à terme, la programmation, trop rigide. Cela ne signifie pas nécessairement que cette dernière disparaîtra complètement, mais plutôt qu’elle évoluera vers des formes plus abstraites et de haut niveau, où les humains définiront les objectifs et les contraintes. En face, les robots trouveront les moyens de les atteindre grâce à des systèmes de plus en plus avancés, qui seront l’équivalent de leur cerveau : exactement comme Gemini Robotics.
- Google DeepMind a développé une nouvelle technologie qui permet aux robots de comprendre le langage, d’interpréter leur environnement et de transformer ces informations en actions précises, sans programmation spécifique.
- Un second modèle complémentaire leur donne la capacité d’analyser finement les objets, d’ajuster leur manipulation et d’apprendre par simple observation, améliorant ainsi leur adaptabilité et leur efficacité.
- Des mécanismes de sécurité avancés ont été intégrés pour éviter les mouvements dangereux, avec un cadre inspiré des principes d’Asimov, garantissant un contrôle strict et sécurisé.
📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.
