Passer au contenu

Une IA apprend à parler grâce à un bébé et une caméra

Un type d’entraînement complètement inédit, mis au point à l’Université de New York.

Les IA conversationnelles font (presque) partie de notre quotidien désormais, et se sont intégrés parfaitement au paysage numérique. Les modèles grand public ont rencontré un franc succès grâce à leurs compétences plutôt avancées, quoiqu’encore limitées. Des compétences acquises grâce à un entraînement de longue haleine qui pourrait se résumer par l’ingurgitation d’une quantité colossale de données. Récemment, une étude publiée par des chercheurs en IA à l’Université de New York a montré qu’une intelligence artificielle avait été capable de développer ses compétences de langage d’une manière toute autre : en analysant les enregistrements d’une caméra portée par un bébé.

Les techniques classiques d’apprentissage du langage par l’IA

Traditionnellement, les modèles d’IA comme ChatGPT d’OpenAI (qui a soufflé sa première bougie en décembre dernier), Google Bard ou Llama 2 de Meta apprennent le langage tous plus ou moins de manière similaire. Leur entraînement repose sur le deep learning, impliquant d’immenses réseaux de neurones artificiels interconnectés.

Dans un premier temps, il s’agit de collecter un grand ensemble de données qui vont servir de base d’entraînement à ces modèles. Ces données proviennent de sources très diversifiées du web et peuvent comprendre des livres, des articles, des pages web, des contenus de réseaux sociaux etc.

Toutes ces données sont ensuite nettoyées, c’est-à-dire qu’on supprime les caractères spéciaux, la ponctuation et les balises HTML entre autres. Les textes sont ensuite découpés en phrases puis en tokens. Ces tokens permettent au modèle de traiter le texte de manière structurée et simplifient son travail.

Le modèle est ensuite entraîné à prédire le mot suivant ou alors à générer un contenu textuel selon le contexte qu’on lui donne. Pour parvenir à cette tâche, on l’alimente avec des inputs (séquence de tokens) et des outputs (token suivant dans le texte réel). Grâce à cela, le modèle peut commencer à ajuster ses paramètres internes et ses réponses en minimisant les erreurs entre ce qu’il va prédire et le mot réel qui suivra dans les exemples qu’il a à disposition. Plus cet entraînement est long, meilleur il sera dans l’exécution de ses requêtes.

Le modèle peut être ensuite adapté à certaines tâches spécifiques (répondre à des questions, générer du texte créatif, traduction, etc.) puis déployé en tant qu’API (Application Programming Interface) pour être mis à disposition des développeurs.  Cela permet de mettre en œuvre plus facilement le modèle et d’utiliser ses fonctionnalités dans différents services.

Ce processus d’entraînement n’a donc rien à voir avec un apprentissage naturel du langage, comme celui dont les bébés humains bénéficient. Ceux-ci font l’acquisition du langage grâce aux interactions avec leur environnement, qui leur permettent ensuite d’établir des liens logiques entre les mots qu’ils entendent et les objets ou concepts que ceux-ci représentent.

Une étude et un mode d’apprentissage révolutionnaire

La démarche entreprise par Wai Keen Vong, de l’Université de New York, et ses collègues est donc réellement inédite. Ils ont entraîné un réseau de neurones à reconnaître des mots en lui donnant à analyser 61 heures d’enregistrements vidéo. Ces enregistrements ont tous été capturés par une caméra fixée sur la tête d’un bébé nommé Sam.

Contrairement à la méthode classique d’apprentissage, leur modèle de langage a ainsi appris simplement grâce à l’association des images et des mots qui étaient prononcés dans l’entourage du bébé. Il ne disposait d’aucune connaissance préalablement programmée et partait donc de zéro.

Cette méthode, en étant calquée au plus proche de l’apprentissage linguistique naturel des enfants, remet de ce fait en question une idée autrefois bien établie. Celle que les bébés nécessitent une connaissance innée du fonctionnement du langage (hypothèse de l’innéisme) afin de comprendre les mots et de leur attribuer un sens. Une théorie qui a été depuis largement critiquée ; on sait aujourd’hui que l’apprentissage du langage est influencé par d’autres facteurs, environnementaux ou sociaux notamment.

Implications de l’étude

Les résultats de l’étude sont assez impressionnants, puisqu’ils ont démontré que l’IA parvenait à établir des associations correctes 62 % du temps. Pour autant, cela ne veut pas dire qu’il faudrait généraliser ces résultats et clamer que tous les modèles d’IA pourraient apprendre de cette manière. En effet, les données sont issues d’un seul enfant et cela ne signifie pas nécessairement que ces derniers peuvent être extrapolés à d’autres contextes.

En plus de cela, le modèle a été entraîné seulement à partir d’images fixes issues des vidéos et de texte écrit. Un environnement qui ne peut pas égaler la richesse représentée par les interactions dynamiques que connaît un bébé lors de son apprentissage. Il y a encore tout un monde entre l’apprentissage naturel comparé à l’apprentissage artificiel d’un programme ou d’un algorithme.

Toutefois, il ne faut pas nier que cette étude représente tout de même une avancée importante dans la compréhension de l’acquisition du langage ; surtout du point de vue du développement de l’intelligence artificielle. Entraîner une IA à la manière d’un humain est aujourd’hui réalisable. Tout du moins, ces chercheurs ont réussi. Il est possible que cette expérience influence plus tard notre conception de l’apprentissage automatique et nos techniques de programmation des modèles d’IA.

  • Les modèles d’IA traditionnels suivent un entraînement établi sur l’acquisition de données et leur utilisation répétée afin d’améliorer leurs performances.
  • Une équipe de chercheurs de l’Université de New York sont parvenus à entraîner une IA grâce à des enregistrements d’une caméra posée sur la tête d’un bébé. Un processus d’apprentissage plus proche de l’apprentissage naturel du langage.
  • Leur modèle est parvenu à réaliser des associations justes entre des mots et des images dans 61 % des cas.

📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.

Opera One - Navigateur web boosté à l’IA
Opera One - Navigateur web boosté à l’IA
Par : Opera