L’IA peut-elle vraiment saisir toute la complexité d’une cellule humaine ?

Il est déjà possible de confier aux modèles d’IA grand public une quantité de tâches invraisemblable : programmation, production ou amélioration de textes, planification de projets ou de voyages (liste non exhaustive). Tous les chatbots grand public comme ChatGPT ou Gemini peuvent s’en acquitter très facilement et avec une rapidité déconcertante.

En recherche fondamentale, des modèles d’IA spécialisés sont déjà utilisés pour concevoir des médicaments ou encore prédire la structure des protéines, mais en biologie computationnelle, certains chercheurs souhaiteraient aller encore plus loin : comprendre le fonctionnement d’une cellule dans son intégralité et modéliser la vie elle-même. Mais est-il réellement possible de réduire le vivant à une suite d’équations et de données pour percer son secret ?

Les cellules virtuelles : comprendre la vie par le calcul

Prenons une cellule humaine : celle-ci héberge environ 42 millions de protéines, des lipides, des sucres, des acides nucléiques, et des millions de réactions biochimiques s’y produisent en continu. Son cytoplasme (le contenu de la cellule entourant son noyau) est une véritable mini-usine à l’activité frénétique, dépassant largement nos capacités actuelles de modélisation.

Depuis près de 25 ans, les biologistes se sont acharnés à la comprendre grâce à des calculs déterministes, comme il est possible de le faire pour une machine. Une approche limitée, puisqu’une cellule n’obéit pas à des règles fixes : elle s’adapte constamment, se réorganise selon son environnement, et son comportement dépend de variables trop nombreuses pour être enfermées dans un modèle mathématique.

C’est pourquoi les chercheurs de ce domaine voient dans l’IA un outil d’analyse exceptionnel, car les modèles prédictifs partent du principe inverse : plutôt que de décrire le comportement de la cellule à partir d’hypothèses, ils laissent l’IA explorer ses données biologiques et en déduire elle-même les relations entre les gènes, les protéines et les réactions chimiques.

C’est cette méthodologie inductive qui inspire désormais la conception des premières cellules virtuelles, des modèles IA capables de relier, sans supervision, les réactions chimiques observées dans le vivant. Ce sont des représentations informatiques d’une cellule réelle, nourrie par des millions de données issues d’expériences biologiques : profils d’expression génique, concentrations de protéines, interactions enzymatiques, flux métaboliques.

Ces modèles reproduisent numériquement l’ensemble des dynamiques cellulaires, seconde après seconde, comme si la cellule était simulée dans un « environnement numérique vivant ». Il est donc possible de les modifier sans manipuler une cellule réelle, ce qui, à terme, pourrait accélérer les progrès dans de nombreux domaines.

Il serait possible d’améliorer la conception de médicaments, de prédire les effets de certaines mutations génétiques, d’étudier l’impact des tumeurs sur l’organisme, de créer des traitements personnalisés, sans que le moindre être vivant ne soit nécessaire à l’expérimentation.

Inspiré par l’essor des modèles de langage, le biologiste Hani Goodarzi (Arc Institute) a lancé le Virtual Cell Challenge, qui vise à comparer et à améliorer les modèles d’IA capables de simuler le comportement d’une cellule. Une compétition internationale, soutenue par certains gros acteurs du secteur comme NVIDIA. Plus de 1 000 équipes de chercheurs y participent déjà, avec pour mission de créer la cellule virtuelle la plus réaliste possible.

Chaque équipe doit prédire comment l’inactivation d’un gène spécifique dans des cellules souches embryonnaires humaines modifie l’activité des autres gènes. Un exercice d’une complexité extrême, qui demande aux différents modèles d’IA de reproduire le comportement d’un système biologique, de raisonner pour inférer les liens de cause à effet qui structurent le fonctionnement du génome, et de comprendre comment la cellule s’autorégule en permanence.

Modéliser la vie : un rêve encore hors de portée

En pratique, la tâche s’avère bien plus ardue que prévu. Les premiers modèles évalués dans le cadre de cette compétition scientifique (Geneformer ou TranscriptFormer, par exemple) savent analyser et classer des cellules, voire anticiper certaines réponses génétiques, mais ils peinent à intégrer la totalité des interactions moléculaires qui assurent la stabilité d’un organisme.

« Malgré l’engouement qu’ils suscitent, ces modèles peinent encore à atteindre les performances attendues », reconnaît Alex Lu, chercheur chez Microsoft Research. Dans plusieurs cas, des approches « à l’ancienne », fondées sur des équations biochimiques déterministes, offrent même de meilleures prédictions.

En vérité, ces modèles butent, car ils n’ont qu’une connaissance parcellaire des cellules, qu’ils n’analysent qu’à travers un seul prisme, forcément réducteur : l’expression génétique. Ils savent quels gènes sont actifs, mais pas comment cette activité se traduit dans la matière vivante.

Ils passent ainsi à côté de tout ce qui fait la vie d’une cellule : sa forme tridimensionnelle, son organisation interne, son métabolisme ou les signaux qu’elle échange avec son environnement. C’est exactement comme si l’on plaçait un être humain devant un film sans sa bande-son et son contexte ; cela ne l’empêcherait pas de le regarder, mais il ne saisirait pas la totalité du fil narratif.

Un constat symptomatique, selon Qin Ma (Ohio State University), pour qui la prolifération de modèles différents trahit avant tout une impasse méthodologique. Comme aucun modèle n’est capable de prouver sa supériorité, les équipes développent dans leur coin leur propre version de leur cellule virtuelle. C’est en partie le but du concours, mais cela montre que la discipline en est encore à sa phase exploratoire. « Un seul modèle devrait être suffisamment puissant, mais nous en avons des dizaines. C’est le signe que nous ne tenons pas encore la bonne approche », résume-t-il.

L’intelligence artificielle n’est pas encore prête à percer le mystère d’une cellule humaine, et il est fort probable qu’elle n’y parvienne pas de sitôt. Malgré tout, il ne faut pas pour autant y voir un échec, puisqu’elle change déjà le rapport qu’entretient la science avec la connaissance de la biologie. Ces cellules virtuelles, bien qu’encore imparfaites, offrent aux chercheurs un nouveau cadre d’expérimentation dans lequel ils peuvent tester des hypothèses qu’ils auraient été incapables de formuler autrement. Pour le moment, elles sont impuissantes à décrire la vie dans ce qu’elle a de plus global, mais elles parviennent déjà à déchiffrer quelques règles auxquelles elle obéit. Ce qui, il y a à peine quelques années, était tout simplement impossible en raison de la lenteur des approches déterministes. La bioinformatique est une science à l’état embryonnaire ; encore plus celle assistée par l’intelligence artificielle. Il faudra sans doute 30 à 50 ans pour espérer modéliser une cellule humaine de manière fiable, comme le fait un biologiste humain : un horizon très long, comparable à celui auquel faisaient face les pionniers de la génétique au siècle dernier. Les progrès qui en découleront seront sans aucun doute à la hauteur de l’attente, car comprendre la complexité d’une cellule revient à comprendre celle du vivant ; cela vaut donc le coup de patienter encore quelques décennies.

Des chercheurs tentent de créer des cellules virtuelles capables de reproduire le fonctionnement d’une cellule réelle à partir de données biologiques massives, une approche rendue possible par les progrès récents de l’IA.
Malgré les avancées, ces modèles restent très limités : ils ne prennent en compte qu’une partie du vivant et peinent à représenter la complexité des interactions moléculaires.
La modélisation complète d’une cellule humaine pourrait encore demander plusieurs décennies, mais elle ouvre déjà une nouvelle ère pour la biologie computationnelle.

📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.