Depuis sa création, Google, qui est devenu Alphabet, compte de nombreux succès à son actif, en plus du moteur de recherche. Parmi ceux-ci, il y a YouTube, qui est devenu un mastodonte du divertissement, ou Waymo, qui est maintenant le leader mondial des robotaxis. Et la prochaine révolution de la firme de Mountain View pourrait bien être TurboQuant. Derrière ce nom se cache un nouvel algorithme de compression développé par Google Research, la branche scientifique de Google, qui pourrait aider la firme à réduire les ressources nécessaires pour déployer les modèles d’IA comme ceux de Gemini à grande échelle. Avec cet algorithme, Google veut mettre fin à un goulot d’étranglement que d’autres sociétés tentent de contourner en investissant dans plus de matériel : le key-value cache ou cache clé-valeur.
“Lors de la génération de texte, les modèles d’IA répètent souvent les mêmes calculs, ce qui peut ralentir le processus. La mise en cache par paires clé-valeur est une technique qui permet d’accélérer ce processus en conservant les informations importantes des étapes précédentes”, explique un article de la plateforme Hugging Face, à ce sujet. Et la nouvelle technologie de Google pourrait apporter un énorme gain d’efficacité à ce niveau, puisque la firme indique que TurboQuant permet d’obtenir des résultats “parfaits”, tout en divisant la taille de la mémoire allouée par 6, au moins. De plus, l’algorithme peut également accélérer les performances des grands modèles de langage.
Est-ce la fin de la pénurie de RAM ?
L’annonce de TurboQuant, faite le 26 mars, a eu un impact négatif sur les valeurs des actions des fabricants de stockage et de mémoire RAM. Cependant, l’arrivée de cette technologie ne sonne pas forcément la fin de la pénurie de puces mémoires (qui affecte les prix des produits grand public, comme les PC ou les smartphones). En effet, l’algorithme de Google n’intervient que lors de l’inférence, mais pas durant l’entraînement des modèles d’IA (qui nécessite aussi une énorme quantité de puces mémoires dites “HBM).
D’autre part, pour le moment, TurboQuant n’est encore qu’au stade de recherche. Et Google devrait en dire plus sur sa découverte durant l’ICLR 2026, une conférence axée sur l’intelligence artificielle, au mois d’avril. En tout cas, si cette technologie tient ses promesses, elle pourrait révolutionner l’intelligence artificielle, mais aussi d’autres produits de Google, comme son moteur de recherche.
Matthew Prince, le CEO de Cloudflare, compare cette percée de Google au lancement de DeepSeek, qui avait aussi secoué le monde de la tech grâce à son efficacité.
This is Google’s DeepSeek. So much more room to optimize AI inference for speed, memory usage, power consumption, and multi-tenant utilization. Lots of teams at @Cloudflare focused on these areas. #staytuned https://t.co/hHoY4sLT2I
— Matthew Prince 🌥 (@eastdakota) March 25, 2026
Et, sur le réseau social X, de nombreux internautes ont comparé TurboQuant à Pied Piper, la technologie de compression (fictif) qui révolutionne internet dans la série Silicon Valley.
JUST IN: Google launches TurboQuant (AI memory compression)
HBO’s Silicon Valley wasn’t fiction after all
This is literally Pied Piper
→ up to 6x memory reduction
→ cheaper + faster AI inference pic.twitter.com/lClHidp0JG— VC Intern (@the_vc_intern) March 26, 2026
- Google a récemment présenté son algorithme de compression TurboQuant
- Celui-ci peut réduire la taille de la mémoire nécessaire pour gérer nos demandes pour l’IA, sans affecter les résultats
- Mais, pour le moment, Google est encore au stade de recherche
📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.
