Sans communication officielle, DeepSeek vient de déposer sur Hugging Face une mise à jour de son modèle V3 : la V3-0324. La jeune pousse chinoise a centré l’évolution de celui-ci sur l’amélioration de ses capacités de programmation. Celle-ci suffira-t-elle à bousculer l’hégémonie des géants américains de l’intelligence artificielle ?
Les informations techniques issues de la page Github de DeepSeek montre en tout cas qu’elle emprunte une voie complètement différente de ses concurrents pour faire maturer ses modèles.
DeepSeek : une IA plus efficace, et plus écologique
Pour comprendre la portée de cette mise à jour, replaçons-la dans son contexte. En janvier dernier, DeepSeek avait déjà créé la surprise en devenant l’application gratuite la plus populaire sur l’App Store américain, dépassant même ChatGPT. Une arrivée brutale, qui avait fait trembler le secteur de l’IA au point de faire souffler un vent de panique sur Wall Street.
La nouvelle version V3-0324 introduit un système de prédiction multi-tokens (MTP) qui transforme entièrement le fonctionnement du modèle. Quand nous lisons un livre, par exemple, nous découvrons un mot après l’autre, sans les anticiper. C’est exactement ce que fait le MTP : l’anticipation. Là où les autres modèles prédisent chaque élément de texte (token) individuellement, DeepSeek génère simultanément plusieurs fragments de texte.
Le MTP permet ainsi d’accélérer la génération de contenu, d’améliorer la cohérence des réponses en réduisant le risque d’hallucination, le modèle ayant un regard plus large du texte qu’il produit.
DeepSeek a également adopté l’entraînement à précision mixte FP8. Que se cache derrière ce jargon technique ? Pour bien comprendre, pensons à la différence entre une photo haute définition et sa version compressée. Normalement, les modèles d’IA nécessitent une très haute précision numérique (comme des photos 4K), consommant énormément de mémoire et d’énergie.
Le format FP8 représente les nombres (valeurs numériques qui permettent au modèle d’apprendre et de fonctionner) avec moins de précision ; comme une photo compressée ; mais DeepSeek a trouvé la parade pour maintenir la qualité du modèle malgré cette compression. Résultat : un entraînement tout aussi efficace, mais bien moins énergivore.
L’efficience économique comme nouvel objectif
Sur sa page Github, DeepSeek explique : « DeepSeek-V3 a été pré-entraîné sur une quantité massive de données (14,8 billions de tokens) pour un coût étonnamment bas de seulement 2,664 millions d’heures de GPU H800, ce qui en fait le modèle de base open-source le plus performant à ce jour. Et le plus impressionnant ? Les étapes d’entraînement suivantes n’ont nécessité qu’une fraction de cette puissance, avec seulement 0,1 million d’heures de GPU ».
En d’autres termes, DeepSeek a établi un nouveau standard d’efficacité pour son nouveau modèle, là où les entreprises américaines déploient des milliards dans la construction de centres de données. Comment est-ce possible ? L’entreprise a réussi à faire en sorte que les opérations de calcul et de transfert de données se déroulent simultanément plutôt que l’une après l’autre. C’est comme si dans une usine, au lieu d’attendre qu’une pièce soit terminée pour la transporter vers la station suivante, le transport commençait pendant que la finition est encore en cours.
Que nous prouve cette mise à jour ? Que l’approche frugale de DeepSeek, fondée sur l’optimisation de ses algorithmes, s’avère parfois plus pertinente que la puissance brute des infrastructures. Encore plus lorsqu’on sait que les USA ont privé les entreprises chinoises de s’approvisionner en puces NVIDIA. Une barrière qui ne semble pas lui poser problème, sachant qu’en plus la firme prépare déjà son nouveau modèle ; le R2 ; prévu pour arriver avant le mois de mai.
- DeepSeek améliore sa technologie IA avec une nouvelle version qui génère plus vite et plus précisément du texte, tout en consommant moins d’énergie.
- La startup chinoise mise sur l’optimisation plutôt que la puissance brute, défiant les géants américains malgré des restrictions technologiques.
- Son modèle économique et technique casse les codes, prouvant qu’une IA performante peut être développée avec des moyens bien moindres.
📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.