L’incident a duré plusieurs heures. X, ChatGPT, Spotify, Downdetector… Des milliers de sites se sont retrouvés inaccessibles, affichant une erreur 500, le fameux code qui indique qu’un serveur est incapable de traiter la requête.
Très vite, Cloudflare a indiqué que le problème venait de chez lui. Et le géant américain, colonne vertébrale du Web moderne, a mis un certain temps à analyser ce qui avait mis l’un des réseaux les plus importants de la planète à genoux. Aujourd’hui, on sait enfin ce qu’il s’est passé, et malgré les craintes initiales, il ne s’agissait pas d’une cyberattaque. « L’incident n’a pas été causé, directement ou indirectement, par une activité malveillante de quelque nature que ce soit », insiste le PDG.

Une petite erreur devenue un gigantesque problème
Mais alors, qu’est-ce qui a mis 20 % du Web à terre ? Le problème vient d’un fichier utilisé par le module de gestion des bots de Cloudflare, qui est mis à jour toutes les quelques minutes pour aider à distinguer trafic humain et trafic automatisé.
Concrètement, un changement de permissions dans la base de données interne a créé un effet domino inattendu. Celle-ci a commencé à envoyer deux fois plus de données qu’auparavant, faisant doubler le fichier de taille. Problème, le module, qui est intégré au proxy principal de Cloudflare traitant l’ensemble du trafic, dispose d’une limite fixe sur la taille du fichier qu’il peut charger en mémoire. Quand le fichier a soudain dépassé cette limite, le proxy a déclenché une erreur interne, renvoyant des erreurs 500 partout où il dépendait du module de gestion des bots.
Le fichier, lui, était régénéré toutes les cinq minutes. Selon le nœud de la base utilisé, il sortait soit correct, soit corrompu, ce qui faisait que les sites cessaient de fonctionner puis revenaient en ligne. Cloudflare a dû couper net la distribution du fichier défectueux et réinjecter une version propre pour remettre de l’ordre. À 18h06 heure de France métropolitaine, l’ensemble des services était enfin stabilisé.
Un incident majeur qui prouve que ne dépendre que de quelques acteurs pour faire tourner l’infrastructure Web mondiale nous expose à d’importants risques. Les immenses pannes d’Amazon Web Services (AWS), d’Azure et maintenant, de Cloudflare, le prouvent.
- La panne mondiale de Cloudflare du 18 novembre n’était pas une cyberattaque, mais un simple fichier interne devenu trop volumineux après un changement de permissions.
- Ce fichier, crucial pour la gestion automatisée des bots, a fait planter le proxy principal de Cloudflare et provoqué des erreurs 500 en cascade.
- Il a fallu stopper sa propagation et restaurer une version saine pour rétablir l’ensemble du réseau en fin d’après-midi.
📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.
