📌 Cloudflare interrompt les sites web de la Maison Blanche, de la Fed et des échanges de crypto-monnaies
– Une récente panne des services de Cloudflare a une fois de plus mis en évidence la vulnérabilité des infrastructures Internet centralisées, provoquant des pannes majeures sur une foule de sites web populaires, d’échanges de crypto-monnaies et de portails gouvernementaux.
L’incident a ravivé les inquiétudes concernant l’incarnation d’une architecture internet centralisée, après qu’une situation similaire s’est produite sur des plateformes utilisant les solutions cloud d’Amazon Web Services (AWS) il y a quelques semaines, entraînant de graves perturbations pour les services de blockchain et d’autres systèmes critiques. Elle a notamment entraîné la fermeture de ressources majeures telles que LinkedIn, Coinbase, Jupiter sur le réseau Solana et Downdetector, une plateforme qui surveille la santé des services Internet.
Les résultats ont affecté non seulement des plateformes commerciales et sociales bien connues, mais aussi des échanges de crypto-monnaies, touchant des millions d’utilisateurs dans le monde entier. – La cause technique de l’incident fait toujours l’objet d’une enquête, mais on sait que la cause première de la panne était des demandes d’API internes et une défaillance dans le traitement des données du côté du serveur de Cloudflare, ainsi que des mises à jour de configuration erronées liées à l’application de correctifs pour corriger des erreurs antérieures. L’entreprise a déclaré à la suite de l’incident qu’elle avait rapidement pris les mesures de dépannage nécessaires et déployé un correctif qui a permis de résoudre le problème en moins de 10 minutes, ce qui représente une amélioration significative par rapport à la situation du 18 novembre de l’année dernière, lorsque les pannes s’étaient prolongées.
– Le statut officiel affiché sur le site web de Cloudflare indique que l’équipe d’ingénieurs a lancé une enquête approfondie visant à identifier les causes profondes des pannes qui se sont produites. En particulier, il a été constaté que non seulement les composants côté serveur du panneau de contrôle et de l’interface API interne ont échoué, mais aussi les applications connectées connexes, ce qui a entraîné une propagation massive des erreurs. Les sites et services utilisant l’API de Cloudflare, tels que Downdetector, LinkedIn, Substack et la bourse de crypto-monnaies Coinbase, ont été particulièrement touchés. Les utilisateurs ont signalé des problèmes de connexion, avec des dépassements de délai et des erreurs de serveur peu claires, qui correspondent à l’erreur 500 classique.
– Un autre aspect important a été l’émergence de rapports alarmants sur les défaillances des protocoles du réseau Solana, qui utilise une infrastructure centralisée pour prendre en charge les transactions rapides et les contrats intelligents. Plus précisément, il a été signalé que les plateformes populaires Jupiter, Raydium et Meteora, qui fonctionnent au sein de l’écosystème Solana, ont connu des pannes d’interface utilisateur pendant la panne de Cloudflare. La communauté SolanaFloor a noté que si le backend fonctionnait normalement, l’interaction des utilisateurs avec le marché et la capacité à effectuer des transactions sur la blockchain étaient bloquées en raison d’un manque d’accès aux informations en temps réel, ce qui rendait la tâche difficile pour les traders et les développeurs.
Dans une nouvelle mise à jour de son statut, Cloudflare a indiqué qu’au moment de l’enquête, les experts avaient détecté une augmentation du nombre de pages blanches survenant lorsque les clients accédaient à l’espace de noms Worker KV API – qui est l’une des technologies de base de Cloudflare utilisée pour stocker des données et exécuter des scénarios d’informatique en périphérie.
Les rapports indiquent que les ingénieurs travaillent à l’analyse de la situation, à l’identification des causes des erreurs et à leur localisation. En particulier, il a été signalé qu’au cours des diagnostics, une erreur a été détectée chez les clients utilisant des scripts basés sur les travailleurs de Cloudflare, ce qui indique un problème interne dans le traitement des requêtes ou dans le système de mise en cache.
-L’ampleur globale de la panne rappelle à quel point la fiabilité de chaque élément qui compose la chaîne de l’infrastructure Internet mondiale est importante. Cette épidémie survient peu de temps après une panne majeure survenue le 18 novembre 2022, lorsque, pendant une heure ou plus, la majeure partie du trafic mondial a été déséquilibrée en raison d’erreurs de résolution de base de données. Selon un billet de blog de Cloudflare, cette situation a été causée par une défaillance du système de gestion des autorisations d’accès, où des paramètres incorrects ont entraîné la création d’entrées redondantes et en double dans le fichier des caractéristiques de la base de données utilisé par le système de protection des robots.
-Ce fichier, à la suite de l’erreur, s’est considérablement agrandi et a dépassé les paramètres maximaux autorisés, entraînant une surcharge du logiciel de routage et, finalement, le plantage de l’ensemble du système. Bien que les ingénieurs aient rapidement détecté et arrêté la propagation de cette erreur critique, il a fallu plusieurs heures pour rétablir les opérations normales après avoir éliminé les enregistrements concernés. Le trafic principal est revenu à la normale à 14h30 GMT, mais les effets ont continué à se faire sentir sous la forme d’une charge accrue et de défaillances de certains composants, qui ont duré des heures supplémentaires.
Les incidents de Cloudflare illustrent également de manière frappante la dépendance de l’internet et des services critiques à l’égard des plateformes centralisées. En cas d’erreurs technologiques ou d’attaques extérieures, les conséquences peuvent être beaucoup plus importantes que celles associées aux systèmes décentralisés ou aux architectures distribuées. Cela souligne la nécessité de mettre en œuvre des solutions redondantes, de basculer automatiquement vers d’autres infrastructures et de renforcer les systèmes de surveillance afin de pouvoir réagir en temps utile. Des enquêtes internes et des améliorations de l’infrastructure sont en cours, et des experts travaillent à renforcer la résilience du système contre de futures perturbations.
-Les incidents de ce type exercent une pression supplémentaire sur le secteur pour qu’il adopte de nouvelles technologies, automatise ses processus et améliore la fiabilité de ses solutions d’infrastructure. Ils soulèvent également des questions sur la nécessité de disposer de systèmes plus décentralisés et plus résilients, capables de résister à la fois aux erreurs internes et aux menaces externes. En fin de compte, ces situations soulignent que non seulement l’innovation, mais aussi la résilience et la sécurité des écosystèmes de l’internet mondial deviennent une priorité.