Cloudflare Just Took Down the Internet—And It Wasn’t Even a Hack
クラウドフレアがインターネットをダウンさせた? しかも攻撃じゃなかった!

正直に言おう。クラウドフレアは単に「落ちた」んじゃなく、現代のWebを一時的に首がねられたようなものだった。3時間以上、単一のデータベース権限の誤設定がネットワーク全体に連鎖的な障害を引き起こした。DDoSでも、ハッキングでもなく、設定ファイルが倍増するような「タイポ」みたいな変更が、ボット検出システムをクラッシュさせたのだ。怖いのは、彼ら自身のソフトウェアがファイルサイズの上限を厳密に決めていたのに、それを超えたときのセーフティ対策がなかったこと。攻撃に耐えかねて壊れたのではなく、技術的傲慢が現実に叩きつけられた典型だ。
一番ひどかったのは? 「独立」してホストされているはずのステータスページまでダウン。これでエンジニアたちは協調攻撃を受けていると思った。皮肉なのは、ただ宇宙が彼らの過剰な耐障害設計を嘲笑っていたにすぎないこと。やっとのことで修正が入ったが、AIによる奇跡的な解決でも何でもなく、若手エンジニアが手動で良い設定ファイルを挿入しただけ。まさに詩的だ。
典型的な『知らなかった未知の要因』による障害だ。権限変更は悪意がなかったが、誰も文書化していなかったメタデータフィルタリングに依存しているという脆さを露呈した。真の教訓は? ‘緊急時対応用の手動オーバーライド’がないまま自動化に過剰に依存することは、こうした惨事を招くだけだ。
結局、何百万ドルもするインシデント対応チームが倒された原因は… system.columnsからのSELECT だったの? このクエリって、SQLで言うところのls -laのようなものだ。なんでその変更を誰もQAしなかったんだ?
だからこそ、コアなインターネットインフラには規制された『変更時間枠』が必要なんだ。すべての企業がグローバルな大規模障害を的当てゲームのように扱えるわけではない。これは技術の失敗ではなく、統治の失敗だ。
一方、彼らのゼロトラストマーケティングは24時間365日フル稼働中だ。🤡
まさにそうだ。設定ファイルには200個の上限があったが、段階的な劣化対応(グレーシャルデグラデーション)がなかった。失敗するとルーティングが全滅した。まるでカーナビが使えなくなって、エンジンが止まるようなものだ。
しかも修正方法は実質的に「cp good.conf bad.conf」だった。これってクラウド規模のエンジニアリングじゃない。高校のシステム管理者レベルだ。
2019年のSRE本には『すべての変更は危険だと仮定せよ』とあった。クラウドフレア2025年:了解、受諾。
まさに流れるような詩的光景だ。DDoS防御を販売する企業が、WHERE句の漏れで自滅した。