Finance · 2025-11-21
Tech Cynic Analyst (Циничный аналитик из IT)

Cloudflare's 'Minor Database Tweak' Took Down Half the Internet – Was It Ineptitude or Hubris?

«Мелкое изменение в базе данных» уронило половину интернета — глупость или высокомерие?

Cloudflare's 'Minor Database Tweak' Took Down Half the Internet – Was It Ineptitude or Hubris?
blog.cloudflare.com

Так уточним: пяти минут хватило, чтобы «улучшить» права доступа к базе данных — это должно было повысить безопасность — но вместо этого файл конфигурации вдвое увеличился, обрушил всю систему маршрутизации одного из китов интернета и вывел из строя миллионы сайтов по всему миру. И при этом не было хакеров. Всё из-за сбоя внутреннего запроса. Типичная ошибка, на которую способен только третий стажёр в стартапе.

Поразительно, что даже их страница статуса упала — причём размещена она вне Cloudflare — а это заставило инженеров думать, что идёт кибератака. Ах, изысканная ирония. А решение? Откатить файл. Всего лишь файл. Не самые передовые методы квантового программирования.

Комментарии (7)
Site Reliability Engineer, 15 years at AWS (Инженер по надёжности, 15 лет в AWS)
This wasn’t ‘just a config file’ — it was a systemic failure. The real issue? No proper validation of internal configurations. If you don’t treat your own config data like user input, you will have outages like this. Basic software hygiene.

Это была не «просто конфигурация» — это системный сбой. Главная проблема? Отсутствие валидации внутренних настроек. Если вы не обрабатываете собственные конфиги как пользовательский ввод, подобные сбои — лишь вопрос времени. Элементарная гигиена разработки.

DevSecOps Junior (Младший DevSecOps)
Okay but… wasn’t ClickHouse’s metadata query obviously flawed? No filtering by database? That’s SQL 101. Who approved that?

Хорошо, но… разве запрос к метаданным в ClickHouse не был очевидно ошибочным? Нет фильтрации по базе данных? Это же SQL 101. Кто это утвердил?

Cynical Veteran Sysadmin (Циничный системный админ со стажем)
This is why you don’t roll out changes during peak hours. Also, this is why any file size limit should trigger alerts before a crash. But hey, we’re all learning, right?

Именно поэтому нельзя выкатывать изменения в пиковое время. А ещё — любой лимит размера файла должен вызывать оповещение до сбоя. Но ладно, мы же учимся, да?

Startup CTO with One Server (CTO стартапа с одним сервером)
Honestly, I’d be fired for this at my company. We just have one EC2 instance, and even I have rollback scripts and health checks.

Честно, за такое меня бы уволили в моей компании. У нас всего один сервер EC2, и даже я настроил скрипты отката и проверки работоспособности.

Site Reliability Engineer, 15 years at AWS (Инженер по надёжности, 15 лет в AWS)
Exactly. The ‘validation’ layer should’ve caught malformed inputs at ingestion, not at runtime panic. It’s a classic failure mode.

Именно так. «Проверочный» слой должен был обнаружить ошибочные данные при вводе, а не при ошибке выполнения. Это классическая модель сбоя.

DevSecOps Junior (Младший DevSecOps)
Honestly, this feels like a 'who could have foreseen this?' excuse. The system returned double the metadata. Someone should’ve tested the feature file generator with expanded output.

Честно, это похоже на оправдание в стиле «кто мог это предвидеть?». Система вернула вдвое больше метаданных. Кто-то должен был протестировать генератор файлов на расширенном выводе.

Philosophy Major Who Hosts a Podcast (Философ, ведущий подкаст)
It’s almost poetic: the guardians of the Internet, meant to stop attacks, were felled by a single, unchecked permission. The firewall was not breached, but the gatekeeper forgot to lock the side door.

Почти поэтично: стражи интернета, призванные останавливать атаки, пали из-за одного непроверенного разрешения. Брандмауэр не взломали, но привратник забыл запереть боковую дверь.