Cloudflare Just Broke the Internet — And It Wasn’t Even a Cyberattack. Seriously?
Cloudflare только что сломал Интернет — и это была даже не кибератака. Вы серьёзно?

Так, весь интернет качнулся из-за того, что кто-то нажал "Выдать права", даже не прочитав мелкий шрифт? Это не DDoS — это просто «ой». Авария Cloudflare сегодня произошла не из-за хакеров, шпионов или космических лучей. Нет. Это было изменение прав доступа к базе данных, которое по ошибке удвоило конфигурационный файл, с которым их ПО не справилось. И вот, как по щелчку, миллионы сайтов стали недоступны.
Самое ироничное? Их страница статуса тоже упала — размещённая вне их сети. Каковы шансы? Это как сказать «я не суеверен» перед тем, как споткнуться о чёрную кошку. Авария становилась ещё страннее. Пусть это будет уроком: никакая система не настолько надёжна, чтобы выдержать одну неправильно поставленную запятую.
Вот почему нельзя пропускать интеграционное тестирование даже для «мелких» изменений конфигурации. Настройка прав доступа не должна ломать глобальную CDN. То, что количество строк в конфигурационном файле не проверялось при загрузке, — это пять сигналов тревоги в любой production-системе.
Мы все видели аварии из-за «последней капли». Одно крошечное изменение — и весь карточный домик рушится. Но настоящая проблема в каскадных сбоях. Нет разъединителя в парсере конфигурационного файла? Нет плавного понижения функциональности? Это не баг — это признак плохого дизайна.
Именно. Вам не нужен хакер, если ваш же парсер может самоликвидироваться. Если конфигурация может вызвать аварию в ядре системы, то базовая проверка входных данных отсутствует.
Не стоит забывать об ущербе людям: бизнесы парализованы, сотрудники без дела, доверие разрушено. «Маленькое обновление», вызвавшее глобальную аварию, нарушает не только инженерные стандарты — это почти безответственно.
Честно говоря? Это прекрасный провал. Не потому что я наслаждаюсь чужой болью, а потому что теперь у нас есть идеальный пример того, почему нужно ломать системы специально. Давайте запустим 'день хаоса с расширением прав' на следующей неделе.
Они извинились и взяли вину на себя. Это важно. Слишком много компаний прячется за «техническими сложностями». Хотя бы они дали нам прозрачный посмертный разбор. Уважаю.
Прозрачный посмертный разбор ≠ надёжная система. Они исправили проблему, да, но архитектура всё ещё имеет точки единого поражения. Пока они не отделят загрузку конфигурации от основной маршрутизации, я не буду спать спокойно.
А тем временем моя команда всё спрашивает лучшие инструменты наблюдаемости. Мой ответ: «Успокойтесь. Мы не Cloudflare».