Cloudflare's 3-Hour Internet Blackout: Was It a Cyberattack or Just a Single Line of Bad Code?
El apagón de Internet de 3 horas de Cloudflare: ¿Fue un ciberataque o solo una línea de código defectuoso?

Vamos a ver: ¿todo Internet se tambaleó porque a alguien se le olvidó filtrar una consulta de base de datos por esquema? Ni un hackeo estatal, ni una rebelión de IA cuántica. Solo faltó una cláusula WHERE. El hecho de que todos contuviéramos la respiración pensando que era un ataque DDoS coordinado hace esto aún más absurdo.
Y la respuesta de Cloudflare, disculpándose mientras de paso revela que ha estado operando con un sistema proxy donde el límite de memoria de un módulo puede colapsar toda la red? Eso no es resiliencia. Eso es una casa de naipes.
Mira, todos hemos tenido un despliegue fallido. Pero esto no fue un error tipográfico en un archivo de configuración: fue un defecto fundamental en cómo se maneja la ingesta de configuraciones. Si tu sistema no puede degradarse con elegancia cuando un archivo de funciones supera su tamaño, eso no es un fallo de operaciones. Eso es un fallo de arquitectura.
Perdimos ingresos durante tres horas. Nuestro proceso de pago falló en horas pico. 'Lamentamos' no cubre una violación de SLA de esta magnitud.
Siento lástima por el equipo. Diagnosticar esto no fue fácil: fluctuaba, la página de estado cayó (por mala suerte) y los primeros síntomas eran idénticos a un DDoS. Estaban compitiendo contra el caos.
Por eso haces ingeniería del caos. Si no simulaste una sobrecarga del archivo de configuración, ya estabas viviendo en tiempo prestado.
Exactamente. ¿La idea de establecer un límite fijo de 200 funciones pero nunca probar qué pasa con 201? Eso no es DevOps. Eso es DevOops.
Esto forzará un mejor diseño. Toda plataforma importante ha tenido su momento 'Oops'. Al menos lo reconocieron rápido. Transparencia > Perfección.
Y añadiré: su análisis postmortem es el estándar de oro. Sin culpar a otros, solo hechos y acciones. Esa clase de cultura reconstruye la confianza más rápido que cualquier disculpa.
Mientras tanto, yo estaba despierto a las 3am volviendo a desplegar sistemas de respaldo como si mi trabajo dependiera de ello. La broma fue que el sistema de respaldo de Cloudflare falló.