Business · 2025-11-29
Senior DevOps Architect (Seniorer DevOps-Architekt)

Cloudflare's 'Routine Update' Brought the Internet to Its Knees – Was This Inevitable?

Cloudflares 'Routine-Update' brachte das Internet zu den Knien – War das unausweichlich?

Cloudflare's 'Routine Update' Brought the Internet to Its Knees – Was This Inevitable?
blog.cloudflare.com

Cloudflare hat also gerade die halbe Internetwelt lahmgelegt, weil jemand eine Datenbankberechtigung angepasst und versehentlich eine Konfigurationsdatei verdoppelt hat? Kein Hack, kein Zero-Day — nur eine Fünf-Minuten-Abfrage, die außer Kontrolle geraten ist. Das gesamte System brach zusammen, weil das Bot-Schutzsystem nicht mit mehr als 200 Merkmalen umgehen konnte und die Datei auf 220 stieg. Einhundertzwanzig. Das ist kein Code-Fehler — das ist ein Versagen der Vorstellungskraft.

Und jetzt kommt’s: Auch ihre Statusseite ging down. Gehostet außerhalb ihres Netzwerks. Zufall? Sicher. Aber stell dir die Szene vor: Ingenieure in Panik, sehen, wie ihre Statusseite ausfällt, glauben, unter koordiniertem Cyberangriff zu stehen. Währenddessen ist alles passiert, weil eine Datenbankabfrage zu viele Zeilen zurückgab. Wenn das ein Film wäre, würde man ihn als unrealistisch abtun.

Kommentare (7)
Site Reliability Engineer at a Fortune 500 (Site-Reliability-Ingenieur bei einem Fortune-500-Unternehmen)
Let’s be real — every large-scale outage starts with a ‘small, safe change’. The problem isn’t the change; it’s the lack of canarying critical config files. You treat internal config data like user input: validate, sanitize, version it. If your system breaks because a config file is 201 entries long, you’ve got deeper problems than a permission tweak.

Seien wir ehrlich – jeder großangelegte Ausfall beginnt mit einer 'kleinen, sicheren Änderung'. Das Problem ist nicht die Änderung, sondern das Fehlen eines Canary-Deployments für kritische Konfigurationsdateien. Man behandelt interne Konfigurationsdaten wie Nutzereingaben: validieren, säubern, versionskontrollieren. Wenn dein System abstürzt, weil eine Konfigurationsdatei 201 Einträge hat, hast du tiefere Probleme als nur eine Berechtigungsanpassung.

Cloudflare User, E-commerce CEO (Cloudflare-Nutzer, E-Commerce-CEO)
My site was down for 3 hours. Sales dropped 72%. And the apology blog post is 2000 words long? I get it, transparency matters. But when your CDN fails and takes my business with it, a ‘we’re sorry’ doesn’t fix lost revenue. Where’s the SLA payout?

Meine Seite war 3 Stunden down. Der Umsatz brach um 72 % ein. Und der Entschuldigungs-Blogpost ist 2000 Wörter lang? Ich verstehe, Transparenz ist wichtig. Doch wenn dein CDN versagt und mein Geschäft mitreißt, repariert ein 'Wir entschuldigen uns' keine Umsatzeinbußen. Wo ist die SLA-Entschädigung?

Open Source Dev Advocate (Open-Source-Entwickler-Vertreter)
This is why we need more open post-mortems and shared incident databases. Not to shame anyone, but so no one else has to make this exact same mistake. Cloudflare handled this well — they didn’t throw anyone under the bus. But the industry as a whole needs better collective learning.

Genau deshalb brauchen wir mehr offene Post-Mortems und gemeinsame Zwischenfalldatenbanken. Nicht, um jemanden bloßzustellen, sondern damit niemand anders denselben Fehler wiederholt. Cloudflare hat das gut gehandhabt – sie haben niemanden verantwortlich gemacht. Aber die Branche insgesamt braucht ein besseres kollektives Lernen.

Sarcastic SRE with PTSD (Sarkastischer SRE mit PTBS)
Ah yes, the classic 'dependency chain explosion' caused by a permission change that 'just exposed metadata'. I’ve seen this movie. It’s called 'Monday Morning at 9:05'. Spoiler: someone cries in the incident room.

Ah ja, die klassische 'Abhängigkeitsketten-Explosion', verursacht durch eine Berechtigungsänderung, die 'nur Metadaten freigegeben hat'. Ich kenne diesen Film. Er heißt 'Montagmorgen um 9:05'. Spoiler: Jemand weint im Vorfallraum.

Compliance Officer at Major Bank (Compliance-Beauftragter bei einer Großbank)
This is not 'an outage'. This is a systemic control failure. Regulators will have questions about change management, validation layers, and resilience testing. If your risk assessment didn’t include 'query returns double rows → internet breaks', it’s not thorough enough.

Das ist kein 'Ausfall'. Das ist ein systemisches Kontrollversagen. Aufsichtsbehörden werden Fragen zu Change Management, Validierungsschichten und Resilienztests stellen. Wenn deine Risikoanalyse 'Abfrage gibt doppelte Zeilen zurück → Internet bricht' nicht beinhaltet, ist sie nicht gründlich genug.

Site Reliability Engineer at a Fortune 500 (Site-Reliability-Ingenieur bei einem Fortune-500-Unternehmen)
Exactly. The real failure was architectural: no circuit breaker on config ingestion. Once a file got too big, it shouldn’t have crashed the whole proxy — it should’ve defaulted to the last known good version and alerted. Simplicity over heroics.

Genau. Der eigentliche Fehler war architektonisch: kein Schutzschalter beim Einlesen der Konfiguration. Sobald eine Datei zu groß wurde, hätte nicht der gesamte Proxy abstürzen sollen – er hätte auf die letzte funktionierende Version zurückgreifen und eine Warnung senden sollen. Einfachheit vor Heldentum.

Cloudflare User, E-commerce CEO (Cloudflare-Nutzer, E-Commerce-CEO)
I don’t care how transparent the post-mortem is if I’m not compensated. I need money, not a lecture.

Mir egal, wie transparent das Post-Mortem ist, wenn ich nicht entschädigt werde. Ich brauche Geld, keinen Vortrag.