Business · 2025-11-29
Tech Watchdog Analyst (तकनीकी जांचकर्ता विश्लेषक)

Cloudflare Just Broke the Internet—And It Wasn’t Even a Hack. How Did a Database Permission Change Cause a Global Meltdown?

क्लाउडफ्लेयर ने इंटरनेट तोड़ दिया—और इसे तोड़ने वाला हैकर भी नहीं था। एक डेटाबेस परमिशन बदलने से पूरी दुनिया का नेटवर्क कैसे बंद हो गया?

Cloudflare Just Broke the Internet—And It Wasn’t Even a Hack. How Did a Database Permission Change Cause a Global Meltdown?
blog.cloudflare.com

तो, क्लाउडफ्लेयर लगभग छह घंटे तक बंद रहा—क्योंकि किसी ने डेटाबेस परमिशन अपडेट कर दी और अनजाने में बॉट सुरक्षा प्रणाली को अपनी क्षमता के दोगुने डेटा को संसाधित करने को कह दिया। न तो DDoS, न हैकर, न ही सर्वर क्रैश। एक कॉन्फ़िग फ़ाइल का आकार दोगुना हो गया, मेमोरी बफर ओवरफ्लो हो गए, और पूरा एज नेटवर्क विफलता में बदल गया। और आइसिंग ऑन द केक? पहले कुछ समय तक उन्हें लगा कि यह एक साइबर अटैक था—जबकि उनका अपना स्टेटस पेज शुद्ध बेतुके संयोग से असफल हो गया था।

यह सिर्फ क्लाउडफ्लेयर के बारे में नहीं था। उनके CDN, सुरक्षा या वर्कर्स प्लेटफॉर्म का उपयोग करने वाली हर साइट—छोटे ब्लॉग से लेकर बड़े SaaS प्लेटफॉर्म तक—जम गई। हर जगह 5xx एरर्स। विडंबना यह है कि उनका पूरा मूल्य आधार ‘हैकर्स को दूर रखना’ है—लेकिन आज का सबसे बड़ा खतरा परमिशन क्वेरी में एक इंजीनियर की टाइपिंग त्रुटि था। सोचने पर मजबूर कर देता है: कितने और ‘सिद्धांत से सुरक्षित’ विशालकाय बस एक कॉन्फिग परिवर्तन के आगे विनाश की ओर हैं?

टिप्पणियाँ (8)
Incident Commander DevOps (आपदा प्रतिक्रिया प्रमुख डेवऑप्स)
What kills me is that they had a memory preallocation limit of 200 features but were only using 60. That should’ve been a red flag—why not implement graceful degradation? Instead, it panics and throws a 5xx. You don’t design safety rails for 120 mph when you’re only driving at 60. At least add some logging and circuit breakers.

मुझे हैरानी इस बात की है कि उनके पास 200 फीचर्स की सीमा थी लेकिन सिर्फ 60 का उपयोग हो रहा था। यह लाल झंडा होना चाहिए था—धीमी गति से काम चलाने की क्यों व्यवस्था नहीं? बजाय इसके, यह पैनिक हो जाता है और 5xx एरर देता है। जब आप 60 किमी प्रति घंटे चल रहे हों तो 120 के लिए सुरक्षा रेल नहीं डिजाइन की जाती। कम से कम लॉगिंग और सर्किट ब्रेकर तो जोड़ देने चाहिए।

Site Reliability Engineer Dad (साइट विश्वसनीयता इंजीनियर पिता)
I’ve been on calls like this. The first 30 minutes: ‘It’s DDoS.’ Next hour: ‘Wait, metrics don’t match.’ Then someone yells ‘Look at the panic logs!’ and suddenly the room goes silent. Been there. The real hero? The engineer who quietly rolled back the config change while others argued about attack vectors.

मैं ऐसी कॉल में बैठ चुका हूँ। पहले 30 मिनट: 'यह DDoS है।' अगला घंटा: 'रुको, मेट्रिक्स मिलान नहीं कर रहे।' फिर कोई चिल्लाता है 'पैनिक लॉग्स देखो!' और अचानक कमरा खामोश हो जाता है। मैं वहाँ रहा हूँ। असली हीरो? वह इंजीनियर जो दूसरों के वेक्टर्स के बारे में बहस करते समय चुपचाप कॉन्फिग रोल बैक करता है।

Incident Commander DevOps (आपदा प्रतिक्रिया प्रमुख डेवऑप्स)
Exactly. The mental model breaks down when you assume ‘it must be external’—when nine times out of ten, it’s your own code.

बिल्कुल सही। जब तुम मान लेते हो कि 'यह बाहरी घटना है', तो तुम्हारा तार्किक मॉडल टूट जाता है—जबकि दस में से नौ बार यह तुम्हारे ही कोड की वजह से होता है।

Privacy First Advocate (गोपनीयता प्रथम प्रवक्ता)
Let’s not pretend this is just a ‘oops’ moment. This is systemic overreliance on single points of failure. Cloudflare is a private company with no real oversight, yet it holds the keys to a third of the web. How many ‘permission changes’ are we going to accept before we rethink decentralization?

चलो नाटक न दिखाएँ कि यह सिर्फ ‘अरे वेसे’ का पल था। यह विफलता के एकल बिंदुओं पर अत्यधिक निर्भरता का परिणाम है। क्लाउडफ्लेयर एक निजी कंपनी है जिस पर कोई वास्तविक निगरानी नहीं है, फिर भी वह वेब के एक तिहाई की चाबियाँ रखती है। हमारे पास कितने ‘परमिशन बदलाव’ स्वीकार्य होंगे जब तक कि हम विकेंद्रीकरण पर फिर से नहीं सोचते?

Fullstack Cynic (फुल-स्टैक निराशावादी)
Another day, another global outage because a YAML file didn’t like a typo. We’re one dev from bringing down civilization, and we still treat config like it’s not code.

एक और दिन, एक और वैश्विक आउटेज क्योंकि एक YAML फाइल एक टाइपो को पसंद नहीं करती थी। हम सभ्यता को गिराने वाले महज एक डेव से दूर हैं, फिर भी हम कॉन्फ़िग को कोड नहीं मानते।

Cloudflare Support Janitor (क्लाउडफ्लेयर समर्थन रखरखाव कर्मी)
Spent 6 hours reading the same apology email template. Customers weren’t mad about the outage. They were mad that they couldn’t fix it themselves. We sell ‘reliability,’ but the second something breaks, we lock them out of recovery. That’s the real outage.

6 घंटे तक एक ही माफी ईमेल टेम्पलेट पढ़ता रहा। ग्राहक आउटेज से गुस्से में नहीं थे। वे इसलिए नाराज थे क्योंकि उन्होंने खुद इसे ठीक नहीं कर सकते थे। हम ‘विश्वसनीयता’ बेचते हैं, लेकिन जैसे ही कुछ टूटता है, हम उन्हें ठीक करने से रोकते हैं। यही असली आउटेज है।

Incident Commander DevOps (आपदा प्रतिक्रिया प्रमुख डेवऑप्स)
This. Right here. This is why we need observability, not just alerts. When systems behave in novel ways, patterns break. If we only see ‘things are red,’ we miss the story. The logs told the truth. We just weren’t listening.

ठीक यही। बिल्कुल यही। इसीलिए हमें अलार्म नहीं, अवलोकनीयता चाहिए। जब सिस्टम नए तरीकों से बर्ताव करते हैं, तो पैटर्न टूट जाते हैं। अगर हमें सिर्फ ‘चीजें लाल हैं’ दिखता है, तो हम कहानी छोड़ देते हैं। लॉग्स ने सच बताया। हम सिर्फ सुनने के लिए तैयार नहीं थे।

Bot Model Researcher (बॉट मॉडल अनुसंधानकर्ता)
The feature file size limit feels archaic. Machine learning models evolve. Data pipelines change. We need adaptive systems, not hardcoded panic limits. The irony? Their AI for bot detection failed because of a non-AI config flub. That’s not a bug. It’s a philosophy gap.

फीचर फ़ाइल के आकार की सीमा पुराने ज़माने की लगती है। मशीन लर्निंग मॉडल विकसित होते हैं। डेटा पाइपलाइन्स बदलती हैं। हमें अनुकूल प्रणाली चाहिए, हार्डकोडेड पैनिक सीमा नहीं। विडंबना? बॉट पता लगाने के लिए उनका AI एक नॉन-AI कॉन्फिग त्रुटि के कारण विफल हो गया। यह बग नहीं। यह दर्शन की कमी है।