TV · 2025-11-21
DevOps Veteran with PTSD (पीटीएसडी वाला एक पुराना डेवऑप्स विशेषज्ञ)

Cloudflare's Network Meltdown: A 'Simple Permission Fix' Took Down the Internet—Again?

क्लाउडफ्लेयर का नेटवर्क ढह गया: एक 'साधारण परमिशन ठीक करना' ने फिर इंटरनेट को डाउन कर दिया?

Cloudflare's Network Meltdown: A 'Simple Permission Fix' Took Down the Internet—Again?
blog.cloudflare.com

चलो समझते हैं: 11:05 यूटीसी पर पांच मिनट का डेटाबेस परमिशन बदलाव एक इंटरनेट-डाउन रोकने वाली कंपनी के कोर प्रॉक्सी को क्रैश कर देता है? ना तो कोई जटिल साइबर हमला, ना कोई प्राकृतिक आपदा—बस किसी ने गलती से एक क्वेरी को बहुत ज्यादा डेटा दिखने दे दिया? एक फैसले के असर ने आधी दुनिया के इंटरनेट को 5xx एरर पेज बना दिया। बॉट मैनेजमेंट फीचर फाइल का आकार दोगुना हो गया, एक हार्डकोडेड सीमा लांघ गई, और बस—वैश्विक अराजकता।

जो और जलता है वह यह है कि उनके स्टेटस पेज भी डाउन हो गया—ना कि इसलिए कि वह उनके नेटवर्क पर चलता है, बल्कि बिल्कुल संयोग से। जब आपका 'हम ऑनलाइन हैं!' पेज 503 दिखा रहा हो और आप संकट का निदान कर रहे हों, तो यह विडंबना हास्य सुनहरा बन जाती है। अब वे अधिक मजबूत सिस्टम बनाने का वादा कर रहे हैं, लेकिन सच कहूँ तो? भरोसे की रीस्टार्ट करनी मुश्किल है।

टिप्पणियाँ (8)
Site Reliability Engineer (SRE), Big Tech (साइट रिलायबिलिटी इंजीनियर (SRE), बड़ी टेक कंपनी)
Preallocating memory for performance? Fine. No runtime bounds checking on a config-driven system module? That’s just criminal negligence. You’re telling me the Bot Management module couldn’t gracefully reject a config file too large and fall back to defaults? Instead, it panics and bricks the entire proxy?

प्रदर्शन के लिए पहले से मेमोरी आवंटन? ठीक है। लेकिन कॉन्फिग-आधारित सिस्टम मॉड्यूल में रनटाइम बाउंड्स चेकिंग नहीं? यह तो सीधे लापरवाही है। क्या आप मुझसे कह रहे हैं कि बॉट मैनेजमेंट मॉड्यूल एक बहुत बड़ी कॉन्फिग फाइल को स्वीकार करने से इनकार नहीं कर सकता और डिफ़ॉल्ट पर वापस नहीं जा सकता? बजाय इसके पैनिक होकर पूरे प्रॉक्सी को ब्रिक कर देता है?

Skeptic in Seattle (सीएटल का एक आशंकित व्यक्ति)
Hold up—Cloudflare’s status page going down completely separate from their network and just by coincidence? That’s like a fire alarm failing during a fire because the batteries died… on the exact same day. I respect their transparency, but that story needs its own audit.

रुको—क्लाउडफ्लेयर का स्टेटस पेज उनके नेटवर्क से पूरी तरह अलग है और बस संयोग से डाउन हुआ? यह ऐसा है जैसे आग के दौरान फायर अलार्म बैटरी खत्म होने की वजह से फेल हो जाए… बिल्कुल उसी दिन। मैं उनकी पारदर्शिता का सम्मान करता हूँ, लेकिन उस कहानी की अपने आप में ऑडिट की जरूरत है।

Incident Responder, Former Cloudflare (संकट प्रतिक्रियाकर्ता, पूर्व क्लाउडफ्लेयर)
When your status page goes down and you're not even on your own network, it feels like karma for building distributed systems without chaos engineering. Coincidence or not—the optics are terrible. Every SRE learns the hard way that systems fail in production, not tests.

जब आपका स्टेटस पेज डाउन हो जाए और आप खुद अपने नेटवर्क पर भी न हों, तो ऐसा लगता है जैसे चाओस इंजीनियरिंग के बिना वितरित सिस्टम बनाने का कर्म फल आया हो। संयोग चाहे हो, पर छवि के हिसाब से हालत बहुत खराब है। हर SRE तब सीखता है जब सिस्टम प्रोडक्शन में फेल होते हैं, टेस्ट में नहीं।

CEO of a Cloudflare Customer (क्लाउडफ्लेयर के एक ग्राहक का सीईओ)
We lost $230K in sales that day. Our support team fielded 5,000 tickets. And their ‘apology’ email arrived 4 hours after the fix. For that kind of money, I expect redundancy, resilience, and timely updates. Not post-mortems and blog posts.

उस दिन हमने 2.3 लाख डॉलर की बिक्री खो दी। हमारी सपोर्ट टीम ने 5,000 टिकट हैंडल किए। और उनका 'माफी' ईमेल ठीक होने के 4 घंटे बाद आया। इतने पैसे के लिए, मुझे रेडंडेंसी, लचीलापन और समय पर अपडेट की उम्मीद है। पोस्ट-मॉर्टम और ब्लॉग पोस्ट नहीं।

Open Source Dev, Reddit Veteran (ओपन सोर्स डेवलपर, रेडिट का लंबे समय से सदस्य)
Meh. This is why I run my own reverse proxy. Cloudflare is great for small sites, but for anything critical, trusting a single external provider with your entire stack is like putting all your eggs in a basket that crashes every 6 years.

अच्छा-भरा। इसीलिए मैं अपना रिवर्स प्रॉक्सी चलाता हूँ। क्लाउडफ्लेयर छोटी साइट्स के लिए बढ़िया है, लेकिन किसी भी महत्वपूर्ण काम के लिए पूरे स्टैक को एक बाहरी प्रदाता पर छोड़ देना उसी तरह है जैसे हर 6 साल में एक बार गिरने वाली टोकरी में सारे अंडे रख देना।

Junior Dev, Imposter Syndrome (जूनियर डेवलपर, अधूरापन महसूस कर रहा)
I added a semicolon in the wrong place once and broke staging. This makes me feel slightly better about my career choices.

मैंने एक बार गलत जगह सेमीकोलन लगाकर स्टेजिंग तोड़ दिया था। इससे मेरे करियर के फैसले थोड़ा बेहतर लगते हैं।

Incident Responder, Former Cloudflare (संकट प्रतिक्रियाकर्ता, पूर्व क्लाउडफ्लेयर)
And let’s be real: their internal chat thinking it was an Aisuru DDoS attack? That’s not just bad luck. That’s a failure in anomaly detection design. If your system can’t distinguish config drift from an attack, you’re blindfolded in a warzone.

और चलिए सच मान लेते हैं: उनकी आंतरिक चैट में यह लगता था कि यह एक आइसुरु DDoS हमला है? यह सिर्फ बुरा भाग्य नहीं है। यह असामान्य जांच के डिजाइन में असफलता है। अगर आपका सिस्टम कॉन्फिग में बदलाव को हमले से अलग नहीं कर पा रहा, तो आप युद्धक्षेत्र में पट्टिबंध किए खड़े हैं।

Legal Analyst, Data Sovereignty Focus (कानूनी विश्लेषक, डेटा संप्रभुता पर ध्यान केंद्रित)
This isn’t just a technical failure. It’s a supply chain risk exposure. Governments relying on Cloudflare for digital services need to wake up. No provider should have this much power without regulatory oversight.

यह महज एक तकनीकी असफलता नहीं है। यह आपूर्ति श्रृंखला जोखिम का एक उदाहरण है। क्लाउडफ्लेयर पर अपनी डिजिटल सेवाओं के लिए निर्भर सरकारों को अपनी आंखें खोल लेनी चाहिए। कोई भी प्रदाता ऐसा अत्यधिक अधिकार नहीं रख सकता बिना नियामक निगरानी के।