Cloudflare Just Broke the Internet—And It Wasn’t Even a Hack. How Did a Database Permission Change Cause a Global Meltdown?
क्लाउडफ्लेयर ने इंटरनेट तोड़ दिया—और इसे तोड़ने वाला हैकर भी नहीं था। एक डेटाबेस परमिशन बदलने से पूरी दुनिया का नेटवर्क कैसे बंद हो गया?

तो, क्लाउडफ्लेयर लगभग छह घंटे तक बंद रहा—क्योंकि किसी ने डेटाबेस परमिशन अपडेट कर दी और अनजाने में बॉट सुरक्षा प्रणाली को अपनी क्षमता के दोगुने डेटा को संसाधित करने को कह दिया। न तो DDoS, न हैकर, न ही सर्वर क्रैश। एक कॉन्फ़िग फ़ाइल का आकार दोगुना हो गया, मेमोरी बफर ओवरफ्लो हो गए, और पूरा एज नेटवर्क विफलता में बदल गया। और आइसिंग ऑन द केक? पहले कुछ समय तक उन्हें लगा कि यह एक साइबर अटैक था—जबकि उनका अपना स्टेटस पेज शुद्ध बेतुके संयोग से असफल हो गया था।
यह सिर्फ क्लाउडफ्लेयर के बारे में नहीं था। उनके CDN, सुरक्षा या वर्कर्स प्लेटफॉर्म का उपयोग करने वाली हर साइट—छोटे ब्लॉग से लेकर बड़े SaaS प्लेटफॉर्म तक—जम गई। हर जगह 5xx एरर्स। विडंबना यह है कि उनका पूरा मूल्य आधार ‘हैकर्स को दूर रखना’ है—लेकिन आज का सबसे बड़ा खतरा परमिशन क्वेरी में एक इंजीनियर की टाइपिंग त्रुटि था। सोचने पर मजबूर कर देता है: कितने और ‘सिद्धांत से सुरक्षित’ विशालकाय बस एक कॉन्फिग परिवर्तन के आगे विनाश की ओर हैं?
मुझे हैरानी इस बात की है कि उनके पास 200 फीचर्स की सीमा थी लेकिन सिर्फ 60 का उपयोग हो रहा था। यह लाल झंडा होना चाहिए था—धीमी गति से काम चलाने की क्यों व्यवस्था नहीं? बजाय इसके, यह पैनिक हो जाता है और 5xx एरर देता है। जब आप 60 किमी प्रति घंटे चल रहे हों तो 120 के लिए सुरक्षा रेल नहीं डिजाइन की जाती। कम से कम लॉगिंग और सर्किट ब्रेकर तो जोड़ देने चाहिए।
मैं ऐसी कॉल में बैठ चुका हूँ। पहले 30 मिनट: 'यह DDoS है।' अगला घंटा: 'रुको, मेट्रिक्स मिलान नहीं कर रहे।' फिर कोई चिल्लाता है 'पैनिक लॉग्स देखो!' और अचानक कमरा खामोश हो जाता है। मैं वहाँ रहा हूँ। असली हीरो? वह इंजीनियर जो दूसरों के वेक्टर्स के बारे में बहस करते समय चुपचाप कॉन्फिग रोल बैक करता है।
बिल्कुल सही। जब तुम मान लेते हो कि 'यह बाहरी घटना है', तो तुम्हारा तार्किक मॉडल टूट जाता है—जबकि दस में से नौ बार यह तुम्हारे ही कोड की वजह से होता है।
चलो नाटक न दिखाएँ कि यह सिर्फ ‘अरे वेसे’ का पल था। यह विफलता के एकल बिंदुओं पर अत्यधिक निर्भरता का परिणाम है। क्लाउडफ्लेयर एक निजी कंपनी है जिस पर कोई वास्तविक निगरानी नहीं है, फिर भी वह वेब के एक तिहाई की चाबियाँ रखती है। हमारे पास कितने ‘परमिशन बदलाव’ स्वीकार्य होंगे जब तक कि हम विकेंद्रीकरण पर फिर से नहीं सोचते?
एक और दिन, एक और वैश्विक आउटेज क्योंकि एक YAML फाइल एक टाइपो को पसंद नहीं करती थी। हम सभ्यता को गिराने वाले महज एक डेव से दूर हैं, फिर भी हम कॉन्फ़िग को कोड नहीं मानते।
6 घंटे तक एक ही माफी ईमेल टेम्पलेट पढ़ता रहा। ग्राहक आउटेज से गुस्से में नहीं थे। वे इसलिए नाराज थे क्योंकि उन्होंने खुद इसे ठीक नहीं कर सकते थे। हम ‘विश्वसनीयता’ बेचते हैं, लेकिन जैसे ही कुछ टूटता है, हम उन्हें ठीक करने से रोकते हैं। यही असली आउटेज है।
ठीक यही। बिल्कुल यही। इसीलिए हमें अलार्म नहीं, अवलोकनीयता चाहिए। जब सिस्टम नए तरीकों से बर्ताव करते हैं, तो पैटर्न टूट जाते हैं। अगर हमें सिर्फ ‘चीजें लाल हैं’ दिखता है, तो हम कहानी छोड़ देते हैं। लॉग्स ने सच बताया। हम सिर्फ सुनने के लिए तैयार नहीं थे।
फीचर फ़ाइल के आकार की सीमा पुराने ज़माने की लगती है। मशीन लर्निंग मॉडल विकसित होते हैं। डेटा पाइपलाइन्स बदलती हैं। हमें अनुकूल प्रणाली चाहिए, हार्डकोडेड पैनिक सीमा नहीं। विडंबना? बॉट पता लगाने के लिए उनका AI एक नॉन-AI कॉन्फिग त्रुटि के कारण विफल हो गया। यह बग नहीं। यह दर्शन की कमी है।