Cloudflare's Network Meltdown: A 'Simple Permission Fix' Took Down the Internet—Again?
क्लाउडफ्लेयर का नेटवर्क ढह गया: एक 'साधारण परमिशन ठीक करना' ने फिर इंटरनेट को डाउन कर दिया?

चलो समझते हैं: 11:05 यूटीसी पर पांच मिनट का डेटाबेस परमिशन बदलाव एक इंटरनेट-डाउन रोकने वाली कंपनी के कोर प्रॉक्सी को क्रैश कर देता है? ना तो कोई जटिल साइबर हमला, ना कोई प्राकृतिक आपदा—बस किसी ने गलती से एक क्वेरी को बहुत ज्यादा डेटा दिखने दे दिया? एक फैसले के असर ने आधी दुनिया के इंटरनेट को 5xx एरर पेज बना दिया। बॉट मैनेजमेंट फीचर फाइल का आकार दोगुना हो गया, एक हार्डकोडेड सीमा लांघ गई, और बस—वैश्विक अराजकता।
जो और जलता है वह यह है कि उनके स्टेटस पेज भी डाउन हो गया—ना कि इसलिए कि वह उनके नेटवर्क पर चलता है, बल्कि बिल्कुल संयोग से। जब आपका 'हम ऑनलाइन हैं!' पेज 503 दिखा रहा हो और आप संकट का निदान कर रहे हों, तो यह विडंबना हास्य सुनहरा बन जाती है। अब वे अधिक मजबूत सिस्टम बनाने का वादा कर रहे हैं, लेकिन सच कहूँ तो? भरोसे की रीस्टार्ट करनी मुश्किल है।
प्रदर्शन के लिए पहले से मेमोरी आवंटन? ठीक है। लेकिन कॉन्फिग-आधारित सिस्टम मॉड्यूल में रनटाइम बाउंड्स चेकिंग नहीं? यह तो सीधे लापरवाही है। क्या आप मुझसे कह रहे हैं कि बॉट मैनेजमेंट मॉड्यूल एक बहुत बड़ी कॉन्फिग फाइल को स्वीकार करने से इनकार नहीं कर सकता और डिफ़ॉल्ट पर वापस नहीं जा सकता? बजाय इसके पैनिक होकर पूरे प्रॉक्सी को ब्रिक कर देता है?
रुको—क्लाउडफ्लेयर का स्टेटस पेज उनके नेटवर्क से पूरी तरह अलग है और बस संयोग से डाउन हुआ? यह ऐसा है जैसे आग के दौरान फायर अलार्म बैटरी खत्म होने की वजह से फेल हो जाए… बिल्कुल उसी दिन। मैं उनकी पारदर्शिता का सम्मान करता हूँ, लेकिन उस कहानी की अपने आप में ऑडिट की जरूरत है।
जब आपका स्टेटस पेज डाउन हो जाए और आप खुद अपने नेटवर्क पर भी न हों, तो ऐसा लगता है जैसे चाओस इंजीनियरिंग के बिना वितरित सिस्टम बनाने का कर्म फल आया हो। संयोग चाहे हो, पर छवि के हिसाब से हालत बहुत खराब है। हर SRE तब सीखता है जब सिस्टम प्रोडक्शन में फेल होते हैं, टेस्ट में नहीं।
उस दिन हमने 2.3 लाख डॉलर की बिक्री खो दी। हमारी सपोर्ट टीम ने 5,000 टिकट हैंडल किए। और उनका 'माफी' ईमेल ठीक होने के 4 घंटे बाद आया। इतने पैसे के लिए, मुझे रेडंडेंसी, लचीलापन और समय पर अपडेट की उम्मीद है। पोस्ट-मॉर्टम और ब्लॉग पोस्ट नहीं।
अच्छा-भरा। इसीलिए मैं अपना रिवर्स प्रॉक्सी चलाता हूँ। क्लाउडफ्लेयर छोटी साइट्स के लिए बढ़िया है, लेकिन किसी भी महत्वपूर्ण काम के लिए पूरे स्टैक को एक बाहरी प्रदाता पर छोड़ देना उसी तरह है जैसे हर 6 साल में एक बार गिरने वाली टोकरी में सारे अंडे रख देना।
मैंने एक बार गलत जगह सेमीकोलन लगाकर स्टेजिंग तोड़ दिया था। इससे मेरे करियर के फैसले थोड़ा बेहतर लगते हैं।
और चलिए सच मान लेते हैं: उनकी आंतरिक चैट में यह लगता था कि यह एक आइसुरु DDoS हमला है? यह सिर्फ बुरा भाग्य नहीं है। यह असामान्य जांच के डिजाइन में असफलता है। अगर आपका सिस्टम कॉन्फिग में बदलाव को हमले से अलग नहीं कर पा रहा, तो आप युद्धक्षेत्र में पट्टिबंध किए खड़े हैं।
यह महज एक तकनीकी असफलता नहीं है। यह आपूर्ति श्रृंखला जोखिम का एक उदाहरण है। क्लाउडफ्लेयर पर अपनी डिजिटल सेवाओं के लिए निर्भर सरकारों को अपनी आंखें खोल लेनी चाहिए। कोई भी प्रदाता ऐसा अत्यधिक अधिकार नहीं रख सकता बिना नियामक निगरानी के।