How a Simple Permission Change Broke the Internet (Again): Inside Cloudflare’s Worst Outage Since 2019
كيف كَسَر تغيير بسيط في الصلاحيات الإنترنت مجددًا: تفاصيل أعطال Cloudflare الأسوأ منذ 2019

فلنُوضح الموضوع: تعديل بسيط في صلاحيات قاعدة بيانات عند 11:05 تسبب بالخطأ في مضاعفة ملف تهيئة يستخدمه نظام إدارة الروبوتات في Cloudflare، مما أدى بصمت إلى تعطيل توجيه البيانات لجزء كبير من الإنترنت لأكثر من 3 ساعات. لم يكن هناك هجوم DDoS أو متسللين — فقط استعلام خاطئ جعل ملف الميزات ينفجر حجمه وتجاوز حدًا مخصصًا للذاكرة. ببساطة، الإنترنت انخفض بسبب خطأ كتابة يمتلك صلاحيات مسؤول.
الأمر الأكثر سخرية قاتمة هو أن صفحة الحالة انخفضت أيضًا — مع أنها مستضافة خارج بنية Cloudflare. من الواضح أن الكون لديه حس فكاهي. في البداية، اعتقد المهندسون أنها هجوم DDoS منسق لأن الأعراض بدت كارثية جدًا. اتضح؟ مجرد صدفة. تذكير جميل ومؤلم بأن التقنية أحيانًا: أبسط فرضية هي الصحيحة: نسي أحدهم تصفية استعلام قاعدة بيانات حسب المخطط.
لهذا علينا التحقق من جميع المدخلات — حتى تلك التي ننتجها بأنفسنا. نعامل مدخلات المستخدم مثل سلاح مشحون، أما ملفات التهيئة الداخليّة؟ لا، دعنا نقرأها مباشرة إلى الذاكرة. خبرا عاجلاً: أنظمتك الخاصة يمكن أن تكون المهاجم.
إذًا انهار حافة شبكة Cloudflare بالكامل لأن ملف الميزات انتقل من 60 إلى 240 إدخالًا؟ هذه ليست قابلية التوسع — بل هشاشة مختبئة خلف عنوان هندسة. إذا كان نظامك لا يستطيع التعامل مع 240 صفًا، فلست تملك حد ذاكرة، بل لديك مشكلة في التصميم. نقطة النهاية.
للسياق: يوجد حد الـ200 ميزة لأننا نخصص الذاكرة مسبقًا من أجل الأداء. الانتقال من 60 إلى 240 ميزة ليس مجرد خطأ — بل إنذار أحمر. التقطناه في بيئة الاختبار. لكن عملية نشر الصلاحيات تجاوزت هذا الفحص. الفشل الحقيقي لم يكن في الحد — بل في سلامة النشر.
أحب كيف أن صفحتهم الرسمية مستضافة خارج Cloudflare ومع ذلك انخفضت. السخرية أصبحت أثخن من الديون التقنية.
حسنًا، لكن بصراحة: كلنا نُرسل تحديثًا بعنوان 'تغييرات صلاحيات طفيفة' ويفسد البيئة الإنتاجية. ذات مرة أضفت فهرسًا ثانيًا لجدول فأوقفت بنكًا لمدة 40 دقيقة. لا يوجد عار.
الإصلاح الأهم ليس الكود أو التهيئة. بل المحاضر الخالية من اللوم. عندما يخشى الناس العقاب، يخفون الأخطاء. وعندما يُشجعون على المشاركة، يصبح التنظيم بأكمله أكثر ذكاءً. Cloudflare نجحت تمامًا في هذا الجانب.
قلت لا عار. لكن نعم، ربما لا تنشر تحديثات الصلاحيات صباح يوم الثلاثاء.
هذا الشعور كأن انقطاع Fastly عام 2021 يعود من جديد. سطر تهيئة واحد، انهيار عالمي. كلما أصبح النظام أكثر توزيعًا، زادت هشاشته عند وجود افتراضات بنقطة فشل واحدة. عندما 'تُحسّن' من أجل السرعة، فإنك غالبًا ما تضحّي بالقدرة على المراقبة.