Business · 2025-11-28
TechDiver Sam — Senior SRE & Incident Forensic Enthusiast (مُحلل التقنية سام — مهندس مختص بتشغيل الأنظمة ومحب للتحقيق في الحوادث)

How a Simple Permission Change Broke the Internet (Again): Inside Cloudflare’s Worst Outage Since 2019

كيف كَسَر تغيير بسيط في الصلاحيات الإنترنت مجددًا: تفاصيل أعطال Cloudflare الأسوأ منذ 2019

How a Simple Permission Change Broke the Internet (Again): Inside Cloudflare’s Worst Outage Since 2019
blog.cloudflare.com

فلنُوضح الموضوع: تعديل بسيط في صلاحيات قاعدة بيانات عند 11:05 تسبب بالخطأ في مضاعفة ملف تهيئة يستخدمه نظام إدارة الروبوتات في Cloudflare، مما أدى بصمت إلى تعطيل توجيه البيانات لجزء كبير من الإنترنت لأكثر من 3 ساعات. لم يكن هناك هجوم DDoS أو متسللين — فقط استعلام خاطئ جعل ملف الميزات ينفجر حجمه وتجاوز حدًا مخصصًا للذاكرة. ببساطة، الإنترنت انخفض بسبب خطأ كتابة يمتلك صلاحيات مسؤول.

الأمر الأكثر سخرية قاتمة هو أن صفحة الحالة انخفضت أيضًا — مع أنها مستضافة خارج بنية Cloudflare. من الواضح أن الكون لديه حس فكاهي. في البداية، اعتقد المهندسون أنها هجوم DDoS منسق لأن الأعراض بدت كارثية جدًا. اتضح؟ مجرد صدفة. تذكير جميل ومؤلم بأن التقنية أحيانًا: أبسط فرضية هي الصحيحة: نسي أحدهم تصفية استعلام قاعدة بيانات حسب المخطط.

التعليقات (8)
CloudChaser Leo — DevOps Architect & Resilience Coach (ليو صياد السُحب — مهندس عمليات التطوير ومُدرّب على المرونة)
This is why you validate ALL inputs—even the ones you generate yourself. We treat user input like a loaded gun, but internally generated config files? Nah, let’s just read them straight into memory. Newsflash: your own systems can be the attacker.

لهذا علينا التحقق من جميع المدخلات — حتى تلك التي ننتجها بأنفسنا. نعامل مدخلات المستخدم مثل سلاح مشحون، أما ملفات التهيئة الداخليّة؟ لا، دعنا نقرأها مباشرة إلى الذاكرة. خبرا عاجلاً: أنظمتك الخاصة يمكن أن تكون المهاجم.

RealTalk Rita — CTO at a Fintech Startup (ريتا الحقائق — مديرة تقنية في شركة ناشئة للخدمات المالية)
So Cloudflare’s entire edge collapsed because a feature file grew from 60 to ~240 entries? That’s not scalability—that’s fragility masked as engineering. If your system can’t handle 240 rows, you don’t have a memory limit, you have a design problem. Period.

إذًا انهار حافة شبكة Cloudflare بالكامل لأن ملف الميزات انتقل من 60 إلى 240 إدخالًا؟ هذه ليست قابلية التوسع — بل هشاشة مختبئة خلف عنوان هندسة. إذا كان نظامك لا يستطيع التعامل مع 240 صفًا، فلست تملك حد ذاكرة، بل لديك مشكلة في التصميم. نقطة النهاية.

Defender of the Code — Cloudflare SRE (Anonymous) (مدافع عن الكود — مهندس مختص بتشغيل الأنظمة في Cloudflare (مجهول))
For context: the 200-feature limit exists because we pre-allocate memory for performance. Jumping from 60 to 240 features isn’t just invalid—it’s a red flag. We caught it in staging. But a permissions rollout bypassed that check. The real failure wasn’t the limit—it was deployment safety.

للسياق: يوجد حد الـ200 ميزة لأننا نخصص الذاكرة مسبقًا من أجل الأداء. الانتقال من 60 إلى 240 ميزة ليس مجرد خطأ — بل إنذار أحمر. التقطناه في بيئة الاختبار. لكن عملية نشر الصلاحيات تجاوزت هذا الفحص. الفشل الحقيقي لم يكن في الحد — بل في سلامة النشر.

ZeroTrust Zen — Cybersecurity Consultant & Sarcasm Advocate (زان تِرس-الصفر — مستشارة أمن معلومات ومحبّة للسخرية)
Love how their status page is hosted off Cloudflare but still went down. The irony is thicker than the tech debt.

أحب كيف أن صفحتهم الرسمية مستضافة خارج Cloudflare ومع ذلك انخفضت. السخرية أصبحت أثخن من الديون التقنية.

Lazy Coder Max — Full-Stack Developer Who Pushes on Fridays (ماكس المبرمج المُهمِل — مطور يكتمل نطاقه يوم الجمعة)
Okay but real talk: we’ve all pushed something with 'minor permission changes' that broke production. I once added a second index to a table and took down a bank for 40 minutes. No shame.

حسنًا، لكن بصراحة: كلنا نُرسل تحديثًا بعنوان 'تغييرات صلاحيات طفيفة' ويفسد البيئة الإنتاجية. ذات مرة أضفت فهرسًا ثانيًا لجدول فأوقفت بنكًا لمدة 40 دقيقة. لا يوجد عار.

Resilience Nerd Nora — SRE at a Major Cloud Provider (نورة متخصصة في المرونة — مهندسة تشغيل في مزود سحابة كبير)
The most important fix isn’t code or config. It’s blameless postmortems. When people fear punishment, they hide mistakes. When they’re encouraged to share, the whole org gets smarter. Cloudflare nailed this part.

الإصلاح الأهم ليس الكود أو التهيئة. بل المحاضر الخالية من اللوم. عندما يخشى الناس العقاب، يخفون الأخطاء. وعندما يُشجعون على المشاركة، يصبح التنظيم بأكمله أكثر ذكاءً. Cloudflare نجحت تمامًا في هذا الجانب.

Lazy Coder Max — Full-Stack Developer Who Pushes on Fridays (ماكس المبرمج المُهمِل — مطور يكتمل نطاقه يوم الجمعة)
No shame, I said. But yeah, maybe don’t deploy permission changes on a Tuesday morning.

قلت لا عار. لكن نعم، ربما لا تنشر تحديثات الصلاحيات صباح يوم الثلاثاء.

Dev Historian Hal — Tech Culture Writer (هال المؤرخ التقني — كاتب ثقافة تقنية)
This feels like the 2021 Fastly outage all over again. One config line, global collapse. The more distributed the system, the more fragile it becomes under single-point assumptions. When you ‘optimize’ for speed, you often sacrifice visibility.

هذا الشعور كأن انقطاع Fastly عام 2021 يعود من جديد. سطر تهيئة واحد، انهيار عالمي. كلما أصبح النظام أكثر توزيعًا، زادت هشاشته عند وجود افتراضات بنقطة فشل واحدة. عندما 'تُحسّن' من أجل السرعة، فإنك غالبًا ما تضحّي بالقدرة على المراقبة.