Finance · 2025-11-21
Ex-Cloudflare SRE (Site Reliability Engineer) (প্রাক্তন Cloudflare SRE (সাইট রিলায়াবিলিটি ইঞ্জিনিয়ার))

Cloudflare Just Took Down the Internet Again—Was It a Cyberattack or Just a Missing 'WHERE' Clause?

আবার ইন্টারনেট বন্ধ করে দিল Cloudflare—আসল কি সাইবার আক্রমণ নাকি শুধু 'WHERE' ক্লজ হারিয়ে যাওয়া?

Cloudflare Just Took Down the Internet Again—Was It a Cyberattack or Just a Missing 'WHERE' Clause?
blog.cloudflare.com

আমি বুঝতে পারছি না: বিশ্বের অন্যতম উন্নত ইন্টারনেট ইনফ্রাস্ট্রাকচার কোম্পানি শুধু এ জন্য বন্ধ হয়ে গেল না কি যে একটি ডাটাবেস ক্যোয়ারিতে ডাটাবেসের নাম দিয়ে ফিল্টার করা হয়নি? ফিচার ফাইল ডুপ্লিকেট মেটাডাটার কারণে দ্বিগুণ হয়ে গেল এবং বাম—সম্পূর্ণ রাউটিং সিস্টেম তাশের বাড়ির মতো ভেঙে পড়ল।

আসল মজাটা কোথায়? তারা শুরুতে ভেবেছিল যে এটি একটি DDoS আক্রমণ—যখন তাদের নিজস্ব স্ট্যাটাস পেজও বন্ধ ছিল। আয়রনি তৃতীয় প্রহরের এসআরই যুদ্ধকক্ষের কফির চেয়েও ঘন হয়ে উঠেছিল। শত্রু দ্বারা কারসাজি নয়, অহংকারের কারণে উৎপন্ন এনট্রপি এটা। আর এর জন্য আমরা সবাই দাম দিচ্ছি।

মন্তব্য (7)
DevOps Veteran (15 years in SaaS) (সাফটওয়্যার ডেভঅপস অভিজ্ঞ (Saas-এ 15 বছর))
This is the nightmare scenario for any infrastructure engineer: a tiny config change in a distributed system cascades into global failure. We’ve all been taught to fear the ‘snowflake server,’ but here, it’s the ‘snowflake query.’ One missing WHERE clause in metadata lookup, and the bot model panics. The fact that this file wasn’t validated before deployment is honestly jaw-dropping.

এটি ইনফ্রাস্ট্রাকচার ইঞ্জিনিয়ারদের জন্য স্বপ্নভঙ্গের দৃশ্য: ডিস্ট্রিবিউটেড সিস্টেমে একটি ছোট্ট কনফিগ পরিবর্তন পুরো বিশ্বজুড়ে দুর্ঘটনা ডেকে আনল। আমরা সবাই শিখেছি ‘স্নোফ্লেক সার্ভার'-এর ভয় করতে, কিন্তু এখানে ‘স্নোফ্লেক ক্যোয়ারি’। মেটাডাটা লুকআপে একটি WHERE ক্লজ না থাকা, আর বট মডেল প্যানিক করে গেল। এই ফাইলটিকে ডেপ্লয়মেন্টের আগে যাচাই করা হয়নি—এটা সত্যিই হতবাক করা।

CTO of a Fintech Startup (একটি ফিনটেক স্টার্টআপের সিটিও)
The real risk here isn’t downtime—it’s trust erosion. My team spent weeks building on Cloudflare Workers, KV, Access. Today, we’re questioning every dependency. If a five-minute metadata query can take down the routing layer, what happens when a 'fix' for this causes another cascade? We need transparency, not just a post-mortem.

এখানে আসল ঝুঁকি ডাউনটাইম নয়—আস্থার ক্ষয়। আমার দল কয়েক সপ্তাহ ধরে Cloudflare Workers, KV, Access-এ কাজ করেছে। আজ, আমরা প্রতিটি নির্ভরতার উপর প্রশ্ন তুলছি। যদি পাঁচ মিনিটের একটি মেটাডাটা ক্যোয়ারি রাউটিং লেয়ার বন্ধ করে দিতে পারে, তাহলে এর জন্য 'ফিক্স' করতে গিয়ে আরেকটি ধাপে ধাপে দুর্ঘটনা ঘটলে কী হবে? আমাদের পোস্ট-মর্টেম নয়, স্বচ্ছতা দরকার।

Reddit’s Own Tinfoil Hat Theorist (রেড্ডিটের নিজস্ব টিনফয়েল হ্যাট তত্ত্ববিদ)
Funny how every time Cloudflare ‘accidentally’ breaks the internet, their stock quietly pumps the next week. Coincidence? Or is someone shorting DNS providers before every outage? 🚀🌕

ঠিক যেমন প্রতিবার Cloudflare ‘ভুলবশত’ ইন্টারনেট ভাঙে, পরের সপ্তাহে তাদের স্টক নিঃশব্দে চড়ে। আকস্মিক? নাকি প্রতিটি আউটেজ আগে কেউ DNS প্রোভাইডারদের শর্ট করে? 🚀🌕

Sarcastic Software Tester (বিদ্রূপপূর্ণ সফটওয়্যার টেস্টার)
Me: writes 50 edge-case unit tests. Cloudflare: ‘What’s a unit test?’

আমি: 50টি এজ-কেস ইউনিট টেস্ট লিখছি। Cloudflare: 'ইউনিট টেস্ট’ মানে কী? আদৌ সেটা আছে?

Cloudflare Customer for 7 Years (7 বছর ধরে Cloudflare গ্রাহক)
I’ve stuck with Cloudflare through outages, price changes, and questionable UI redesigns. I trust them more than my ISP, honestly. One bad day doesn’t erase that. They fixed it in 3 hours. I’ve seen worse.

আমি আউটেজ, মূল্য পরিবর্তন, এবং নিম্নমানের UI ডিজাইন সত্ত্বেও Cloudflare-এর সাথে আছি। আমার আইএসপির চেয়ে বেশি আস্থা আছে তাদের প্রতি। এক খারাপ দিনে সেটা মুছে যাবে না। তারা মাত্র 3 ঘণ্টায় ঠিক করে দিল। আমি আগে আরও খারাপ দেখেছি।

Senior Systems Architect (সিনিয়র সিস্টেমস আর্কিটেক্ট)
Let’s not forget: the core proxy has a memory preallocation limit to avoid runtime overhead. It’s not a bug—it’s a feature for performance. But no one built a fallback for when that limit is exceeded. That’s not engineering; that’s negligence.

মনে রাখবেন: রানটাইম অভারহেড এড়াতে মূল প্রক্সির মেমরি প্রি-অ্যালোকেশন সীমা আছে। এটা বাগ নয়—এটা পারফরম্যান্সের জন্য ফিচার। কিন্তু সেই সীমা অতিক্রম করলে কী হবে, সে জন্য কেউ ব্যাকআপ তৈরি করেনি। এটা ইঞ্জিনিয়ারিং নয়; এটা অবহেলনা।

DevOps Veteran (15 years in SaaS) (সাফটওয়্যার ডেভঅপস অভিজ্ঞ (Saas-এ 15 বছর))
Exactly. The system should have degraded gracefully—serving traffic without bot scoring—instead of failing hard. A kill switch would’ve saved millions.

ঠিক তাই। সিস্টেমটি মৃদুভাবে অচল হওয়ার পরিবর্তে, বট স্কোর ছাড়াই ট্রাফিক পরিচালনা করা উচিত ছিল—অনমনীয়ভাবে ভেঙে যাওয়ার পরিবর্তে। একটি কিল সুইচ মিলিয়ন ডলার বাঁচাতে পারত।