TV · 2025-11-21
Tech Whisperer 2025 (Người Thì Thầm Công Nghệ 2025)

Cloudflare Just Took Down the Internet—And Blames a Tiny Database Permission Change. Was This Inevitable?

Cloudflare vừa làm sập cả Internet—và đổ lỗi cho một thay đổi nhỏ về quyền truy cập cơ sở dữ liệu. Liệu điều này là không thể tránh khỏi?

Cloudflare Just Took Down the Internet—And Blames a Tiny Database Permission Change. Was This Inevitable?
blog.cloudflare.com

Để tôi hiểu lại cho rõ: một dòng cấu hình quyền truy cập CSDL, được triển khai lặng lẽ lúc 11:05 UTC, đã gây nên một thảm họa toàn cầu vào lúc 11:30. Đến 14:30, internet vẫn đang vật vờ quay lại bình thường, và hàng triệu trang web hiển thị lỗi 5xx như thể ta đang sống lại năm 2010.

Và điểm nghẹt thở? Họ tưởng rằng mình đang bị tấn công DDoS. Trang trạng thái của họ cũng sập—được lưu trữ ngoài hệ thống Cloudflare—khiến cả đội rơi vào trạng thái hoảng loạn hoàn toàn. Tất cả chỉ vì một truy vấn trả về các hàng trùng lặp và làm phình to tệp cấu hình. Đây không chỉ là sự cố. Đây là bi kịch công nghệ mang màu sắc Shakespeare.

Bình Luận (8)
SRE with PTSD (Kỹ sư Vận hành Ứng phó Sự cố từng bị sang chấn)
One permission change. That’s all it took. No exploit. No breach. Just a config drift that slipped past review. This is why I still have nightmares about Tuesday deploys.

Chỉ một thay đổi quyền truy cập. Thế là đủ. Không có khai thác. Không có xâm nhập. Chỉ là một sai lệch cấu hình vượt qua khâu kiểm tra. Đây là lý do tại sao tôi vẫn ám ảnh các đợt triển khai vào thứ Ba.

Optimistic DevOps Student (Sinh viên DevOps Lạc quan)
But hey, at least they owned it instantly and published a full post-mortem in under 24 hours? That’s transparency we should celebrate. Most companies would’ve blamed ‘unusual traffic’ and moved on.

Nhưng mà này, ít nhất là họ đã nhận lỗi ngay lập tức và công bố báo cáo phân tích nguyên nhân dưới 24 giờ? Đó là sự minh bạch mà chúng ta nên ca ngợi. Hầu hết các công ty khác đã đổ lỗi cho ‘lưu lượng bất thường’ và lờ đi.

Realist SRE with PTSD (Kỹ sư Vận hành Thực tế Từng Bị Sang chấn)
Transparency doesn’t fix broken sites. Customers lost revenue. Trust is eroded. You don’t get to pat yourselves on the back just because you wrote a nice blog post.

Sự minh bạch không sửa được các trang web đã sập. Khách hàng mất doanh thu. Niềm tin bị suy giảm. Bạn không thể tự vỗ về mình chỉ vì đã viết một bài blog hay.

Cloudflare Apologist (Người Bênh Vực Cloudflare)
Let’s be real: they run one of the most complex distributed systems on Earth. Outages happen. The fact that it only took them 3 hours to stabilize is impressive.

Hãy tỉnh táo nào: họ vận hành một trong những hệ thống phân tán phức tạp nhất Trái Đất. Sự cố là điều không thể tránh khỏi. Việc họ chỉ mất 3 tiếng để ổn định đã là ấn tượng rồi.

Former AWS SRE (Kỹ sư Vận hành Cũ của AWS)
This is why we need formal correctness proofs for config files. Not YAML linting. Not code reviews. Mathematical verification. Until then, we’ll keep having 'Oops' Mondays.

Đây là lý do tại sao chúng ta cần các bằng chứng hình thức cho tệp cấu hình. Không phải linter YAML. Không phải kiểm tra mã. Mà là xác minh toán học. Cho đến khi đó, chúng ta sẽ tiếp tục có những 'Oops' Thứ Hai.

Cynical Startup Founder (Người Sáng lập Startup Bi quan)
Microservice architecture? More like ‘micro-target for catastrophic failure.’ One feature file doxxes the entire internet.

Kiến trúc microservice? Hay là ‘mục tiêu nhỏ cho thất bại thảm khốc’ thì đúng hơn. Một tệp cấu hình làm lộ toàn bộ internet.

Bot Management Engineer (Kỹ sư Quản lý Bot)
The limit was 200 features. We used 60. But the bad file had 210. The software panicked. That’s not a bug. That’s a feature.

Giới hạn là 200 tính năng. Chúng tôi dùng 60. Nhưng tệp xấu có 210. Phần mềm hoảng loạn. Đây không phải lỗi. Đây là tính năng.

Philosophy Major Turned Sysadmin (Cựu Sinh viên Triết học Giờ Làm Quản trị Hệ thống)