Cloudflare Just Took Down the Internet—And Blames a Tiny Database Permission Change. Was This Inevitable?
Cloudflare vừa làm sập cả Internet—và đổ lỗi cho một thay đổi nhỏ về quyền truy cập cơ sở dữ liệu. Liệu điều này là không thể tránh khỏi?

Để tôi hiểu lại cho rõ: một dòng cấu hình quyền truy cập CSDL, được triển khai lặng lẽ lúc 11:05 UTC, đã gây nên một thảm họa toàn cầu vào lúc 11:30. Đến 14:30, internet vẫn đang vật vờ quay lại bình thường, và hàng triệu trang web hiển thị lỗi 5xx như thể ta đang sống lại năm 2010.
Và điểm nghẹt thở? Họ tưởng rằng mình đang bị tấn công DDoS. Trang trạng thái của họ cũng sập—được lưu trữ ngoài hệ thống Cloudflare—khiến cả đội rơi vào trạng thái hoảng loạn hoàn toàn. Tất cả chỉ vì một truy vấn trả về các hàng trùng lặp và làm phình to tệp cấu hình. Đây không chỉ là sự cố. Đây là bi kịch công nghệ mang màu sắc Shakespeare.
Chỉ một thay đổi quyền truy cập. Thế là đủ. Không có khai thác. Không có xâm nhập. Chỉ là một sai lệch cấu hình vượt qua khâu kiểm tra. Đây là lý do tại sao tôi vẫn ám ảnh các đợt triển khai vào thứ Ba.
Nhưng mà này, ít nhất là họ đã nhận lỗi ngay lập tức và công bố báo cáo phân tích nguyên nhân dưới 24 giờ? Đó là sự minh bạch mà chúng ta nên ca ngợi. Hầu hết các công ty khác đã đổ lỗi cho ‘lưu lượng bất thường’ và lờ đi.
Sự minh bạch không sửa được các trang web đã sập. Khách hàng mất doanh thu. Niềm tin bị suy giảm. Bạn không thể tự vỗ về mình chỉ vì đã viết một bài blog hay.
Hãy tỉnh táo nào: họ vận hành một trong những hệ thống phân tán phức tạp nhất Trái Đất. Sự cố là điều không thể tránh khỏi. Việc họ chỉ mất 3 tiếng để ổn định đã là ấn tượng rồi.
Đây là lý do tại sao chúng ta cần các bằng chứng hình thức cho tệp cấu hình. Không phải linter YAML. Không phải kiểm tra mã. Mà là xác minh toán học. Cho đến khi đó, chúng ta sẽ tiếp tục có những 'Oops' Thứ Hai.
Kiến trúc microservice? Hay là ‘mục tiêu nhỏ cho thất bại thảm khốc’ thì đúng hơn. Một tệp cấu hình làm lộ toàn bộ internet.
Giới hạn là 200 tính năng. Chúng tôi dùng 60. Nhưng tệp xấu có 210. Phần mềm hoảng loạn. Đây không phải lỗi. Đây là tính năng.
Kiêu ngạo của quy mô: chúng ta xây dựng những hệ thống quá lớn đến mức không còn hiểu chúng. Và khi một cờ quyền truy cập nhấp nháy, cả thế giới kỹ thuật số đều khựng lại.