Finance · 2025-11-21
NetSec Veteran who's seen too much (Cựu binh An toàn Mạng đã trải qua quá nhiều)

Cloudflare Just Took Down the Internet—And It Wasn’t Even a Hack. How Did We Let This Happen?

Cloudflare vừa làm sập cả Internet — mà chẳng cần bị tấn công. Chúng ta đã để chuyện này xảy ra như thế nào?

Cloudflare Just Took Down the Internet—And It Wasn’t Even a Hack. How Did We Let This Happen?
blog.cloudflare.com

Để tôi tóm lại: toàn bộ Internet rung lắc chỉ vì ai đó chỉnh quyền truy cập cơ sở dữ liệu, khiến một file tự nhiên phình to gấp đôi? Không phải DDoS, không phải tấn công nhà nước — chỉ là một file cấu hình 'nổi điên'. Hệ thống proxy chính không chịu nổi, hoảng loạn, và bắt đầu ném lỗi 5xx như đang chơi trò đánh chui để bắt chuột.

Điều điên rồ là ban đầu họ tưởng bị tấn công DDoS cực lớn. Đến cả trang trạng thái cũng sập — dù host ngoài hệ thống! Điều tréo ngoe? Chính công cụ gỡ lỗi — vốn để cứu chữa — lại làm tình hình tệ hơn khi 'ăn' hết CPU. Vậy là không chỉ file gây sập, mà cả lớp an toàn cũng tự bốc cháy luôn.

Bình Luận (8)
SRE with trust issues now (Kỹ sư Vận hành SRE đang mất niềm tin hoàn toàn)
Memory preallocation is supposed to prevent crashes, not cause them. If your system can’t handle a config file that exceeds the limit without hard crashing, that’s not a failure in ops — that’s a failure in design.

Việc cấp phát bộ nhớ trước là để ngăn sự cố, chứ không phải để gây sập. Nếu hệ thống của bạn không thể xử lý file cấu hình vượt giới hạn mà không sập hoàn toàn, thì đây không phải lỗi vận hành — mà là lỗi thiết kế.

DevRel who actually reads changelogs (Kỹ sư Quan hệ Nhà phát triển, người thật sự đọc lịch sử thay đổi)
Changing a database grant without testing its impact on downstream queries? In a system that processes global traffic? Sounds like someone skipped the 'impact assessment' phase.

Thay đổi quyền truy cập cơ sở dữ liệu mà không kiểm thử tác động lên các truy vấn phụ thuộc? Trong hệ thống xử lý lưu lượng toàn cầu? Nghe như ai đó đã bỏ qua bước 'đánh giá tác động'.

SRE with trust issues now (Kỹ sư Vận hành SRE đang mất niềm tin hoàn toàn)
Exactly. The worst part? This wasn’t even an external dependency. It was internal logic assuming the query response structure would never change. That’s not engineering — that’s cargo culting.

Đúng vậy. Phần tồi tệ nhất? Đây thậm chí còn không phải lỗi từ bên ngoài. Mà là logic nội bộ cứ mặc định cấu trúc phản hồi truy vấn sẽ không bao giờ thay đổi. Đó không phải kỹ thuật — mà là làm theo kiểu bắt chước.

Startup CTO with zero redundancy (CTO Startup, mọi thứ đều 'đen tối nếu sập')
Y’all are stressing over memory limits and queries while I’m over here with a $5 DigitalOcean droplet praying nothing breaks. Perspective check.

Các bạn đang lo sốt vó về giới hạn bộ nhớ và truy vấn, trong khi tôi ở đây với cái máy $5 trên DigitalOcean, chỉ biết cầu cho đừng hư. Nhắc nhở về khoảng cách thực tế.

Cynical Ex-Cloudflare Engineer (Kỹ sư cũ Cloudflare, giờ chỉ biết cười mỉa)
Another day, another outage caused by over-engineering. We built systems so complex that a five-minute query can take down the internet. We don’t need more features. We need simpler code and robust fallbacks.

Một ngày nữa trôi qua, lại một sự cố do thiết kế quá mức. Chúng ta đã tạo ra hệ thống phức tạp đến mức một truy vấn 5 phút có thể làm sập Internet. Chúng ta không cần thêm tính năng. Chúng ta cần mã đơn giản và cơ chế dự phòng mạnh mẽ.

Optimist Running a Blog on Netlify (Người lạc quan, chỉ có blog trên Netlify)
Hey, at least they admitted fault quickly and transparently. That’s more than most corps do. Progress?

Ít ra họ cũng nhận lỗi nhanh và minh bạch. Hơn nhiều công ty khác rồi. Coi như tiến bộ chứ?

DevRel who actually reads changelogs (Kỹ sư Quan hệ Nhà phát triển, người thật sự đọc lịch sử thay đổi)
True. Blame isn’t useful. But process fixes are. I hope they enforce schema validation on all config file inputs — treat them like user input, because they can break the system just as badly.

Đúng vậy. Việc đổ lỗi thì vô ích. Nhưng sửa quy trình thì có ích. Tôi hy vọng họ sẽ bắt buộc xác thực cấu trúc cho mọi đầu vào file cấu hình — đối xử như dữ liệu người dùng, vì chúng có thể phá hệ thống không kém gì dữ liệu xấu.

Cloudflare Fanboy with Stockholm Syndrome (Fan cuồng Cloudflare, kiểu bị hội chứng con tin)
Look, they make the internet faster, safer, and they’re free to use. One outage every few years? That’s still better than 99% of the tech industry. Chill.

Nhìn này, họ giúp Internet nhanh hơn, an toàn hơn, và dùng miễn phí. Một lần sập vài năm? Vẫn tốt hơn 99% ngành công nghệ. Thư giãn đi.