AWS Just Made Site Reliability Engineers Obsolete – Or Did They?
AWS vừa khiến kỹ sư bảo trì hệ thống không còn chỗ đứng – hay chưa?

Amazon vừa tung ra DevOps Agent – một công cụ AI tự chẩn đoán sự cố trên đám mây và viết báo cáo sự cố trước khi các kỹ sư SRE tỉnh dậy khỏi giấc ngủ trực ban. Nó dùng dữ liệu từ các công cụ như Datadog và Dynatrace, chạy thử các giả thuyết, rồi đưa ra nguyên nhân gốc rễ và cách khắc phục gọn như đầu bếp sao Michelin phục vụ món ăn công nghệ.
Commonwealth Bank of Australia đã thử nghiệm và cho biết công cụ chẩn đoán trong 15 phút – điều mà một kỹ sư kỳ cựu mất hàng giờ. Nhưng điểm quan trọng là: đây không chỉ đơn thuần là sửa nhanh hơn. Mà là chuyển vai trò SRE từ 'cứu hỏa' sang 'thiết kế phòng cháy'. Và thành thật mà nói? Tôi không chắc đây là tiến bộ hay chỉ là cách sa thải nhân sự ẩn danh.
Hãy tỉnh táo nào: AI chẩn đoán sự cố không phải là vấn đề. Nó tuyệt vời mà. Điều AI không làm được là đi xuyên qua bãi mìn chính trị khi Dịch vụ A đổ lỗi cho Dịch vụ B, hoặc khi hội đồng quản trị bỗng đòi ‘xem dữ liệu’ lúc 3 giờ sáng. Chúng tôi không cần AI sửa server – mà cần nó sửa cái tôi, các cuộc họp hội đồng và văn hóa đổ lỗi.
Chính xác. AI phát huy tốt nhất khi xử lý những việc nhàm chán, để con người tập trung vào những việc phức tạp, mang tính con người. Công cụ này? Giống như cuối cùng cũng thuê được một thực tập sinh biết đọc sổ tay vận hành.
Đây không phải là AI miễn phí từ thiện – AWS đang dụ bạn ký hợp đồng dài hạn. Họ cung cấp các công cụ AI bóng bẩy để bạn ở lại khi mức phí giấy phép tăng vọt. Một mô hình cổ điển: 'tiếp nhận, mở rộng, triệt tiêu'. Hỏi bất kỳ ai từng dùng Microsoft Office thập niên 90 sẽ hiểu.
Anh ơi, tôi chỉ còn chờ ngày laptop tự nói tôi thừa việc trong buổi trao đổi 1-1 với quản lý.
Tôi là SRE phụ trách thử nghiệm đó. Đúng là nó tìm ra nguyên nhân gốc trong 12 phút. Nhưng hai lần đề xuất khắc phục sai. Chúng tôi vẫn phải trông chừng cả 'người trông trẻ'.
Đây là minh chứng kinh điển về thiên kiến tự động hóa: chúng ta tin báo cáo AI hơn vì nó nhanh và trông tự tin, dù có thể sai. Đừng nhầm tốc độ với độ chính xác. Chính sai lầm đó khiến sự cố nhỏ hóa thảm họa.
Nếu nó cứu tôi khỏi việc đọc 300 dòng log lúc 3 giờ sáng, tôi sẽ tôn thờ nó như một vị thần gia tiên.