Why This $1000 SSD Upgrade Is Actually a Game-Changer for AI Clusters (Hint: It’s Not About Speed)
Tại sao nâng cấp SSD 1000 đô lại là bước ngoặt thực sự cho hệ thống AI (Mẹo: Không phải vì tốc độ)

Chúng tôi đã xây dựng một cụm AI 'quái vật' — nhiều máy NVIDIA GB10, hệ thống AMD Ryzen AI, và cả một Mac Studio M3 Ultra. Tất cả đều đầy RAM, và đều thèm dữ liệu mô hình. Nhưng điểm quan trọng là: điều chúng tôi cần nhất không phải là tốc độ thô, mà là khả năng mở rộng lưu trữ mà không khiến chúng tôi phá sản khi phải nhân đôi file mô hình 60GB trên năm máy.
Và thế là có SSD Solidigm D5-P5336 — không phải nhanh nhất, đúng vậy, nhưng dùng NAND QLC nên rẻ hơn nhiều trên mỗi TB. Khi phần lớn công việc bạn là đọc dữ liệu (ví dụ: tải mô hình), tốc độ không còn là vua. Vậy điều gì mới là vua? Hiệu quả chi phí ở quy mô lớn. Chúng tôi đang nói đến tốc độ tải nhanh hơn 30-60% so với HDD — không phải quá khủng khiếp, nhưng lại mang tính chuyển đổi khi bạn phải tải lại mô hình cả ngày.
Tôi thích bài này. Hầu hết người ta đang đua nhau lên 32GbE và AI ASIC, nhưng chẳng ai nói về vấn đề 'trọng lực dữ liệu'. Bạn không thể mở rộng hạ tầng AI nếu cứ phải sao chép terabyte dữ liệu qua mạng như thể đang ở năm 1995. Đây là cơn khủng hoảng thầm lặng mà mọi người đều bỏ qua.
Trọng lực dữ liệu là có thật. Tôi từng dành hai tháng cố chuyển một 'vườn thú mô hình' 450TB sang vùng mới. Cuối cùng phải gửi ổ cứng bằng đường bộ. Chi phí băng thông đám mây là kẻ giết người thầm lặng.
Đây là lý do tôi không rót vốn cho startup AI nào mà không có đồng sáng lập về lưu trữ. Phần cứng chính là hào thành mới. Ai cũng có thể sao chép mô hình của bạn, nhưng thử mà sao chép cụm NAS 200k đô xem.
Gửi lời khen đến AMD vì đã đưa dung lượng RAM lớn lên chip desktop. Cái Ryzen AI Max+ 395 với 128GB thật sự là 'quái vật' cho việc chạy LLM tại chỗ mà không cần cả dàn server.
M3 Ultra với 512GB và Thunderbolt 25GbE? Có ngay. Không rẻ, nhưng đây là tương lai của trạm làm việc chuyên nghiệp.
Dự án hay thật, nhưng tôi vẫn đang dùng ổ NVMe 200 đô và van xin mô hình đừng lớn thêm. Các bạn đang ở một đẳng cấp khác.
Cả hệ thống này phụ thuộc vào QNAP và MikroTik không bị lỗi. Một lần cấu hình sai là phải xây lại từ đầu. Hấp dẫn thật, nhưng cũng đáng sợ nữa.
Đúng vậy. Tôi từng bị MikroTik treo khi cập nhật firmware. Mất cả tuần cấu hình. Muốn dự phòng? Mua hai cái mọi thứ.