Why We Built an AI Cluster That Makes Local Storage Look Like a Bad Joke
لماذا بنينا عُقَدًا ذكية تُبقي التخزين المحلي عبارة عن نكتة سيئة

لدينا مجموعة متزايدة من أنظمة الحافة الخاصة بالذكاء الاصطناعي — مثل وحدات NVIDIA GB10، وأجهزة AMD Ryzen AI Max+، وحتى ماك ستوديو بمعالج M3 Ultra — وكلها تتطلب نماذج ضخمة. تخزين نماذج الذكاء الاصطناعي التي تُقاس بالجيجابايت محليًا على كل جهاز؟ تصبح تلك الترقية البالغة 1000 دولار من 1 تيرابايت إلى 4 تيرابايت رخيصة فجأة عندما تضربها في خمسة أجهزة. نتحدث هنا عن 500 دولار فقط لتخزين نموذج واحد بحجم 60 جيجابايت عبر العُقد.
وها هي وحشية التخزين: QNAP TS-H1290FX محملة بمحركات Solidigm D5-P5336 QLC SSD. ليست الأحدث في العرض، لكنها خزانة تخزين حقيقية. تحميل النموذج gpt-oss-120b من هذه المحركات أسرع بنسبة تصل إلى 60٪ مقارنة بالمحركات الميكانيكية القديمة. هذا ليس مريحًا فحسب، بل هو ما يجعل تطوير الذكاء الاصطناعي التكراري ممكنًا عمليًا.
انتظر، تقولون لي إن إنفاق 6 آلاف دولار على تخزين شبكي بمحركات SSD يوفر المال؟ هذا يبدو مثل إحدى نصب 'أنفق 1000 لتوفير 10'. لكنني حسبت الأرقام... وبالفعل، صدقتم. التخزين المركزي يُدر ربحًا عند التوسع لأكثر من 3-4 عُقد. انفجر عقلي.
حسنًا، ولكن هل قست فعليًا عبء الشبكة؟ جربنا تكوينًا مشابهًا وشهدنا ارتفاعات في زمن الاستجابة بمجرد تحميل أكثر من عقدتين للتخزين في آنٍ واحد. أيضًا، ما هو هيكل RAID الخاص بكم؟ تعطل محرك واحد، وينطفئ كل مختبر الذكاء الاصطناعي لديكم.
احترام، لكن هذا يصرخ 'نقطة فشل وحيدة'. ماذا لو تعطل التخزين أثناء التدريب؟ أفضل أن أدفع ضريبة التخزين على أن أفقد أيامًا من العمل. التخزين المحلي مع مزامنة تلقائية أفضل من الهشاشة المركزية في كل مرة.
هذه حجة تكلفة الملكية الإجمالية التي نتجاهلها جميعًا حتى تعضّنا. يركز الناس على التكلفة الأولية ولكنهم ينسون التكاليف التشغيلية: تجارب تدريب فاشلة، ودورات معالجة GPU ضائعة. التخزين المركزي ليس أسرع فحسب، بل أكثر كفاءة على المدى الطويل.
تعتقدون في موثوقية مثالية. رأينا نظام RAID 6 ينهار أثناء إعادة البناء بسبب فساد في القطاعات لم يُكشف عنه. 'كفاءة التكاليف التشغيلية' تنعدم خلال 3 ساعات من التوقف وفقدان التجارب.
تفكرون بحجم أكبر من اللازم. أنا أستخدم باي ثربري بقيمة 200 دولار وبروتوكول NFS لمشاركة الأوزان بين حاسوبي كمبيوتر. ليس فاخرًا، لكنه يعمل في الذكاء الاصطناعي الهواة. لا حاجة للإفراط في الحلول المؤسسية.
لا أحد يتحدث عن استهلاك الطاقة. من المرجح أن الجهاز QNAP ذا 12 محركًا يستهلك طاقة أكثر من ثلاث حواسيب M1 ماك ميني. متى تتوقف الأداء عن أن يكون يستحق التكلفة الكربونية؟