Is MoE the Secret Sauce Behind the Next AI Revolution? Why Every Top Model Is Switching to This Brain-Inspired Design
هل ميزة 'مزيج الخبراء' هي السر وراء الثورة القادمة في الذكاء الاصطناعي؟ ولماذا يتحول كل نموذج رائد إلى هذا التصميم المستوحى من الدماغ؟

أنا أقرأ تحليلًا مفصّلًا عن الذكاء الاصطناعي المتطور، والنتيجة وضحت: النماذج المفتوحة المصدر الأكثر ذكاءً اليوم ليست أضخم فحسب، بل أذكى في تصميمها. كل نموذج رائد، من كيمي كيه2 إلى ميسترال لارج 3، يستخدم بنية 'مزيج الخبراء' التي تُقلّد طريقة عمل أدمغتنا — فتنشّط فقط 'خبراء' محددين حسب المهمة. هذه التنشيط الانتقائي هو سبب كونها أسرع بعشر مرات على منصة إنفيديا جي بي 200 نيف إل 72.
المشكلة الحقيقية؟ نماذج مزيج الخبراء تستخدم فقط جزءًا صغيرًا من معاملاتها لكل رمز — أحيانًا أقل من 5% — مما يخفض تكاليف الحوسبة واستهلاك الطاقة بدرجة كبيرة. ومع ذلك، ما زالت الصناعة تتظاهر أن النماذج الكثيفة هي المستقبل. استيقظوا: الدماغ ليس 'كثيفًا' — بل متخصصًا، ومقسّمًا، وفعالًا. ميزة مزيج الخبراء ليست فقط الحاضر، بل هي المخطط الأساس لذكاء اصطناعي قابل للتوسّع ومستدام.
لهذا السبب قمت بالبيع على المكشوف في أسهم AMD الموسم الماضي. إنفيديا لا تبيع معدات فقط — بل تبيع منصة حوسبة شاملة تُلزم العملاء بالبقاء ضمن بنيتها. أداء نماذج مزيج الخبراء على جي بي 200 ليس مجرد تحسن — بل أصبح الطريق الوحيد القابل للتطبيق لأحمال الذكاء الاصطناعي الجادة. المنافسون لا يستطيعون التوسّع بهذا الكفاءة. هذا ليس ابتكارًا، بل هيمنة على النظام البيئي بالكامل.
انتظر لحظة. يبدو مزيج الخبراء مذهلًا، لكن عملية التوجيه تمثل عقبة كبرى. ماذا لو أخطأ نظام التوجيه واختار الخبير الخطأ؟ يمكن لرمز واحد باستخدام 50٪ من الحوسبة غير ذات الصلة أن يُفشل النموذج بأكمله. هل هناك من يقوم فعلًا باختبار هذا التوجه في بيئة الإنتاج؟
بالرد على: 'ماذا لو أخطأ نظام التوجيه' — هذا العنصر تم معالجته بالفعل باستخدام تقييم الثقة والخبراء الاحتياطيين. نحن نستخدم توجيه ظلي في الإنتاج لرصد أي سلوكيات غير منتظمة دون التأثير على المستخدمين. العقبة الحقيقية الآن هي عرض النطاق الترددي للذاكرة خلال تبديل الخبراء.
الجميع يركض خلف مضاعفة الأداء عشر مرات، لكن ماذا عن تكلفة استهلاك الطاقة في تدريب نماذج مزيج الخبراء على نطاق واسع؟ مجرد كونها فعالة في مرحلة الاستدلال لا يعني أنها صديقة للبيئة. البصمة الكربونية للذكاء الاصطناعي مُفرطة بالفعل. نحن بحاجة لشفافية في انبعاثات كامل دورة الحياة، وليس فقط معايير الأداء لكل واط.
مبدّل إنفليكست من جي بي 200 نيف إل 72 هو تغيير جذري لنماذج مزيج الخبراء. 130 تيرابايت بالثانية من عرض النطاق بين وحدات المعالجة؟ هذا ليس تطوّرًا بسيطًا — بل أشبه بإعطاء سيارة سباق فورمولا1 محرك طائرة نفاثة. فجأة، توزيع الخبراء على 72 وحدة معالجة لم يعد من عالم الخيال العلمي. بل أصبح عملًا روتينيًا يوميًا.
أنا سعيد أن تصميم مزيج الخبراء أصبح الأبرز في النماذج المفتوحة المصدر. هذا يُعدّد الذكاء الاصطناعي عالي الأداء. لكن لا ننسَ: الفرق الصغيرة لا تقدر تكاليف رفوف من نوع جي بي 200. التحدي الحقيقي هو جعل عملية استدلال مزيج الخبراء ميسورة على الأجهزة الاستهلاكية. وهناك بالضبط تظهر عبقرية الابتكار المجتمعي.
إذًا سنغضّ جميعًا الطرف عن أن سعر وحدة جي بي 200 أعلى من سعر شاحنة تسلا سايبرترك؟ 300 ألف دولار لرف واحد فقط؟ وأنتم تسمون هذا 'متاحًا'؟ تشغيل مزيج الخبراء على هوبِر 200 معقد بالفعل — أضف عبء إنفكست وتحتاج شهادة دكتوراه فقط لتشغيل نموذج. هذا بالتأكيد ليس ذكاءً اصطناعيًا للناس.
مقارنة تاريخية: مزيج الخبراء اليوم يشبه استبدال وحدات المعالجة الرسومية لواحدات المعالجة المركزية في التعلم العميق عام 2012. قال الجميع إنه لن ينجح في التوسّع. ثم حدث أليكسنت. تصميم إنفيديا الشامل لجهاز جي بي 200 هو معادل نظام كودا الجديد — لم يعد مجرد عتاد. بل تحول نموذجي.