Is This the End of Traditional AI Models? The MoE Revolution Is Here
Неужели классические ИИ-модели ушли в прошлое? Революция MoE уже началась

blogs.nvidia.com
So the top 10 open-source AI models all use MoE, and they’re now running 10x faster on NVIDIA’s GB200 NVL72? That’s not just incremental — it’s a seismic shift. MoE mimics how our brains activate specific regions for tasks, but in AI form: only the relevant 'experts' get activated per token. This means smarter results, lower compute costs, and way more efficiency.
Итак, все топ-10 открытых ИИ-моделей используют MoE и теперь работают в 10 раз быстрее на GB200 NVL72 от NVIDIA? Это уже не просто улучшение — это сейсмический сдвиг. MoE имитирует работу мозга: задействуются только нужные зоны, а в случае ИИ — только соответствующие «эксперты» для каждого токена. Результат — умнее, дешевле и намного эффективнее.
Мы развернули MoE-модели в масштабе на GB200 NVL72, и цифры говорят сами за себя: пропускная способность выросла в 10 раз, энергопотребление — без изменений. Архитектура NVLink устранила задержки при обмене «все-со-всеми», которые парализовали H200. Это не просто новое железо — это принципиально новый подход к работе.
MoE вперёд! Наконец-то открытые модели не просто догоняют закрытые — они задают темп. Mistral и DeepSeek доказывают: открытая инновация может превзойти лаборатории с миллиардными бюджетами.
Прирост в 10 раз — звучит здорово, но какова полная стоимость владения? Говорят, один стойка GB200 стоит 300 тыс. долларов. Чтобы оправдать такие вложения, нужен огромный масштаб, особенно если вы не Google или Microsoft.
Вы не поняли сути. Дело не в скорости — а в устойчивости. При производительности 10 на ватт кластер GB200 NVL72 выполняет работу 10 стоек Hopper, потребляя 1/10 энергии. Это переворот для углеродного следа и операционных расходов.
Главная проблема — не стоимость и не скорость, а централизация. Если только корпорации с 300-тысячными стойками смогут запускать передовые MoE, мы получим ИИ-элиту. Открытые модели на бумаге ничего не значат, если их может развернуть только богатый.
Звучит как хайп. Мы уже слышали обещания про 10-кратный прирост — помните FPGA? Пока не увижу реальную пропускную способность под реальными нагрузками, останусь при своих H200.
Настоящий прорыв? Общие пулы экспертов для разных сервисов. Вместо 10 копий Kimi все запросы направляются в один кластер MoE. Так мы и достигаем настоящей эффективности в масштабах.