Is MoE the Brain of the AI Revolution — or Just a Hype Engine for NVIDIA Hardware Sales?
MoE é o cérebro da revolução da IA — ou apenas um motor de hype para vendas de hardware da NVIDIA?

Vamos cortar a névoa de marketing: agora todos os principais modelos de IA open-source usam a arquitetura mixture-of-experts (MoE), e por boas razões. Não se trata mais apenas do tamanho bruto — é sobre alocação inteligente de recursos, como o cérebro humano só ativa os neurônios certos para cada tarefa. Modelos MoE encaminham cada token apenas aos 'especialistas' relevantes na rede, reduzindo drasticamente custos computacionais enquanto aumentam o desempenho no mundo real.
Mas tem um porém: executar esses modelos em escala é um pesadelo sem hardware especializado. Surge então o GB200 NVL72 da NVIDIA, um monstro de sistema com 72 GPUs conectadas por uma malha NVLink gigantesca. Eles afirmam 10x mais velocidade e 10x mais eficiência para modelos MoE como DeepSeek-R1 e Kimi K2. Parece impressionante — mas será isso uma verdadeira inovação ou apenas um convite bem caro para ficar preso no ecossistema da NVIDIA?
Vamos ser realistas: MoE não é apenas uma atualização técnica — é uma atualização financeira. 10x mais desempenho por watt significa 10x mais receita por rack em um data center com limite de energia. Para provedores de nuvem, essa é a diferença entre lucro e falência. Isso não é teórico; é assim que a corrida do ouro da IA está sendo vencida.
Estou animado porque o MoE está democratizando o acesso a modelos de alta inteligência, mas a ironia é forte: estamos dependendo de um rack com 72 GPUs que custa mais do que o orçamento anual da maioria das startups. Modelo aberto, hardware fechado?
Ah, sim, outra 'melhoria 10x' que exige comprar uma unidade inteira de armazém para implantar. Me ligue quando eu puder rodar isso em um laptop com mancha de café.
MoE funciona bem para escalar inferência, mas treinar modelos MoE ainda é uma bagunça. Desequilíbrio entre especialistas, colapso no roteamento e gradientes instáveis atrapalham a fase de treinamento. Não finjam que isso está resolvido só porque a inferência ficou mais rápida.
A verdadeira questão não é sobre eficiência de hardware. É sobre quem controla os especialistas. Se todos os principais modelos MoE são treinados com dados com os quais não consentimos, estamos apenas criando um motor de exploração mais eficiente?
Você acha que provedores de nuvem não estão já licitando por esses racks GB200? Isso não é sobre startups rodando modelos — é sobre hiperscalers construindo fossos com assimetria de hardware.
E quando chegar a conta, vão dizer 'o modelo é aberto' enquanto cobram $200mil/hora pelo processamento. Isca e troca clássica.
Exatamente. E nem me faça começar a falar sobre como ajustar modelos MoE é como jogar Jenga com um pé de cabra.