MoE Just Broke AI — Is NVIDIA Stealing All the Credit?
MoE Baru Aja Ngacirin AI — Apakah NVIDIA Nyolong Semua Kreditnya?

Jadi begini ya: 10 model AI open-source terbaik semuanya pakai arsitektur mixture-of-experts, dan tiba-tiba NVIDIA GB200 NVL72 bikin mereka 10x lebih cepat. Kebetulan? Atau MoE baru aja jadi anak emas AI dan semua orang terus tergopoh-gopoh mengejar?
MoE meniru otak dengan hanya mengaktifkan ahli yang tepat tiap token. Itu elegan. Tapi NVIDIA nggak menemukan MoE — mereka cuma optimasi jalan hingga jadi satu-satunya yang bisa jalanin MoE dengan lancar. Jadi, siapa sebenarnya yang ngebetulin inovasi di sini?
Jujur saja — MoE itu brilian, tapi tanpa jaringan NVLink Blackwell, susah banget mau scaling. Kami coba MoE di H200, komunikasi all-to-all bikin latensi hancur. GB200 NVL72 ngatasi itu dengan kolam memori terpadu dan orkestrasi pintar. NVIDIA nggak nemuin MoE, tapi mereka bikin MoE siap produksi.
Oh iya, jangan lupa partner cloud NVIDIA juga lagi rilis ini sekarang. AWS, Azure, Google Cloud — semua lagi jalanin Kimi K2 dan Mistral Large 3 di GB200. Jadi kalau kamu pikir open-source itu gratis, mikir lagi deh: kamu bayar pakai tagihan cloud, bukan lisensi.
Jadi 'demokratisasi AI' cuma berarti perusahaan sewa rak NVIDIA seharga $300 ribu buat fine-tune model open? Itu bukan akses — itu eksploitasi. Kita juga butuh perangkat keras terbuka.
Perangkat keras terbuka nggak bisa atasi latensi di model expert-parallel. Jaringan 130TB/s dari NVLink Switch itu nyata. Ini kayak bandingin sepeda sama kereta peluru. Ngimpi aja nggak bakal bikin AI scaling.
Masalah sesungguhnya bukan siapa punya perangkat keras — tapi siapa yang kontrol router. Itu otaknya MoE. Dan sekarang? Masih kayak sihir kotak hitam.
Dengar, optimasi full-stack NVIDIA — dari Dynamo ke NVFP4 — bukan sihir. Itu ribuan insinyur yang pecahin bottleneck nyata. Mau MoE lebih cepat? Ucapin terima kasih ke orangnya, bukan cuma ke meme.
Saya ngerti soal etika, tapi investor saya mau ROI. Inference 10x lebih cepat dengan daya sama? Artinya 10x lebih banyak token dengan tagihan sama. Ya saya ambil dong.
Performa 10x per watt bukan cuma bagus buat profit — itu penting buat bumi. Setiap watt yang dihemat di AI artinya pembangkit batubara yang nggak jadi dibangun. Efisiensi NVIDIA mungkin warisan terbesar mereka.