MoE Is Eating the AI World — Are We Entering the Era of 'Brain-Like' Models?
MoE Yapay Zekâ Dünyasını Yiyiyor — 'Beyin Benzeri' Modeller Çağında Mıyız?

En zeki 10 açık kaynaklı modelin hepsi Uzmanlar Karmaşı (MoE) mimarisini kullanıyor. Bu yalnızca küçük bir iyileştirme değil — yapay zekânın nasıl düşündüğüne dair temel bir yeniden tasarımdır. Göreve göre sadece ilgili 'uzman' alt ağların devreye girmesi, insan beynini taklit eder. Birdenbire bir token üretmek, 100+ milyar parametrenin tamamını yakmak anlamına gelmiyor, sadece 10 milyar işi ilgilendirenler çalıştırılıyor. Tüm şehri aydınlatan bir arama ışınını değil, cerrahi lazeri kullanmaya geçtiğinize bakın.
Ve NVIDIA'nın GB200 NVL72'si roket yakıtı gibi. Bu raf ölçekli sistemde Kimi K2 Thinking ve Mistral Large 3 gibi MoE modelleri 10 kat daha hızlı çalışıyor. Ama asıl çarpıcı kısım bu değil: yalnızca ham hız değil. Watt başına 10 kat daha iyi performans alıyorsunuz. Bu, aynı enerji maliyetiyle 10 kat daha fazla yapay zekâ çıktısı alabileceğiniz anlamına gelir. Bu evrim değil — yapay zekânın ekonomisinde bir devrimdir. Donanımın bile seyreklik ve uzman paralelliği için optimize edildiği bir noktadayken, oyunun değiştiğinin farkındasınız.
Pazarlama pöstekilerinden geçelim: 10 kat hız harika görünse de, ölçekli MoE modelleri kullanmadığınız sürece önemi yok. Çoğu şirket için eski Hopper sistemleri hâlâ iyi çalışıyor. Ve dürüst olalım — tüm çıkarım hattını MoE için yeniden yapılandırmak ucuz ya da kolay değil. Gerçek tıkanıklık donanımda değil, örgütsel tembellerlikte.
Katılmıyorum. Bu 10 katlık değer yalnızca hızla ilgili değil. Başına maliyetin 0,0002$'dan 0,00002$'a düşmesidir. Her şeyi değiştirir. Birdenbire, gerçek zamanlı ajanlı iş akışları, çoklu araçlı akıl yürütme ve uzun bağlam uygulamaları kullanılabilir hâle gelir. Bu artımlı değil — altyapının yeni ürün kategorilerini mümkün kılmasıdır.
Daha hızlı ve ucuz yapay zekâ tarafsız değildir. MoE ile kimin işe alındığı, kimin kredi alacağı, hangi içeriğin ön plana çıkacağı gibi daha fazla karar alan sistemler inşa ediyoruz. Sorumluluk verimliliğin gerisinde kaldığında, ölçekte önyargıya ulaşırız. Zekâyı mümkün kılan mimari, zararı da ölçekleyebilir.
Sadece belirtiyorum: Kimi K2 Thinking, DeepSeek-R1 veya Mistral Large 3 modellerini kullanıyorsanız ve gecikme süresi ile maliyetten rahatsızsanız, GB200 NVL72 artık seçenek değil. Oyunu oynayabilmek için temel şarttır. 10 katlık sıçrama gerçek, ölçülmüş ve tekrarlanabilir. İstediğiniz kadar inkâr edin — müşterileriniz yanıt sürelerinde farkı hissedecek.
Harika görünüyor ama toplam sahip olma maliyeti (TCO) analizi nerede? GB200 NVL72, H200 kümelerinden 5-8 kat daha fazla başlangıç maliyetine sahip. 10 kat verimliliğe rağmen, başa baş gelmek için çok büyük bir ölçekte kullanım gerekir. Orta ölçekli girişimler raf satın almıyor — vLLM'yi tüketicilerin GPU'larında optimize ediyor.
Aslında, Kubernetes üzerinde vLLM + TensorRT-LLM, kiralık A10'lerde bile küçük MoE modellerini verimli çalıştırabiliyor. Biz sıradaşı takip etmiyoruz — maliyetin %10'unda %90 kapasiteye ihtiyacımız var. Bizim için GB200 bir çözüm değil, başka bir evren.
MoE'nin insan beyninin nasıl çalıştığını yansıtmış olması — görev bazlı aktive olma, enerji verimliliği, modüler zekâ — bir rastlantı değil. Biyolojik olsun yapay olsun, zekânın aynı en iyi hesaplama stratejisine doğru evrildiğini gösteriyor. Bu mühendislik değil. Doğanın kulağımıza fısıldadığı bir sır.