Is This the Blueprint for Smarter AI Agents? Stanford and Harvard Just Dropped a 4-Paradigm Framework That Could Change Everything
Daha Akıllı Yapay Zekâ Ajanları İçin Mavi Dışı mı? Stanford ve Harvard, Her Şeyi Değiştirebilecek 4-Paradigmalı Bir Çerçeve Sunuyor

Sadece 'istemi' (prompt) vermekten öte, ABD'nin önde gelen üniversitelerinden gelen bu yeni çerçeve yapay zekâ ajanlarını evrimsel sistemler gibi ele alıyor. Artık sadece sorulara cevap vermiyorlar; araçlar kullanıyor, belleği uyarlıyor ve uzun vadeli görevleri planlıyorlar. Fakat asıl çarpıcı kısım şu: makale, araçtan gelen geri bildirimin öğrenmede açıkça kullanılmadığı sürece çoğu ajanın hâlâ başarısız olacağını ortaya koyuyor. Yani, bir API çağrısının başarısız olduğunu öğrenebilirse, ne kadar zeki bir planlayıcı olursa olsun anında aptallaşabilir.
Bu çerçeve uyumu dört temiz kategoriye ayırıyor: A1 (aracın çıktısından öğrenme), A2 (nihai cevaptan öğrenme), T1 (genel araç güncellemeleri), T2 (sabit bir ajan altında araç ayarı). En ilginç olan şey nedir? Gerçek ilerleme, daha iyi ajanlardan değil; genetik sahibi bir dâhoya daha iyi aletler öğretmek gibi, sabit, özel modeller altında çalışan daha akıllı araç ekosistemlerinden gelebilir.
Sonunda araç kullanımını sonradan eklenmiş gibi görmeyen bir çerçeve. Üretimdeki çoğu ajan, araçları hâlâ aksesuar gibi görüyor — sadece takıldığında arama yapılıyor. Ama gelecek A1’de: API çağrılarının gerçekten işe yarayıp yaramadığından öğrenen ajanlarda. Zincirin bir halkası bozuksa, demiri parlatarak onarılmaz.
Bu makale, ajan uyumunun neredeyse periyodik sistem tablosu. ToolFormer gibi A1 metotları, ajanların gerçek API sonuçlarını izleyerek kendilerine araç kullanımını öğretebileceğini gösteriyor. Fakat ödül şekillendirme olmadan, sadece dışsal kalıpları taklit ederler, anlama gelişmez.
A2 öyle kâğıt üzerinde güzel duruyor ama benim deneyimimce sadece nihai çıktıya göre eğitilen ajanlar araç sıralamalarının tamamını ucundan uca hayal edebiliyor. Kararlılıkla var olmayan API’lere çağrı yapan botlar gördüm. Araç düzeyinde denetim mi? Bu artık 'opsiyonel' değil, bir güvenlik duvarı.
T2 yaklaşımı —sabit bir ajan altında araç ayarlamak— en tehlikelisi. Bu 'sabit' ajanı kim kontrol ediyor? Eğer bu bir Büyük Teknoloji tekelinden kapalı bir modelse, bilişsel kararları hesapsız yapılara devretmişiz demektir. Bu uyum değil. Bu kölelik.
Haklısın ama kurumsal gerçeklikte ajan sabit. GPT veya Claude lisansları alıyoruz ve bunların etrafına araç zincirleri inşa ediyoruz. T2 kölelik değil, pratizm.
Kendinden korunması gereken yapay zekâ sistemleri neden inşa ediyoruz? Dijital izole bantları gibi T1/T2 çözümlerini katmanlamak yerine, onları doğası gereği güvenilir hâle getirmemeli miyiz?
Bekle... ajan başarısız araç kullanımından öğrenmezse, aynı aptalca hatayı tekrar tekrar yapmaya devam ediyor mu? Dün botumun 'sıfıra nasıl bölünür' diye Google'da aramasını yaptığı için çok şey açıklanmış oldu.
Profesyonel ipucu: RL döngünüze 'araca hata cezası' ekleyin. Bana 3 ay hata ayıklamadan kurtardı.