Apple’ın Dünya Geliştiriciler Konferansı (WWDC) öncesinde yayımladığı yeni bir yapay zeka araştırması, büyük akıl yürütme modellerinin (Large Reasoning Models – LRM) karmaşık problemler karşısında adeta çöktüğünü ortaya koydu.
Araştırmaya göre; OpenAI’ın o1 ve o3 modelleri, DeepSeek R1, Claude 3.7 Sonnet Thinking ve Google Gemini Flash Thinking gibi sistemler, problem karmaşıklığı arttıkça doğru sonuç verme kabiliyetlerini tamamen yitiriyor.
Geçen yıl da büyük dil modellerinin (LLM) akıl yürütme becerilerindeki zayıflıkları belgeleyen aynı ekip tarafından kaleme alınan bu yeni çalışma, yapay genel zeka (AGI) konusundaki iyimser beklentileri suya düşürebilir. AGI’ye şüpheyle yaklaşanlar içinse bu araştırma, dikkat çekici bir kanıt niteliğinde.
'Düşünüyormuş gibi yapıyor'
Apple’ın verilerine göre, LRMs orta düzey zorluktaki bulmacalarda LLM’lerden daha başarılı olsa da, basit bulmacalarda daha kötü performans sergiliyor. Zor seviyeye geçildiğindeyse modeller tamamen çöküyor, sorunun çözümünü erkenden bırakıyor.
Apple araştırmacılarına göre, bu durum “düşünme yanılsaması”ndan ibaret. Mashable'ın aktardığına göre araştırmada, matematik ve kodlama gibi alanlarda başarılı olan yapay zeka modellerinin, karmaşık akıl yürütme gerektiren durumlarda sadece "düşünüyormuş gibi yaptığı" sonucuna varıldı.
Araştırmada kullanılan testler; klasik mantık problemlerinden oluşuyordu. Bunlar arasında Hanoi Kulesi, dama taşlarının dizilmesi ve tilki-tavuk-buğdaylı nehir geçişi bilmeceleri vardı.
İnsanların temel mantıksal akıl yürütme becerilerini ölçmek için kullanılan bu testlerde, yapay zeka modellerinin performansı dikkat çekici biçimde düştü.
Araştırma sonuçlarına göre tüm modellerde benzer bir eğilim gözlendi: Problem karmaşıklığı arttıkça doğruluk oranı düşüyor ve belirli bir eşiğin ötesinde modeller tamamen başarısız oluyor. Örneğin, Claude 3.7 Sonnet Thinking ve DeepSeek R1 modelleri, Hanoi Kulesi’ne beşinci diskin eklenmesiyle ciddi şekilde hata yapmaya başlıyor. Hesaplama gücü artırılsa dahi bu çöküş engellenemiyor.
'Pes ediyor'
Üstelik araştırma, bu modellerin başlangıçta daha fazla "düşünme" gayreti gösterdiğini, ancak zorluk artınca daha az token yaktığını, yani daha az işlem yaptığını ortaya çıkardı. Yani model, zorluk seviyesi yükseldikçe pes ediyordu.
Araştırmacılar, modellerin çözüm algoritması doğrudan verildiğinde bile sonuçların değişmediğini belirtiyor. Yani modeller, sadece adımları takip etmeleri istendiğinde dahi başarısız olmaya devam ediyor.