Araştırmacılar, büyük dil modellerini psikolojinin klasik deneylerinden biri olan Stroop testi ile değerlendirdi. Bu testte katılımcılardan, örneğin “mavi” yazan ancak kırmızı renkle yazılmış bir kelimede kelimenin anlamını değil mürekkebin rengini söylemeleri isteniyor. İnsanlar uzun ve karmaşık görevlerde yüksek başarılarını korurken, GPT-5, Claude ve Gemini gibi gelişmiş yapay zekaların performansının görev uzadıkça belirgin şekilde düştüğü görüldü.

Araştırmayı yürüten Suketu Patel ve ekibi, yapay zekaların kısa testlerde yüzde 90’ın üzerinde doğruluk sağlayabildiğini ancak bilgi çatışmasının arttığı uzun dizilerde ciddi hatalar yaptığını belirledi. Bazı modellerin doğruluğu yüzde 15 seviyelerine kadar geriledi. Araştırmacılar, mevcut dönüştürücü (transformer) mimarisinin güçlü bir “yürütücü dikkat” sistemine sahip olmadığını ve insan benzeri genel yapay zekaya ulaşmak için bu eksikliğin giderilmesi gerektiğini ifade etti.

Işıkla çalışan çip geliştirildi
Işıkla çalışan çip geliştirildi
İçeriği Görüntüle

Bulgular, yapay zekanın matematikten programlamaya kadar birçok alanda insan seviyesine yaklaşmasına rağmen, insan beyninin en temel bilişsel özelliklerinden biri olan dikkat kontrolünü hâlâ tam olarak taklit edemediğine işaret ediyor. Araştırmacılara göre gelecekteki yapay zeka sistemlerinin sadece daha büyük hafızalara değil, insan beynindeki dikkat ağlarına benzer daha gelişmiş karar kontrol mekanizmalarına ihtiyaç duyacağı değerlendiriliyor.