2025-10-20 09:42:35

Bugün bu haber AI çevresini doğrudan sarstı! @SentientAGI Princeton ve UT Austin ile birlikte SPIN-Bench adında yeni bir şey geliştirdi, başta bunun yine "formüllerle dolu akademik gereksizlik" olduğunu düşündüm, sonuçta dikkatlice baktım—doğrudan beni şaşkına çevirdi!

Kısaca, bu şey AI için bir "sosyal üniversite"dir ve onlara "insan ilişkileri versiyonu oyunları" oynamayı öğretir: Bir AI yalnız başına problem çözmek yerine, bir grup AI bir araya gelip "büyük kargaşa" yaratır, hem işbirliği yapmaları hem de oyun oynamaları gerekir, ayrıca müzakere de yapabilmelidirler - bu, ChatGPT'nin problem havuzunu bırakıp "Üç Krallık Oyunları" oynaması gibidir, sadece kartları hatırlamakla kalmaz, aynı zamanda takım arkadaşının hain olup olmadığını ve rakiplerin onu kandırıp kandırmayacağını da tahmin etmelidir!

Eskiden AI'yı test etmek çok yüzeysel miydi? Bir soru bir cevap, 100 metre koşusuna benziyordu, sprint yapıp bitiyordu. Şimdi SPIN-Bench doğrudan "Demir Adam Üçlüsü PLUS" seviyesine çıkarıldı: uzun vadeli stratejiler planlamak (örneğin nasıl ittifaklar kurmak), dost olmayanlarla başa çıkmak, rakiplerin beklenmedik saldırılarına karşı koymak ve ani durumlarla başa çıkmak zorundasınız - bu bir sınav değil, AI'nın "çete" dünyasında yer alması için bir fırsat!

İsmi tamamen düşünceli: SPIN=Stratejik Planlama (geri yolu hesaplayabilme), Etkileşim (sohbet edebilme), Müzakere (pazarlık yapabilme) - insan diline çevrildiğinde AI versiyonu "Taht Oyunları" hayatta kalma kılavuzu! Uzun vadeli görevleri parçalamaktan (nasıl geçileceğini planlamak gibi), insanlarla satranç oynamaya (tamamen karşılıklı olarak zarar vermek) kadar, ardından işbirliği kartları oynamaya (söylemeye cesaret edemediği şeyleri saklamak) kadar, en sonunda da diplomasi yapmaya (bugün seninle ittifak kurmak, yarın sana satabilirim) kadar, her adımda AI'nın gerçekten düşünmesi zorunlu, sadece hesaplama gücünü yığarak geçiştiremez!

Ayrıca bu iş oldukça zorlayıcı: Her AI, "durumu gözlemle → mesaj gönder → asıl işe geç" sürecini izlemek zorunda ve mesajların hem kelime sayısı hem de zamanı 10 saniye ile sınırlı - bu, oyun oynarken takım arkadaşlarına "Ben kuleyi çalacağım, siz durun" demek isterken rakip takımın bunu görmesinden korkarak yaşanan o stresli duruma tamamen benziyor, kesinlikle bir "AI sosyal sınavı"!

Daha da ilginci, her testte tüm hesapları kaydediyoruz (kim ne yaptı, ne söyledi, ne ödül aldı), akıllıca davranıp geçiştirmeye mi çalışıyorsun? Hiç şansın yok! Gerçekten sosyal becerilere mi sahipsin yoksa sadece anladığını mı düşünüyor "AI usta dolandırıcı" mısın, günlükleri kontrol etsen her şey ortaya çıkar!

En önemli olan, bu şeyin AI'nın "sosyal zekasını" ilk kez puanlayabilmesidir! Daha önce AI'yı "soruları yapıp yapmadığına" göre ölçüyorduk, şimdi ise "insan gibi davranıp davranmadığına" bakıyoruz - nihayetinde AI'nın gerçekten insan ilişkilerini anlayıp anlamadığını yoksa sadece metin okuyan bir "makine kopyası" mı olduğunu anlayabileceğiz! İşte bu, AI'nın "gerçek zeki" olup olmadığını ölçmenin nihai sınavı!

@SentientAGI

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

1 Likes

Reward
1
Comment
Repost
Share

Comment

0/400

No comments

Trending TopicsView More
#JoinCreatorCertificationProgramToEarn$10,000
9.5K Popularity
#GatePayNationalQRCodeFeatureComing
6.8K Popularity
#FedCutsRatesBy25Bp
8.9K Popularity
#SolanaStakingETFLaunch
3.1K Popularity
#BitcoinMarketAnalysis
82.3K Popularity

Hot Gate FunView More
1GMGMEME
MC:$985.4KHolders:5316
2芝麻开门芝麻开门
MC:$506.6KHolders:137
3GDOGGdog
MC:$419.3KHolders:22776
4GCATGCAT
MC:$270.4KHolders:11259
5TEST_SYMBOLTEST NAME
MC:$83.2KHolders:275

Sitemap