2025-10-20 09:42:35

Hoje esta notícia explodiu diretamente o mundo da IA! @SentientAGI juntou-se à Princeton e à UT Austin para criar algo chamado SPIN-Bench. A princípio, pensei que era mais uma "literatura acadêmica cheia de fórmulas sem sentido", mas ao olhar de perto - fiquei completamente atordoado!

Em termos simples, esta coisa é uma "universidade social" para a IA, projetada para ensiná-las a jogar um "jogo de relações humanas": não é uma IA resolvendo problemas sozinha, mas um grupo de IAs se juntando para uma "grande batalha", onde precisam cooperar e competir, além de ter que negociar — é como se o ChatGPT deixasse de lado o banco de perguntas para jogar "Sanguo Sha", onde não só precisa lembrar das cartas, mas também adivinhar se o colega é um traidor e se o oponente vai enganá-lo!

Antigamente, como era a avaliação da IA? Uma pergunta e uma resposta, como uma corrida de 100 metros, acaba assim que termina. Agora, o SPIN-Bench é elevado diretamente ao nível "Triatlo PLUS": é necessário planejar estratégias de longo prazo (como formar alianças), adaptar-se a companheiros ineficazes, prevenir ataques traiçoeiros dos adversários e ainda resistir a situações inesperadas – isso não é um exame, é claramente um convite para a IA se misturar em "gangues"!

O nome é cheio de sutilezas: SPIN=Planeamento Estratégico (sabe calcular as rotas de saída), Interação (sabe conversar), Negociação (sabe pechinchar) — traduzindo para uma linguagem simples, é o guia de sobrevivência da versão AI de “Game of Thrones”! Desde a divisão de tarefas de longo prazo (como planejar o caminho para passar de nível), até jogar xadrez com alguém (um puro jogo de auto-sabotagem), passando por jogar cartas de cooperação (escondendo e não se atrevendo a dizer tudo), e, finalmente, tendo que lidar com a diplomacia (hoje fazemos uma aliança, amanhã talvez te venda), cada passo força a IA a pensar de verdade, não é só acumular poder de cálculo que se consegue passar!

E esta tarefa é realmente difícil: cada IA tem que seguir o processo de "analisar a situação → enviar mensagem → agir". As mensagens também têm um limite de caracteres e o tempo é de 10 segundos - é exatamente como quando você está jogando e quer dizer aos seus companheiros "vou roubar a torre, mantenham-se firmes", mas tem medo de que o time adversário veja, é um cenário que deixa qualquer um desesperado, é um verdadeiro "exame social de IA"!

Ainda mais impressionante é que, a cada teste, tudo é registrado (quem fez o quê, disse o quê, recebeu qual recompensa). Quer parecer esperto e enganar? Não há chance! Você realmente entende de redes sociais ou é apenas um "AI velho esperto" que finge saber? Uma olhada nos registros e tudo se revela!

O mais importante é que esta coisa pode, pela primeira vez, avaliar o "quociente social" da IA! Antes, avaliava-se a IA "vendo se ela consegue resolver problemas", agora é "vendo se ela sabe lidar com as pessoas" - finalmente conseguimos entender se a IA realmente compreende os costumes humanos ou se é apenas um "substituto mecânico" que lê roteiros! Este é, de fato, o exame final para medir o "verdadeiro intelecto" da IA!

@SentientAGI

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

1 Curtidas

Recompensa
1
Comentário
Repostar
Compartilhar

Comentário

0/400

Sem comentários

TendênciasVer projetos
#GateVenturesAcquiresPerpDEXADEN
19.5K Popularidade
#ETHOn-ChainActivityRises
31.8K Popularidade
#BitcoinMarketAnalysis
75.8K Popularidade
#ERC-8004IgnitesMachineEconomy
10.9K Popularidade
#SquareCreatorCertificationOpens
26.5K Popularidade

Em alta na Gate FunVer projetos
1GMGMEME
Cap. de M.:$2MHolders:5314
2GCATGCAT
Cap. de M.:$391.7KHolders:10611
3TEST_SYMBOLTEST NAME
Cap. de M.:$143.9KHolders:264
4GLGateLegion
Cap. de M.:$79.8KHolders:87
5芝麻开门芝麻开门
Cap. de M.:$570.8KHolders:138

Marcar

sitemap