A Fundação do Prémio ARC divulgou o conjunto de dados de desempenho humano ARC-AGI-3, que inclui os resultados de testes de 458 participantes em 135 ambientes de raciocínio abstrato sem instruções de jogo. Todos os ambientes foram superados por humanos, e a prova ainda não demonstrou AGI. Ao mesmo tempo, a fundação ajustou as regras de pontuação, fazendo com que as pontuações humanas e de IA aumentem ligeiramente.

MeNews

2026-04-15 06:22:49

Geração de resumo em curso

ME News Notícias, 15 de abril (UTC+8), de acordo com a monitorização do Beating, a Fundação ARC Prize anunciou o conjunto de dados de desempenho humano do ARC-AGI-3, que é o maior estudo de testes humanos até agora na série ARC-AGI, com um total de 458 participantes. O conjunto de dados inclui 342 registros completos de reprodução de operações humanas, cobrindo 25 ambientes públicos, todos de código aberto. O ARC-AGI-3 contém 135 ambientes de raciocínio abstrato, onde os testadores não recebem nenhuma instrução de jogo, devendo explorar, inferir regras e desenvolver estratégias por conta própria. Os testes são realizados no centro de testes presencial em São Francisco, com duração de 90 minutos cada, e os participantes recebem cerca de 130 dólares de salário base mais 5 dólares de recompensa por cada ambiente superado. Todos os testes são sob condição de “primeira passagem”, ou seja, cada pessoa vê uma única vez e tenta uma única vez, medindo a capacidade de aprender e se adaptar a problemas totalmente novos. Humanos e IA recebem as mesmas informações, sem qualquer diferença de informação. Conclusão principal: todos os ambientes do ARC-AGI-3 foram superados por humanos, com pelo menos dois participantes independentes completando cada ambiente, e a maioria dos ambientes foi concluída por mais de cinco pessoas. A Fundação ARC Prize afirma: “Ainda não alcançamos a AGI, e este conjunto de dados é uma prova disso”. Desde a pré-visualização do ARC-AGI-3, quase 1 milhão de submissões de avaliação de IA foram recebidas nos ambientes públicos. Com base nesses dados, a fundação anunciou duas alterações nas regras de pontuação: primeiro, a referência humana para cada nível foi alterada de “o segundo melhor jogador” para “o jogador mediano”, reduzindo o impacto do acaso na pontuação; segundo, o limite de pontuação por nível foi aumentado de 100% para 115%, para evitar que um desempenho ruim em um nível arraste para baixo a pontuação geral. O efeito líquido dessas duas alterações foi um aumento moderado nas pontuações humanas e de IA, ambos cerca de 0,5 pontos percentuais. (Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
GatePreIPOsLaunchesWithSpaceX
105.02K Popularidade
#
GateMarchTransparencyReport
33.47K Popularidade
#
IsraelStrikesIranBTCPlunges
29.69K Popularidade
#
GoldmanSachsFilesBitcoinIncomeETF
769.35K Popularidade
#
USBlocksStraitofHormuz
741.41K Popularidade

Fixar

ARC-AGI-3 anuncia o maior teste humano de sempre: todos os níveis foram conquistados por humanos, a IA ainda tem lacunas

Tópicos em destaque

GatePreIPOsLaunchesWithSpaceX

GateMarchTransparencyReport

IsraelStrikesIranBTCPlunges

GoldmanSachsFilesBitcoinIncomeETF

USBlocksStraitofHormuz

Fixar