ARC-AGI-3 anuncia o maior teste humano de sempre: todos os níveis foram conquistados por humanos, a IA ainda tem lacunas

robot
Geração de resumo em curso

ME News Notícias, 15 de abril (UTC+8), de acordo com a monitorização do Beating, a Fundação ARC Prize anunciou o conjunto de dados de desempenho humano do ARC-AGI-3, que é o maior estudo de testes humanos até agora na série ARC-AGI, com um total de 458 participantes. O conjunto de dados inclui 342 registros completos de reprodução de operações humanas, cobrindo 25 ambientes públicos, todos de código aberto. O ARC-AGI-3 contém 135 ambientes de raciocínio abstrato, onde os testadores não recebem nenhuma instrução de jogo, devendo explorar, inferir regras e desenvolver estratégias por conta própria. Os testes são realizados no centro de testes presencial em São Francisco, com duração de 90 minutos cada, e os participantes recebem cerca de 130 dólares de salário base mais 5 dólares de recompensa por cada ambiente superado. Todos os testes são sob condição de “primeira passagem”, ou seja, cada pessoa vê uma única vez e tenta uma única vez, medindo a capacidade de aprender e se adaptar a problemas totalmente novos. Humanos e IA recebem as mesmas informações, sem qualquer diferença de informação. Conclusão principal: todos os ambientes do ARC-AGI-3 foram superados por humanos, com pelo menos dois participantes independentes completando cada ambiente, e a maioria dos ambientes foi concluída por mais de cinco pessoas. A Fundação ARC Prize afirma: “Ainda não alcançamos a AGI, e este conjunto de dados é uma prova disso”. Desde a pré-visualização do ARC-AGI-3, quase 1 milhão de submissões de avaliação de IA foram recebidas nos ambientes públicos. Com base nesses dados, a fundação anunciou duas alterações nas regras de pontuação: primeiro, a referência humana para cada nível foi alterada de “o segundo melhor jogador” para “o jogador mediano”, reduzindo o impacto do acaso na pontuação; segundo, o limite de pontuação por nível foi aumentado de 100% para 115%, para evitar que um desempenho ruim em um nível arraste para baixo a pontuação geral. O efeito líquido dessas duas alterações foi um aumento moderado nas pontuações humanas e de IA, ambos cerca de 0,5 pontos percentuais. (Fonte: BlockBeats)

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar