Benchmark de IA confidencial (ARC-AGI-X): impacto limitado no mercado de criptomoedas

robot
Geração de resumo em curso

Cabeçalho

O académico da Wharton, Ethan Mollick, propôs a referência “ARC-AGI-X” em modo “secreto”, com o intuito de avaliar modelos de IA de forma mais justa.

Resumo

Ethan Mollick (professor associado na Wharton, autor de “Co-Intelligence”, selecionado para o TIME100 AI 2024) apresentou a ideia da referência “ARC-AGI-X” nas redes sociais: ter uma terceira parte confiável a gerir os testes, com as questões e tipos de questões não divulgados, classificação pública mas conteúdo dos testes secreto, prevenindo que os modelos sejam especificamente treinados para as perguntas dos testes. A sua ideia central é, através da melhoria dos métodos de avaliação, medir realmente o progresso da inteligência geral, em vez de continuar a premiar a escala de acumulação e a prática de “decorar respostas”.

Análise

A referência ARC-AGI existente foi proposta por François Chollet em 2019, utilizando novos testes de quebra-cabeças em grelha para avaliar a “inteligência fluida”. A taxa de precisão humana é superior a 85%, enquanto os sistemas de IA (mesmo até ao ARC-AGI-3 em 2026) continuam abaixo de 50%. As razões para esta discrepância:

  • A base de dados de perguntas públicas leva a sobreajuste, fazendo com que os modelos “treinem” em vez de aprender.
  • Dependência de pesquisas exaustivas ineficientes, em vez de raciocínio eficiente.

A proposta de Mollick é utilizar uma “base de dados de perguntas secreta + validação por especialistas externos” para evitar “ensinar para o exame”, forçando os modelos a progredir realmente em raciocínio e generalização. Este é um problema antigo: a base de dados de perguntas públicas faz com que os modelos “pareçam mais fortes”, mas não necessariamente possuem uma capacidade realmente transferível.

Os resultados do ARC Prize de 2025 também ilustram isto:

  • Através da iteração de raciocínio reforçado e adaptação durante os testes, as pontuações melhoraram.
  • Mas a eficiência ainda está longe da humana.
  • Portanto, a referência deve valorizar mais a “eficiência de aprendizagem e generalização”, em vez de “memória e ganhos de ajuste fino”.

Possíveis impactos:

  • Desenho experimental: Pode levar laboratórios como OpenAI e Anthropic a ajustar os métodos de avaliação, reduzindo a simples prática de “subir na tabela”.
  • Competição e código aberto: Se o mecanismo de sigilo for reconhecido, pode aumentar a eficácia comparativa do ecossistema de código aberto, reduzindo a especulação enganosa sobre marcos de AGI.
  • Comunicação da indústria: Mollick continua a construir pontes entre academia e indústria, promovendo a inclusão de “quadros de avaliação práticos” nas discussões mainstream.

Informações-chave:

  • Avaliação central: Os problemas de sobreajuste e “decoração de pontuações” nas referências públicas atuais distorcem gravemente a avaliação da verdadeira capacidade de raciocínio dos modelos; a avaliação em modo secreto pode ser útil.
  • Relação de mercado: O impacto recente sobre a avaliação de ativos criptográficos e o sentimento de negociação é fraco, com a discussão a permanecer no nível dos métodos de avaliação de IA.
  • Ponto de observação: Se o setor de IA criptográfica começar a adotar a terminologia de “referências/classificações secretas”, isso poderá gerar atenção a curto prazo.

Avaliação de Impacto

  • Importância: Alta (impacto nos métodos de avaliação de IA e na influência da indústria).
  • Categoria: Perspectiva técnica, pesquisa em IA, tendências da indústria.

Conclusão: Para os negociadores de criptomoedas e fundos de curto prazo, este tópico não é relevante no momento; os verdadeiros beneficiários são os investigadores focados na avaliação de IA e na validação da capacidade dos modelos. Se você é um negociador ativo no mercado de criptomoedas, não é necessário agir agora; os investidores de longo prazo podem seguir passivamente e aguardar sinais de que “os mecanismos de avaliação de IA afetem o setor de IA criptográfica”.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar