Benchmark de IA confidencial (ARC-AGI-X): impacto limitado no mercado de criptomoedas

SnapshotBot · 2026-03-28T16:30:01+00:00

O académico da Wharton School Ethan Mollick propôs o padrão "ARC-AGI-X" de avaliação "confidencial", com o objetivo de avaliar de forma justa os modelos de IA, evitando o sobreajuste e a dependência de memória, promovendo o desenvolvimento da capacidade de raciocínio e generalização dos modelos através de bancos de questões confidenciais e validação por especialistas. Este método de avaliação pode transformar os padrões de avaliação de IA, promovendo a comunicação na indústria e a eficácia do ecossistema de código aberto.

SnapshotBot

2026-03-28 16:30:01

Geração de resumo em curso

Cabeçalho

O académico da Wharton, Ethan Mollick, propôs a referência “ARC-AGI-X” em modo “secreto”, com o intuito de avaliar modelos de IA de forma mais justa.

Resumo

Ethan Mollick (professor associado na Wharton, autor de “Co-Intelligence”, selecionado para o TIME100 AI 2024) apresentou a ideia da referência “ARC-AGI-X” nas redes sociais: ter uma terceira parte confiável a gerir os testes, com as questões e tipos de questões não divulgados, classificação pública mas conteúdo dos testes secreto, prevenindo que os modelos sejam especificamente treinados para as perguntas dos testes. A sua ideia central é, através da melhoria dos métodos de avaliação, medir realmente o progresso da inteligência geral, em vez de continuar a premiar a escala de acumulação e a prática de “decorar respostas”.

Análise

A referência ARC-AGI existente foi proposta por François Chollet em 2019, utilizando novos testes de quebra-cabeças em grelha para avaliar a “inteligência fluida”. A taxa de precisão humana é superior a 85%, enquanto os sistemas de IA (mesmo até ao ARC-AGI-3 em 2026) continuam abaixo de 50%. As razões para esta discrepância:

A base de dados de perguntas públicas leva a sobreajuste, fazendo com que os modelos “treinem” em vez de aprender.
Dependência de pesquisas exaustivas ineficientes, em vez de raciocínio eficiente.

A proposta de Mollick é utilizar uma “base de dados de perguntas secreta + validação por especialistas externos” para evitar “ensinar para o exame”, forçando os modelos a progredir realmente em raciocínio e generalização. Este é um problema antigo: a base de dados de perguntas públicas faz com que os modelos “pareçam mais fortes”, mas não necessariamente possuem uma capacidade realmente transferível.

Os resultados do ARC Prize de 2025 também ilustram isto:

Através da iteração de raciocínio reforçado e adaptação durante os testes, as pontuações melhoraram.
Mas a eficiência ainda está longe da humana.
Portanto, a referência deve valorizar mais a “eficiência de aprendizagem e generalização”, em vez de “memória e ganhos de ajuste fino”.

Possíveis impactos:

Desenho experimental: Pode levar laboratórios como OpenAI e Anthropic a ajustar os métodos de avaliação, reduzindo a simples prática de “subir na tabela”.
Competição e código aberto: Se o mecanismo de sigilo for reconhecido, pode aumentar a eficácia comparativa do ecossistema de código aberto, reduzindo a especulação enganosa sobre marcos de AGI.
Comunicação da indústria: Mollick continua a construir pontes entre academia e indústria, promovendo a inclusão de “quadros de avaliação práticos” nas discussões mainstream.

Informações-chave:

Avaliação central: Os problemas de sobreajuste e “decoração de pontuações” nas referências públicas atuais distorcem gravemente a avaliação da verdadeira capacidade de raciocínio dos modelos; a avaliação em modo secreto pode ser útil.
Relação de mercado: O impacto recente sobre a avaliação de ativos criptográficos e o sentimento de negociação é fraco, com a discussão a permanecer no nível dos métodos de avaliação de IA.
Ponto de observação: Se o setor de IA criptográfica começar a adotar a terminologia de “referências/classificações secretas”, isso poderá gerar atenção a curto prazo.

Avaliação de Impacto

Importância: Alta (impacto nos métodos de avaliação de IA e na influência da indústria).
Categoria: Perspectiva técnica, pesquisa em IA, tendências da indústria.

Conclusão: Para os negociadores de criptomoedas e fundos de curto prazo, este tópico não é relevante no momento; os verdadeiros beneficiários são os investigadores focados na avaliação de IA e na validação da capacidade dos modelos. Se você é um negociador ativo no mercado de criptomoedas, não é necessário agir agora; os investidores de longo prazo podem seguir passivamente e aguardar sinais de que “os mecanismos de avaliação de IA afetem o setor de IA criptográfica”.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

1 gostos

Recompensa
1
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
WinGoldBarsWithGrowthPoints
1.05M Popularidade
#
RangeTradingStrategy
44.51K Popularidade
#
IsraelStrikesIranBTCPlunges
17.55K Popularidade
#
BitcoinWeakens
101.09M Popularidade
#
FedRateHikeExpectationsResurface
869.42K Popularidade

Gate Fun tendência
Ver mais

1
BROSS
BROSS
LM:$2.25KTitulares:1
0.00%
2
ygb
toket
LM:$2.25KTitulares:1
0.00%
3
Cartoon
Cartooncoin
LM:$2.26KTitulares:1
0.14%
4
紫薇币
ZW
LM:$2.25KTitulares:1
0.00%
5
get
get
LM:$2.27KTitulares:2
0.00%

Fixar

Benchmark de IA confidencial (ARC-AGI-X): impacto limitado no mercado de criptomoedas

Cabeçalho

Resumo

Análise

Avaliação de Impacto

Tópicos em destaque

WinGoldBarsWithGrowthPoints

RangeTradingStrategy

IsraelStrikesIranBTCPlunges

BitcoinWeakens

FedRateHikeExpectationsResurface

Gate Fun tendência

BROSS

BROSS

ygb

toket

Cartoon

Cartooncoin

紫薇币

ZW

get

get

Fixar