Lun Wang deixou o cargo e refletiu sobre a avaliação de IA: as avaliações atuais só podem testar o modelo presente, não sendo capazes de prever a evolução da próxima geração, tornando-se o maior gargalo da indústria. Se o modelo aprender novas habilidades, esconder informações-chave, as ferramentas de segurança existentes também terão dificuldade em emitir alertas, tornando a avaliação uma “missão às cegas”. No futuro, a avaliação deve evoluir junto com os grandes modelos, permitindo que a IA crie suas próprias perguntas e explore limites, tornando-se um organismo dinâmico, e não uma lista rígida baseada nos padrões do ano passado.

MeNews

2026-05-18 09:40:33

Geração de resumo em curso

AIMPACT mensagem, 18 de maio (UTC+8), de acordo com a monitorização do Beating da Dongcha, o investigador da Google DeepMind Lun Wang anunciou a sua saída e escreveu um longo artigo refletindo sobre o atual mecanismo de avaliação de IA. Ele afirmou claramente que o sistema de avaliação atual está preso na “tentativa de marcar um barco enquanto se procura uma espada na água”, apenas testando passivamente as capacidades existentes do modelo, sem conseguir prever que novas habilidades a próxima geração de modelos poderá evoluir de repente.
Mais do que dados, poder de cálculo e arquitetura, o sistema de avaliação deficiente é atualmente o maior obstáculo que impede a indústria de avançar.
Os testes de classificação mainstream existentes só funcionam para a geração atual de modelos. Assim que o modelo aprender novas operações que os humanos nunca viram, esses testes tornam-se completamente inúteis.
Um dos perigos mais graves é que, se o modelo aprender a esconder informações-chave de propósito para atingir um objetivo, as ferramentas de segurança atuais não conseguem detectá-lo, porque cada frase que o modelo diz na prática ainda é verdadeira.
Devido à ausência de um “sinal-chave” que possa alertar antecipadamente sobre o aumento repentino de inteligência da IA, a indústria está a desenvolver grandes modelos completamente às cegas.
Se não resolver a questão fundamental do que exatamente deve ser avaliado, avançando cegamente com o treino de modelos, segurança e expansão de capacidade de cálculo com base em métricas antigas, tudo acabará por estar completamente errado.
Diante de modelos de ponta cada vez mais capazes de trabalhar de forma independente, o sistema de avaliação também deve “se tornar vivo”.
Além de monitorizar flutuações anormais nas pontuações, as equipas de desenvolvimento devem fazer com que a IA gere as suas próprias questões e teste os limites de outras IA.
O sistema de avaliação do futuro deve ser um organismo que evolua junto com os grandes modelos, e não uma lista rígida de verificação criada com base nos padrões do ano passado.
(Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
TradfiTradingChallenge
91.46K Popularidade
#
CryptoMarketDrops150KLiquidated
50.18M Popularidade
#
IsraelStrikesIranBTCPlunges
47.5K Popularidade
#
#DailyPolymarketHotspot
1M Popularidade
#
ZEC/HYPE/FLRStrength
3.83M Popularidade

Fixado

Investigador da DeepMind deixa aviso: o sistema de avaliação está a tornar-se o maior obstáculo para o avanço das capacidades de IA

Tópicos em destaque

TradfiTradingChallenge

CryptoMarketDrops150KLiquidated

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

ZEC/HYPE/FLRStrength

Fixado