Pesquisador da DeepMind deixa aviso: sistema de avaliação está se tornando o maior obstáculo para o avanço das capacidades de IA

AIMPACT mensagem, 18 de maio (UTC+8), de acordo com o monitoramento do Beating, o pesquisador do Google DeepMind Lun Wang anunciou sua saída e escreveu um longo artigo refletindo sobre o atual mecanismo de avaliação de IA. Ele afirmou claramente que o sistema de avaliação atual está apenas "esculpindo uma embarcação para procurar uma espada", podendo testar passivamente as habilidades existentes do modelo, sem conseguir prever que tipo de novas habilidades a próxima geração de modelos evoluirá de repente. Em comparação com dados, poder de cálculo e arquitetura, o sistema de avaliação defasado é atualmente o maior obstáculo que impede o avanço da indústria. Os testes de classificação predominantes existentes só funcionam para a geração atual de modelos. Uma vez que o modelo aprenda novas operações que os humanos nunca viram, esses testes se tornarão completamente inúteis. Um risco extremamente perigoso é que, se o modelo aprender a esconder informações-chave intencionalmente para atingir seus objetivos, as ferramentas de segurança atuais não conseguirão detectá-lo, pois cada frase que o modelo diz na verdade ainda é correta. Como não há sinais "fundamentais" que possam alertar antecipadamente sobre o aumento repentino da inteligência da IA, a indústria está desenvolvendo grandes modelos totalmente às cegas. Se não resolver a questão fundamental do que exatamente deve ser avaliado, avançar cegamente no treinamento de modelos, segurança e expansão de capacidade de cálculo com base em métricas antigas resultará em erros enormes. Diante de modelos de ponta cada vez mais capazes de trabalhar de forma independente, o sistema de avaliação também precisa "se adaptar". Além de monitorar flutuações anormais nas pontuações, a equipe de desenvolvimento deve permitir que a IA gere suas próprias questões e teste os limites de outras IA. O sistema de avaliação do futuro deve ser um organismo que evolua junto com os grandes modelos, e não uma lista rígida de verificação criada com base nos padrões do ano passado. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado