RLVR Essa coisa realmente foi um pouco míope na validação científica, algo que leva décadas para ser refutado, como ela pode esperar?

Ver original
MeNews
RLVR pode ser especialmente ruim no campo científico
ME News Notícias, 17 de maio (UTC+8), RLVR (Aprendizado por Reforço e Verificação) pode apresentar déficits desproporcionais na verificação de teorias científicas.
O ciclo de verificação de teorias científicas dura décadas ou até séculos, e teorias atualmente consideradas melhores frequentemente fazem previsões piores.
Essa contradição revela o conflito fundamental entre o paradigma de aprendizado por reforço baseado em feedback de curto prazo e a longuíssima duração e complexidade da exploração científica, destacando as limitações estruturais dos métodos atuais de IA ao lidar com tarefas de ciclos de feedback extremamente longos, como descobertas científicas.
(Fonte: AiHot)
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado