Código puro enfrenta de frente as redes neurais! Grandes modelos com regras de controlo manuscritas entram na indústria hardcore, estratégia completa executada por 14 dólares

robot
Geração de resumo em curso
AIMPACT mensagem, 19 de maio (UTC+8), de acordo com a monitorização do Beating da Dongcha, o membro principal do pós-treinamento da OpenAI, Wang Jiayi, acabou de provar que "apenas com grandes modelos a escrever código é possível passar nos jogos de Atari", e o pesquisador Paul Garnier levou esse método para o controlo mais hardcore de dinâmica de fluidos. Ele não treinou nenhuma rede neural durante todo o processo. Simplesmente deixou o Codex 5.5 atuar como programador, observando vídeos de simulação de fluidos e reescrevendo scripts Python repetidamente. Com essas regras de controlo feitas à mão, a IA conseguiu superar a maioria dos cenários em mais de dez testes físicos, derrotando a linha de base de aprendizagem por reforço (DRL) de topo. Para reduzir a resistência do carro e acalmar a turbulência nos tubos, a indústria costumava depender de poder computacional massivo, alimentando um modelo de caixa preta incompreensível para controlar as válvulas de fluxo de ar. O Codex evitou esse beco sem saída. As regras que gerou são extremamente diretas, como "quando a curvatura local for demasiado grande, atrasar o jato". Algumas dezenas de linhas de código com conhecimento físico substituíram a tentativa e erro cega de redes neurais. Trocar a caixa preta por código eliminou a vulnerabilidade de redes neurais rígidas, que se partiam ao menor impacto. Antes, qualquer pequena alteração de hardware (como trocar de 5 para 10 bicos de controlo) fazia o modelo antigo ficar obsoleto, exigindo novo treino dispendioso. Agora, basta alterar uma constante no código para que o sistema se adapte instantaneamente a novos dispositivos. Quando o tempo de teste foi forçadamente quadruplicado, os modelos tradicionais de DRL, que saíram da zona de experiência, colapsaram completamente; mas o código escrito por grandes modelos, que segue diretamente a lógica física, manteve-se estável. Para implementar toda essa estratégia de controlo, o grande modelo consumiu apenas 21,25 milhões de tokens, com um custo total inferior a 14 dólares. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado