Deixe a IA modificar o próprio código de treinamento, Registro de otimização do algoritmo de atualização recursiva de três itens

robot
Geração do resumo em andamento

ME AI Mensagem, de acordo com o monitoramento Beating, a startup de IA Recursive divulgou os primeiros resultados de experimentos do seu sistema de pesquisa científica. O sistema consegue propor ideias automaticamente, escrever códigos, executar experimentos e validar resultados, superando os melhores resultados públicos em três benchmarks: treinamento com orçamento fixo, treinamento ultra-rápido do NanoGPT e otimização de kernels de GPU. Os experimentos mostram que, em tarefas com objetivos claros e feedback rápido, o sistema já consegue identificar espaços de otimização que os humanos deixam passar.

No treinamento de 5 minutos do NanoChat Autoresearch, o sistema reduziu a perda de validação BPB para 0,9109, encurtando aproximadamente 23% o tempo necessário para atingir a mesma perda (aumento de velocidade de 1,3 vezes). A mudança principal foi fortalecer a memória de contexto curto, hashando combinações de tokens binários e ternários em uma tabela de embedding fixa, e usando uma porta de controle aprendível para misturar o valor de atenção, aproveitando informações locais com custo extremamente baixo.

No Speedrun do NanoGPT, que já foi otimizado pela comunidade por mais de dois anos, o sistema reduziu o tempo para atingir a perda alvo de 79,7 segundos para 77,5 segundos. As melhorias incluem avançar o cálculo FP8 na trajetória de atenção para aumentar o throughput, e reescrever o kernel MLP fundido, mantendo apenas a ativação ReLU ao quadrado e recalculando variáveis intermediárias durante o retropropagação para reduzir leituras e gravações de memória de vídeo.

Na benchmark de otimização de kernels de GPU SOL-ExecBench, o sistema aumentou a pontuação média SOL (que alcança o limite teórico) de 0,699 para 0,754 na Nvidia B200, reduzindo a diferença para o limite físico em 18%. As estratégias incluem incorporar o escalonamento do GRN nos pesos das camadas lineares subsequentes, empacotar a pontuação e o índice do roteador de especialistas em pares de chave-valor para redução intra-warp, e usar instruções PTX de baixo nível no kernel NVFP4 MoE para empacotar FP4, mantendo FP32 em cálculos intermediários para diminuir a acumulação de erro.

Para evitar que a IA explore vulnerabilidades para manipular pontuações, o sistema introduziu auditorias de múltiplos níveis de correção para filtrar melhorias inválidas.
(Origem: BlockBeats)

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado