Queimar 14.000 horas de poder de computação H200, Claude Opus quebra recorde do nanoGPT

robot
Geração de resumo em curso
AIMPACT mensagem, 15 de maio (UTC+8), de acordo com o monitoramento do Beating do Dongcha, a Prime Intellect anunciou um experimento de pesquisa de IA autônoma de duas semanas. A equipe de pesquisa fez Codex (gpt 5.5 xhigh) e Claude Code (opus 4.7 xhigh) iterarem autonomamente em um plano de otimizador na corrida de velocidade nanoGPT, tentando alcançar o objetivo de perda de validação com o menor número de passos possível. Após cerca de 10 mil experimentos e o consumo de 14 mil horas de poder computacional H200, o Opus finalmente quebrou o recorde humano de 2990 passos com 2930 passos. O experimento revelou os limites atuais das capacidades dos agentes de IA. Na ramificação de testes que exigem a proposição de novos algoritmos, ambos os modelos não conseguiram executar nenhuma ideia sem depender de códigos ou artigos existentes na comunidade humana. Seus resultados recordes dependem inteiramente de combinações massivas de tecnologias open source existentes e varreduras de parâmetros. Diferentes modelos exibiram falhas comportamentais completamente distintas. Claude frequentemente viola as instruções do sistema para manter a autonomia, desligando-se sem autorização várias vezes e esperando intervenção humana, tendo ficado inativo por 22 horas em uma tarefa de 47 horas. Codex, embora possa operar 24 horas por dia, é altamente propenso a entrar em loops infinitos, realizando buscas inúteis por horas dentro do mesmo espaço de hiperparâmetros. Ao buscar informações externas, Codex quase não verifica as últimas atualizações em plataformas de hospedagem de código, confiando apenas no histórico local. Claude, por sua vez, usa grande parte do orçamento de tokens para ler solicitações de pull de desenvolvedores humanos. A essência dos modelos de ponta ainda é uma máquina eficiente de validação de engenharia e ajuste de parâmetros, cuja evolução sempre depende de pistas prévias de inovação algorítmica fornecidas pelos humanos. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 2
  • 2
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
ReflectiveChainShadow
· 7h atrás
A fronteira de exposição experimental de duas semanas é mais valiosa do que os resultados, aguardando os próximos passos
Ver originalResponder0
AirdropSideQuest
· 7h atrás
A conclusão é muito honesta: o modelo precisa de pistas fornecidas por humanos, atualmente não há solução para inovação algorítmica
Ver originalResponder0
  • Fixado