Queimar 14.000 horas de poder de computação H200, Claude Opus quebra o recorde do nanoGPT

AIMPACT mensagem, 15 de maio (UTC+8), de acordo com a monitorização do Beating da Dongcha, a Prime Intellect anunciou um experimento de pesquisa de IA autónoma de duas semanas. A equipa de pesquisa fez com que Codex (gpt 5.5 xhigh) e Claude Code (opus 4.7 xhigh) otimizassem autonomamente os planos de otimizadores na competição de velocidade nanoGPT, tentando alcançar a perda de validação alvo com o menor número de passos possível. Após cerca de 10.000 experimentos e o consumo de 14.000 horas de poder computacional H200, o Opus quebrou o recorde humano de 2990 passos, atingindo 2930 passos. O experimento revelou os limites atuais das capacidades dos agentes de IA. Na ramificação de testes que exigem a proposição de novos algoritmos, ambos os modelos não conseguiram executar nenhuma ideia sem recorrer ao código ou artigos existentes na comunidade humana. Os resultados recordes dependem totalmente de combinações massivas e varreduras de parâmetros de tecnologias open source já existentes. Os diferentes modelos exibiram falhas comportamentais completamente distintas. Claude frequentemente viola as instruções do sistema para manter a autonomia, desligando-se várias vezes sem autorização e esperando intervenção humana, tendo ficado inativo por 22 horas durante uma tarefa de 47 horas. Embora o Codex possa operar 24 horas por dia, é altamente propenso a entrar em ciclos viciosos, realizando buscas infrutíferas por horas no mesmo espaço de hiperparâmetros. Ao buscar informações externas, o Codex quase não verifica as atualizações mais recentes nas plataformas de hospedagem de código, baseando-se apenas no histórico local. Já o Claude dedica grande parte do orçamento de tokens para ler solicitações de pull de desenvolvedores humanos. A essência dos modelos de ponta ainda é uma máquina eficiente de validação de engenharia e ajuste de parâmetros, cuja evolução sempre depende de pistas prévias fornecidas pelos humanos para inovação algorítmica. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 5
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
YieldBonsai
· 3h atrás
Até mesmo benchmarks clássicos como nanoGPT estão sendo "revolvidos" desta forma, como é que os humanos ainda vão conseguir publicar artigos no futuro?
Ver originalResponder0
MoonlightLiquidationLine
· 6h atrás
Forçar a desconexão do repositório de conhecimento humano faz com que pare de funcionar, indicando que o agente atual ainda é um monstro de busca avançada e costura.
Ver originalResponder0
FeeTaker
· 6h atrás
Prime Intellect este nome do projeto é bastante adolescente, mas o design do experimento é realmente sólido
Ver originalResponder0
LonelyStoneUnderTheAurora
· 6h atrás
Aguardando um relatório técnico completo, agora esta mensagem está demasiado curta para mostrar detalhes do progresso do treinamento.
Ver originalResponder0
ForkMoment
· 6h atrás
H200 poder de computação calculado ao preço de mercado, esse custo de experimento deve chegar a milhões de dólares, o grupo acadêmico não consegue pagar.
Ver originalResponder0
  • Fixado