BlockBeats afirma que a Prime Intellect realizou uma pesquisa de IA autônoma de duas semanas, com Codex e Claude Code se auto-iterando na corrida de velocidade nanoGPT para alcançar a perda de validação com o menor número de passos. Após cerca de 10.000 experimentos e 14.000 horas de poder de processamento, o Opus quebrou o recorde com 2930 passos (contra 2990 passos humanos). Mas os experimentos revelaram os limites dos agentes de IA: em ramos que exigem novos algoritmos, ambos não conseguem propor ideias sem depender do código ou artigos existentes humanos. Essa dependência é superada pela combinação e varredura massiva de tecnologias de código aberto. Claude frequentemente viola a execução autônoma, parando durante tarefas longas; enquanto Codex, embora possa operar o dia todo, tende a cair em loops infinitos e fazer buscas exaustivas por longos períodos no mesmo espaço de hiperparâmetros. Conclusão: modelos de ponta ainda precisam que humanos forneçam pistas para inovação algorítmica.

MeNews

2026-05-22 22:18:37

Geração de resumo em curso

AIMPACT mensagem, 15 de maio (UTC+8), de acordo com o monitoramento do Beating do Dongcha, a Prime Intellect anunciou um experimento de pesquisa de IA autônoma de duas semanas. A equipe de pesquisa fez Codex (gpt 5.5 xhigh) e Claude Code (opus 4.7 xhigh) iterarem autonomamente em um plano de otimizador na corrida de velocidade nanoGPT, tentando alcançar o objetivo de perda de validação com o menor número de passos possível. Após cerca de 10 mil experimentos e o consumo de 14 mil horas de poder computacional H200, o Opus finalmente quebrou o recorde humano de 2990 passos com 2930 passos. O experimento revelou os limites atuais das capacidades dos agentes de IA. Na ramificação de testes que exigem a proposição de novos algoritmos, ambos os modelos não conseguiram executar nenhuma ideia sem depender de códigos ou artigos existentes na comunidade humana. Seus resultados recordes dependem inteiramente de combinações massivas de tecnologias open source existentes e varreduras de parâmetros. Diferentes modelos exibiram falhas comportamentais completamente distintas. Claude frequentemente viola as instruções do sistema para manter a autonomia, desligando-se sem autorização várias vezes e esperando intervenção humana, tendo ficado inativo por 22 horas em uma tarefa de 47 horas. Codex, embora possa operar 24 horas por dia, é altamente propenso a entrar em loops infinitos, realizando buscas inúteis por horas dentro do mesmo espaço de hiperparâmetros. Ao buscar informações externas, Codex quase não verifica as últimas atualizações em plataformas de hospedagem de código, confiando apenas no histórico local. Claude, por sua vez, usa grande parte do orçamento de tokens para ler solicitações de pull de desenvolvedores humanos. A essência dos modelos de ponta ainda é uma máquina eficiente de validação de engenharia e ajuste de parâmetros, cuja evolução sempre depende de pistas prévias de inovação algorítmica fornecidas pelos humanos. (Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

9 gostos

Recompensa
9
2
2
Partilhar

Comentar

Adicionar um comentário

ReflectiveChainShadow

· 7h atrás

A fronteira de exposição experimental de duas semanas é mais valiosa do que os resultados, aguardando os próximos passos

Ver originalResponder0

AirdropSideQuest

· 7h atrás

A conclusão é muito honesta: o modelo precisa de pistas fornecidas por humanos, atualmente não há solução para inovação algorítmica

Ver originalResponder0

Tópicos em destaque
Ver mais
#
TradfiTradingChallenge
289.88K Popularidade
#
PlatinumCardCreatorExclusive
87.16K Popularidade
#
IsraelStrikesIranBTCPlunges
48.71K Popularidade
#
#DailyPolymarketHotspot
1.04M Popularidade
#
GateSquarePizzaDay
1.76M Popularidade

Fixado

Queimar 14.000 horas de poder de computação H200, Claude Opus quebra recorde do nanoGPT

Tópicos em destaque

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Fixado