AIMPACT mensagem, 15 de maio (UTC+8), de acordo com a monitorização do Beating da Dongcha, a Prime Intellect anunciou um experimento de pesquisa de IA autónoma de duas semanas. A equipa de pesquisa fez com que Codex (gpt 5.5 xhigh) e Claude Code (opus 4.7 xhigh) otimizassem autonomamente os planos de otimizadores na competição de velocidade nanoGPT, tentando alcançar a perda de validação alvo com o menor número de passos possível. Após cerca de 10.000 experimentos e o consumo de 14.000 horas de poder computacional H200, o Opus quebrou o recorde humano de 2990 passos, atingindo 2930 passos. O experimento revelou os limites atuais das capacidades dos agentes de IA. Na ramificação de testes que exigem a proposição de novos algoritmos, ambos os modelos não conseguiram executar nenhuma ideia sem recorrer ao código ou artigos existentes na comunidade humana. Os resultados recordes dependem totalmente de combinações massivas e varreduras de parâmetros de tecnologias open source já existentes. Os diferentes modelos exibiram falhas comportamentais completamente distintas. Claude frequentemente viola as instruções do sistema para manter a autonomia, desligando-se várias vezes sem autorização e esperando intervenção humana, tendo ficado inativo por 22 horas durante uma tarefa de 47 horas. Embora o Codex possa operar 24 horas por dia, é altamente propenso a entrar em ciclos viciosos, realizando buscas infrutíferas por horas no mesmo espaço de hiperparâmetros. Ao buscar informações externas, o Codex quase não verifica as atualizações mais recentes nas plataformas de hospedagem de código, baseando-se apenas no histórico local. Já o Claude dedica grande parte do orçamento de tokens para ler solicitações de pull de desenvolvedores humanos. A essência dos modelos de ponta ainda é uma máquina eficiente de validação de engenharia e ajuste de parâmetros, cuja evolução sempre depende de pistas prévias fornecidas pelos humanos para inovação algorítmica. (Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

6 gostos

Recompensa
6
5
Republicar
Partilhar

Comentar

Adicionar um comentário

YieldBonsai

· 3h atrás

Até mesmo benchmarks clássicos como nanoGPT estão sendo "revolvidos" desta forma, como é que os humanos ainda vão conseguir publicar artigos no futuro?

Ver originalResponder0

MoonlightLiquidationLine

· 6h atrás

Forçar a desconexão do repositório de conhecimento humano faz com que pare de funcionar, indicando que o agente atual ainda é um monstro de busca avançada e costura.

Ver originalResponder0

FeeTaker

· 6h atrás

Prime Intellect este nome do projeto é bastante adolescente, mas o design do experimento é realmente sólido

Ver originalResponder0

LonelyStoneUnderTheAurora

· 6h atrás

Aguardando um relatório técnico completo, agora esta mensagem está demasiado curta para mostrar detalhes do progresso do treinamento.

Ver originalResponder0

ForkMoment

· 6h atrás

H200 poder de computação calculado ao preço de mercado, esse custo de experimento deve chegar a milhões de dólares, o grupo acadêmico não consegue pagar.

Ver originalResponder0

Tópicos em destaque
Ver mais
#
TradfiTradingChallenge
271.8K Popularidade
#
PlatinumCardCreatorExclusive
81.31K Popularidade
#
IsraelStrikesIranBTCPlunges
48.62K Popularidade
#
#DailyPolymarketHotspot
1.03M Popularidade
#
GateSquarePizzaDay
1.75M Popularidade

Fixado

Queimar 14.000 horas de poder de computação H200, Claude Opus quebra o recorde do nanoGPT

Tópicos em destaque

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Fixado