Ajuste de API sem mexer nos pesos: Poetiq "plugin" faz Kimi subir 29,9 pontos percentuais, versão leve do Gemini contra-ataca Claude Opus

robot
Geração do resumo em andamento
AIMPACT mensagem, 15 de maio (UTC+8), de acordo com o monitoramento do Beating da Dongcha, a equipe inicial de 6 pessoas Poetiq, fundada pelos ex-pesquisadores do Google e DeepMind Shumeet Baluja e Ian Fischer, anunciou que seu Meta-System atingiu a maior pontuação no benchmark de programação LiveCodeBench Pro. Este sistema é um plugin inteligente totalmente baseado em acesso API, que melhora automaticamente a experiência de tarefas por meio de autoaperfeiçoamento recursivo. Testes oficiais mostraram que, sem tocar nos pesos do modelo ou realizar ajustes finos, o sistema elevou diretamente a capacidade de código dos principais modelos de grande porte disponíveis no mercado. Os resultados indicam que essa solução desacoplada do modelo oferece melhorias especialmente evidentes em modelos com capacidades mais fracas. Após integrar o sistema Poetiq, a precisão do Kimi K2.6 saltou de 50,0% para 79,9%, um aumento absoluto de 29,9 pontos percentuais; o desempenho do leve Gemini 3.0 Flash aumentou 10 pontos percentuais, superando não apenas sua versão maior Gemini 3.1 Pro, mas também derrotando de forma superior os modelos considerados "mais grandes e mais caros" como Claude Opus 4.7 e GPT 5.2 High, segundo a Poetiq. No que diz respeito ao limite de desempenho, o GPT 5.5 High, que originalmente tinha uma pontuação de 89,6%, atingiu uma nova altura de 93,9% com o suporte do plugin; enquanto a versão básica Gemini 3.1 Pro, com o plugin, obteve 90,9%, ultrapassando diretamente o modelo de raciocínio mais avançado da Google, o Gemini 3 Deep Think (88,8%), que ainda não possui API aberta. A equipe Poetiq afirmou que o ajuste fino tradicional limita as melhorias a um único modelo, enquanto essa solução plug-and-play permite que empresas evitem os altos custos de ajuste fino e implantação de modelos completos para melhorar a capacidade de raciocínio. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 8
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
SeaSaltAirdropNotes
· 10h atrás
APIs de terceiros podem maximizar modelos fracos, essa abordagem é muito ousada, as empresas economizam muito dinheiro
Ver originalResponder0
StargazerInTheWoods
· 10h atrás
Este Meta-System parece ter dado ao modelo um cérebro externo, a reutilização de experiência é incrível
Ver originalResponder0
RugpullTaster
· 10h atrás
Sem ajuste fino, iguala o desempenho do Deep Think, fábricas pequenas e médias ficam em êxtase
Ver originalResponder0
TreatEarningsAsSnacks
· 11h atrás
Equipe de seis pessoas derrota uma equipe de ajuste fino de uma grande empresa, com sarcasmo no máximo
Ver originalResponder0
MarginMoth
· 11h atrás
Claude Opus4.7 foi destruído por Flash+外挂, a Anthropic precisa refletir sobre isso
Ver originalResponder0
BridgeSideBanter
· 11h atrás
Extrair experiência de forma recursiva, parece que o próprio modelo está escrevendo engenharia de prompt
Ver originalResponder0
GovernanceGremlin
· 11h atrás
Modelos fracos com plugins se tornam mais fortes, a democratização do poder de computação realmente chegou?
Ver originalResponder0
FloatingTeacupClub
· 11h atrás
GPT5.5 High já atingiu 93,9%, a resistência ainda está subindo
Ver originalResponder0
  • Fixado