Não mexa nos pesos, ajuste puro via API: Poetiq 「plugin」 faz Kimi subir 29,9 pontos percentuais, versão leve do Gemini vira o jogo contra Claude Opus

robot
Geração de resumo em curso
AIMPACT mensagem, 15 de maio (UTC+8), de acordo com o monitoramento do Beating, uma equipe inicial de 6 pessoas fundada pelo ex-pesquisador do Google e DeepMind Shumeet Baluja e Ian Fischer anunciou que seu Meta-System atingiu a melhor pontuação no benchmark de programação LiveCodeBench Pro. Este sistema é um plug-in inteligente baseado exclusivamente em acesso API (Harness), que melhora automaticamente a experiência de tarefas por meio de autoaperfeiçoamento recursivo. Testes oficiais mostram que, sem tocar nos pesos do modelo ou realizar ajustes finos, o sistema elevou diretamente a capacidade de código dos principais grandes modelos do mercado. Os resultados indicam que essa solução desacoplada do modelo oferece melhorias especialmente evidentes em modelos de menor capacidade. Após integrar o sistema Poetiq, a precisão do Kimi K2.6 aumentou de 50,0% para 79,9%, uma melhora absoluta de 29,9 pontos percentuais; o desempenho do Gemini 3.0 Flash, leve, subiu 10 pontos percentuais, superando não só a sua versão maior Gemini 3.1 Pro, mas também derrotando de forma superior os modelos Claude Opus 4.7 e GPT 5.2 High, considerados "maiores e mais caros" pela Poetiq. No que diz respeito ao limite de desempenho, o GPT 5.5 High, originalmente com 89,6%, atingiu uma nova altura de 93,9% com o suporte do plug-in; enquanto a versão básica Gemini 3.1 Pro, com o mesmo, obteve 90,9%, ultrapassando o modelo de raciocínio mais avançado da Google, Gemini 3 Deep Think (88,8%), que ainda não possui API aberta. A equipe Poetiq afirmou que o ajuste fino tradicional limita as melhorias a um único modelo, enquanto essa solução plug-and-play permite às empresas evitar os altos custos de ajuste fino e implantação de modelos completos para melhorar a capacidade de raciocínio. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 8
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
SeaSaltAirdropNotes
· 4h atrás
Extensão API pura pode maximizar modelos fracos, essa abordagem é muito ousada, as empresas economizam muito dinheiro
Ver originalResponder0
StargazerInTheWoods
· 4h atrás
Este Meta-System parece ter aberto um cérebro externo para o modelo, a reutilização de experiências é incrível
Ver originalResponder0
RugpullTaster
· 5h atrás
Sem ajuste fino, consegue alcançar o mesmo desempenho do Deep Think, causando euforia em pequenas e médias empresas
Ver originalResponder0
TreatEarningsAsSnacks
· 5h atrás
Uma equipa de seis pessoas destrói um grupo de grandes empresas com departamentos de ajuste fino, com sátira ao máximo
Ver originalResponder0
MarginMoth
· 5h atrás
Claude Opus4.7 foi destruído por Flash+外挂, a Anthropic deve refletir sobre isso
Ver originalResponder0
BridgeSideBanter
· 5h atrás
Extrair experiência de forma recursiva parece que o próprio modelo está a criar prompts de engenharia
Ver originalResponder0
GovernanceGremlin
· 5h atrás
Modelos fracos com plugins tornam-se mais fortes, a democratização do poder computacional realmente chegou?
Ver originalResponder0
FloatingTeacupClub
· 5h atrás
GPT5.5 High já atingiu 93,9%, o teto ainda está a subir
Ver originalResponder0
  • Fixado