Não mexa nos pesos, ajuste puro via API: Poetiq 「plugin」 faz Kimi subir 29,9 pontos percentuais, versão leve do Gemini contra-ataca Claude Opus

robot
Geração de resumo em curso
AIMPACT mensagem, 15 de maio (UTC+8), de acordo com a monitorização do Beating, por parte da equipe de seis fundadores da Poetiq, formada por ex-pesquisadores do Google e DeepMind, Shumeet Baluja e Ian Fischer, anunciou que seu Meta-System atingiu uma nova pontuação máxima no benchmark de programação LiveCodeBench Pro. Este sistema é uma extensão inteligente baseada exclusivamente em acesso via API, que melhora automaticamente a experiência de tarefas através de autoaperfeiçoamento recursivo. Testes oficiais mostraram que, sem tocar nos pesos do modelo ou realizar ajustes finos, o sistema elevou diretamente a capacidade de código dos principais modelos de grande porte disponíveis no mercado. Os resultados indicam que essa abordagem desacoplada do modelo oferece melhorias especialmente notáveis em modelos com capacidades mais fracas. Após integrar o sistema Poetiq, a precisão do Kimi K2.6 aumentou de 50,0% para 79,9%, uma melhoria de 29,9 pontos percentuais; o desempenho do Gemini 3.0 Flash, mais leve, subiu 10 pontos percentuais, superando a versão maior Gemini 3.1 Pro, e também derrotou de forma superior os modelos considerados "mais grandes e mais caros" pela Poetiq, como o Claude Opus 4.7 e GPT 5.2 High. No que diz respeito ao limite de desempenho, o GPT 5.5 High, que originalmente tinha uma pontuação de 89,6%, atingiu um novo pico de 93,9% com o suporte do sistema externo; enquanto o Gemini 3.1 Pro, na sua versão básica, obteve 90,9% com o mesmo sistema, ultrapassando o modelo de raciocínio mais avançado da Google, o Gemini 3 Deep Think, que tinha 88,8% e ainda não tinha API aberta. A equipe da Poetiq afirmou que os ajustes finos tradicionais limitam as melhorias a um único modelo, enquanto seu sistema plug-and-play permite às empresas evitar os altos custos de ajuste fino e implantação de modelos completos para melhorar a capacidade de raciocínio. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 7
  • 2
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
CandleChaser
· 9h atrás
A ideia de modelos fracos + plugins fortes, significa que a primavera dos pequenos modelos está chegando?
Ver originalResponder0
GateUser-b74aba1c
· 15h atrás
Uma equipa de seis pessoas supera o gargalo de inferência de grandes modelos, a inovação na camada de API tem sido subestimada há demasiado tempo
Ver originalResponder0
L2ArbitrageTrader
· 15h atrás
Poetiq, seis pessoas alcançaram esse resultado, a configuração da equipa merece estudo
Ver originalResponder0
CyberBridgeDeepPerspective
· 15h atrás
GPT5.5 Alto atingiu 93,9%, Gemini3.1 Pro atingiu 90,9%, este plugin é mais potente do que a configuração máxima original
Ver originalResponder0
GateUser-cbb8cdf5
· 15h atrás
Empresas em êxtase, finalmente não precisam mais gastar dinheiro ajustando finamente
Ver originalResponder0
BribeCoffee
· 15h atrás
Recursão de autoaperfeiçoamento + extração de experiência, a arquitetura Meta-System é bastante interessante
Ver originalResponder0
VineGeometry
· 15h atrás
Um plugin API puro que, sem mexer nos pesos, consegue fazer o Kimi passar de 50% para 79%, essa abordagem é muito mais inteligente do que o ajuste fino.
Ver originalResponder0
  • Fixado