A equipe de seis pessoas do Poetiq, com seu Meta-System, atingiu a pontuação mais alta no LiveCodeBench Pro. Este plugin API puro melhora por meio de autoaperfeiçoamento recursivo a experiência de tarefas, sem tocar em pesos ou ajuste fino, podendo melhorar significativamente modelos fracos. Após a integração, KimiK2.6 subiu de 50,0% para 79,9%, o Flash Gemini3.0 aumentou 10 pontos, superando o Gemini3.1 Pro, Claude Opus4.7 e GPT5.2 High. GPT5.5 High atingiu 93,9% com o plugin, Gemini3.1 Pro com 90,9%, superando o Gemini3 Deep Think. Empresas podem melhorar a capacidade de raciocínio sem custos elevados de ajuste fino.

MeNews

2026-05-24 08:07:37

Geração do resumo em andamento

AIMPACT mensagem, 15 de maio (UTC+8), de acordo com o monitoramento do Beating da Dongcha, a equipe inicial de 6 pessoas Poetiq, fundada pelos ex-pesquisadores do Google e DeepMind Shumeet Baluja e Ian Fischer, anunciou que seu Meta-System atingiu a maior pontuação no benchmark de programação LiveCodeBench Pro. Este sistema é um plugin inteligente totalmente baseado em acesso API, que melhora automaticamente a experiência de tarefas por meio de autoaperfeiçoamento recursivo. Testes oficiais mostraram que, sem tocar nos pesos do modelo ou realizar ajustes finos, o sistema elevou diretamente a capacidade de código dos principais modelos de grande porte disponíveis no mercado. Os resultados indicam que essa solução desacoplada do modelo oferece melhorias especialmente evidentes em modelos com capacidades mais fracas. Após integrar o sistema Poetiq, a precisão do Kimi K2.6 saltou de 50,0% para 79,9%, um aumento absoluto de 29,9 pontos percentuais; o desempenho do leve Gemini 3.0 Flash aumentou 10 pontos percentuais, superando não apenas sua versão maior Gemini 3.1 Pro, mas também derrotando de forma superior os modelos considerados "mais grandes e mais caros" como Claude Opus 4.7 e GPT 5.2 High, segundo a Poetiq. No que diz respeito ao limite de desempenho, o GPT 5.5 High, que originalmente tinha uma pontuação de 89,6%, atingiu uma nova altura de 93,9% com o suporte do plugin; enquanto a versão básica Gemini 3.1 Pro, com o plugin, obteve 90,9%, ultrapassando diretamente o modelo de raciocínio mais avançado da Google, o Gemini 3 Deep Think (88,8%), que ainda não possui API aberta. A equipe Poetiq afirmou que o ajuste fino tradicional limita as melhorias a um único modelo, enquanto essa solução plug-and-play permite que empresas evitem os altos custos de ajuste fino e implantação de modelos completos para melhorar a capacidade de raciocínio. (Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

8 Curtidas

Recompensa
8
8
Repostar
Compartilhar

Comentário

Adicionar um comentário

SeaSaltAirdropNotes

· 10h atrás

APIs de terceiros podem maximizar modelos fracos, essa abordagem é muito ousada, as empresas economizam muito dinheiro

Ver originalResponder0

StargazerInTheWoods

· 10h atrás

Este Meta-System parece ter dado ao modelo um cérebro externo, a reutilização de experiência é incrível

Ver originalResponder0

RugpullTaster

· 10h atrás

Sem ajuste fino, iguala o desempenho do Deep Think, fábricas pequenas e médias ficam em êxtase

Ver originalResponder0

TreatEarningsAsSnacks

· 11h atrás

Equipe de seis pessoas derrota uma equipe de ajuste fino de uma grande empresa, com sarcasmo no máximo

Ver originalResponder0

MarginMoth

· 11h atrás

Claude Opus4.7 foi destruído por Flash+外挂, a Anthropic precisa refletir sobre isso

Ver originalResponder0

BridgeSideBanter

· 11h atrás

Extrair experiência de forma recursiva, parece que o próprio modelo está escrevendo engenharia de prompt

Ver originalResponder0

GovernanceGremlin

· 11h atrás

Modelos fracos com plugins se tornam mais fortes, a democratização do poder de computação realmente chegou?

Ver originalResponder0

FloatingTeacupClub

· 11h atrás

GPT5.5 High já atingiu 93,9%, a resistência ainda está subindo

Ver originalResponder0

Tendências
Ver projetos
#
TradfiTradingChallenge
353.34K Popularidade
#
PlatinumCardCreatorExclusive
129.73K Popularidade
#
IsraelStrikesIranBTCPlunges
49.11K Popularidade
#
#DailyPolymarketHotspot
1.06M Popularidade
#
GateSquarePizzaDay
670.06K Popularidade

Fixado

sitemap

Ajuste de API sem mexer nos pesos: Poetiq "plugin" faz Kimi subir 29,9 pontos percentuais, versão leve do Gemini contra-ataca Claude Opus

Tendências

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Fixado