Poetiq equipa de seis pessoas do Meta-System atingiu a pontuação mais alta no LiveCodeBench Pro. Este plugin puramente API melhora-se por auto-recursão, extraindo experiência de tarefas, sem tocar em pesos ou ajuste fino, podendo melhorar significativamente modelos fracos. Após a integração, KimiK2.6 subiu de 50,0% para 79,9%, Gemini3.0 Flash aumentou 10 pontos, superando Gemini3.1 Pro, Claude Opus4.7, GPT5.2 High. GPT5.5 High atingiu 93,9% com o plugin, Gemini3.1 Pro ficou em 90,9%, superando Gemini3 Deep Think. Empresas podem melhorar a capacidade de raciocínio sem custos elevados de ajuste fino.

MeNews

2026-05-24 01:02:07

Geração de resumo em curso

AIMPACT mensagem, 15 de maio (UTC+8), de acordo com a monitorização do Beating, por parte da equipe de seis fundadores da Poetiq, formada por ex-pesquisadores do Google e DeepMind, Shumeet Baluja e Ian Fischer, anunciou que seu Meta-System atingiu uma nova pontuação máxima no benchmark de programação LiveCodeBench Pro. Este sistema é uma extensão inteligente baseada exclusivamente em acesso via API, que melhora automaticamente a experiência de tarefas através de autoaperfeiçoamento recursivo. Testes oficiais mostraram que, sem tocar nos pesos do modelo ou realizar ajustes finos, o sistema elevou diretamente a capacidade de código dos principais modelos de grande porte disponíveis no mercado. Os resultados indicam que essa abordagem desacoplada do modelo oferece melhorias especialmente notáveis em modelos com capacidades mais fracas. Após integrar o sistema Poetiq, a precisão do Kimi K2.6 aumentou de 50,0% para 79,9%, uma melhoria de 29,9 pontos percentuais; o desempenho do Gemini 3.0 Flash, mais leve, subiu 10 pontos percentuais, superando a versão maior Gemini 3.1 Pro, e também derrotou de forma superior os modelos considerados "mais grandes e mais caros" pela Poetiq, como o Claude Opus 4.7 e GPT 5.2 High. No que diz respeito ao limite de desempenho, o GPT 5.5 High, que originalmente tinha uma pontuação de 89,6%, atingiu um novo pico de 93,9% com o suporte do sistema externo; enquanto o Gemini 3.1 Pro, na sua versão básica, obteve 90,9% com o mesmo sistema, ultrapassando o modelo de raciocínio mais avançado da Google, o Gemini 3 Deep Think, que tinha 88,8% e ainda não tinha API aberta. A equipe da Poetiq afirmou que os ajustes finos tradicionais limitam as melhorias a um único modelo, enquanto seu sistema plug-and-play permite às empresas evitar os altos custos de ajuste fino e implantação de modelos completos para melhorar a capacidade de raciocínio. (Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

5 gostos

Recompensa
5
7
2
Partilhar

Comentar

Adicionar um comentário

CandleChaser

· 9h atrás

A ideia de modelos fracos + plugins fortes, significa que a primavera dos pequenos modelos está chegando?

Ver originalResponder0

GateUser-b74aba1c

· 15h atrás

Uma equipa de seis pessoas supera o gargalo de inferência de grandes modelos, a inovação na camada de API tem sido subestimada há demasiado tempo

Ver originalResponder0

L2ArbitrageTrader

· 15h atrás

Poetiq, seis pessoas alcançaram esse resultado, a configuração da equipa merece estudo

Ver originalResponder0

CyberBridgeDeepPerspective

· 15h atrás

GPT5.5 Alto atingiu 93,9%, Gemini3.1 Pro atingiu 90,9%, este plugin é mais potente do que a configuração máxima original

Ver originalResponder0

GateUser-cbb8cdf5

· 15h atrás

Empresas em êxtase, finalmente não precisam mais gastar dinheiro ajustando finamente

Ver originalResponder0

BribeCoffee

· 15h atrás

Recursão de autoaperfeiçoamento + extração de experiência, a arquitetura Meta-System é bastante interessante

Ver originalResponder0

VineGeometry

· 15h atrás

Um plugin API puro que, sem mexer nos pesos, consegue fazer o Kimi passar de 50% para 79%, essa abordagem é muito mais inteligente do que o ajuste fino.

Ver originalResponder0

Tópicos em destaque
Ver mais
#
TradfiTradingChallenge
346.21K Popularidade
#
PlatinumCardCreatorExclusive
127.3K Popularidade
#
IsraelStrikesIranBTCPlunges
49.09K Popularidade
#
#DailyPolymarketHotspot
1.05M Popularidade
#
GateSquarePizzaDay
666.21K Popularidade

Fixado

Não mexa nos pesos, ajuste puro via API: Poetiq 「plugin」 faz Kimi subir 29,9 pontos percentuais, versão leve do Gemini contra-ataca Claude Opus

Tópicos em destaque

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Fixado