Poetiq equipe de seis pessoas do Meta-System alcançou a pontuação mais alta no LiveCodeBench Pro. Este plugin API puro melhora por meio de autoaperfeiçoamento recursivo a experiência de tarefas, sem tocar em pesos ou ajuste fino, podendo melhorar significativamente modelos fracos. Após a integração, KimiK2.6 subiu de 50,0% para 79,9%, o Flash Gemini3.0 aumentou 10 pontos, superando o Gemini3.1 Pro, Claude Opus4.7, GPT5.2 High. GPT5.5 High atingiu 93,9% com o plugin, Gemini3.1 Pro com 90,9%, superando o Gemini3 Deep Think. Empresas podem melhorar a capacidade de raciocínio sem custos elevados de ajuste fino.

MeNews

2026-05-24 01:02:07

Geração do resumo em andamento

AIMPACT mensagem, 15 de maio (UTC+8), de acordo com o monitoramento do Beating, uma equipe inicial de 6 pessoas fundada pelo ex-pesquisador do Google e DeepMind Shumeet Baluja e Ian Fischer anunciou que seu Meta-System atingiu uma nova pontuação máxima no benchmark de programação LiveCodeBench Pro. Este sistema é um plug-in inteligente totalmente baseado em acesso API, que melhora automaticamente a experiência de tarefas por meio de autoaperfeiçoamento recursivo. Testes oficiais mostram que, sem tocar nos pesos do modelo ou fazer ajuste fino, o sistema elevou diretamente a capacidade de código dos principais grandes modelos disponíveis no mercado. Os resultados indicam que essa solução desacoplada do modelo oferece melhorias especialmente evidentes em modelos de menor capacidade. Após integrar o sistema Poetiq, a precisão do Kimi K2.6 saltou de 50,0% para 79,9%, um aumento absoluto de 29,9 pontos percentuais; o desempenho do leve Gemini 3.0 Flash aumentou 10 pontos percentuais, superando não só sua versão maior Gemini 3.1 Pro, mas também derrotando de forma superior os modelos considerados "maiores e mais caros" pela Poetiq, como Claude Opus 4.7 e GPT 5.2 High. No que diz respeito ao limite de desempenho, o GPT 5.5 High, que originalmente tinha uma pontuação de 89,6%, atingiu um novo pico de 93,9% com o suporte do plug-in; enquanto o Gemini 3.1 Pro na versão básica, com o mesmo suporte, obteve 90,9%, ultrapassando diretamente o modelo de raciocínio mais avançado da Google, o Gemini 3 Deep Think (88,8%), que ainda não abriu sua API ao público. A equipe Poetiq afirmou que o ajuste fino tradicional limita as melhorias a um único modelo, enquanto essa solução plug-and-play sem costura permite que empresas evitem os altos custos de ajuste fino e implantação de versões completas do modelo para melhorar a capacidade de raciocínio. (Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

5 Curtidas

Recompensa
5
7
2
Compartilhar

Comentário

Adicionar um comentário

CandleChaser

· 2h atrás

A ideia de modelos fracos + plugins poderosos significa que a primavera dos modelos pequenos está chegando?

Ver originalResponder0

GateUser-b74aba1c

· 8h atrás

Equipe de seis pessoas supera o gargalo de inferência de grandes modelos, a inovação na camada de API foi subestimada por muito tempo

Ver originalResponder0

L2ArbitrageTrader

· 8h atrás

Poetiq, seis pessoas alcançando esse resultado, a configuração da equipe vale a pena ser estudada

Ver originalResponder0

CyberBridgeDeepPerspective

· 9h atrás

GPT5.5 High atingiu 93,9%, Gemini3.1 Pro alcançou 90,9%, esse plugin é mais potente que o top de linha original

Ver originalResponder0

GateUser-cbb8cdf5

· 9h atrás

Empresas em êxtase, finalmente não precisam mais gastar dinheiro ajustando finamente

Ver originalResponder0

BribeCoffee

· 9h atrás

Autoaperfeiçoamento recursivo + extração de experiência, essa arquitetura Meta-System é interessante

Ver originalResponder0

VineGeometry

· 9h atrás

Apenas com API externo, sem mexer nos pesos, é possível fazer o Kimi passar de 50% para 79%, esse caminho é muito mais inteligente do que ajuste fino.

Ver originalResponder0

Tendências
Ver projetos
#
TradfiTradingChallenge
332.54K Popularidade
#
PlatinumCardCreatorExclusive
120.96K Popularidade
#
IsraelStrikesIranBTCPlunges
49.07K Popularidade
#
#DailyPolymarketHotspot
1.05M Popularidade
#
GateSquarePizzaDay
1.79M Popularidade

Fixado

sitemap

Ajuste de API sem mexer nos pesos: Poetiq「plugin」faz Kimi subir 29,9 pontos percentuais, versão leve do Gemini contra-ataca Claude Opus

Tendências

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Fixado