El sistema Meta del equipo de seis personas de Poetiq alcanzó la puntuación más alta en LiveCodeBench Pro. Este plugin API puro mejora mediante auto-recursión la experiencia en tareas sin tocar pesos o ajuste fino, y puede mejorar significativamente modelos débiles. Después de la integración, KimiK2.6 subió del 50.0% al 79.9%, Gemini3.0 Flash aumentó 10 puntos, superando incluso a Gemini3.1 Pro, Claude Opus4.7 y GPT5.2 High. GPT5.5 High alcanzó un 93.9% mediante el plugin, Gemini3.1 Pro logró un 90.9%, superando a Gemini3 Deep Think. Las empresas pueden mejorar la capacidad de razonamiento sin costos elevados de ajuste fino.

MeNews

2026-05-24 08:07:37

Generación de resúmenes en curso

AIMPACT Mensaje, 15 de mayo (UTC+8), según la monitorización de Beating de Dongcha, el equipo inicial de 6 personas Poetiq, fundado por los ex investigadores de Google y DeepMind Shumeet Baluja e Ian Fischer, anunció que su Meta-System ha establecido un nuevo récord en la referencia de programación LiveCodeBench Pro. Este sistema es un complemento inteligente basado únicamente en permisos de acceso API (Harness), que mejora automáticamente la experiencia de tareas mediante auto-mejoras recursivas. Las pruebas oficiales muestran que, sin tocar los pesos del modelo ni realizar ajuste fino, este sistema mejora directamente la capacidad de código de los principales modelos grandes del mercado. Los resultados de las pruebas indican que esta solución desacoplada del modelo ofrece mejoras especialmente notables en modelos con capacidades más débiles. Tras integrar el sistema Poetiq, la precisión de Kimi K2.6 aumentó del 50.0% al 79.9%, una mejora absoluta de 29.9 puntos porcentuales; el rendimiento de Gemini 3.0 Flash, ligero, subió 10 puntos porcentuales, superando no solo a su versión de gran tamaño Gemini 3.1 Pro, sino también venciendo de manera superior a Claude Opus 4.7 y GPT 5.2 High, considerados «más grandes y más caros» por Poetiq. En cuanto a la capacidad de alcanzar el límite de rendimiento, GPT 5.5 High, que originalmente tenía un 89.6%, alcanzó un nuevo máximo de 93.9% con el complemento; mientras que Gemini 3.1 Pro en su versión básica, con dicho complemento, obtuvo un puntaje de 90.9%, superando directamente al modelo de razonamiento más potente de Google, Gemini 3 Deep Think (88.8%), que aún no ha abierto su API. El equipo de Poetiq afirmó que la afinación fina tradicional limita las mejoras a un solo modelo, mientras que su solución de complemento sin costuras permite a las empresas evitar los altos costos de ajustar y desplegar modelos completos para capacidades de razonamiento. (Fuente: BlockBeats)

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

8 me gusta

Recompensa
8
8
Republicar
Compartir

Comentar

Añadir un comentario

SeaSaltAirdropNotes

· hace3h

Solo API externo puede maximizar modelos débiles, esta idea es demasiado audaz, las empresas ahorran mucho dinero

Ver originalResponder0

StargazerInTheWoods

· hace3h

Este Meta-System parece haber abierto un cerebro externo para el modelo, la reutilización de experiencias es increíble.

Ver originalResponder0

RugpullTaster

· hace4h

Sin ajuste fino, iguala a Deep Think, las pequeñas y medianas empresas están eufóricas

Ver originalResponder0

TreatEarningsAsSnacks

· hace4h

Un equipo de seis personas derrota a un montón de departamentos de ajuste fino de grandes empresas, con una sátira al máximo

Ver originalResponder0

MarginMoth

· hace4h

Claude Opus4.7 fue destruido por Flash+ y complementos, Anthropic debería reflexionar.

Ver originalResponder0

BridgeSideBanter

· hace4h

Extraer experiencia de forma recursiva, suena como si el modelo estuviera escribiendo su propio prompt engineering.

Ver originalResponder0

GovernanceGremlin

· hace4h

¿El uso de modelos débiles para mejorar, la democratización del poder de cómputo realmente ha llegado?

Ver originalResponder0

FloatingTeacupClub

· hace4h

GPT5.5 High ya está en 93.9%, la cima todavía sigue subiendo

Ver originalResponder0

Temas de actualidad
Ver más
#
TradfiTradingChallenge
337.1K Popularidad
#
PlatinumCardCreatorExclusive
122.92K Popularidad
#
IsraelStrikesIranBTCPlunges
49.09K Popularidad
#
#DailyPolymarketHotspot
1.05M Popularidad
#
GateSquarePizzaDay
660.58K Popularidad

Fijado

No tocar peso, solo ajustar API: Poetiq «plugin» hace que Kimi suba 29.9 puntos porcentuales, la versión ligera de Gemini contraataca a Claude Opus

Temas de actualidad

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Fijado