No tocar peso, solo ajustar API: Poetiq «plugin» hace que Kimi suba 29.9 puntos porcentuales, la versión ligera de Gemini contraataca a Claude Opus

robot
Generación de resúmenes en curso
AIMPACT Mensaje, 15 de mayo (UTC+8), según Beating de Monitoreo de Dongcha, el equipo inicial de 6 personas Poetiq, fundado por los ex investigadores de Google y DeepMind Shumeet Baluja e Ian Fischer, anunció que su Meta-System ha establecido un nuevo récord en la prueba de referencia de programación LiveCodeBench Pro. Este sistema es un complemento inteligente basado únicamente en permisos de acceso API (Harness), que mejora automáticamente la experiencia de tareas mediante auto-mejoras recursivas. Las pruebas oficiales muestran que, sin tocar los pesos del modelo ni realizar ajuste fino, el sistema aumenta directamente la capacidad de código de los principales modelos grandes en el mercado. Los resultados de las pruebas indican que esta solución desacoplada del modelo mejora especialmente los modelos con capacidades más débiles. Tras integrar el sistema Poetiq, la precisión de Kimi K2.6 aumentó del 50.0% al 79.9%, una mejora absoluta de 29.9 puntos porcentuales; el rendimiento de Gemini 3.0 Flash, ligero, subió 10 puntos porcentuales, superando no solo la versión grande Gemini 3.1 Pro, sino también venciendo de manera superior a Claude Opus 4.7 y GPT 5.2 High, considerados «más grandes y más caros» por Poetiq. En cuanto a la capacidad de alcanzar el límite de rendimiento, GPT 5.5 High, que originalmente alcanzaba un 89.6%, llegó a un nuevo máximo de 93.9% con la ayuda del complemento; mientras que Gemini 3.1 Pro en su versión básica, con el complemento, obtuvo un puntaje de 90.9%, superando directamente al modelo de razonamiento más potente de Google, Gemini 3 Deep Think (88.8%), que aún no ha abierto su API. El equipo de Poetiq afirmó que el ajuste fino tradicional limita las mejoras a un solo modelo, mientras que su solución de complemento sin costuras permite a las empresas evitar los altos costos de ajustar y desplegar modelos completos para capacidades de razonamiento. (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 7
  • 1
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
On-ChainSoilAfterTheRain
· hace7h
GPT5.5 High directamente al 93.9%, esta modificación es incluso más potente que la actualización oficial
Ver originalResponder0
SlothSignal
· hace7h
Espera, ¿Gemini3.1 Pro con hackeo solo alcanza 90.9, mientras que la versión original no puede superar el hackeo de 3.0 Flash? Esta comparación es demasiado irónica.
Ver originalResponder0
ForkItAnyway
· hace7h
Mejora recursiva y complemento API puro, esta idea es demasiado audaz, sin cambiar los pesos puede hacer que KimiK2.6 pase de 50 a 79.9, las empresas realmente pueden ahorrar una gran cantidad en ajuste fino.
Ver originalResponder0
VolatilityInATeacup
· hace7h
Kimi esta vez ganó a lo grande, la subida de 50 a 79.9 es mucho más rápida que su propia iteración
Ver originalResponder0
PaperHandsPro
· hace7h
Los escenarios de implementación en el lado empresarial deberían beneficiarse mucho de esto, sin necesidad de acumular tarjetas ni realizar RLHF, solo en la capa de API se puede mejorar la eficiencia.
Ver originalResponder0
Post-RainReflectionsMarket
· hace7h
Sin ajustar pesos ni realizar fine-tuning, solo confiando en la extracción basada en la experiencia y en la mejora recursiva, este enfoque es bastante inteligente, evita una serie de problemas de cumplimiento y costos
Ver originalResponder0
Frictionless
· hace7h
Poetiq, seis personas creando este Meta-System, tienen algo interesante
Ver originalResponder0
  • Fijado