No tocar peso, solo ajustar API: Poetiq «plugin» hace que Kimi suba 29.9 puntos porcentuales, versión ligera de Gemini contraataca a Claude Opus

robot
Generación de resúmenes en curso
AIMPACT Mensaje, 15 de mayo (UTC+8), según la monitorización de Beating de Dongcha, el equipo inicial de 6 personas Poetiq, fundado por los ex investigadores de Google y DeepMind Shumeet Baluja e Ian Fischer, anunció que su Meta-System ha establecido un nuevo récord en el benchmark de programación LiveCodeBench Pro. Este sistema es un complemento inteligente puramente basado en permisos de API (Harness), que mediante auto-mejoras recursivas extrae automáticamente la experiencia de tareas. Las pruebas oficiales muestran que, sin tocar los pesos del modelo ni realizar ajustes finos, el sistema elevó directamente la capacidad de código de los principales modelos grandes del mercado. Los resultados de las pruebas indican que esta solución desacoplada del modelo mejora especialmente los modelos con capacidades más débiles. Tras integrar el sistema Poetiq, la precisión de Kimi K2.6 aumentó del 50.0% al 79.9%, una mejora absoluta de 29.9 puntos porcentuales; el rendimiento de Gemini 3.0 Flash, ligero, subió 10 puntos porcentuales, superando no solo la versión de gran tamaño Gemini 3.1 Pro, sino también venciendo de manera superior a Claude Opus 4.7 y GPT 5.2 High, considerados «más grandes y más caros» por Poetiq. En cuanto a la capacidad de alcanzar el límite de rendimiento, GPT 5.5 High, que originalmente tenía un 89.6%, alcanzó un nuevo máximo de 93.9% con el complemento; mientras que Gemini 3.1 Pro en su versión básica, con dicho complemento, obtuvo un puntaje de 90.9%, superando directamente al modelo de razonamiento más potente de Google, Gemini 3 Deep Think (88.8%), que aún no ha abierto su API. El equipo de Poetiq afirmó que la afinación fina tradicional limita las mejoras a un solo modelo, mientras que su solución de complemento sin costuras permite a las empresas evitar los altos costos de ajustar y desplegar modelos completos para capacidades de razonamiento. (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 7
  • 2
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
CandleChaser
· Hace57m
¿La idea de un modelo débil + plugins potentes significa que se acerca la primavera de los modelos pequeños?
Ver originalResponder0
GateUser-b74aba1c
· hace6h
Un equipo de seis personas supera el cuello de botella en la inferencia de grandes modelos, la innovación en la capa API ha sido subestimada durante demasiado tiempo
Ver originalResponder0
L2ArbitrageTrader
· hace7h
Poetiq, seis personas lograron este efecto, la configuración del equipo merece ser estudiada
Ver originalResponder0
CyberBridgeDeepPerspective
· hace7h
GPT5.5 Alto alcanza el 93.9%, Gemini3.1 Pro alcanza el 90.9%, esta modificación es incluso más potente que la configuración máxima original
Ver originalResponder0
GateUser-cbb8cdf5
· hace7h
La euforia de la empresa, finalmente ya no es necesario gastar dinero en ajuste fino
Ver originalResponder0
BribeCoffee
· hace7h
Mejora recursiva y extracción de experiencia, la arquitectura Meta-System es bastante interesante
Ver originalResponder0
VineGeometry
· hace7h
Los complementos API puros sin tocar los pesos pueden hacer que Kimi pase del 50% al 79%, este camino es mucho más inteligente que el ajuste fino.
Ver originalResponder0
  • Fijado