不碰权重纯调API：Poetiq「外挂」让Kimi拉升29.9个百分点，轻量版Gemini逆袭Claude Opus

ME News · 2026-05-23T20:04:52+00:00

Poetiq六人团队的Meta-System在LiveCodeBench Pro刷新最高分。该纯API外挂通过递归自我改进提取任务经验，不触及权重或微调，能显著提升弱模型。接入后，KimiK2.6从50.0%升至79.9%，Gemini3.0 Flash增10pt，竟超越Gemini3.1 Pro、Claude Opus4.7、GPT5.2 High。GPT5.5 High经外挂达93.9%，Gemini3.1 Pro搭配为90.9%，超越Gemini3 Deep Think。企业无需高成本微调即可提升推理能力。

ME News

2026-05-23 20:04:52

摘要生成中

AIMPACT 消息，5 月 15 日（UTC+8），据动察 Beating 监测，由前 Google 和 DeepMind 研究员 Shumeet Baluja 与 Ian Fischer 创立的 6 人初创团队 Poetiq 宣布，其 Meta-System 在编程基准 LiveCodeBench Pro 上刷新了最高成绩。这套系统是一个纯基于 API 访问权限的智能外挂（Harness），通过递归自我改进自动提取任务经验。官方测试显示，在完全不触碰模型权重、不进行微调的前提下，该系统直接拉升了市面主流大模型的代码能力。测试结果显示，这种与模型解耦的外挂方案对能力较弱的模型提升尤为明显。接入 Poetiq 系统后，Kimi K2.6 的准确率从 50.0% 暴涨至 79.9%，绝对得分提升 29.9 个百分点；轻量级的 Gemini 3.0 Flash 成绩提升 10 个百分点，不仅反超自家大杯版本 Gemini 3.1 Pro，更越级击败了被 Poetiq 称为「更大、更贵」的 Claude Opus 4.7 和 GPT 5.2 High。在冲击性能上限方面，原本成绩为 89.6% 的 GPT 5.5 High 在外挂加持下达到了 93.9% 的新高度；而基础版 Gemini 3.1 Pro 搭配该外挂得分为 90.9%，直接超过了谷歌尚未开放 API 的最强推理模型 Gemini 3 Deep Think（88.8%）。Poetiq 团队表示，传统微调会把改进效果锁死在单一模型上，而他们这套无缝插拔的外挂，能让企业不必为了推理能力去承担微调和部署满血版模型的极高成本。（来源：BlockBeats）

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

13人点赞了这条动态

赞赏
13
7
1
分享

请输入评论内容

雨后链上泥土

· 6小时前

GPT5.5 High直接93.9%，这外挂比官方升级还猛

SlothSignal

· 6小时前

等等，Gemini3.1 Pro外挂后才90.9，原生打不过外挂的3.0 Flash？这对比太讽刺了

Fork It Anyway

· 6小时前

递归自我改进+纯API外挂，这思路太野了，不动权重就能让KimiK2.6从50飙到79.9，企业确实能省一大笔微调钱

茶杯里的波动

· 6小时前

Kimi这波赢麻了，50到79.9的跃升比他们自己迭代快多了

PaperHandsPro

· 6小时前

企业端落地场景应该很吃这套，不用囤卡不用搞RLHF，API层面就能提效

雨后倒影看盘

· 6小时前

不碰权重不微调，纯靠经验提取和递归改进，这路径挺聪明的，规避了一堆合规和成本问题

Frictionless

· 6小时前

Poetiq六个人搞出这种Meta-System，有点东西

热门话题
查看更多
#
TradFi交易分享挑战
31.78万热度
#
PlatinumCard作者专属
11.45万热度
#
Polymarket每日热点
105.26万热度
#
特朗普称美伊正敲定协议细节
2111.13万热度
#
Gate广场披萨节
64.83万热度

不碰权重纯调API：Poetiq「外挂」让Kimi拉升29.9个百分点，轻量版Gemini逆袭Claude Opus

热门话题

TradFi交易分享挑战

PlatinumCard作者专属

Polymarket每日热点

特朗普称美伊正敲定协议细节

Gate广场披萨节

置顶