不碰权重纯调API:Poetiq「外挂」让Kimi拉升29.9个百分点,轻量版Gemini逆袭Claude Opus

robot
摘要生成中
AIMPACT 消息,5 月 15 日(UTC+8),据 动察 Beating 监测,由前 Google 和 DeepMind 研究员 Shumeet Baluja 与 Ian Fischer 创立的 6 人初创团队 Poetiq 宣布,其 Meta-System 在编程基准 LiveCodeBench Pro 上刷新了最高成绩。这套系统是一个纯基于 API 访问权限的智能外挂(Harness),通过递归自我改进自动提取任务经验。官方测试显示,在完全不触碰模型权重、不进行微调的前提下,该系统直接拉升了市面主流大模型的代码能力。 测试结果显示,这种与模型解耦的外挂方案对能力较弱的模型提升尤为明显。接入 Poetiq 系统后,Kimi K2.6 的准确率从 50.0% 暴涨至 79.9%,绝对得分提升 29.9 个百分点;轻量级的 Gemini 3.0 Flash 成绩提升 10 个百分点,不仅反超自家大杯版本 Gemini 3.1 Pro,更越级击败了被 Poetiq 称为「更大、更贵」的 Claude Opus 4.7 和 GPT 5.2 High。 在冲击性能上限方面,原本成绩为 89.6% 的 GPT 5.5 High 在外挂加持下达到了 93.9% 的新高度;而基础版 Gemini 3.1 Pro 搭配该外挂得分为 90.9%,直接超过了谷歌尚未开放 API 的最强推理模型 Gemini 3 Deep Think(88.8%)。Poetiq 团队表示,传统微调会把改进效果锁死在单一模型上,而他们这套无缝插拔的外挂,能让企业不必为了推理能力去承担微调和部署满血版模型的极高成本。 (来源:BlockBeats)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 7
  • 1
  • 分享
评论
请输入评论内容
请输入评论内容
雨后链上泥土
· 6小时前
GPT5.5 High直接93.9%,这外挂比官方升级还猛
回复0
SlothSignal
· 6小时前
等等,Gemini3.1 Pro外挂后才90.9,原生打不过外挂的3.0 Flash?这对比太讽刺了
回复0
Fork It Anyway
· 6小时前
递归自我改进+纯API外挂,这思路太野了,不动权重就能让KimiK2.6从50飙到79.9,企业确实能省一大笔微调钱
回复0
茶杯里的波动
· 6小时前
Kimi这波赢麻了,50到79.9的跃升比他们自己迭代快多了
回复0
PaperHandsPro
· 6小时前
企业端落地场景应该很吃这套,不用囤卡不用搞RLHF,API层面就能提效
回复0
雨后倒影看盘
· 6小时前
不碰权重不微调,纯靠经验提取和递归改进,这路径挺聪明的,规避了一堆合规和成本问题
回复0
Frictionless
· 6小时前
Poetiq六个人搞出这种Meta-System,有点东西
回复0