不碰權重純調API:Poetiq「外挂」讓Kimi拉升29.9個百分點,輕量版Gemini逆襲Claude Opus

robot
摘要生成中
AIMPACT 消息,5 月 15 日(UTC+8),據 動察 Beating 監測,由前 Google 和 DeepMind 研究員 Shumeet Baluja 與 Ian Fischer 創立的 6 人初創團隊 Poetiq 宣布,其 Meta-System 在編程基準 LiveCodeBench Pro 上刷新了最高成績。這套系統是一個純基於 API 訪問權限的智能外掛(Harness),通過遞歸自我改進自動提取任務經驗。官方測試顯示,在完全不觸碰模型權重、不進行微調的前提下,該系統直接拉升了市面主流大模型的程式碼能力。 測試結果顯示,這種與模型解耦的外掛方案對能力較弱的模型提升尤為明顯。接入 Poetiq 系統後,Kimi K2.6 的準確率從 50.0% 暴漲至 79.9%,絕對得分提升 29.9 個百分點;輕量級的 Gemini 3.0 Flash 成績提升 10 個百分點,不僅反超自家大杯版本 Gemini 3.1 Pro,更越級擊敗了被 Poetiq 稱為「更大、更貴」的 Claude Opus 4.7 和 GPT 5.2 High。 在衝擊性能上限方面,原本成績為 89.6% 的 GPT 5.5 High 在外掛加持下達到了 93.9% 的新高度;而基礎版 Gemini 3.1 Pro 搭配該外掛得分為 90.9%,直接超過了谷歌尚未開放 API 的最強推理模型 Gemini 3 Deep Think(88.8%)。Poetiq 團隊表示,傳統微調會把改進效果鎖死在單一模型上,而他們這套無縫插拔的外掛,能讓企業不必為了推理能力去承擔微調和部署滿血版模型的極高成本。 (來源:BlockBeats)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 9
  • 3
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
Quiet Validator
· 05-26 04:40
超越Deep Think和Opus4.7,这對比有點狠
查看原文回復0
GateUser-4aa73916
· 05-24 20:15
不微調只外挂,安全性和可控性反而更高?
查看原文回復0
Candle Chaser
· 05-24 07:38
弱模型+強外挂的思路,是不是意味着小模型春天要來了
查看原文回復0
GateUser-b74aba1c
· 05-24 01:36
六人團隊突破大模型推理瓶頸,API層創新被低估了太久
查看原文回復0
L2搬砖工
· 05-24 01:13
Poetiq六個人搞出這效果,團隊配置值得研究
查看原文回復0
赛博桥梁强透视
· 05-24 01:04
GPT5.5 高干到93.9%,Gemini3.1 Pro配完90.9%,這個外挂比原生頂配還猛
查看原文回復0
GateUser-cbb8cdf5
· 05-24 01:04
企業狂喜,終於不用砸錢微調了
查看原文回復0
BribeCoffee
· 05-24 01:04
遞歸自我改進+經驗提取,Meta-System這架構有點意思
查看原文回復0
藤蔓几何学
· 05-24 01:04
純API外挂不碰權重就能讓Kimi從50%跳到79%,這路徑比微調聰明多了
查看原文回復0
查看更多