重みを触らず純粋にAPIを調整:Poetiq「外部プラグイン」Kimiが29.9ポイント上昇、軽量版GeminiがClaude Opusに逆襲

robot
概要作成中
AIMPACT メッセージ、5 月 15 日(UTC+8)、動察 Beating 監測によると、Google と DeepMind の元研究員 Shumeet Baluja と Ian Fischer によって設立された 6 人のスタートアップチーム Poetiq は、その Meta-System がプログラミングベンチマーク LiveCodeBench Pro で最高記録を更新したと発表しました。このシステムは純粋に API アクセス権に基づくインテリジェントなハッス(Harness)であり、再帰的な自己改善を通じてタスクの経験を自動的に抽出します。公式テストによると、モデルの重みを触れず、微調整を行わない前提で、このシステムは市場の主流大規模モデルのコード能力を直接向上させました。 テスト結果は、このモデルと切り離されたハッス方案が能力の低いモデルの向上に特に効果的であることを示しています。Poetiq システムを導入した後、Kimi K2.6 の正確率は 50.0% から 79.9% に急上昇し、絶対得点は 29.9 ポイント増加しました。軽量級の Gemini 3.0 Flash の成績も 10 ポイント向上し、自社の大型バージョン Gemini 3.1 Pro を逆転し、Poetiq が「より大きく、より高価」と称する Claude Opus 4.7 や GPT 5.2 High を凌駕しました。 パフォーマンスの上限突破に関しては、元々 89.6% の GPT 5.5 High がハッスのサポートにより 93.9% の新記録を達成しました。一方、基本版 Gemini 3.1 Pro はこのハッスと組み合わせて 90.9% のスコアを記録し、Google が未だ API を公開していない最強推論モデル Gemini 3 Deep Think(88.8%)を直接上回りました。Poetiq チームは、従来の微調整は改善効果を単一モデルに固定してしまうが、彼らのこのシームレスなハッスは、企業が推論能力のために微調整やフルバージョンのモデル展開にかかる高コストを負担せずに済むと述べています。(出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 8
  • 2
  • 共有
コメント
コメントを追加
コメントを追加
GateUser-4aa73916
· 56分前
微調しないで外付けだけだと、安全性と制御性はむしろ高くなる?
原文表示返信0
CandleChaser
· 13時間前
弱いモデル+強い外部ツールのアイデアは、小さなモデルの時代が到来することを意味しているのでしょうか。
原文表示返信0
GateUser-b74aba1c
· 19時間前
六人チームが大規模モデルの推論ボトルネックを突破、API層の革新は長い間過小評価されてきた
原文表示返信0
L2ArbitrageTrader
· 19時間前
Poetiqの6人がこの効果を出した、チーム構成は研究に値する
原文表示返信0
CyberBridgeDeepPerspective
· 20時間前
GPT5.5 高干到93.9%,Gemini3.1 Pro配完90.9%,这外挂比原生顶配还猛
原文表示返信0
GateUser-cbb8cdf5
· 20時間前
企業は大喜び、ついにお金をかけて微調整する必要がなくなった
原文表示返信0
BribeCoffee
· 20時間前
再帰的自己改善+経験抽出、Meta-Systemこのアーキテクチャはちょっと面白い
原文表示返信0
VineGeometry
· 20時間前
純API外掛だけで重みを触らずにKimiを50%から79%に跳ね上げることができる、この方法は微調整よりもずっと賢い道筋だ
原文表示返信0
  • ピン留め