Poetiq六人チームのMeta-SystemがLiveCodeBench Proで最高スコアを更新。この純API外部ツールは、再帰的な自己改善によってタスクの経験を抽出し、重み付けや微調整に触れずに弱いモデルを大幅に向上させることができる。接続後、KimiK2.6は50.0%から79.9%に上昇し、Gemini3.0 Flashは10ポイント増加、驚くべきことにGemini3.1 Pro、Claude Opus4.7、GPT5.2 Highを超えた。GPT5.5 Highは外部ツールを使って93.9%、Gemini3.1 Proは90.9%に達し、Gemini3 Deep Thinkを超えた。企業は高コストの微調整を行わずに推論能力を向上させることができる。

MeNews

2026-05-23 20:04:52

概要作成中

AIMPACT メッセージ、5 月 15 日（UTC+8）、動察 Beating 監測によると、Google と DeepMind の元研究員 Shumeet Baluja と Ian Fischer によって設立された 6 人のスタートアップチーム Poetiq は、その Meta-System がプログラミングベンチマーク LiveCodeBench Pro で最高記録を更新したと発表しました。このシステムは純粋に API アクセス権に基づくインテリジェントなハッシェル（Harness）であり、再帰的な自己改善を通じてタスクの経験を自動的に抽出します。公式テストによると、モデルの重みを触れず、微調整を行わない前提で、このシステムは市販の主流大規模モデルのコード能力を直接向上させました。テスト結果は、このモデルと切り離されたハッシェル方式が能力の低いモデルの向上に特に効果的であることを示しています。Poetiq システムを導入した後、Kimi K2.6 の正確率は 50.0% から 79.9% に急上昇し、絶対得点は 29.9 ポイント増加しました。軽量級の Gemini 3.0 Flash の成績も 10 ポイント向上し、自社の大容量バージョン Gemini 3.1 Pro を逆転し、Poetiq が「より大きく、より高価」と称する Claude Opus 4.7 や GPT 5.2 High を凌駕しました。パフォーマンスの上限突破に関しては、元々 89.6% の GPT 5.5 High がハッシェルのサポートにより 93.9% の新記録に到達しました。一方、基本版 Gemini 3.1 Pro はこのハッシェルと組み合わせて 90.9% のスコアを獲得し、Google が未だ API を公開していない最強推論モデル Gemini 3 Deep Think（88.8%）を直接上回りました。Poetiq チームは、従来の微調整は改善効果を単一モデルに固定してしまうが、彼らのこのシームレスなハッシェルは、企業が推論能力のために微調整やフルスペックモデルの展開にかかる高コストを負担せずに済むと述べています。（出典：BlockBeats）

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

13 いいね

報酬
13
7
1
共有

コメントを追加

On-ChainSoilAfterTheRain

· 7時間前

GPT5.5 High直接93.9%，这外挂比官方升级还猛

返信0

SlothSignal

· 7時間前

ちょっと待って、Gemini3.1 Proの外付け後のスコアは90.9だけど、純正の3.0 Flashは外付けなしでは勝てないの？この比較はあまりにも皮肉だね

原文表示返信0

ForkItAnyway

· 7時間前

再帰的自己改善＋純API外部プラグイン、このアイデアはとても野性的だ。重みを動かさずにKimiK2.6を50から79.9まで急上昇させることができ、企業は確かに大きな微調整費用を節約できる。

原文表示返信0

VolatilityInATeacup

· 7時間前

Kimiこの一波で勝ちまくった、50から79.9への急上昇は彼ら自身の進化よりもはるかに速い

原文表示返信0

PaperHandsPro

· 7時間前

企業向けの導入シナリオはこれにかなり依存しているはずで、カードを貯めたりRLHFを行ったりする必要はなく、APIレベルで効率化できる。

原文表示返信0

Post-RainReflectionsMarket

· 7時間前

重み付けを変更せず微調整も行わず、純粋に経験による抽出と再帰的な改善に頼るこの方法は非常に賢明であり、多くのコンプライアンスやコストの問題を回避している。

原文表示返信0

Frictionless

· 7時間前

Poetiqの6人がこのMeta-Systemを作り出した、なかなかのものだ

原文表示返信0

人気の話題
もっと見る
#
TradfiTradingChallenge
320.47K 人気度
#
PlatinumCardCreatorExclusive
115.97K 人気度
#
IsraelStrikesIranBTCPlunges
49.03K 人気度
#
#DailyPolymarketHotspot
1.05M 人気度
#
GateSquarePizzaDay
649.86K 人気度

ピン留め

サイトマップ

重みを触らず純粋にAPIを調整：Poetiq「外部プラグイン」でKimiが29.9ポイント上昇、軽量版GeminiがClaude Opusに逆襲

人気の話題

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

ピン留め