Poetiq шести человек команда Meta-System обновила свой рекорд на LiveCodeBench Pro. Этот полностью API-основанный плагин через рекурсивное самосовершенствование извлекает опыт задач, не затрагивая веса или тонкую настройку, что значительно повышает слабые модели. После подключения KimiK2.6 вырос с 50.0% до 79.9%, Gemini3.0 Flash увеличился на 10 пунктов, превзойдя Gemini3.1 Pro, Claude Opus4.7, GPT5.2 High. GPT5.5 High достиг 93.9% с помощью плагина, Gemini3.1 Pro — 90.9%, превосходя Gemini3 Deep Think. Предприятиям не нужно дорогостоящее тонкое обучение для повышения способности к рассуждению.

MeNews

2026-05-23 20:04:52

Генерация тезисов в процессе

AIMPACT сообщение, 15 мая (UTC+8), согласно мониторингу Beating от 动察, команда из 6 человек под руководством бывших исследователей Google и DeepMind Shumeet Baluja и Ian Fischer объявила, что их Meta-System обновил рекорд на бенчмарке программирования LiveCodeBench Pro. Эта система представляет собой чисто API-основанный интеллектуальный хук (Harness), который с помощью рекурсивного самосовершенствования автоматически извлекает опыт выполнения задач. Официальные тесты показали, что при полном отсутствии вмешательства в веса модели и без дообучения эта система напрямую повысила кодовые способности ведущих моделей на рынке. Результаты тестов показывают, что такой разъединённый от модели подход к расширению возможностей особенно эффективен для моделей с меньшими возможностями. После интеграции с Poetiq система точность Kimi K2.6 выросла с 50,0% до 79,9%, что составляет прирост в 29,9 процентных пункта; легкая Gemini 3.0 Flash показала рост на 10 процентных пунктов, превзойдя свою более крупную версию Gemini 3.1 Pro и обошла по уровню Claude Opus 4.7 и GPT 5.2 High, которые Poetiq называет «более большими и дорогими». В плане достижения предельных характеристик, GPT 5.5 High с исходным результатом 89,6% достиг нового уровня в 93,9% при использовании外挂; базовая версия Gemini 3.1 Pro с этим же外挂 набрала 90,9%, что сразу превзошло наиболее мощную модель для рассуждений от Google — Gemini 3 Deep Think (88,8%), которая ещё не открыта через API. Команда Poetiq заявила, что традиционное дообучение ограничивает улучшения одним только моделям, тогда как их бесшовный外挂 позволяет компаниям избегать высоких затрат на дообучение и развертывание полнофункциональных моделей для рассуждений. (Источник: BlockBeats)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

13 Лайков

Награда
13
8
1
Поделиться

комментарий

Добавить комментарий

PerpPessimist

· 1ч назад

Deep Think被外挂组合超越，Google的推理特化路线是不是该反思了

Ответить0

On-ChainSoilAfterTheRain

· 9ч назад

GPT5.5 High напрямую 93.9%, этот читинг превосходит официальное обновление

Посмотреть ОригиналОтветить0

SlothSignal

· 9ч назад

Подождите, после установки стороннего ПО Gemini3.1 Pro всего 90.9, а оригинальная версия 3.0 Flash не может конкурировать с взломанной? Этот сравнительный результат слишком ироничен.

Посмотреть ОригиналОтветить0

ForkItAnyway

· 9ч назад

Рекурсивное самосовершенствование + чистое API-расширение, эта идея слишком дерзкая, без изменения веса можно заставить KimiK2.6 вырасти с 50 до 79.9, компании действительно могут сэкономить огромные деньги на тонкой настройке

Посмотреть ОригиналОтветить0

VolatilityInATeacup

· 9ч назад

Кими на этой волне выиграл по полной, скачок с 50 до 79.9 гораздо быстрее, чем их собственные итерации

Посмотреть ОригиналОтветить0

PaperHandsPro

· 9ч назад

Бизнес-клиентам эта концепция должна очень подойти, не нужно запасать карты и заниматься RLHF, повышение эффективности достигается на уровне API.

Посмотреть ОригиналОтветить0

Post-RainReflectionsMarket

· 9ч назад

Не трогая веса и не проводя тонкую настройку, полагаясь только на опытное извлечение и рекурсивное улучшение, этот подход довольно умный, он избегает множества вопросов соответствия и затрат.

Посмотреть ОригиналОтветить0

Frictionless

· 9ч назад

Poetiq шесть человек создали такую Meta-систему, в этом что-то есть

Посмотреть ОригиналОтветить0

Популярные темы
Подробнее
#
TradfiTradingChallenge
322.32K Популярность
#
PlatinumCardCreatorExclusive
116.78K Популярность
#
IsraelStrikesIranBTCPlunges
49.03K Популярность
#
#DailyPolymarketHotspot
1.05M Популярность
#
GateSquarePizzaDay
650.62K Популярность

Закреплено

Карта сайта

Не трогая веса, чистая настройка API: Poetiq «плагин» повысил Kimi на 29,9 процентных пункта, облегчённая версия Gemini обошла Claude Opus

Популярные темы

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Закреплено