Не трогая веса, чистая настройка API: Poetiq «плагин» повысил Kimi на 29,9 процентных пункта, облегчённая версия Gemini обошла Claude Opus

robot
Генерация тезисов в процессе
AIMPACT сообщение, 15 мая (UTC+8), согласно мониторингу Beating от 动察, команда из 6 человек под руководством бывших исследователей Google и DeepMind Shumeet Baluja и Ian Fischer объявила, что их Meta-System обновил рекорд на бенчмарке программирования LiveCodeBench Pro. Эта система представляет собой чисто API-основанный интеллектуальный хук (Harness), который с помощью рекурсивного самосовершенствования автоматически извлекает опыт выполнения задач. Официальные тесты показали, что при полном отсутствии вмешательства в веса модели и без дообучения эта система напрямую повысила кодовые способности ведущих моделей на рынке. Результаты тестов показывают, что такой разъединённый от модели подход к расширению возможностей особенно эффективен для моделей с меньшими возможностями. После интеграции с системой Poetiq точность Kimi K2.6 выросла с 50.0% до 79.9%, что составляет увеличение на 29.9 процентных пунктов; легковесный Gemini 3.0 Flash показал рост на 10 пунктов, превзойдя свою более крупную версию Gemini 3.1 Pro и обойдя по уровню Claude Opus 4.7 и GPT 5.2 High, которые Poetiq называет «более крупными и дорогими». В плане достижения предельных характеристик, GPT 5.5 High, изначально показывавший 89.6%, достиг нового уровня в 93.9% с помощью хука; а базовая версия Gemini 3.1 Pro в связке с этим хук показала 90.9%, что сразу превзошло наиболее мощную модель для рассуждений от Google Gemini 3 Deep Think (88.8%), которая ещё не открыла API. Команда Poetiq заявила, что традиционное дообучение ограничивает улучшения одной моделью, тогда как их бесшовный хук позволяет компаниям избегать высоких затрат на дообучение и развертывание полноценных моделей для рассуждений. (Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 8
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
SeaSaltAirdropNotes
· 5ч назад
Чистый API-читинг может полностью раскрыть слабую модель, эта идея слишком дерзкая, компании экономят большие деньги
Посмотреть ОригиналОтветить0
StargazerInTheWoods
· 6ч назад
Эта Meta-System как внешнее большое мозг для модели, опыт повторного использования на высшем уровне
Посмотреть ОригиналОтветить0
RugpullTaster
· 6ч назад
Без донастройки можно догнать Deep Think, средние и малые компании ликуют
Посмотреть ОригиналОтветить0
TreatEarningsAsSnacks
· 6ч назад
Шестеро в команде разгромили отделы мелкой настройки крупных компаний, ирония достигла максимума
Посмотреть ОригиналОтветить0
MarginMoth
· 6ч назад
Claude Opus4.7 был взломан с помощью Flash+外挂, Anthropic пора задуматься.
Посмотреть ОригиналОтветить0
BridgeSideBanter
· 6ч назад
Рекурсивное извлечение опыта звучит так, будто модель сама пишет инженерные подсказки.
Посмотреть ОригиналОтветить0
GovernanceGremlin
· 6ч назад
Ослабленная модель с внешним дополнением становится сильнее, демократизация вычислительных мощностей действительно наступила?
Посмотреть ОригиналОтветить0
FloatingTeacupClub
· 6ч назад
GPT5.5 High уже достиг 93.9%, потолок всё ещё поднимается вверх
Посмотреть ОригиналОтветить0
  • Закреплено