Не трогая веса, чистая настройка API: Poetiq «плагин» повысил Kimi на 29,9 процентных пункта, облегчённая версия Gemini совершила переворот против Claude Opus

robot
Генерация тезисов в процессе
AIMPACT сообщение, 15 мая (UTC+8), согласно мониторингу Beating от 动察, команда из 6 человек под руководством бывших исследователей Google и DeepMind Shumeet Baluja и Ian Fischer объявила, что их Meta-System обновил рекорд на бенчмарке программирования LiveCodeBench Pro. Эта система представляет собой полностью API-основанный интеллектуальный хук (Harness), который с помощью рекурсивного самосовершенствования автоматически извлекает опыт выполнения задач. Официальные тесты показали, что при полном отсутствии вмешательства в веса модели и без дообучения эта система напрямую повысила кодовые способности ведущих крупных моделей на рынке. Результаты тестов демонстрируют, что такой разъединённый от модели подход к расширению возможностей особенно эффективен для моделей с меньшими возможностями. После интеграции системы Poetiq точность Kimi K2.6 выросла с 50,0% до 79,9%, что составляет прирост в 29,9 процентных пункта; легкая Gemini 3.0 Flash показала увеличение на 10 пунктов, что позволило ей превзойти собственную крупную версию Gemini 3.1 Pro и обойти по уровню Claude Opus 4.7 и GPT 5.2 High, которые Poetiq называет «более крупными и дорогими». В плане достижения предельной производительности GPT 5.5 High, изначально показывавший 89,6%, с помощью外挂 достиг нового уровня в 93,9%; базовая версия Gemini 3.1 Pro с этим дополнением набрала 90,9%, что напрямую превзошло наиболее мощную модель для рассуждений от Google Gemini 3 Deep Think (88,8%), которая ещё не открыла API. Команда Poetiq заявила, что традиционное дообучение ограничивает улучшения одним только моделям, тогда как их бесшовный外挂 позволяет компаниям избегать высоких затрат на дообучение и развертывание полноценных моделей для рассуждений. (Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 7
  • 2
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
CandleChaser
· 8ч назад
Идея слабой модели + мощных дополнений означает ли, что наступает весна для маленьких моделей?
Посмотреть ОригиналОтветить0
GateUser-b74aba1c
· 14ч назад
Шестеро в команде преодолели узкое место в выводе больших моделей, инновации на уровне API слишком долго недооценивались
Посмотреть ОригиналОтветить0
L2ArbitrageTrader
· 14ч назад
Poetiq шесть человек достигли такого результата, конфигурация команды заслуживает изучения
Посмотреть ОригиналОтветить0
CyberBridgeDeepPerspective
· 14ч назад
GPT5.5 High干到93.9%,Gemini3.1 Pro配完90.9%,这外挂比原生顶配还猛
Ответить0
GateUser-cbb8cdf5
· 14ч назад
Бизнес в восторге, наконец-то не нужно тратить деньги на тонкую настройку
Посмотреть ОригиналОтветить0
BribeCoffee
· 14ч назад
Рекурсивное самосовершенствование + извлечение опыта, архитектура Meta-System довольно интересна
Посмотреть ОригиналОтветить0
VineGeometry
· 14ч назад
Чистый API-читинг без изменения веса позволяет Kimi подняться с 50% до 79%, этот путь гораздо умнее, чем тонкая настройка
Посмотреть ОригиналОтветить0
  • Закреплено