Без зміни ваги — чисте налаштування API: Poetiq «зовнішній модуль» підвищує Kimi на 29,9 відсотка, легка версія Gemini протистоїть Claude Opus

robot
Генерація анотацій у процесі
AIMPACT повідомлення, 15 травня (UTC+8), згідно з моніторингом Beating, створеної командою з 6 осіб Poetiq, заснованою колишніми дослідниками Google та DeepMind Shumeet Baluja та Ian Fischer, оголосила, що їхня Meta-System оновила рекорд на тестовому базисі LiveCodeBench Pro. Ця система є чисто API-орієнтованим інтелектуальним зовнішнім модулем (Harness), який за допомогою рекурсивного самовдосконалення автоматично витягує досвід з завдань. Офіційні тести показали, що без торкання ваг моделі та без тонкої настройки ця система безпосередньо підвищила кодові можливості провідних великих моделей на ринку. Тестові результати показують, що цей спосіб зовнішнього модуля, роз'єднаний із моделлю, особливо ефективний для моделей із слабкими можливостями. Після підключення до системи Poetiq точність Kimi K2.6 зросла з 50.0% до 79.9%, абсолютне підвищення становить 29.9 відсоткових пунктів; легка Gemini 3.0 Flash підняла свої результати на 10 відсоткових пунктів, що не лише перевищило власну версію Gemini 3.1 Pro, а й перевершило за рівнем Claude Opus 4.7 та GPT 5.2 High, які Poetiq називає «більшими та дорожчими». Що стосується межі продуктивності, GPT 5.5 High із початковим результатом 89.6% досягла нової висоти 93.9% з підтримкою зовнішнього модуля; базова Gemini 3.1 Pro у поєднанні з цим модулем отримала 90.9%, безпосередньо перевищивши найпотужнішу модель для логіки від Google Gemini 3 Deep Think (88.8%), яка ще не має відкритого API. Команда Poetiq заявила, що традиційна тонка настройка закриває можливості покращення на одному моделі, тоді як їхній безшовний зовнішній модуль дозволяє компаніям уникнути високих витрат на тонку настройку та розгортання повноцінних моделей для логіки. (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 7
  • 2
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
CandleChaser
· 3год тому
Ідея слабкої моделі + сильних доповнень, чи означає це, що настає весна для малих моделей?
Переглянути оригіналвідповісти на0
GateUser-b74aba1c
· 9год тому
Шестеро командою подолали вузьке місце у масштабному моделі для виведення, інновації на рівні API занадто довго недооцінювалися
Переглянути оригіналвідповісти на0
L2ArbitrageTrader
· 10год тому
Poetiq шістьох людей створили цей ефект, конфігурація команди заслуговує на дослідження
Переглянути оригіналвідповісти на0
CyberBridgeDeepPerspective
· 10год тому
GPT5.5 High до 93.9%, Gemini3.1 Pro показав 90.9%, цей додаток сильніший за оригінальну топову версію
Переглянути оригіналвідповісти на0
GateUser-cbb8cdf5
· 10год тому
Підприємницьке радісне зітхання, нарешті не потрібно витрачати гроші на мікрорегулювання
Переглянути оригіналвідповісти на0
BribeCoffee
· 10год тому
Рекурсивне самовдосконалення + витягнення досвіду, архітектура Meta-System досить цікава
Переглянути оригіналвідповісти на0
VineGeometry
· 10год тому
Чистий API-чит не торкаючись ваги, може змусити Kimi піднятися з 50% до 79%, цей шлях набагато розумніший за тонке налаштування
Переглянути оригіналвідповісти на0
  • Закріплено