Без зміни ваги — чисте налаштування API: Poetiq «зовнішній модуль» підвищує Kimi на 29,9 відсотка, легка версія Gemini протистоїть Claude Opus

robot
Генерація анотацій у процесі
AIMPACT повідомлення, 15 травня (UTC+8), згідно з моніторингом Beating, створеної колективом з 6 осіб на чолі з колишнім дослідником Google та DeepMind Shumeet Baluja та Ian Fischer, команда Poetiq оголосила, що їхня Meta-System оновила рекорд на тестовому базисі LiveCodeBench Pro. Ця система є чисто API-орієнтованим інтелектуальним зовнішнім модулем (Harness), який за допомогою рекурсивного самовдосконалення автоматично витягує досвід з завдань. Офіційні тести показали, що без торканняся ваг моделі та без тонкої настройки ця система безпосередньо підвищила кодові можливості провідних на ринку великих моделей. Тестові результати показують, що цей спосіб зовнішнього модуля, роз'єднаний із моделлю, особливо ефективний для моделей із слабкими можливостями. Після підключення до системи Poetiq точність Kimi K2.6 зросла з 50.0% до 79.9%, абсолютне підвищення становить 29.9 відсоткових пунктів; легка Gemini 3.0 Flash підняла свій результат на 10 відсоткових пунктів, що не лише перевищило власну версію Gemini 3.1 Pro, а й перевершило за рівнем Claude Opus 4.7 та GPT 5.2 High, які Poetiq називає «більшими та дорожчими». Щодо межі продуктивності, початковий результат GPT 5.5 High становив 89.6%, але з підтримкою зовнішнього модуля досягнув нового рівня у 93.9%; базова Gemini 3.1 Pro з цим модулем отримала 90.9%, безпосередньо перевищивши найпотужнішу модель для логіки від Google Gemini 3 Deep Think (88.8%), яка ще не має відкритого API. Команда Poetiq заявила, що традиційна тонка настройка закриває можливості покращення на одному моделі, тоді як їхній безшовний зовнішній модуль дозволяє компаніям уникнути високих витрат на тонку настройку та розгортання повнофункціональних моделей для підвищення логічних можливостей. (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 8
  • 1
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
PerpPessimist
· 5год тому
Deep Think був перевершений зовнішніми комбінаціями, чи варто Google переосмислити свій шлях спеціалізації у логічних висновках?
Переглянути оригіналвідповісти на0
On-ChainSoilAfterTheRain
· 13год тому
GPT5.5 High прямо 93.9%, цей додаток перевищує офіційне оновлення ще більше
Переглянути оригіналвідповісти на0
SlothSignal
· 13год тому
Зачекайте, Gemini3.1 Pro після встановлення стороннього ПЗ лише 90.9, а оригінальна версія 3.0 Flash не може конкурувати з цим? Це порівняння дуже іронічне.
Переглянути оригіналвідповісти на0
ForkItAnyway
· 13год тому
Рекурсивне самовдосконалення + чистий API-плагін, ця ідея надто смілива, без зміни вагових коефіцієнтів можна змусити KimiK2.6 піднятися з 50 до 79.9, компанії дійсно зможуть заощадити значну суму на тонкому налаштуванні.
Переглянути оригіналвідповісти на0
VolatilityInATeacup
· 13год тому
Кімі цим разом виграв, підйом з 50 до 79.9 набагато швидший, ніж їх власна ітерація
Переглянути оригіналвідповісти на0
PaperHandsPro
· 14год тому
Сценарії впровадження для корпоративного сегмента повинні дуже залежати від цього набору, не потрібно накопичувати картки або займатися RLHF, можна підвищити ефективність на рівні API.
Переглянути оригіналвідповісти на0
Post-RainReflectionsMarket
· 14год тому
Не торкаючись ваги і не проводячи тонке налаштування, чисто покладаючись на досвід та рекурсивне вдосконалення, цей шлях досить розумний, він уникає купу проблем з відповідністю та витратами
Переглянути оригіналвідповісти на0
Frictionless
· 14год тому
Poetiq шістьох створили таку Meta-System, має значення
Переглянути оригіналвідповісти на0
  • Закріплено