Не торкаючись ваги, чисте налаштування API: Poetiq «зовнішній модуль» дозволяє Kimi піднятися на 29,9 відсотка, легка версія Gemini протистоїть Claude Opus

robot
Генерація анотацій у процесі
AIMPACT повідомлення, 15 травня (UTC+8), згідно з моніторингом Beating, створеної колективом з 6 осіб на чолі з колишніми дослідниками Google та DeepMind Shumeet Baluja та Ian Fischer, команда Poetiq оголосила, що їхня Meta-System оновила рекорд на тестовому базисі LiveCodeBench Pro. Ця система є чисто API-орієнтованим інтелектуальним зовнішнім модулем (Harness), який за допомогою рекурсивного самовдосконалення автоматично витягує досвід з завдань. Офіційні тести показали, що без торкання ваг моделей і без додаткового тонкого налаштування ця система безпосередньо підвищила кодові можливості провідних на ринку великих моделей. Тестові результати демонструють, що цей спосіб від’єднання зовнішнього модуля від моделі особливо ефективний для моделей із слабкими можливостями. Після підключення до системи Poetiq точність Kimi K2.6 зросла з 50.0% до 79.9%, абсолютне підвищення становить 29.9 відсоткових пунктів; легка Gemini 3.0 Flash показала зростання на 10 відсоткових пунктів, що не лише перевищило власну версію Gemini 3.1 Pro, а й перевершило за рівнем Claude Opus 4.7 та GPT 5.2 High, які Poetiq називає «більшими та дорожчими». Щодо досягнення межі продуктивності, GPT 5.5 High із початковим результатом 89.6% піднявся до нової висоти 93.9% за допомогою зовнішнього модуля; базова версія Gemini 3.1 Pro у поєднанні з цим модулем отримала 90.9%, що безпосередньо перевищує найпотужнішу модель для логічних висновків від Google Gemini 3 Deep Think (88.8%), яка ще не має відкритого API. Команда Poetiq заявила, що традиційне тонке налаштування закриває можливості покращення лише для однієї моделі, тоді як їхній безшовний зовнішній модуль дозволяє компаніям уникнути високих витрат на тонке налаштування та розгортання повноцінних моделей для логічних задач. (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 8
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
SeaSaltAirdropNotes
· 4год тому
Чистий API-чит може максимально навантажити слабку модель, ця ідея дуже смілива, компанії економлять великі гроші
Переглянути оригіналвідповісти на0
StargazerInTheWoods
· 4год тому
Ця Meta-System ніби відкрила зовнішній великий мозок для моделі, досвід багаторазового використання на високому рівні
Переглянути оригіналвідповісти на0
RugpullTaster
· 5год тому
Без додаткової налаштування можна наздогнати Deep Think, середні та малі компанії радіють
Переглянути оригіналвідповісти на0
TreatEarningsAsSnacks
· 5год тому
Шестеро командою зламали купу відділів дрібних компаній, іронія на максимум
Переглянути оригіналвідповісти на0
MarginMoth
· 5год тому
Claude Opus4.7 був зламаний за допомогою Flash+外挂, Anthropic має замислитися.
Переглянути оригіналвідповісти на0
BridgeSideBanter
· 5год тому
Рекурсивне витягування досвіду звучить так, ніби модель сама створює інженерію підказок.
Переглянути оригіналвідповісти на0
GovernanceGremlin
· 5год тому
Посилення слабких моделей за допомогою сторонніх модулів, чи справді настала демократія обчислювальної потужності?
Переглянути оригіналвідповісти на0
FloatingTeacupClub
· 5год тому
GPT5.5 High вже 93.9%, межа ще рухається вгору
Переглянути оригіналвідповісти на0
  • Закріплено