Meta-Система команди Poetiq із шести осіб оновила свій найвищий бал у LiveCodeBench Pro. Цей чистий API-плагін через рекурсивне самовдосконалення витягує досвід завдань, не торкаючись ваг або тонкої настройки, і може значно покращити слабкі моделі. Після підключення KimiK2.6 піднявся з 50,0% до 79,9%, Gemini3.0 Flash додав 10 пунктів, перевершивши Gemini3.1 Pro, Claude Opus4.7, GPT5.2 High. GPT5.5 High досяг 93,9% за допомогою плагіна, Gemini3.1 Pro — 90,9%, перевищуючи Gemini3 Deep Think. Компанії не потрібно дорогого тонкого налаштування для підвищення здатності до логічних висновків.

MeNews

2026-05-23 20:04:52

Генерація анотацій у процесі

AIMPACT повідомлення, 15 травня (UTC+8), згідно з моніторингом Beating, створеної колективом з 6 осіб на чолі з колишнім дослідником Google та DeepMind Shumeet Baluja та Ian Fischer, команда Poetiq оголосила, що їхня Meta-System оновила рекорд на тестовому базисі LiveCodeBench Pro. Ця система є чисто API-орієнтованим інтелектуальним зовнішнім модулем (Harness), який за допомогою рекурсивного самовдосконалення автоматично витягує досвід з завдань. Офіційні тести показали, що без торканняся ваг моделі та без тонкої настройки ця система безпосередньо підвищила кодові можливості провідних на ринку великих моделей. Тестові результати показують, що цей спосіб зовнішнього модуля, роз'єднаний із моделлю, особливо ефективний для моделей із слабкими можливостями. Після підключення до системи Poetiq точність Kimi K2.6 зросла з 50.0% до 79.9%, абсолютне підвищення становить 29.9 відсоткових пунктів; легка Gemini 3.0 Flash підняла свій результат на 10 відсоткових пунктів, що не лише перевищило власну версію Gemini 3.1 Pro, а й перевершило за рівнем Claude Opus 4.7 та GPT 5.2 High, які Poetiq називає «більшими та дорожчими». Щодо межі продуктивності, початковий результат GPT 5.5 High становив 89.6%, але з підтримкою зовнішнього модуля досягнув нового рівня у 93.9%; базова Gemini 3.1 Pro з цим модулем отримала 90.9%, безпосередньо перевищивши найпотужнішу модель для логіки від Google Gemini 3 Deep Think (88.8%), яка ще не має відкритого API. Команда Poetiq заявила, що традиційна тонка настройка закриває можливості покращення на одному моделі, тоді як їхній безшовний зовнішній модуль дозволяє компаніям уникнути високих витрат на тонку настройку та розгортання повнофункціональних моделей для підвищення логічних можливостей. (Джерело: BlockBeats)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

13 лайків

Нагородити
13
8
1
Поділіться

Прокоментувати

Додати коментар

PerpPessimist

· 5год тому

Deep Think був перевершений зовнішніми комбінаціями, чи варто Google переосмислити свій шлях спеціалізації у логічних висновках?