Meta-Система команди Poetiq з шести осіб оновила свій найвищий бал у LiveCodeBench Pro. Цей чистий API-плагін через рекурсивне самовдосконалення витягує досвід з завдань, не торкаючись ваг або тонкої настройки, і може значно покращити слабкі моделі. Після підключення KimiK2.6 піднявся з 50,0% до 79,9%, Gemini3.0 Flash додав 10 пунктів, перевершивши Gemini3.1 Pro, Claude Opus4.7, GPT5.2 High. GPT5.5 High досяг 93,9% за допомогою плагіна, Gemini3.1 Pro — 90,9%, перевищуючи Gemini3 Deep Think. Компанії не потрібно дорогого тонкого налаштування для підвищення здатності до логічних висновків.

MeNews

2026-05-24 01:02:07

Генерація анотацій у процесі

AIMPACT повідомлення, 15 травня (UTC+8), згідно з моніторингом Beating, створеної командою з 6 осіб Poetiq, заснованою колишніми дослідниками Google та DeepMind Shumeet Baluja та Ian Fischer, оголосила, що їхня Meta-System оновила рекорд на тестовому базисі LiveCodeBench Pro. Ця система є чисто API-орієнтованим інтелектуальним зовнішнім модулем (Harness), який за допомогою рекурсивного самовдосконалення автоматично витягує досвід з завдань. Офіційні тести показали, що без торкання ваг моделі та без тонкої настройки ця система безпосередньо підвищила кодові можливості провідних великих моделей на ринку. Тестові результати показують, що цей спосіб зовнішнього модуля, роз'єднаний із моделлю, особливо ефективний для моделей із слабкими можливостями. Після підключення до системи Poetiq точність Kimi K2.6 зросла з 50.0% до 79.9%, абсолютне підвищення становить 29.9 відсоткових пунктів; легка Gemini 3.0 Flash підняла свої результати на 10 відсоткових пунктів, що не лише перевищило власну версію Gemini 3.1 Pro, а й перевершило за рівнем Claude Opus 4.7 та GPT 5.2 High, які Poetiq називає «більшими та дорожчими». Що стосується межі продуктивності, GPT 5.5 High із початковим результатом 89.6% досягла нової висоти 93.9% з підтримкою зовнішнього модуля; базова Gemini 3.1 Pro у поєднанні з цим модулем отримала 90.9%, безпосередньо перевищивши найпотужнішу модель для логіки від Google Gemini 3 Deep Think (88.8%), яка ще не має відкритого API. Команда Poetiq заявила, що традиційна тонка настройка закриває можливості покращення на одному моделі, тоді як їхній безшовний зовнішній модуль дозволяє компаніям уникнути високих витрат на тонку настройку та розгортання повноцінних моделей для логіки. (Джерело: BlockBeats)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

5 лайків

Нагородити
5
7
2
Поділіться

Прокоментувати

Додати коментар

CandleChaser

· 3год тому

Ідея слабкої моделі + сильних доповнень, чи означає це, що настає весна для малих моделей?