Meta-Система команди Poetiq з шести осіб оновила свій найвищий бал у LiveCodeBench Pro. Цей чистий API-плагін через рекурсивне самовдосконалення витягує досвід завдань, не торкаючись ваг або тонкої настройки, і може значно покращити слабкі моделі. Після підключення KimiK2.6 піднявся з 50,0% до 79,9%, Gemini3.0 Flash додав 10 пунктів, перевершивши Gemini3.1 Pro, Claude Opus4.7, GPT5.2 High. GPT5.5 High досяг 93,9% за допомогою плагіна, Gemini3.1 Pro — 90,9%, перевищуючи Gemini3 Deep Think. Компанії не потрібно дорогого тонкого налаштування для підвищення здатності до логічних висновків.

MeNews

2026-05-24 08:07:37

Генерація анотацій у процесі

AIMPACT повідомлення, 15 травня (UTC+8), згідно з моніторингом Beating, створеної колективом з 6 осіб на чолі з колишніми дослідниками Google та DeepMind Shumeet Baluja та Ian Fischer, команда Poetiq оголосила, що їхня Meta-System оновила рекорд на тестовому базисі LiveCodeBench Pro. Ця система є чисто API-орієнтованим інтелектуальним зовнішнім модулем (Harness), який за допомогою рекурсивного самовдосконалення автоматично витягує досвід з завдань. Офіційні тести показали, що без торкання ваг моделей і без додаткового тонкого налаштування ця система безпосередньо підвищила кодові можливості провідних на ринку великих моделей. Тестові результати демонструють, що цей спосіб від’єднання зовнішнього модуля від моделі особливо ефективний для моделей із слабкими можливостями. Після підключення до системи Poetiq точність Kimi K2.6 зросла з 50.0% до 79.9%, абсолютне підвищення становить 29.9 відсоткових пунктів; легка Gemini 3.0 Flash показала зростання на 10 відсоткових пунктів, що не лише перевищило власну версію Gemini 3.1 Pro, а й перевершило за рівнем Claude Opus 4.7 та GPT 5.2 High, які Poetiq називає «більшими та дорожчими». Щодо досягнення межі продуктивності, GPT 5.5 High із початковим результатом 89.6% піднявся до нової висоти 93.9% за допомогою зовнішнього модуля; базова версія Gemini 3.1 Pro у поєднанні з цим модулем отримала 90.9%, що безпосередньо перевищує найпотужнішу модель для логічних висновків від Google Gemini 3 Deep Think (88.8%), яка ще не має відкритого API. Команда Poetiq заявила, що традиційне тонке налаштування закриває можливості покращення лише для однієї моделі, тоді як їхній безшовний зовнішній модуль дозволяє компаніям уникнути високих витрат на тонке налаштування та розгортання повноцінних моделей для логічних задач. (Джерело: BlockBeats)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

8 лайків

Нагородити
8
8
Репост
Поділіться

Прокоментувати

Додати коментар

SeaSaltAirdropNotes

· 4год тому

Чистий API-чит може максимально навантажити слабку модель, ця ідея дуже смілива, компанії економлять великі гроші