AI-автоматическая оптимизация исполнительной системы делает Haiku 4.5 лидером по результатам тестирования: Линь Цзюньянь заявил, что именно это он предвидел как поворот в «дизайне окружения»

CoinNetwork · 2026-03-31T04:43:50+00:00

Исследователи из Стэнфорда, MIT и KRAFTON представили Meta-Harness — метод автоматической оптимизации фреймворка выполнения AI. Эта технология использует исторический код и журналы для автоматической итерационной оптимизации. В тесте TerminalBench-2 уровень прохождения Claude Haiku 4.5 достиг 37.6%, превзойдя другие модели, что демонстрирует важность дизайна фреймворка для производительности AI.

CoinNetwork

2026-03-31 04:43:50

Генерация тезисов в процессе

Coin界网 сообщает, согласно мониторингу 1M AI News, исследователи из Stanford, MIT и южнокорейской игровой компании KRAFTON опубликовали Meta-Harness — набор методов, позволяющий ИИ автоматически оптимизировать исполняемую структуру (harness, то есть «обёртка-модель» и исполняющий каркас, который задаёт Agent-у действия; включает дизайн промптов, вызовы инструментов и управление контекстом). В отличие от вручную написанных исполняемых фреймворков, Meta-Harness позволяет кодовому Agent читать код, исполняемые журналы и оценки ранее сгенерированных кандидатных фреймворков и автоматически итеративно их оптимизировать. На терминальном бенчмарке TerminalBench-2 Meta-Harness довёл уровень прохождения для Claude Haiku 4.5 до 37,6%, обойдя Goose (35,5%) и Claude Code (27,5%), и заняв первое место среди всех опубликованных на данный момент фреймворков для Haiku 4.5. На Claude Opus 4.6 уровень прохождения составил 76,4%, и это второе место. Технический руководитель «предыдущего» Tongyi Qianwen Линь Цзюньян перенаправил пост авторов статьи и прокомментировал: «“Модель + исполняющий фреймворк” уже обогнала “только модель”; на результаты Agent-а существенно влияет дизайн и качество фреймворка, я действительно считаю, что это правильное направление». В длинном посте, опубликованном Линь Цзюньяном 27 марта (в настоящее время удалённом), он заранее предсказал, что дизайн окружения превратится из побочного проекта в действительно самостоятельную категорию стартап-продуктов. Meta-Harness подкрепил это экспериментальными данными: одна и та же модель, но с использованием другой, оптимизированной ИИ исполняемой структуры — разрыв в результатах может достигать 10 процентных пунктов.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

1 Лайков