AI-автоматическая оптимизация исполнительной системы делает Haiku 4.5 лидером по результатам тестирования: Линь Цзюньянь заявил, что именно это он предвидел как поворот в «дизайне окружения»

robot
Генерация тезисов в процессе

Coin界网 сообщает, согласно мониторингу 1M AI News, исследователи из Stanford, MIT и южнокорейской игровой компании KRAFTON опубликовали Meta-Harness — набор методов, позволяющий ИИ автоматически оптимизировать исполняемую структуру (harness, то есть «обёртка-модель» и исполняющий каркас, который задаёт Agent-у действия; включает дизайн промптов, вызовы инструментов и управление контекстом). В отличие от вручную написанных исполняемых фреймворков, Meta-Harness позволяет кодовому Agent читать код, исполняемые журналы и оценки ранее сгенерированных кандидатных фреймворков и автоматически итеративно их оптимизировать. На терминальном бенчмарке TerminalBench-2 Meta-Harness довёл уровень прохождения для Claude Haiku 4.5 до 37,6%, обойдя Goose (35,5%) и Claude Code (27,5%), и заняв первое место среди всех опубликованных на данный момент фреймворков для Haiku 4.5. На Claude Opus 4.6 уровень прохождения составил 76,4%, и это второе место. Технический руководитель «предыдущего» Tongyi Qianwen Линь Цзюньян перенаправил пост авторов статьи и прокомментировал: «“Модель + исполняющий фреймворк” уже обогнала “только модель”; на результаты Agent-а существенно влияет дизайн и качество фреймворка, я действительно считаю, что это правильное направление». В длинном посте, опубликованном Линь Цзюньяном 27 марта (в настоящее время удалённом), он заранее предсказал, что дизайн окружения превратится из побочного проекта в действительно самостоятельную категорию стартап-продуктов. Meta-Harness подкрепил это экспериментальными данными: одна и та же модель, но с использованием другой, оптимизированной ИИ исполняемой структуры — разрыв в результатах может достигать 10 процентных пунктов.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Горячее на Gate Fun

    Подробнее
  • РК:$2.27KДержатели:2
    0.00%
  • РК:$2.37KДержатели:2
    1.04%
  • РК:$2.24KДержатели:1
    0.00%
  • РК:$2.24KДержатели:1
    0.00%
  • РК:$2.25KДержатели:1
    0.00%
  • Закрепить