Почему вам нужно изучать Harness Engineering? Полный разбор 5 продуктов, 3 школ и 5 универсальных принципов

Системный разбор Harness Engineering: 5 продуктов, 3 школы (OpenAI / Anthropic / ThoughtWorks), 5 универсальных принципов, а также почему «Упадок Harness» заставляет вас каждые 6 месяцев сокращать половину дизайна. Эта статья основана на статье @sairahul1, подготовленной и переведённой редакцией.
(Предыстория: Введение в Harness Engineering (AI-управляемая инженерия): последние стандарты программирования OpenAI, позволяющие легко достичь уровня Lv.1)
(Дополнительный фон: Генеральный директор YC делится секретами AI: будущее — у тех, кто умеет строить системы информационного сложного процента)

Содержание статьи

Переключить

    1. Определение Harness
    1. Метафора ОС
    1. Что изменилось в 2026 году
    1. Файлы AGENT.md / CLAUDE.md
    1. JSON Feature Lists (системы отслеживания прогресса)
    • Почему JSON, а не Markdown?
    1. Стандарт инициализации сессии
    1. Sprint Contracts (контракты спринта)
    • Почему это важно
    1. Структурированные шаблоны задач
    1. Школа OpenAI: приоритет окружения
    • Их подход
    • Доказательства
    1. Школа Anthropic: разделение «делать» и «оценивать»
    • Их решение: 3 специализированных агента
    • Результаты (A/B тесты)
    1. Школа ThoughtWorks: матрица 2×2
    • Их инсайты: классификация контроля harness по двум осям
    • Матрица 2×2
    1. Принцип 1: Контекст важнее инструкции
    1. Принцип 2: планирование и выполнение должны быть разделены
    1. Принцип 3: Обратная связь — обязательна
    1. Принцип 4: делай только одно за раз
    1. Принцип 5: Код — это документация
    • Практическое значение
    1. Упадок Harness (Harness Decay) — реальность
    • Вот что такое упадок Harness
    1. Создавать для удаления (Build to Delete)
    1. Реальность затрат
    • Но это — часть, о которой никто не говорит
  • Полное резюме
    • Что такое harness
    • 5 продуктов harness
    • 3 школы
    • 5 универсальных принципов
    • Парадоксальные моменты

В феврале 2026 года команда OpenAI выпустила 1 миллион строк производственного кода.

Без единой рукописной строки.

Это — агенты AI, пишущие код.

Человеческий дизайн — это система, которая делает агента надёжным.

Эту систему теперь называют — Harness Engineering.

За несколько недель Anthropic выпустила 3 связанные статьи. ThoughtWorks систематизировала её в рамки. Philipp Schmid из Hugging Face прямо назвал её «самой важной дисциплиной 2026 года».

За 90 дней сформировалась новая инженерная дисциплина. И кроме команд AI infra, почти никто не понял.

Эта статья — объяснение. Без воды, без академической терминологии, только те ментальные модели, которые реально пригодятся.

1. Определение Harness

Самое простое определение от ThoughtWorks:

Agent = Model + Harness

Harness — всё, что вне модели.

  • Ограничения, удерживающие агента на правильном пути
  • Обратные связи для обнаружения ошибок
  • Документы, показывающие, где агент находится
  • Инструменты, которыми он обладает

Удалить harness → получить просто модель языка, которая догадывается внутри вашего кода.

Добавить правильный harness → систему, способную писать производственный код.

Это название происходит от снаряжения для лошадей. Harness — это упряжь, седло, уздечка — направляют мощное, непредсказуемое животное в полезное русло.

Вы не делаете умнее лошадь, вы создаёте экипировку, которая делает её силу полезной.

2. Метафора ОС

Philipp Schmid предлагает лучший технический образец: представьте это как компьютер.

| Роль | | --- | | Модель | | CPU (исходная вычислительная мощность) | | Контекстное окно | | RAM (ограниченная, быстро исчезающая рабочая память) | | Harness | | ОС (управляет тем, что CPU видит и когда) | | Агент | | Запускаемое приложение |

Ваша модель очень сильна. Но без ОС, которая управляет памятью, планирует задачи, задаёт правила — она просто кусок кремния.

Большинство работают «без операционной системы» — запускают приложения. Поэтому их агент ломается сразу на производственной линии.

3. Что действительно изменилось в 2026 году

LangChain использует один и тот же модель, запуская её дважды на Terminal Bench 2.0:

| Harness | | --- | | Баллы | | --- | --- | | Старый harness | 52.8% | | Новый harness | 66.5% |

Та же модель. Разные harness. Разница — 13.7 процентных пунктов.

Vercel поступила наоборот — урезала инструменты агента на 80%. Результат? Лучше, а не хуже.

Самое неприятное в 2026 году:

  • Агент никогда не был сложной частью
  • Harness — это

Если 2025 — год, когда AI-агенты доказывали, что умеют писать код, то 2026 — год, когда стало ясно, что «окружение» важнее «модели».

4. Файл AGENT.md / CLAUDE.md

Самый универсальный продукт harness.

Разбросан по всему коду markdown-файлы. Агент читает их при каждой сессии — как onboarding для нового инженера.

Что в них?

  • Контекст проекта
  • Кодовые стандарты
  • Архитектурные решения
  • Руководство «как мы делаем»
  • Текущие задачи

OpenAI зовёт его AGENT.md. Anthropic — CLAUDE.md. Cursor использует .cursorrules.

Разные названия, один принцип. Одна копия на каждый модуль. Обновляется по мере развития проекта.

Без него: агент каждый раз запускается вслепую. Есть — агент работает с информацией.

5. JSON Feature Lists (системы отслеживания прогресса)

Когда агент работает через несколько сессий над целым приложением, его контекстное окно пустое. Как он узнает, что уже сделано?

JSON-файл.

Каждая запись содержит:

  • Особенность
  • Как проверить её выполнение
  • Статус Pass / Fail

При старте сессии агент читает его — выбирает самую приоритетную ошибку → реализует → отмечает как выполненную → коммитит → повторяет.

Почему JSON, а не Markdown?

Anthropic обнаружила: вероятность перезаписать JSON агентом ниже, чем Markdown.

Мелочь, но в сценариях автономной работы 6 часов — критично.

6. Стандарт инициализации сессии

Каждая сессия начинается одинаково. Обязательно.

7-шаговая процедура Anthropic:

  1. Проверка рабочей директории
  2. Чтение git log и прогресс-файлов
  3. Выбор самой важной незавершённой задачи из feature list
  4. Запуск dev-сервера
  5. Запуск базовой E2E проверки
  6. Реализация функции
  7. Коммит с описанием и обновление прогресса

Без этого: первые 20 минут агент разбирается в текущем состоянии, повторяет одни и те же действия. С ним: агент сразу знает, что делать.

7. Sprint Contracts (контракты спринта)

Перед написанием любой строки кода — два агента договариваются.

Generator agent предлагает:

  • Что делать
  • Как проверить успех

Evaluator agent проверяет:

  • Полноту предложения
  • Четкость критериев успеха

Если оба согласны — начинается реализация.

Это — дизайн-ревью. Только оба — AI.

Почему это важно

Когда в одном цикле агент планирует и выполняет, результат ненадёжен. Даже AI, выполняя оба этапа, значительно повышает качество результата.

8. Структурированные шаблоны задач

Перед написанием кода harness сначала анализирует реальный codebase.

Он создаёт заземлённую карту воздействия:

  • Реальные пути файлов (а не иллюзии)
  • Реальные имена символов
  • Используемые шаблоны
  • Конкретные критерии приёмки

Затем начинается реализация.

Звучит очевидно. Но большинство команд пропускают этот шаг.

Агент угадывает структуру файлов, придумывает несуществующие API, делает что-то, что не сочетается с codebase.

Заземлённый контекст — вначале, затем выполнение — качество результата значительно выше.

9. Школа OpenAI: приоритет окружения

Команда Codex OpenAI столкнулась с абсурдной проблемой:

1 миллион строк производственного кода — без единой рукописной строки.

На таком масштабе невозможно делать ручной ревью. Поэтому — они не делают этого.

Взамен — они проектируют окружение так, чтобы агент сразу выдавал «поддающиеся проверке» результаты.

Их подход

  • Строгий поток зависимостей (Types → Config → Repo → Service → Runtime → UI)
  • Весь код разбросан по AGENT.md
  • Агент интегрирован в CI/CD

Философия: Проектируйте окружение. Потом запускайте агента.

Доказательства

Приложение Sora для Android. 4 инженера. 28 дней. Первое место в Play Store. 99.9% без сбоев.

Codex обрабатывает 70% внутренних PR каждую неделю.

10. Школа Anthropic: разделение «делать» и «оценивать»

Anthropic сталкивается с другой проблемой:

Когда агент оценивает свои результаты, он хвалит себя — даже если по мнению человека качество посредственное.

Самооценка — не работает. Агент — и студент, и учитель, и ставит себе «отлично» по всем параметрам.

Их решение: 3 специализированных агента

| Агент | | --- | | Работа | | --- | --- | | Planner | | Преобразует 2-словный запрос в полное техническое задание | | Generator | | Реализует по одному спринту | | Evaluator | | Автоматизированное тестирование через браузер, имитируя реального пользователя |

Инсайт: сделать «независимый» evaluator более придирчивым — гораздо проще, чем заставлять generator критиковать свою работу.

Результаты (A/B тесты)

| Настройка | | --- | | Стоимость | | Время | | Результат | | --- | --- | --- | --- | | Один агент (без harness) | $9 | 20 минут | Плохое приложение | | Полный harness | $200 | 6 часов | Рабочий софт + аккуратный UI |

11. Школа ThoughtWorks: матрица 2×2

ThoughtWorks подходит с другой стороны — они не создают продукт, а изучают 50+ команд, терпящих неудачу в одинаковых местах.

Их инсайт: классификация harness по двум осям

Ось 1: Когда работает?

  • Feedforward = до действий агента (направляющие)
  • Feedback = после действий агента (датчики)

Ось 2: Как работает?

  • Computational = детерминированно, миллисекундно (линтер, типо-детектор, тесты)
  • Inferential = с помощью LLM, за секунды (код-ревью агент, семантический анализ)

Матрица 2×2

| | | --- | | Feedforward (направляющие) | | Feedback (датчики) | | --- | --- | --- | | Computational | | тип-системы, линтеры, архитектурные правила | | тестовые наборы, покрытие, мутационные тесты | | Inferential | | спецификации, ограничения | | LLM для ревью кода, поведенческие верификаторы |

Feedforward и feedback — нельзя использовать отдельно. Нужно оба.

12. Принцип 1: Контекст важнее инструкции

Разные команды, одно открытие:

  • OpenAI: даёт карту, а не 1000 страниц руководства
  • Anthropic: JSON список признаков + прогресс-файл, чтобы агент всегда знал, где он
  • Red Hat: перед любой задачей анализирует реальный codebase
  • ThoughtWorks: называют это «Feedforward»

Привязать агента к «текущему состоянию мира» всегда важнее, чем абстрактно говорить, что делать.

Привязка к реальным файлам → адаптация к коду. От расплывчатых описаний — к иллюзиям API и изобретению новых путей.

Перед тем, как начать писать, убедитесь, что агент знает, где он.

13. Принцип 2: планирование и выполнение должны быть разделены

  • OpenAI: человек проектирует окружение, агент выполняет
  • Anthropic: Planner агент перед запуском Generator
  • ThoughtWorks: жесткое разделение — этап планирования и этап реализации
  • Red Hat: фазы 1 (карта воздействия) и 2 (реализация) — с жестким разделением

Каждая школа пришла к выводу: если агент одновременно планирует и выполняет, результат ненадёжен.

Планирование — не обязательно должно делать человек, но оно должно быть отдельным шагом, и его результат — проверен.

14. Принцип 3: Обратная связь — обязательна

  • OpenAI: агент интегрирован в CI/CD и системы наблюдения
  • Anthropic: отдельный Evaluator агент + автоматизация через браузер
  • ThoughtWorks: формализовано как «датчики», предупреждающие, что только feedforward никогда не подтвердит эффективность инструкций

Три подхода по принципу:

| Школа | | --- | | Источник обратной связи | | --- | --- | | OpenAI | | Автоматизированное тестирование + CI | | Anthropic | | Другой LLM | | ThoughtWorks | | Использование обоих вместе |

Различия — кто даёт обратную связь. Но в вопросе «нужна ли она» — нет разногласий.

Без обратной связи harness — это просто prompt с несколькими шагами.

15. Принцип 4: делай только одно за раз

  • OpenAI: разбей цель на мелкие части, глубина приоритетов
  • Anthropic: строго «один функционал за спринт», завершай и коммить
  • ThoughtWorks: этапы (pre-integration → post-integration → continuous monitoring)

Много задач одновременно — это:

  • Быстро исчерпать контекст
  • Потерять связность
  • Тихо отказаться от требований

Обычно Anthropic: читаешь прогресс → выбираешь один feature → реализуешь → коммитишь → повторяешь.

«Принудительный постепенный подход» — общий признак успешных harness.

16. Принцип 5: Код — это документация

  • OpenAI: AGENT.md встроен в репозиторий
  • Anthropic: список признаков, прогресс-файлы, история git — всё это обеспечивает непрерывность агента
  • ThoughtWorks: оценивает «harnessability» — читаемость codebase для агента

Никто не будет держать отдельную базу знаний для агента. Репозиторий — это единственная истина.

Если правило, ограничение или архитектурное решение не в коде — агент этого не знает.

Практическое значение

  • Команды, инвестирующие в организацию кода, — бесплатно получают лучшее поведение агента
  • Грязный репозиторий + AI агент = масштабируемый хаос

17. Упадок Harness (Harness Decay) — реальность

Когда Anthropic обновила Opus с 4.5 до 4.6 — разбиение спринтов (которые раньше было обязательно) стало тяжёлым бременем.

Модель улучшилась — и эта часть стала избыточной.

В марте ещё работали компоненты harness, а в апреле — уже только overhead.

Затем вышел Opus 4.7 — модель начала проверять свои выводы, роль Evaluator сократилась.

Вот что такое упадок Harness

Каждый компонент в harness содержит предположения о том, что модель не умеет делать. Когда модель улучшается — эти предположения устаревают — компоненты превращаются в overhead.

| Версия модели | | --- | | Статус harness | | --- | --- | | Opus 4.5 | | Разбиение спринтов + оценка каждого спринта | | Opus 4.6 | | Без разбиения спринтов + однократная оценка (сэкономлено 38% стоимости) | | Opus 4.7 | | Модель сама проверяет — роль evaluator сокращается |

Зачем строить для удаления (Build to Delete)

Philipp Schmid советует: «Стройте так, чтобы можно было удалить».

При проектировании каждого компонента harness — делайте его легко удаляемым.

Регулярно тестируйте — выключите его и посмотрите, ухудшится ли качество.
Если нет — удаляйте.

| Команды | | --- | | Рефакторинг за 6 месяцев | | --- | --- | | Manus | | 5 раз рефакторили harness | | LangChain | | 3 раза за год | | Vercel | | Удалили 80% инструментов — результат лучше |

Это — не признак плохой инженерии. Это — естественный результат «быстрого прогресса моделей».

Мёртвые компоненты harness каждый запуск тратят токены и не дают никакой пользы — просто пустая трата.

19. Реальность затрат

Честные цифры A/B теста Anthropic:

| Настройка | | --- | | Стоимость | | Время | | Результат | | --- | --- | --- | --- | | Один агент (без harness) | $9 | 20 минут | Интерфейс работает, ядро — сломано | | Полный harness (Opus 4.5) | $200 | 6 часов | Рабочий софт, аккуратный UI, правильная физика |

В 22 раза дороже — чтобы получить реально работающий продукт, а не просто демонстрацию.

Стоит ли? Зависит от того, сколько стоит для вашей команды сбой релиза.

Но это — часть, о которой никто не говорит

Комбинация harness + модели — эволюционная.

$200 harness после обновления модели стоит всего $124.

| Тренд | | --- | | Лучшие модели = проще harness = дешевле запуск = быстрее результат |

Победители 2026 года — это не те, кто пишет лучший код.
Это те, кто проектирует лучшие «ограничения».
И готовы выбросить их, когда они перестают приносить прибыль.

Полное резюме

Что такое harness

  1. Агент = Model + Harness
  2. Model = CPU, Harness = OS
  3. Улучшение harness при той же модели — +13% эффективности

5 продуктов harness

  1. CLAUDE.md / AGENT.md — onboarding-документ агента
  2. JSON feature list — система отслеживания прогресса + тестовая среда
  3. Стандарт инициализации сессии — 7 шагов запуска
  4. Sprint contract — предварительные договорённости перед кодированием
  5. Структурированный шаблон задач — реальные пути файлов, реальные шаблоны

3 школы

  1. OpenAI: проектирование окружения, запуск агента
  2. Anthropic: разделение «делать» и «оценивать»
  3. ThoughtWorks: матрица feedforward/feedback 2×2

5 универсальных принципов

  1. Контекст важнее инструкции
  2. Планирование и выполнение — разделены
  3. Обратная связь — обязательна
  4. Делай только одно за раз
  5. Код — это документация

Парадоксальные моменты

  1. Упадок Harness — то, что было актуально месяц назад, сейчас устарело
  2. Создавайте для удаления — регулярно тестируйте и удаляйте мёртвые компоненты
  3. Реальность затрат — лучшие модели = проще harness = дешевле запуск

Победители 2026 года — это не те, кто пишет лучший код. Это те, кто проектирует лучшие «ограничения» — и готовы их выбросить, когда они перестают приносить прибыль.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено