Почему вам нужно изучать Harness Engineering? Полный разбор 5 продуктов, 3 школ и 5 универсальных принципов

Question

Системный разбор Harness Engineering: 5 продуктов, 3 школы (OpenAI / Anthropic / ThoughtWorks), 5 универсальных принципов, а также почему «Упадок Harness» заставляет вас каждые 6 месяцев сокращать половину дизайна. Эта статья основана на статье @sairahul1, подготовленной и переведённой редакцией.
(Предыстория: Введение в Harness Engineering (AI-управляемая инженерия): последние стандарты программирования OpenAI, позволяющие легко достичь уровня Lv.1)
(Дополнительный фон: Генеральный директор YC делится секретами AI: будущее — у тех, кто умеет строить системы информационного сложного процента)

Содержание статьи

Переключить

1. Определение Harness
1. Метафора ОС
1. Что изменилось в 2026 году
1. Файлы AGENT.md / CLAUDE.md
1. JSON Feature Lists (системы отслеживания прогресса)
- Почему JSON, а не Markdown?
1. Стандарт инициализации сессии
1. Sprint Contracts (контракты спринта)
- Почему это важно
1. Структурированные шаблоны задач
1. Школа OpenAI: приоритет окружения
- Их подход
- Доказательства
1. Школа Anthropic: разделение «делать» и «оценивать»
- Их решение: 3 специализированных агента
- Результаты (A/B тесты)
1. Школа ThoughtWorks: матрица 2×2
- Их инсайты: классификация контроля harness по двум осям
- Матрица 2×2
1. Принцип 1: Контекст важнее инструкции
1. Принцип 2: планирование и выполнение должны быть разделены
1. Принцип 3: Обратная связь — обязательна
1. Принцип 4: делай только одно за раз
1. Принцип 5: Код — это документация
- Практическое значение
1. Упадок Harness (Harness Decay) — реальность
- Вот что такое упадок Harness
1. Создавать для удаления (Build to Delete)
1. Реальность затрат
- Но это — часть, о которой никто не говорит
Полное резюме
- Что такое harness
- 5 продуктов harness
- 3 школы
- 5 универсальных принципов
- Парадоксальные моменты

В феврале 2026 года команда OpenAI выпустила 1 миллион строк производственного кода.

Без единой рукописной строки.

Это — агенты AI, пишущие код.

Человеческий дизайн — это система, которая делает агента надёжным.

Эту систему теперь называют — Harness Engineering.

За несколько недель Anthropic выпустила 3 связанные статьи. ThoughtWorks систематизировала её в рамки. Philipp Schmid из Hugging Face прямо назвал её «самой важной дисциплиной 2026 года».

За 90 дней сформировалась новая инженерная дисциплина. И кроме команд AI infra, почти никто не понял.

Эта статья — объяснение. Без воды, без академической терминологии, только те ментальные модели, которые реально пригодятся.

1. Определение Harness

Самое простое определение от ThoughtWorks:

Agent = Model + Harness

Harness — всё, что вне модели.

Ограничения, удерживающие агента на правильном пути
Обратные связи для обнаружения ошибок
Документы, показывающие, где агент находится
Инструменты, которыми он обладает

Удалить harness → получить просто модель языка, которая догадывается внутри вашего кода.

Добавить правильный harness → систему, способную писать производственный код.

Это название происходит от снаряжения для лошадей. Harness — это упряжь, седло, уздечка — направляют мощное, непредсказуемое животное в полезное русло.

Вы не делаете умнее лошадь, вы создаёте экипировку, которая делает её силу полезной.

2. Метафора ОС

Philipp Schmid предлагает лучший технический образец: представьте это как компьютер.

| Роль | | --- | | Модель | | CPU (исходная вычислительная мощность) | | Контекстное окно | | RAM (ограниченная, быстро исчезающая рабочая память) | | Harness | | ОС (управляет тем, что CPU видит и когда) | | Агент | | Запускаемое приложение |

Ваша модель очень сильна. Но без ОС, которая управляет памятью, планирует задачи, задаёт правила — она просто кусок кремния.

Большинство работают «без операционной системы» — запускают приложения. Поэтому их агент ломается сразу на производственной линии.

3. Что действительно изменилось в 2026 году

LangChain использует один и тот же модель, запуская её дважды на Terminal Bench 2.0:

| Harness | | --- | | Баллы | | --- | --- | | Старый harness | 52.8% | | Новый harness | 66.5% |

Та же модель. Разные harness. Разница — 13.7 процентных пунктов.

Vercel поступила наоборот — урезала инструменты агента на 80%. Результат? Лучше, а не хуже.

Самое неприятное в 2026 году:

Агент никогда не был сложной частью
Harness — это

Если 2025 — год, когда AI-агенты доказывали, что умеют писать код, то 2026 — год, когда стало ясно, что «окружение» важнее «модели».

4. Файл AGENT.md / CLAUDE.md

Самый универсальный продукт harness.

Разбросан по всему коду markdown-файлы. Агент читает их при каждой сессии — как onboarding для нового инженера.

Что в них?

Контекст проекта
Кодовые стандарты
Архитектурные решения
Руководство «как мы делаем»
Текущие задачи

OpenAI зовёт его AGENT.md. Anthropic — CLAUDE.md. Cursor использует .cursorrules.

Разные названия, один принцип. Одна копия на каждый модуль. Обновляется по мере развития проекта.

Без него: агент каждый раз запускается вслепую. Есть — агент работает с информацией.

5. JSON Feature Lists (системы отслеживания прогресса)

Когда агент работает через несколько сессий над целым приложением, его контекстное окно пустое. Как он узнает, что уже сделано?

JSON-файл.

Каждая запись содержит:

Особенность
Как проверить её выполнение
Статус Pass / Fail

При старте сессии агент читает его — выбирает самую приоритетную ошибку → реализует → отмечает как выполненную → коммитит → повторяет.

Почему JSON, а не Markdown?

Anthropic обнаружила: вероятность перезаписать JSON агентом ниже, чем Markdown.

Мелочь, но в сценариях автономной работы 6 часов — критично.

6. Стандарт инициализации сессии

Каждая сессия начинается одинаково. Обязательно.

7-шаговая процедура Anthropic:

Проверка рабочей директории
Чтение git log и прогресс-файлов
Выбор самой важной незавершённой задачи из feature list
Запуск dev-сервера
Запуск базовой E2E проверки
Реализация функции
Коммит с описанием и обновление прогресса

Без этого: первые 20 минут агент разбирается в текущем состоянии, повторяет одни и те же действия. С ним: агент сразу знает, что делать.

7. Sprint Contracts (контракты спринта)

Перед написанием любой строки кода — два агента договариваются.

Generator agent предлагает:

Что делать
Как проверить успех

Evaluator agent проверяет:

Полноту предложения
Четкость критериев успеха

Если оба согласны — начинается реализация.

Это — дизайн-ревью. Только оба — AI.

Почему это важно

Когда в одном цикле агент планирует и выполняет, результат ненадёжен. Даже AI, выполняя оба этапа, значительно повышает качество результата.

8. Структурированные шаблоны задач

Перед написанием кода harness сначала анализирует реальный codebase.

Он создаёт заземлённую карту воздействия:

Реальные пути файлов (а не иллюзии)
Реальные имена символов
Используемые шаблоны
Конкретные критерии приёмки

Затем начинается реализация.

Звучит очевидно. Но большинство команд пропускают этот шаг.

Агент угадывает структуру файлов, придумывает несуществующие API, делает что-то, что не сочетается с codebase.

Заземлённый контекст — вначале, затем выполнение — качество результата значительно выше.

9. Школа OpenAI: приоритет окружения

Команда Codex OpenAI столкнулась с абсурдной проблемой:

1 миллион строк производственного кода — без единой рукописной строки.

На таком масштабе невозможно делать ручной ревью. Поэтому — они не делают этого.

Взамен — они проектируют окружение так, чтобы агент сразу выдавал «поддающиеся проверке» результаты.

Их подход

Строгий поток зависимостей (Types → Config → Repo → Service → Runtime → UI)
Весь код разбросан по AGENT.md
Агент интегрирован в CI/CD

Философия: Проектируйте окружение. Потом запускайте агента.

Доказательства

Приложение Sora для Android. 4 инженера. 28 дней. Первое место в Play Store. 99.9% без сбоев.

Codex обрабатывает 70% внутренних PR каждую неделю.

10. Школа Anthropic: разделение «делать» и «оценивать»

Anthropic сталкивается с другой проблемой:

Когда агент оценивает свои результаты, он хвалит себя — даже если по мнению человека качество посредственное.

Самооценка — не работает. Агент — и студент, и учитель, и ставит себе «отлично» по всем параметрам.

Их решение: 3 специализированных агента

| Агент | | --- | | Работа | | --- | --- | | Planner | | Преобразует 2-словный запрос в полное техническое задание | | Generator | | Реализует по одному спринту | | Evaluator | | Автоматизированное тестирование через браузер, имитируя реального пользователя |

Инсайт: сделать «независимый» evaluator более придирчивым — гораздо проще, чем заставлять generator критиковать свою работу.

Результаты (A/B тесты)

| Настройка | | --- | | Стоимость | | Время | | Результат | | --- | --- | --- | --- | | Один агент (без harness) | $9 | 20 минут | Плохое приложение | | Полный harness | $200 | 6 часов | Рабочий софт + аккуратный UI |

11. Школа ThoughtWorks: матрица 2×2

ThoughtWorks подходит с другой стороны — они не создают продукт, а изучают 50+ команд, терпящих неудачу в одинаковых местах.

Их инсайт: классификация harness по двум осям

Ось 1: Когда работает?

Feedforward = до действий агента (направляющие)
Feedback = после действий агента (датчики)

Ось 2: Как работает?

Computational = детерминированно, миллисекундно (линтер, типо-детектор, тесты)
Inferential = с помощью LLM, за секунды (код-ревью агент, семантический анализ)

Матрица 2×2

| | | --- | | Feedforward (направляющие) | | Feedback (датчики) | | --- | --- | --- | | Computational | | тип-системы, линтеры, архитектурные правила | | тестовые наборы, покрытие, мутационные тесты | | Inferential | | спецификации, ограничения | | LLM для ревью кода, поведенческие верификаторы |

Feedforward и feedback — нельзя использовать отдельно. Нужно оба.

12. Принцип 1: Контекст важнее инструкции

Разные команды, одно открытие:

OpenAI: даёт карту, а не 1000 страниц руководства
Anthropic: JSON список признаков + прогресс-файл, чтобы агент всегда знал, где он
Red Hat: перед любой задачей анализирует реальный codebase
ThoughtWorks: называют это «Feedforward»

Привязать агента к «текущему состоянию мира» всегда важнее, чем абстрактно говорить, что делать.

Привязка к реальным файлам → адаптация к коду. От расплывчатых описаний — к иллюзиям API и изобретению новых путей.

Перед тем, как начать писать, убедитесь, что агент знает, где он.

13. Принцип 2: планирование и выполнение должны быть разделены

OpenAI: человек проектирует окружение, агент выполняет
Anthropic: Planner агент перед запуском Generator
ThoughtWorks: жесткое разделение — этап планирования и этап реализации
Red Hat: фазы 1 (карта воздействия) и 2 (реализация) — с жестким разделением

Каждая школа пришла к выводу: если агент одновременно планирует и выполняет, результат ненадёжен.

Планирование — не обязательно должно делать человек, но оно должно быть отдельным шагом, и его результат — проверен.

14. Принцип 3: Обратная связь — обязательна

OpenAI: агент интегрирован в CI/CD и системы наблюдения
Anthropic: отдельный Evaluator агент + автоматизация через браузер
ThoughtWorks: формализовано как «датчики», предупреждающие, что только feedforward никогда не подтвердит эффективность инструкций

Три подхода по принципу:

| Школа | | --- | | Источник обратной связи | | --- | --- | | OpenAI | | Автоматизированное тестирование + CI | | Anthropic | | Другой LLM | | ThoughtWorks | | Использование обоих вместе |

Различия — кто даёт обратную связь. Но в вопросе «нужна ли она» — нет разногласий.

Без обратной связи harness — это просто prompt с несколькими шагами.

15. Принцип 4: делай только одно за раз

OpenAI: разбей цель на мелкие части, глубина приоритетов
Anthropic: строго «один функционал за спринт», завершай и коммить
ThoughtWorks: этапы (pre-integration → post-integration → continuous monitoring)

Много задач одновременно — это:

Быстро исчерпать контекст
Потерять связность
Тихо отказаться от требований

Обычно Anthropic: читаешь прогресс → выбираешь один feature → реализуешь → коммитишь → повторяешь.

«Принудительный постепенный подход» — общий признак успешных harness.

16. Принцип 5: Код — это документация

OpenAI: AGENT.md встроен в репозиторий
Anthropic: список признаков, прогресс-файлы, история git — всё это обеспечивает непрерывность агента
ThoughtWorks: оценивает «harnessability» — читаемость codebase для агента

Никто не будет держать отдельную базу знаний для агента. Репозиторий — это единственная истина.

Если правило, ограничение или архитектурное решение не в коде — агент этого не знает.

Практическое значение

Команды, инвестирующие в организацию кода, — бесплатно получают лучшее поведение агента
Грязный репозиторий + AI агент = масштабируемый хаос

17. Упадок Harness (Harness Decay) — реальность

Когда Anthropic обновила Opus с 4.5 до 4.6 — разбиение спринтов (которые раньше было обязательно) стало тяжёлым бременем.

Модель улучшилась — и эта часть стала избыточной.

В марте ещё работали компоненты harness, а в апреле — уже только overhead.

Затем вышел Opus 4.7 — модель начала проверять свои выводы, роль Evaluator сократилась.

Вот что такое упадок Harness

Каждый компонент в harness содержит предположения о том, что модель не умеет делать. Когда модель улучшается — эти предположения устаревают — компоненты превращаются в overhead.

| Версия модели | | --- | | Статус harness | | --- | --- | | Opus 4.5 | | Разбиение спринтов + оценка каждого спринта | | Opus 4.6 | | Без разбиения спринтов + однократная оценка (сэкономлено 38% стоимости) | | Opus 4.7 | | Модель сама проверяет — роль evaluator сокращается |

Зачем строить для удаления (Build to Delete)

Philipp Schmid советует: «Стройте так, чтобы можно было удалить».

При проектировании каждого компонента harness — делайте его легко удаляемым.

Регулярно тестируйте — выключите его и посмотрите, ухудшится ли качество.
Если нет — удаляйте.

| Команды | | --- | | Рефакторинг за 6 месяцев | | --- | --- | | Manus | | 5 раз рефакторили harness | | LangChain | | 3 раза за год | | Vercel | | Удалили 80% инструментов — результат лучше |

Это — не признак плохой инженерии. Это — естественный результат «быстрого прогресса моделей».

Мёртвые компоненты harness каждый запуск тратят токены и не дают никакой пользы — просто пустая трата.

19. Реальность затрат

Честные цифры A/B теста Anthropic:

| Настройка | | --- | | Стоимость | | Время | | Результат | | --- | --- | --- | --- | | Один агент (без harness) | $9 | 20 минут | Интерфейс работает, ядро — сломано | | Полный harness (Opus 4.5) | $200 | 6 часов | Рабочий софт, аккуратный UI, правильная физика |

В 22 раза дороже — чтобы получить реально работающий продукт, а не просто демонстрацию.

Стоит ли? Зависит от того, сколько стоит для вашей команды сбой релиза.

Но это — часть, о которой никто не говорит

Комбинация harness + модели — эволюционная.

$200 harness после обновления модели стоит всего $124.

| Тренд | | --- | | Лучшие модели = проще harness = дешевле запуск = быстрее результат |

Победители 2026 года — это не те, кто пишет лучший код.
Это те, кто проектирует лучшие «ограничения».
И готовы выбросить их, когда они перестают приносить прибыль.

Полное резюме

Что такое harness

Агент = Model + Harness
Model = CPU, Harness = OS
Улучшение harness при той же модели — +13% эффективности

5 продуктов harness

CLAUDE.md / AGENT.md — onboarding-документ агента
JSON feature list — система отслеживания прогресса + тестовая среда
Стандарт инициализации сессии — 7 шагов запуска
Sprint contract — предварительные договорённости перед кодированием
Структурированный шаблон задач — реальные пути файлов, реальные шаблоны

3 школы

OpenAI: проектирование окружения, запуск агента
Anthropic: разделение «делать» и «оценивать»
ThoughtWorks: матрица feedforward/feedback 2×2

5 универсальных принципов

Контекст важнее инструкции
Планирование и выполнение — разделены
Обратная связь — обязательна
Делай только одно за раз
Код — это документация

Парадоксальные моменты

Упадок Harness — то, что было актуально месяц назад, сейчас устарело
Создавайте для удаления — регулярно тестируйте и удаляйте мёртвые компоненты
Реальность затрат — лучшие модели = проще harness = дешевле запуск

Победители 2026 года — это не те, кто пишет лучший код. Это те, кто проектирует лучшие «ограничения» — и готовы их выбросить, когда они перестают приносить прибыль.

Посмотреть Оригинал