瘦Harness,胖Skill:100倍AI生产力的真正来源

Заголовок оригинала: Тонкая рамка, богатые навыки
Автор оригинала: Гарри Тан
Перевод: Пегги, BlockBeats

Автор оригинала: BlockBeats

Источник оригинала:

Репост: Mars Finance

Редакторский комментарий: Когда «более мощная модель» становится стандартным ответом в индустрии, эта статья предлагает иное мнение: по-настоящему разрыв в производительности в 10, 100 или даже 1000 раз создаёт не сама модель, а целая система, построенная вокруг модели.

Автор статьи Гарри Тан, в настоящее время президент и CEO Y Combinator, давно занимается AI и экосистемой ранних стартапов. Он предложил концепцию «жирных навыков + тонкой рамки», разбивая применение ИИ на ключевые компоненты: навыки, исполнительная структура, маршрутизация контекста, распределение задач и сжатие знаний.

В рамках этой системы модель больше не является всей способностью, а лишь исполнительным элементом системы; по-настоящему определяющим качество результата является то, как вы организуете контекст, закрепляете процессы и проводите границу между «суждением» и «вычислением».

Более того, этот подход не ограничивается концепциями — он подтверждён в реальных сценариях: при обработке данных и задач сопоставления тысяч предпринимателей система через цикл «чтение — структурирование — суждение — обратная запись» достигает возможностей, близких к человеческому аналитика, и при этом продолжает самооптимизироваться без переписывания кода. Такая «обучающаяся система» превращает ИИ из разового инструмента в инфраструктуру с эффектом сложного процента.

Отсюда ясно вытекает главный совет: в эпоху ИИ разрыв в эффективности больше не зависит от использования самой передовой модели, а от построения системы, способной постоянно накапливать способности и автоматически эволюционировать.

Ниже — оригинальный текст:

Гарри Йегге говорит, что использование AI-агентов для программирования «эффективность в 10-100 раз выше, чем у инженеров, пишущих код только с помощью Cursor и чат-инструментов, примерно в 2005 году Google инженеры были в 1000 раз эффективнее».

Это не преувеличение. Я видел это лично и переживал. Но когда люди слышат о таком разрыве, они склонны приписывать его неправильному фактору: более мощной модели, более умному Claude, большему количеству параметров.

На самом деле, человек, повысивший эффективность в 2 раза, и тот, кто достиг 100-кратного роста, используют один и тот же набор моделей. Разница не в «интеллекте», а в «архитектуре», и эта архитектура настолько проста, что её можно записать на карточке.

Harness (исполнительная структура) — это и есть продукт.

31 марта 2026 года Anthropic неожиданно выпустила полный исходный код Claude Code на npm — всего 512 тысяч строк. Я прочитал его полностью. Это подтвердило то, о чём я постоянно говорю в YC (Y Combinator): настоящий секрет не в модели, а в «слое, обёртывающем модель».

Реальный контекст репозитория, кеш Prompt, инструменты для конкретных задач, максимально сжатие избыточного контекста, структурированная память сессий, параллельные подагенты — всё это не делает модель умнее. Но оно обеспечивает «правильный» контекст для модели в «правильное время», избегая засорения нерелевантной информацией.

Этот «оболочный» слой называется harness (исполнительная структура). И главный вопрос для создателей ИИ — что должно входить в harness, а что оставаться вне его?

На самом деле, есть очень конкретный ответ — я называю его: тонкая рамка (thin harness), богатые навыки (fat skills).

Пять определений

Барьеры никогда не лежат в интеллекте модели. Модель уже умеет делать выводы, объединять информацию, писать код.

Проблема в том, что она не понимает ваши данные — вашу схему, ваши договорённости, конкретную форму задачи. И эти пять определений как раз предназначены для решения этой проблемы.

  1. Skill file (файл навыков)

Файл навыков — это переиспользуемый markdown-документ, который учит модель «как сделать одно дело». Важно: он не говорит ей «что делать» — это оставляется пользователю. Навык задаёт процесс.

Ключевой момент, который многие игнорируют: файл навыков — это как вызов метода. Он может принимать параметры. Можно вызывать его с разными параметрами. Одна и та же последовательность, при передаче разных параметров, демонстрирует разные способности.

Например, есть навык /investigate. Он включает семь шагов: определение данных, построение таймлайна, диаризация каждого документа, обобщение, аргументация с обеих сторон, цитирование источников. Он принимает три параметра: TARGET, QUESTION и DATASET.

Если указать его на специалиста по безопасности и 2,1 миллиона судебных писем, он станет аналитиком медицинских исследований, определяющим, подавлен ли информатор.

Если указать его на компанию-оболочку и отчёты FEC, он станет юристом-следователем, отслеживающим политические пожертвования.

Это всё один и тот же навык. Те же семь шагов. Всё тот же markdown-файл. Описание навыка — это процесс суждения, а реализуется он через параметры, передаваемые при вызове.

Это не prompt engineering, а дизайн программного обеспечения: только здесь markdown — язык программирования, а человеческое суждение — среда выполнения. На самом деле, markdown даже лучше жёсткого исходного кода, потому что он описывает процесс, суждение и контекст — именно то, что модель «понимает» лучше всего.

  1. Harness (исполнительная структура)

Harness — это слой программы, который управляет запуском LLM. Он делает всего четыре вещи: запускает модель в цикле, читает и пишет файлы, управляет контекстом и обеспечивает безопасность.

Вот и всё. Это «тонко» (thin).

Обратный пример — толстый harness, тонкие навыки.

Вы наверняка видели такие системы: более 40 инструментов, описание которых занимает половину окна контекста; универсальный «бог-инструмент», который делает один вызов MCP за другим за 2-5 секунд; или отдельные API-эндпоинты, упакованные в отдельные инструменты. В результате — использование токенов увеличивается в три раза, задержка — тоже, а вероятность ошибок — в три раза.

Идеальный подход — использовать специально созданные, быстрые и узкоспециализированные инструменты.

Например, Playwright CLI, где каждая операция браузера занимает всего 100 миллисекунд; а не полноценный Chrome MCP, где скриншот, поиск, клик, ожидание и чтение требуют 15 секунд. Первый в 75 раз быстрее.

Современное ПО уже не требует «утяжеления». Всё, что нужно — строить только то, что действительно необходимо, и только это.

  1. Resolver (解析器)

Resolver — это по сути таблица маршрутизации контекста. Когда появляется задача типа X, сначала загружается документ Y. Skills говорит модели «что делать», а resolvers — «когда что загружать».

Например, разработчик изменил prompt. Без resolver он сразу выпускает обновление. С resolver модель сначала читает docs/EVALS.md, где описано: сначала запустить тесты оценки, сравнить баллы; если точность снизилась более чем на 2%, откатить и разобраться. Этот разработчик даже не знал о существовании тестов оценки. Именно resolver в нужный момент подгружает правильный контекст.

Claude Code включает встроенный resolver. У каждого навыка есть поле description, и модель автоматически сопоставляет намерения пользователя с описанием навыка. Вам даже не нужно помнить, существует ли навык /ship — description сам по себе является resolver.

Честно скажу: раньше мой CLAUDE.md занимал 20 тысяч строк. Там были все особенности, паттерны, мои уроки. Абсурд. Качество внимания модели резко падало. Claude Code даже заставил меня его удалить.

Последнее решение — около 200 строк, только ссылки на документы. Когда нужна конкретная документация — resolver подгружает именно её. Так 20 тысяч строк знаний остаются доступными, но не засоряют контекст.

  1. Latent и deterministic (潜在空间 и детерминизм)

В вашей системе каждый шаг — либо относится к latent space, либо к deterministic. И смешивать их — одна из самых распространённых ошибок в проектировании агента.

·Latent space — место, где находится интеллект. Модель читает, понимает, делает выводы, принимает решения. Тут работают: суждения, обобщения, распознавание шаблонов.

·Deterministic — место, где находится надёжность. При одинаковом вводе всегда одинаковый вывод. SQL-запросы, скомпилированный код, арифметика — всё из этой области.

Например, LLM может помочь вам расставить 8 человек за столом, учитывая характер и социальные связи. Но если нужно разместить 800 человек, он выдаст «правильную» таблицу, которая на самом деле — полная ерунда. Потому что это уже не задача latent space, а задача оптимизации, которая должна решаться в детерминированной части.

Самая плохая система — та, что неправильно размещает работу по обе стороны границы. Самая хорошая — чётко разделяет эти зоны.

  1. Diarization (структурирование / тематический портрет)

Diarization — это ключевой шаг, который реально даёт ценность AI в реальной работе с знаниями.

Он означает: модель читает все материалы по теме, а затем создаёт структурированный портрет. Одной страницей сжать оценки из десятков или сотен документов.

Это не то, что может SQL-запрос или RAG-проход. Модель должна действительно читать, одновременно держать в голове противоречивую информацию, замечать изменения, и объединять всё в структурированный интеллект.

Это — разница между запросами к базе данных и аналитической презентацией.

Эта архитектура

Эти пять концепций можно объединить в очень простую трёхуровневую архитектуру:

· Верхний уровень — жирные навыки (fat skills): markdown-процессы, содержащие суждения, методологии и знания области. 90% ценности — именно здесь.
· Средний уровень — тонкий CLI harness: около 200 строк кода, вход JSON, выход текст, по умолчанию только чтение.
· Нижний уровень — ваше приложение: QueryDB, ReadDoc, Search, Timeline — это надёжная инфраструктура.

Ключевой принцип — иметь направление: максимально переносить «интеллект» в навыки; максимально сводить «исполнение» к надёжным инструментам; держать harness лёгким.

Результат — при улучшении модели все навыки автоматически усиливаются; а базовая надёжная инфраструктура остаётся стабильной.

Обучающаяся система

Теперь я покажу на реальной системе, которую мы строим в YC, как эти пять определений работают вместе.

Июль 2026 года, Chase Center. Startup School — 6000 основателей. У каждого структурированные заявки, ответы на анкеты, транскрипты 1:1 с наставниками и публичные сигналы: посты на X, коммиты на GitHub, использование Claude Code (по скорости разработки).

Традиционный подход — команда из 15 человек читает заявки по очереди, полагаясь на интуицию, и обновляет таблицу.

Этот метод ещё работает при 200 участниках, но при 6000 — полностью выходит из строя. Ни один человек не способен одновременно держать в голове столько портретов и понять, что три лучших кандидата в инфраструктуру AI — это основатель инструментов из Лагоса, регуляторный предприниматель из Сингапура и разработчик CLI из Бруклина — и при этом в разных 1:1 они описывают одну и ту же проблему по-разному.

Модель может. Вот как:

Enrichment (обогащение информации)

Есть навык /enrich-founder, который подтягивает все источники данных, делает диаризацию и отмечает разницу между «что говорит основатель» и «что реально делает».

Нижняя надёжная инфраструктура занимается SQL-запросами, данными GitHub, браузерным тестированием Demo URL, сбором соцсигналов, запросами CrustData. Запуск — раз в сутки. Портреты 6000 основателей всегда актуальны.

Выход диаризации способен выявить информацию, которую невозможно обнаружить простым поиском по ключевым словам:

Такая «разница между словами и действиями» требует одновременного чтения истории коммитов GitHub, заявок и диалогов, а также их интеграции. Ни embedding, ни фильтрация по ключевым словам не справятся. Модель должна полностью читать и делать выводы. (Это именно задача, которая должна решаться в latent space!)

Matching (сопоставление)

Здесь «навык = вызов метода» показывает свою силу.

Один и тот же навык /match можно вызвать трижды, получая разные стратегии:

/match-breakout: кластеризация 1200 человек по областям, по группам по 30 человек (embedding + детерминированное распределение)
/match-lunch: обработка 600 человек, случайное межобластное сопоставление, по 8 человек за столом, без повторений — сначала модель генерирует темы, затем — алгоритм размещения
/match-live: в реальном времени, 200 мс на пару, исключая уже знакомых

Модель также может делать выводы, которые недоступны классическим алгоритмам кластеризации:

«Santos и Oram — оба в инфраструктуре AI, но не конкуренты — Santos занимается затратами, Oram — оркестрацией. Их нужно объединить в одну группу.»
«Kim в заявке указал разработку инструментов, но 1:1 диалог показывает, что он занимается автоматизацией SOC2. Нужно перепрофилировать в FinTech / RegTech.»

Такие переотнесения невозможны без полного чтения портретов.

Обратная связь (learning loop)

После мероприятия навык /improve читает результаты NPS-опросов, диаризирует отзывы «так себе» — не плохие, а «почти хорошо» — и выявляет паттерны.

Затем он предлагает новые правила и записывает их в навыки сопоставления:

Когда участник говорит «AI infrastructure», а его код более чем на 80% — платёжный модуль: → классифицировать как FinTech, а не AI Infra
Если в одной группе уже есть знакомые: → снизить вес совпадения, приоритет — новые связи

Эти правила автоматически внедряются при следующем запуске. Навыки «самоулучшаются». В июле «так себе» оценка составляла 12%; на следующем мероприятии — 4%.

Навыки запомнили, что значит «так себе», и система становится лучше без переписывания кода.

Этот цикл можно перенести в любую область:

поиск → чтение → диаризация → подсчёт → обобщение

затем: исследование → опрос → диаризация → переписывание навыков

Если говорить о самом ценном цикле 2026 года — это именно он. Он применим практически к любым знаниям и рабочим сценариям.

Навыки — постоянное улучшение

Недавно я в X опубликовал команду для OpenClaw, которая вызвала большой отклик:

Это сообщение набрало тысячи лайков и более двух тысяч сохранений. Многие подумали, что это трюк prompt engineering.

На самом деле, это — та же архитектура, о которой шла речь выше. Каждый добавленный навык — это постоянное улучшение системы. Он не деградирует, не забывается. Он автоматически запускается в 3 часа ночи. И когда выйдет следующее поколение моделей, все навыки мгновенно станут сильнее — улучшится способность в latent space, а deterministic останется стабильным.

Это и есть источник 100-кратной эффективности, о котором говорит Йегге.

Не более умная модель, а: богатые навыки, тонкая рамка (Thin Harness, Fat Skills), и дисциплина, превращающая всё в способности.

Система будет расти по сложному проценту. Построил — и работает долго.

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить