null Письмо | Лабораторія AI «霞光»Останнім часом у сфері AI-технологій активно обговорюється тема, що компанія Anthropic випадково розкрила повний вихідний код свого інструменту для програмування AI Claude Code, кількість рядків якого перевищує 512 000. Цей витік коду, хоча й не демонструє революційних нових алгоритмів, повністю відкрив практичні аспекти агентських проектів провідних компаній.10 квітня засновник Pokee.ai Чжу Чжечінг взяв участь у закритому онлайн-зустрічі «Deep Talk with Builders», організованій фондом JinQiu, де він поділився темою «З огляду на витік Claude Code: Harness Engineering та сучасний пост-навчальний етап».Він вважає, що ця архітектура Anthropic дуже добре підходить для моделі Claude, і прямий перехід до інших моделей є ефективним.

MarsBitNews

2026-04-15 10:14:45

null

Автор | Лабораторія AI-експериментів “霞光”

Нещодавно в технічній спільноті штучного інтелекту обговорювалися теми, зокрема, компанія Anthropic несподівано оприлюднила повний вихідний код свого інструменту для програмування AI Claude Code, що налічує понад 512 тисяч рядків. Хоча цей витік не демонстрував революційних нових алгоритмів, він повністю відкрив практичні підходи провідних компаній до розробки агентів.

10 квітня засновник Pokee.ai Чжу Чжечінг взяв участь у закритій онлайн-зустрічі “Deep Talk with Builders”, організованій фондом JinQiu, де поділився темою “З витоку Claude Code: Harness Engineering та сучасний пост-навчальний підхід”.

Він вважає, що архітектура Anthropic тісно адаптована до моделі Claude, і прямий перехід на інші моделі може суттєво знизити ефективність, але ідеї дизайну Harness, компонентна структура та глибока інтеграція з пост-навчанням мають велику цінність для власних агентів.

За останні три роки великі моделі еволюціонували від простих API до ключових компонентів продукту; галузь перейшла від “компаній з оболонками моделей” до складних систем агентів, керованих Harness — модель вже не є єдиним ядром, важливі інструменти, середовище виконання, управління контекстом та механізми валідації визначають кінцевий результат.

Що таке Harness? Це буквально “запаска” або “повідка”. Якщо велика модель — це натренована кінь, що чекає на запуск, то Harness — це повідка, якою людина керує цією кіньми. З входженням штучного інтелекту у еру Harness, справжня цінність для користувача полягає не лише у моделі, а й поза нею — у тому, як знайти зручну повідку і мати чітке уявлення про ціль.

Ця стаття базується на доповіді Чжу Чжечінга, підсумована AI та перевірена вручну, щоб максимально передати суть цієї презентації.

Harness можна розуміти як цілісну інженерну архітектуру для керування моделлю, її головна функція — максимізувати можливості моделі, а не просто генерувати токени. Архітектура Claude Code чітко поділена на шість основних компонентів:

Багаторівневий System Prompt (системне підказування)

Сучасний System Prompt вже не обмежується “ти корисний помічник”, а являє собою масштабний, багаторівневий, кешований набір команд:

Фіксована кешована частина: містить ідентифікацію агента, інструкції Co, визначення інструментів, тональність, політики безпеки, обсяг до десятків тисяч токенів, будь-які зміни призводять до втрати кешу та значних витрат часу і ресурсів;

Динамічна частина: стан сесії, поточний час, доступ до файлів, залежності кодових пакетів тощо, що змінюються залежно від задачі;

Практика: через A/B тестування тонко налаштовують Prompt для різних користувачів, щоб підвищити точність виконання задач і зменшити кількість помилок.

Порівняння: архітектура Claude Code більш проста, з меншим навантаженням на увагу моделі та меншими галюцинаціями; архітектура OpenAI складніша, потребує обробки великої кількості файлів і більш схильна до пам’яті галюцинацій.

Schema інструментів (Tool Schema)

Визначення інструментів безпосередньо впливає на точність викликів, ключові моменти:

Вбудовані основні інструменти: читання/редагування файлів, Bash, веб-пакети тощо — вже налаштовані під час тренування моделі, під час inference додаткові описи інструментів не потрібні;

Доступ і безпека: у корпоративних сценаріях заборонено стороннім інструментам без відповідних прав, щоб уникнути зловмисних дій;

Паралельні виклики інструментів: підвищують швидкість виконання, але у пост-навчанні дуже складно — паралельні виклики без залежностей у часі можуть спричинити розбіжності у порядку, сигнал нагороди важко узгодити.

Цикл викликів інструментів (Tool Call Loop)

Це найважливіша частина Harness, що поєднує тренування і inference:

Режим планування (Plan Mode): довгі ланцюги задач спочатку розуміють завдання, систематизують файлову систему, визначають доступні інструменти, створюють план виконання, потім переходять до його реалізації; уникають безглуздого проб і помилок (наприклад, повторних викликів недоступних пошукових систем), зменшують витрати токенів;

Режим виконання (Execute Mode): у sandbox-оточенні виконується заплановане використання інструментів, отримані результати формують зворотний зв’язок;

Ключова цінність: усуває помилки на довгих ланцюгах, знижує вартість повторних спроб, але ускладнює тренування планувальних навичок — сигнал нагороди за якість плану легко засмічують шуми у процесі виконання.

Менеджер контексту (Context Manager)

Ефективне використання контексту з мільйонами токенів:

Використання вказівників (pointer-based memory): зберігає не весь вміст, а лише посилання на файли та тематичні мітки;

Автоматичне об’єднання, унікалізація та зв’язки файлів у фоновому режимі;

Поточний стан: ще на стадії гіпотез, не здатний ідеально вирішити проблему багатофайлового міжланцюгового мислення (наприклад, пропущені зв’язки), немає кінцевого оптимального рішення.

Підагент (Sub Agent)

Поширена співпраця багатьох агентів без теоретичного обґрунтування: відсутні спільні цілі, універсальні алгоритми тренування, тому кожен навчається самостійно і працює “як попало”.

Архітектура “головний — підагенти” — це ієрархічне підсилюване навчання:

Головний агент визначає підзадачі (Options), завершальні стани яких стають стартовими для підагентів;

Спільний KV-кеш і контекст, підагенти виконують свої частини, додаючи результати без додаткових токенів, що значно дешевше, ніж послідовне виконання;

Приклади: підходи ByteDance ContextFormer та інші.

Валідаційні хуки (Verification Hooks)

Вирішують проблему “самовиправлення” моделі та фальсифікації результатів:

Моделі мають схильність до самовиправдання і переоцінки своїх здобутків, що може призводити до “брехні” або галюцинацій;

Рішення: додавання бекенд-класифікатора, який дивиться лише на результати інструментів і ігнорує текст, згенерований моделлю, щоб об’єктивно перевірити правильність;

Мета: без необхідності повністю перевіряти нагороду, забезпечити легкий і елегантний механізм перевірки.

Традиційне навчання RL і inference-середовища розділені, але Harness забезпечує інтеграцію: послідовність викликів інструментів = траєкторія, тестування і класифікація — сигнал нагороди, завдання користувача — повний епізод.

На основі цих шести компонентів пост-навчання (Post-training) формуються шість ключових напрямків:

Вплив системних підказок (System Prompt) на поведінку

System Prompt визначає цілі задачі, бюджет токенів і стратегію використання інструментів, значно обмежуючи простір дій моделі, що дозволяє RL навчатися у межах обмеженого спектра оптимальних сценаріїв. Можна створювати системи оцінки на основі правил у System Prompt, щоб модель у більш чистому і менш розгалуженому процесі навчання наближалася до кінцевого енд-ту-енд, стабільно генеруючи очікувану поведінку.

Тренування довгих ланцюгів викликів інструментів

Відмовляючись від традиційного “одношагового” навчання, застосовують повний траєкторійний підхід:

Запис кожного кроку, отримання нагороди за процес і за кінцевий результат;

Зосередженість на стабільності довгих ланцюгів, щоб забезпечити загальну точність сотень викликів інструментів, а не лише правильність окремих кроків.

Інтеграція планування і виконання (Plan-Execute)

Harness усуває шум між плануванням і виконанням:

Заздалегідь фіксує інструментальні ланцюги без додаткового людського втручання;

Результати виконання перевіряються об’єктивно за допомогою класифікатора, сигнал нагороди стає більш чітким;

Дозволяє тренувати здатність до планування, уникаючи “просто виконуй, не плануючи” — грубих підходів.

Спеціальне стиснення пам’яті (Memory Compression)

Зменшення обсягу контексту як окреме завдання: стиснення вихідних даних моделі для збереження ключової інформації, що не погіршує успіху downstream-завдань.

Координація підагентів (Sub Agent)

Для сценаріїв з наддовгим виводом (код, документи на мільйон токенів):

Головний агент не генерує контент напряму, а координує підагентів, розподіляючи завдання і промпти;

Після паралельного виконання підагенти об’єднують результати, головний агент виконує перевірку;

Залежність від Harness для управління процесами, щоб уникнути конфліктів читання/запису і збоїв.

Мультицільове підсилене навчання (Multi-objective Reinforcement Learning)

Сучасний RL pipeline значно ускладнюється, вимагаючи одночасної оптимізації шести модулів:

Без галюцинацій при викликах інструментів, точна класифікація, ефективне стиснення контексту, безперешкодна робота багатьох агентів, раціональне планування, надійна валідація;

Галузь рухається від алгоритмічного злиття до різноманітних підходів, кожен з яких потребує власних алгоритмів тренування, а мультицільова інтеграція стає ключовою проблемою.

Перш за все, змінюється попит на кадри. Prompt Engineering вже не є єдиною ключовою компетенцією, оскільки правильне використання Harness може виконати 70% роботи. Тому цінуватимуться фахівці з глибоким розумінням AI, бекенд-інженерії та інфраструктури, тоді як чисті Prompt-інженери втратять конкурентоспроможність.

По-друге, змінюється ринок. Після тиску з боку виробників моделей і вертикальних компаній, залишилися лише два шляхи: володіти провідною моделлю і інфраструктурою або мати унікальні дані/експертизу у вузьких сферах (наприклад, високочастотна торгівля, галузеві знання).

Третє, впровадження агентів стає приватним, високобезпечним і цілком інтегрованим. Для компаній важливо використовувати вже готові рішення Harness, адаптуючи їх під конкретні сценарії, зосереджуючись на безпеці та приватності, щоб досягти масштабного комерційного застосування агентів.

Головна цінність витоку Claude Code — не у коді, а у тому, що він показує: агент вже перейшов у еру Harness-управління. Модель — це лише база, тоді як інженерна архітектура, середовище виконання, багатоголові системи та механізми валідації визначають потенціал і межі розвитку.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
GatePreIPOsLaunchesWithSpaceX
114.09K Популярність
#
GateMarchTransparencyReport
39.66K Популярність
#
IsraelStrikesIranBTCPlunges
29.69K Популярність
#
GoldmanSachsFilesBitcoinIncomeETF
773.94K Популярність
#
USBlocksStraitofHormuz
746.12K Популярність

Закріпити

карта сайту

Агент увійшов у еру керування Harness

Популярні теми

GatePreIPOsLaunchesWithSpaceX

GateMarchTransparencyReport

IsraelStrikesIranBTCPlunges

GoldmanSachsFilesBitcoinIncomeETF

USBlocksStraitofHormuz

Закріпити