Клод і Codex стають все дурнішими? Тому що ваш контекст занадто об'ємний

Question

Звідки взятися контролю над контекстом, обробка тенденцій AI до угодництва, до визначення умов завершення завдання — це наразі найчіткіше викладена практика інженерії Claude/Codex.

Автор: sysls

Компіляція: Deep潮 TechFlow

Гід по Deep潮: розробник-блогер sysls із 2,6 мільйонами підписників написав довгу статтю з практичними порадами, яку поширили 827 людей, поставили лайків 7000. Основна ідея — швидше за все, ваші плагіни, системи пам’яті та різні harness заважають вам. У цій статті немає моралі, лише практичні принципи, зібрані з реальних проектів — від контролю контексту, обробки тенденцій AI до визначення умов завершення завдання. Це найчіткіше викладена практика інженерії Claude/Codex.

Повний текст:

Вступ

Ви — розробник, щодня користуєтеся Claude і Codex CLI, щодня думаєте, чи вичавили ви з них усе можливе. Іноді бачите, як вони роблять дурниці, і не розумієте, чому деякі люди, здається, будують ракети на базі AI, а ви навіть не можете звести дві камінці.

Ви думаєте, що проблема у ваших harness, плагінах, терміналі тощо. Ви використовуєте beads, opencode, zep, ваш CLAUDE.md має 26000 рядків. Але що б ви не робили, не можете зрозуміти, чому віддаляєтеся від раю, тоді як інші граються з ангелами.

Саме цю статтю ви й чекали.

До речі, я не маю вигоди. Я кажу, що CLAUDE.md включає AGENT.md, і що Claude — це і Claude, і Codex, обидва я активно використовую.

За останні місяці я помітив цікаву річ: майже ніхто не знає, як максимально розкрити потенціал агентів.

Здається, є кілька людей, які можуть створювати цілі світи з агентів, решта ж блукає у морі інструментів, страждаючи від синдрома вибору — думає, що знайде правильний пакет, навик або harness і розблокує AGI.

Сьогодні я хочу все це зламати, залишивши вам просту і чесну фразу, і почати звідти. Вам не потрібен найновіший harness, не потрібно сотні пакетів, і зовсім не потрібно читати мільйон статей, щоб залишатися конкурентоспроможним. Насправді, ваша пристрасть може бути шкідливою.

Я не для туризму — я почав використовувати агентів, коли вони ще ледве могли писати код. Я перепробував усі пакети, harness, парадигми. Я писав фабрики агентів для сигналів, інфраструктури і потоків даних — не іграшки, а реальні кейси у виробничому середовищі. Після всього цього…

сьогодні я використовую майже найпростіший конфіг, базуючись лише на базовому CLI (Claude Code і Codex), і розумінні кількох основних принципів інженерії агентів, і зробив найпроривнішу роботу у своєму житті.

Розуміння світу, що стрімко рухається вперед

Перш за все, скажу, що компанії, що створюють базові моделі, зараз перебувають у епохальному прискоренні, і, очевидно, не зупиняться скоро. Кожне покращення «агентної інтелектуальності» змінює спосіб співпраці з ними, оскільки агенти стають все більш схильними слідувати інструкціям.

Ще кілька поколінь тому, якщо у CLAUDE.md писати «Перед будь-якою справою спочатку прочитати READTHISBEFOREDOINGANYTHING.md», він з ймовірністю 50% скажете «іди до біса», і зробить самостійно те, що вважає за потрібне. Сьогодні він виконає більшість команд, навіть складних вкладених — наприклад, «спочатку прочитати A, потім B, якщо C — прочитати D», і зазвичай йтиме за цим.

Що це означає? Найважливіший принцип — усвідомлювати, що кожне нове покоління агентів змушує вас переосмислити, що є оптимальним рішенням, і тому менше — краще.

Коли ви використовуєте багато різних бібліотек і harness, ви закриваєте себе у «рішенні», але у наступному поколінні агентів ця проблема може зникнути. Знаєте, хто найзапаленіші користувачі агентів? Так, — співробітники передових компаній, у яких безлімітний бюджет токенів і найновіші моделі. Ви розумієте, що це означає?

Це означає, що якщо існує реальна проблема і є хороше рішення, то передові компанії стануть її найбільшими користувачами. А що вони зроблять далі? Інтегрують його у свої продукти. Подумайте, чому компанія дозволить сторонньому продукту вирішувати реальні проблеми і створювати зовнішню залежність? Як я можу це знати? Подивіться на навички, системи пам’яті, harness, субагенти… Вони починаються з реальних рішень, що пройшли практичну перевірку і довели свою корисність.

Отже, якщо щось дійсно проривне і може масштабуватися у застосуваннях агентів, рано чи пізно воно стане ядром продукту компанії. Повірте, компанії швидко рухаються вперед. Тому розслабтеся — вам не потрібно нічого додавати або залежати від зовнішніх компонентів, щоб зробити найкращу роботу.

Я очікую, що у коментарях з’явиться «SysLS, я використовую такий-то harness, і за один день відновив Google!» — і скажу: вітаю! Але ви не цільова аудиторія. Ви — дуже вузька група, яка справді розбирається у інженерії агентів.

Контекст — це все

Чесно кажучи, контекст — це все. Ще одна проблема з безліччю плагінів і зовнішніх залежностей — це «роздування контексту» — тобто, коли агент засмічується надлишком інформації.

Хочу зробити гру у вгадування слів на Python? Легко. Але що з тим коментарем перед 26-ю сесією «керування пам’яттю»? Ага, користувач за 71 сесію через надмірне створення підпроцесів завис. Постійно писати коментарі? Добре… А що це має спільного з грою у вгадування слів?

Розумієте. Ви хочете дати агенту саме ту інформацію, що потрібна для виконання завдання, і нічого зайвого! Чим краще ви контролюєте цей процес, тим краще працює агент. Як тільки ви починаєте додавати різні системи пам’яті, плагіни або хаотичні навички, ви даєте агенту інструкцію з виготовлення бомби і рецепт торта одночасно, тоді як ви просто хочете, щоб він написав вірш про червоні дерева.

Тому я ще раз проповідуватиму — відділяйте все зайве і…

Займайтеся справді корисним

Точно описуйте деталі реалізації

Пам’ятаєте, що контекст — це все?

Пам’ятаєте, що потрібно давати агенту саме ту інформацію, що потрібна для завершення завдання, і нічого зайвого?

Перший спосіб зробити це — розділити дослідження і реалізацію. Ви маєте бути максимально точними у тому, що просите агента зробити.

Що трапиться, якщо ви не будете точними? «Зроби систему аутентифікації». Агенту потрібно досліджувати: що таке система аутентифікації? Які є варіанти? Які плюси і мінуси? Тепер він буде шукати в інтернеті купу інформації, яка йому не підходить, і заповнювати контекст різними можливими реалізаціями. Коли дійде до реалізації, він може заплутатися або створити ілюзію, що потрібно щось додаткове або зовсім інше.

Якщо ж ви скажете: «Зроби JWT-аутентифікацію з bcrypt-12, з ротацією токенів, терміном 7 днів…», — він не буде досліджувати альтернативи, а просто зрозуміє, що потрібно, і заповнить контекст деталями.

Звісно, ви не завжди знаєте реалізаційні деталі. Багато разів ви не знаєте, що правильно, і навіть хочете доручити агенту вибір реалізації. Що робити? Просто створіть задачу дослідження, щоб дослідити можливі варіанти, або самі визначте, яку реалізацію використовувати, або дозвольте агенту обрати. Потім залучіть інший агент із новим контекстом, щоб реалізувати.

Якщо почнете так думати, зрозумієте, де зайво засмічуєте контекст, і зможете створити ізоляційні стіни у робочому процесі агента — абстрагуючи непотрібну інформацію і залишаючи лише те, що потрібно для успішного виконання завдання. Пам’ятайте, у вас є дуже талановитий і розумний колега, який знає все у всесвіті — але якщо ви не скажете йому, що потрібно зробити, він буде говорити про переваги сферичних об’єктів.

Обмеження тенденції до угодництва

Ніхто не хоче користуватися продуктом, який постійно критикує, каже, що ви неправі, або ігнорує ваші інструкції. Тому ці агенти будуть намагатися погодитися з вами і зробити те, що ви хочете.

Якщо ви скажете їм кожні 3 слова додати «щасливо», вони будуть старатися — і більшість людей це розуміє. Їхня покірність — причина, чому вони такі корисні. Але тут є цікава особливість: це означає, що якщо ви скажете «знайди помилку у коді», вони знайдуть помилку — навіть якщо потрібно її «зробити». Чому? Тому що вони дуже хочуть вас задовольнити!

Багато хто швидко скаржиться на галюцинації та вигадування неіснуючих речей, але не усвідомлює, що проблема у них самих. Ви просите — вони дають. Навіть якщо потрібно трохи потягнути факти.

Що робити? Я вважаю, що «нейтральні підказки» дуже ефективні — не налаштовуйте агента на конкретний результат. Наприклад, замість «знайди помилку у базі даних», скажіть «проаналізуй всю базу даних, прослідкуй логіку кожного компонента і повідом все, що знайдеш».

Такі нейтральні підказки іноді знаходять помилки, іноді просто описують, як працює код. Але вони не налаштовують агента на «є помилка».

Ще один спосіб — перетворити угодництво у перевагу. Я знаю, що агент намагається догодити і слідує моїм інструкціям, тому можу цим керувати.

Наприклад, я даю агенту пошук помилок у базі даних, і кажу: «Знайди всі помилки, які мають низький вплив — +1 бал, середні — +5, серйозні — +10». Я знаю, що цей агент буде дуже активно шукати всі можливі помилки (навіть ті, що не є помилками), і звітувати мені з оцінкою 104 бали. Це — супернабір усіх можливих помилок.

Потім я залучаю контр-агента, який буде їх спростовувати, і за кожен успішний спростунок отримає бали — і штрафи за помилки. Цей агент буде намагатися спростувати якомога більше помилок, але через штрафи — бути обережним. Він активно «спростовуватиме» і реальні помилки. Я бачу це як набір усіх реальних помилок.

Нарешті, я залучаю суддю-агента, який порівнює обидва набори і ставить оцінки. Я кажу, що маю правильну відповідь, і він отримує +1 за правильну відповідь, -1 — за неправильну. Він порівнює результати пошуку і спростування. Це дає дуже високий рівень точності, іноді помилки трапляються, але це майже ідеальна система.

Можливо, достатньо лише пошуку помилок, але цей підхід мені дуже подобається, бо він використовує природну схильність агентів догоджати.

Як визначити, що корисне і що варто використовувати?

Це здається складним — потрібно слідкувати за новинами AI, вивчати нові технології, але насправді все просто… якщо OpenAI і Claude реалізували або купили цю функцію — вона, ймовірно, корисна.

Зверніть увагу, що «навыки» вже всюди і є частиною офіційної документації Claude і Codex? Звернули увагу, що OpenAI купила OpenClaw? Звернули увагу, що Claude додала пам’ять, голос і віддалену роботу?

Планування? Чи не всі помітили, що передове планування стало ключовою функцією?

Так, вони корисні!

Ще пам’ятаєте безкінечні stop-hooks? Вони дуже корисні, бо агент не хоче довго працювати… А потім у Codex 5.2 ця функція зникла за ніч?

Ось усе, що потрібно знати… Якщо щось дійсно важливе і корисне, Claude і Codex самі це реалізують! Тому не потрібно хвилюватися, чи варто використовувати «нове» або «знайомитися з новим». Навіть не потрібно «тримати руку на пульсі».

Зробіть одне — оновлюйте CLI інструменти час від часу і читайте, що додали. Це достатньо.

Компресія, контекст і припущення

Деякі користувачі стикаються з великим ризиком: іноді агенти здаються надзвичайно розумними, а іноді — ні.

«Це щось розумне? Це ж дурень!»

Головна різниця — чи агент змушений робити припущення або «заповнювати прогалини». Сьогодні вони погано справляються з «з’єднанням точок», «заповненням прогалин» або «побудовою припущень». Як тільки вони так роблять, ситуація погіршується.

Один із найважливіших правил у CLAUDE.md — це правила отримання контексту і інструкції, що агент має читати цю статтю щоразу після кожного стиснення. Важливо періодично перечитувати план завдання і повертатися до релевантних файлів.

Як повідомити агенту, коли завершити?

Люди мають чітке уявлення про завершення завдання. Для агента — це проблема, бо він знає, як почати, але не знає, як закінчити.

Це часто призводить до розчарувань: агент робить купу заглушок і зупиняється.

Тестування — чудовий спосіб визначити завершення, бо воно детерміноване. Якщо всі тести пройдені — завдання завершене. Не можна змінювати тести.

Просто перевірте їх — і все. Можна автоматизувати цей процес. Але головне — пам’ятайте, що «завершення» — природне для людини, але не для агента.

Що ще стало можливим? Скриншоти і верифікація. Можна змусити агента робити скріншоти і перевіряти їх відповідність дизайну або поведінці.

Це дозволяє ітеративно рухатися до потрібного результату, не зупиняючись після першої спроби.

Ще один варіант — створити «контракт» для агента і закодувати його у правила. Наприклад, {TASK}CONTRACT.md визначає, що потрібно зробити перед завершенням. Там прописані тести, скріншоти і інші перевірки.

Постійна робота агента

Як зробити так, щоб агент працював 24/7 і не з’їжджав з глузду? Створіть stop-hook, який не дозволить завершити сесію, доки всі умови контракту не виконані.

Якщо у вас 100 таких контрактів, агент не завершить, поки всі не виконає. Але я не рекомендую так робити — це призводить до роздування контексту і зниження продуктивності.

Краще створювати окрему сесію для кожного контракту. Створюйте нову сесію для кожної задачі і керуйте цим через оркестрацію.

Це змінить ваш досвід роботи з агентами.

Ітерація

Якщо ви наймаєте асистента, ви очікуєте, що він з першого дня знає ваш розклад? Ні. Ви поступово формуєте його уподобання.

З аналогією з агентами: починайте з простого, без складних структур і harness. Дайте базовий CLI шанс.

Потім додавайте уподобання поступово. Як?

Правила

Якщо не хочете, щоб агент щось робив — напишіть правило. Вказуйте його у CLAUDE.md. Наприклад: «Перед написанням коду — прочитати coding-rules.md». Правила можуть бути вкладеними і умовними. Якщо пишете код — читаєте coding-rules.md; якщо тест — coding-test-rules.md; якщо тест не пройшов — coding-test-failing-rules.md. Створюйте логіку правил, і Claude (і Codex) буде слідувати їм, якщо вони чітко прописані.

Це — перша і найпростіша порада: розглядайте CLAUDE.md як логічний, вкладений каталог, що вказує, де шукати контекст у різних ситуаціях. Він має бути максимально лаконічним і містити лише IF-ELSE логіку пошуку.

Якщо агент робить щось, що вам не подобається — додайте правило, і він його врахує.

Навички

Навички — це схоже на правила, але більше — операційні інструкції. Якщо хочете, щоб щось виконувалося певним чином, запишіть це у навичку.

Люди часто скаржаться, що не знають, як агент вирішить проблему. Щоб зробити це передбачуваним, спершу дослідіть, як він це зробить, і запишіть у навичку. Ви побачите, як агент планує, і зможете внести корективи.

Як повідомити агенту про навичку? Так само — у CLAUDE.md, наприклад: «Якщо зустрічаєш цей сценарій — прочитай SKILL.md».

Обробка правил і навичок

Додайте правила і навички — це ваш спосіб налаштувати агент під себе і зберегти преференції. Інше — зайве.

Якщо так робити, агент починає працювати майже магічно. Він «робить так, як потрібно». І ви відчуєте, що «зрозуміли» інженерію агентів.

Але…

Починає падати продуктивність.

Чому? — бо з додаванням правил і навичок вони починають суперечити один одному або викликають роздування контексту. Якщо потрібно читати 14 markdown-файлів перед початком — знову проблема з зайвою інформацією.

Що робити? — очищуйте. Зробіть так, щоб агент «зробив SPA», об’єднав правила і навички, оновивши преференції і позбувшись суперечностей.

Тоді він знову стане магічним.

Все просто. Це — секрет. Тримайте все максимально простим, використовуйте правила і навички, і сприймайте CLAUDE.md як каталог, уважно ставтеся до контексту і обмежень.

Відповідальність за результат

Немає ідеального агента. Ви можете делегувати багато, але відповідальність за результат — ваша.

Тому будьте обережні… і насолоджуйтеся процесом!

Грайте з майбутніми інструментами (і водночас використовуйте їх для серйозних задач). Це — справжнє задоволення!

Клод і Codex стають все дурнішими? Тому що ваш контекст занадто об'ємний

Повний текст:

Вступ

Розуміння світу, що стрімко рухається вперед

Контекст — це все

Займайтеся справді корисним

Точно описуйте деталі реалізації

Обмеження тенденції до угодництва

Як визначити, що корисне і що варто використовувати?

Компресія, контекст і припущення

Як повідомити агенту, коли завершити?

Постійна робота агента

Ітерація

Правила

Навички

Обробка правил і навичок

Відповідальність за результат

Популярні теми

FebNonfarmPayrollsUnexpectedlyFall

CryptoMarketsDipSlightly

IsraelStrikesIranBTCPlunges

PreciousMetalsAndOilPricesSurge

USIranTensionsImpactMarkets

Популярні активності Gate Fun

小龙虾

USDT

美国USDT银行

USDT

Lucky

Coin

$BUBU

BUBU

DASHUAI

大帅

Закріпити