Opus 4.7 з низьким ступенем обдумування перевершує максимальне значення Sonnet 4.6, Anthropic публікує перший посібник з налаштування керування агентами.

robot
Генерація анотацій у процесі
Повідомлення AIMPACT, 20 травня (UTC+8), за даними моніторингу Beating, Anthropic опублікував перший офіційний посібник для розробників, який детально розкриває обмеження роздільної здатності, співвідношення глибини мислення та механізм зниження витрат на кешування для Claude 4.6 та Opus 4.7 у сценаріях керування комп'ютером та браузером.
Роздільна здатність екрану безпосередньо визначає точність кліків агента. Максимальна довга сторона знімка екрану, яку може аналізувати Claude 4.6, становить 1568 пікселів, а Opus 4.7 — 2576 пікселів. Якщо знімок екрану перевищує ліміт, сервер API автоматично зменшує зображення пропорційно, що призводить до зміщення координат кліків, згенерованих моделлю, відносно оригінального зображення на стороні клієнта. Тому розробники повинні заздалегідь масштабувати знімок екрану на стороні клієнта до 1280x720 (рекомендовано для Claude 4.6) або 1080p (рекомендовано для Opus 4.7).
Керування інтерфейсом в основному покладається на візуальне сприйняття та позиціонування елементів, і не вимагає високої логіки довгих ланцюжків. Тести показують, що Opus 4.7 на низькій глибині мислення (low) може досягти продуктивності керування, яка дорівнює максимальній глибині мислення (max) Sonnet 4.6, при цьому вартість токенів становить лише десяту частину останньої. Офіційна рекомендація — встановити опцію мислення на high. Порівняно з глибиною max, витрата токенів скорочується вдвічі, а рівень успіху повністю однаковий. Слід уникати ввімкнення max, щоб запобігти надмірному мисленню моделі, що призведе до подвоєння рахунків.
Оскільки один знімок екрану споживає до 1800 токенів у контексті, офіційно запропоновано трирівневу схему зниження витрат: постійно тримати 1 системну точку зупинки кешу, а інші 3 точки зупинки динамічно призначати результатам виконання інструментів останніх кількох раундів; виконувати прокручування та обрізання на стороні клієнта, зберігаючи в контексті лише останні 3 знімки екрану, а решту замінювати заповнювачами; при наближенні глибини контексту до 90% запускати стиснення підсумків.
Крім того, API ввів пакетний інструмент computer_batch, який підтримує виконання кількох операцій без візуальних залежностей за один виклик; а також надає механізм радника агента (Advisor Tool), який дозволяє основній моделі безпосередньо викликати високорівневу модель Opus у фоновому режимі для аудиту кроків виконання. Розробники також можуть значно підвищити рівень успіху завдань за допомогою режиму запису та навчання (Teach Mode, який записує реальні траєкторії дій користувача та використовує їх як довідкові інструкції під час відтворення).
(Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено