Opus 4.7 низький ступінь обдумування перевершує максимум Sonnet 4.6, Anthropic оприлюднює перший посібник з налаштування керування агентами.

robot
Генерація анотацій у процесі
Повідомлення AIMPACT, 20 травня (UTC+8), за даними моніторингу Dongcha Beating, Anthropic опублікувала перший офіційний посібник для розробників, який детально розкриває обмеження роздільної здатності, співвідношення глибини мислення та механізм зниження витрат на кешування для Claude 4.6 та Opus 4.7 у сценаріях керування комп'ютером та браузером.
Роздільна здатність екрану безпосередньо визначає точність кліків агента. Claude 4.6 має максимальну довжину сторони при аналізі скріншотів 1568 пікселів, а Opus 4.7 — 2576 пікселів. Якщо скріншот перевищує ліміт, сервер API автоматично зменшує зображення пропорційно, що призводить до зміщення координат кліків, згенерованих моделлю, відносно оригінального зображення клієнта. Тому розробники повинні заздалегідь масштабувати скріншоти на стороні клієнта до 1280x720 (рекомендовано для Claude 4.6) або 1080p (рекомендовано для Opus 4.7).
Управління інтерфейсом переважно залежить від зорового сприйняття та позиціонування елементів, і не потребує високого рівня логічного мислення з довгими ланцюжками. Тести показують, що Opus 4.7 на низькій глибині мислення (low) може досягти такого ж рівня керування, як Sonnet 4.6 на максимальній глибині мислення (max), при цьому вартість токенів становить лише десяту частину від останньої. Офіційна рекомендація — встановити опцію мислення на high; порівняно з глибиною max, витрата токенів зменшується вдвічі, а успішність залишається такою ж. Слід уникати використання max, щоб запобігти подвоєнню рахунку через надмірне мислення моделі.
Оскільки один скріншот може спожити до 1800 токенів у контексті, офіційно запропоновано трирівневу схему зниження витрат: постійно тримати 1 системну кеш-точку, а інші 3 точки динамічно призначати результатам виконання останніх кількох раундів інструментів; виконувати прокрутку та обрізання на стороні клієнта, залишаючи в контексті лише останні 3 скріншоти, а решту замінюючи заповнювачами; запускати стиснення підсумку, коли глибина контексту наближається до 90%.
Крім того, API впровадив пакетний інструмент computer_batch, який підтримує виконання кількох операцій без візуальної залежності в одному виклику; а також надає механізм радника-агента (Advisor Tool), який дозволяє основній моделі безпосередньо викликати високорівневу модель Opus у фоновому режимі для аудиту кроків виконання. Розробники також можуть значно підвищити успішність завдань за допомогою режиму запису та навчання (Teach Mode, який записує реальні дії користувача та використовує їх як інструкцію при відтворенні).
(Джерело: Dongcha Beating)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено