Opus 4.7 с низким уровнем размышления превосходит максимум Sonnet 4.6, Anthropic публикует первое руководство по настройке управления агентами.

robot
Генерация тезисов в процессе
AIMPACT сообщение, 20 мая (UTC+8), по данным мониторинга Dongcha Beating, Anthropic выпустила первое официальное руководство для разработчиков, в котором подробно раскрыты ограничения по разрешению, соотношение глубины мышления и механизм снижения затрат на кэширование для Claude 4.6 и Opus 4.7 при управлении компьютером и браузером. Разрешение экрана напрямую влияет на точность кликов агента. Claude 4.6 обрабатывает снимки экрана с максимальной длинной стороной 1568 пикселей, Opus 4.7 — 2576 пикселей. Если снимок превышает лимит, сервер API автоматически пропорционально уменьшает изображение, что приводит к смещению координат клика, сгенерированных моделью, относительно исходного изображения на клиенте. Поэтому разработчики должны заранее масштабировать снимки на клиенте до 1280×720 (рекомендуется для Claude 4.6) или 1080p (рекомендуется для Opus 4.7). Управление интерфейсом в основном зависит от визуального восприятия и позиционирования элементов и не требует длинных цепочек логических рассуждений. Тесты показывают, что Opus 4.7 при низкой глубине мышления (low) уже догоняет Sonnet 4.6 на максимальной глубине (max), а затраты токенов составляют лишь десятую часть последнего. Официально рекомендуется устанавливать опцию мышления на high: по сравнению с max, расход токенов вдвое меньше, а успешность полностью равна; следует избегать включения max, чтобы модель не переусердствовала и не удвоила счёт. Поскольку один снимок экрана потребляет до 1800 токенов в контексте, официально предложена трёхуровневая схема снижения затрат: постоянная точка останова кэша на уровне системы, а остальные 3 точки динамически распределяются под результаты выполнения инструментов последних нескольких раундов; выполнение скролл-прунинга на клиенте — сохранение в контексте только последних 3 снимков, остальные заменяются плейсхолдерами; запуск сжатия суммаризации при приближении глубины контекста к 90%. Кроме того, в API введён пакетный инструмент computer_batch, позволяющий выполнять несколько операций, не зависящих от визуального восприятия, за один вызов; а также механизм советника агента (Advisor Tool), позволяющий основной модели напрямую вызывать высокоуровневую модель Opus в фоновом режиме для аудита шагов выполнения. Разработчики также могут значительно повысить успешность задач с помощью режима записи обучения (Teach Mode), который записывает реальные траектории действий пользователя и использует их в качестве инструкций при воспроизведении. (Источник: Dongcha Beating)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено