Opus 4.7 con bajo nivel de pensamiento supera el máximo de Sonnet 4.6, Anthropic publica la primera guía de ajuste de control de agentes inteligentes

robot
Generación de resúmenes en curso
Mensaje de AIMPACT, 20 de mayo (UTC+8), según el monitoreo de Beating, Anthropic publicó la primera guía oficial de desarrollo, revelando en detalle los límites de resolución, la proporción de profundidad de pensamiento y el mecanismo de reducción de costos de caché de Claude 4.6 y Opus 4.7 en escenarios de control de computadora y navegador. La resolución de la pantalla determina directamente la precisión de los clics del agente. El límite superior del lado largo de las capturas de pantalla analizadas por Claude 4.6 es de 1568 píxeles, y el de Opus 4.7 es de 2576 píxeles. Una vez que la captura de pantalla excede el límite, el servidor API la reduce automáticamente en proporción, lo que provoca un desplazamiento entre las coordenadas de clic generadas por el modelo y la imagen original del cliente. Por lo tanto, los desarrolladores deben escalar las capturas de pantalla en el cliente a 1280x720 (recomendado para Claude 4.6) o 1080p (recomendado para Opus 4.7) con anticipación. El control de la interfaz depende principalmente de la percepción visual y la localización de elementos, y no requiere un razonamiento lógico de cadena larga. Las pruebas muestran que el rendimiento de control de Opus 4.7 con baja profundidad de pensamiento (low) puede igualar la máxima profundidad de pensamiento (max) de Sonnet 4.6, y el costo de tokens es solo una décima parte del de este último. La recomendación oficial es establecer la opción de pensamiento en high. En comparación con la profundidad max, no solo el consumo de tokens se reduce a la mitad, sino que la tasa de éxito también es completamente igual. Se debe evitar activar max para evitar que el modelo piense en exceso y duplique la factura. Dado que una sola captura de pantalla consume hasta 1800 tokens en el contexto, la compañía proporcionó un plan de reducción de costos de tres niveles: mantener 1 punto de interrupción de caché a nivel de sistema de forma permanente, y asignar dinámicamente los otros 3 puntos de interrupción a los resultados de ejecución de las últimas rondas de herramientas; realizar poda de desplazamiento en el lado del cliente, conservando solo las últimas 3 capturas de pantalla en el contexto y reemplazando el resto con marcadores de posición; activar la compresión de resumen cuando la profundidad del contexto se acerca al 90%. Además, la API introdujo la herramienta por lotes computer_batch, que admite la ejecución empaquetada de múltiples operaciones sin dependencia visual en una sola llamada; y proporciona un mecanismo de asesor de agente (Advisor Tool), que permite que el modelo principal invoque directamente un modelo Opus de alto nivel en segundo plano para auditar los pasos de ejecución. Los desarrolladores también pueden mejorar significativamente la tasa de éxito de las tareas mediante el modo de grabación guiada (Teach Mode, que graba la trayectoria de operación real del usuario y la utiliza como referencia de instrucciones durante la reproducción). (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios