Opus 4.7 com baixo nível de pensamento supera o valor máximo do Sonnet 4.6, Anthropic lança o primeiro guia de ajuste de controle de agente inteligente.

robot
Geração do resumo em andamento
AIMPACT Mensagem, 20 de maio (UTC+8), de acordo com o monitoramento do Dongcha Beating, a Anthropic publicou seu primeiro guia oficial de desenvolvimento, revelando detalhadamente os limites de resolução, proporção de profundidade de pensamento e mecanismo de redução de custos de cache do Claude 4.6 e Opus 4.7 em cenários de controle de computador e navegador. A resolução da tela determina diretamente a precisão dos cliques do agente. O limite máximo do lado maior da captura de tela analisada pelo Claude 4.6 é de 1568 pixels, e pelo Opus 4.7 é de 2576 pixels. Uma vez que a captura de tela excede o limite, o servidor da API reduz automaticamente a imagem proporcionalmente, o que causa um desalinhamento entre as coordenadas de clique geradas pelo modelo e a imagem original do cliente. Portanto, os desenvolvedores devem redimensionar a captura de tela no lado do cliente para 1280x720 (recomendado para Claude 4.6) ou 1080p (recomendado para Opus 4.7) com antecedência. A operação da interface depende principalmente da percepção visual e da localização de elementos, não exigindo raciocínio lógico de longa cadeia. Testes mostram que o Opus 4.7, com profundidade de pensamento baixa (low), já atinge o desempenho de manipulação do Sonnet 4.6 em profundidade máxima (max), e o custo de token é apenas um décimo do último. A recomendação oficial é definir a opção de pensamento como high; em comparação com a profundidade max, não só o consumo de token é reduzido pela metade, como a taxa de sucesso também é completamente equivalente. Deve-se evitar ativar max para evitar que o modelo pense demais e dobre a fatura. Como uma única captura de tela consome até 1800 tokens no contexto, a Anthropic apresentou um plano de redução de custos em três camadas: Manter permanentemente 1 ponto de interrupção de cache no nível do sistema e alocar dinamicamente os outros 3 pontos de interrupção para os resultados de execução das ferramentas das rodadas mais recentes; Realizar poda de rolagem no lado do cliente, mantendo apenas as últimas 3 capturas de tela no contexto e substituindo as demais por placeholders; Quando a profundidade do contexto se aproxima de 90%, acionar a compressão de resumo. Além disso, a API introduziu a ferramenta em lote computer_batch, que suporta a execução de múltiplas operações sem dependência visual em uma única chamada; e fornece o mecanismo de conselheiro de agente (Advisor Tool), que permite ao modelo principal convocar diretamente o modelo Opus de alto nível em segundo plano para auditar as etapas de execução. Os desenvolvedores também podem usar o modo de gravação guiada (Teach Mode, que grava a trajetória real de operação do usuário e a usa como referência de instrução durante a reprodução) para aumentar significativamente a taxa de sucesso das tarefas. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários