Opus 4.7 com baixo grau de pensamento supera o valor máximo do Sonnet 4.6, Anthropic lança o primeiro guia de ajuste de controle de agente.

robot
Geração do resumo em andamento
Notícias AIMPACT, 20 de maio (UTC+8), de acordo com o monitoramento do 动察 Beating, a Anthropic lançou o primeiro guia oficial de desenvolvimento, revelando em detalhes os limites de resolução, a proporção de profundidade de pensamento e o mecanismo de redução de custos de cache para Claude 4.6 e Opus 4.7 em cenários de controle de computador e navegador. A resolução da tela determina diretamente a precisão dos cliques do agente. O limite máximo do lado maior da captura de tela analisada pelo Claude 4.6 é de 1568 pixels, e pelo Opus 4.7 é de 2576 pixels. Uma vez que a captura de tela excede o limite, o servidor da API reduz automaticamente a imagem proporcionalmente, o que causa um desalinhamento entre as coordenadas de clique geradas pelo modelo e a imagem original do cliente. Portanto, os desenvolvedores devem redimensionar previamente a captura de tela no cliente para 1280x720 (recomendado para Claude 4.6) ou 1080p (recomendado para Opus 4.7). O controle da interface depende principalmente da percepção visual e da localização de elementos, não exigindo raciocínio lógico de longa cadeia. Testes mostram que o Opus 4.7, em profundidade de pensamento baixa (low), iguala o desempenho de controle do Sonnet 4.6 em profundidade máxima (max), e o custo em tokens é apenas um décimo do último. A recomendação oficial é definir a opção de pensamento como high. Em comparação com a profundidade max, o consumo de tokens é reduzido pela metade e a taxa de sucesso é totalmente equivalente. Deve-se evitar ativar max para evitar que o modelo pense demais e duplique a fatura. Como uma única captura de tela consome até 1800 tokens no contexto, a oficial forneceu um plano de redução de custos em três camadas: Manter 1 ponto de interrupção de cache em nível de sistema permanentemente, e alocar dinamicamente os outros 3 pontos de interrupção para os resultados de execução das últimas rodadas de ferramentas; Realizar poda por rolagem no cliente, mantendo apenas as últimas 3 capturas de tela no contexto, substituindo as demais por placeholders; Acionar a compressão de resumo quando a profundidade do contexto se aproximar de 90%. Além disso, a API introduziu a ferramenta em lote computer_batch, que suporta a execução empacotada de várias operações sem dependência visual em uma única chamada; e fornece o mecanismo de conselheiro de agente (Advisor Tool), que permite que o modelo principal convoque diretamente um modelo Opus de alto nível em segundo plano para auditar as etapas de execução. Os desenvolvedores também podem usar o modo de gravação guiada (Teach Mode, que grava a trajetória real das operações do usuário e a usa como referência de instrução durante a reprodução) para aumentar significativamente a taxa de sucesso das tarefas. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários