Opus 4.7 com baixo nível de pensamento supera o valor máximo do Sonnet 4.6, Anthropic publica o primeiro guia de ajuste de controlo de agentes.

robot
Geração de resumo em curso
Notícias AIMPACT, 20 de maio (UTC+8), de acordo com a monitorização da Beating, a Anthropic publicou o primeiro guia oficial de desenvolvimento, revelando em profundidade os limites máximos de resolução, a proporção de profundidade de pensamento e o mecanismo de redução de custos de cache para o Claude 4.6 e o Opus 4.7 em cenários de controlo de computador e navegador.
A resolução do ecrã determina diretamente a precisão dos cliques do agente. O limite máximo do lado maior da captura de ecrã que o Claude 4.6 analisa é de 1568 píxeis, e o Opus 4.7 é de 2576 píxeis. Assim que a captura de ecrã excede o limite, o servidor da API reduz automaticamente a imagem proporcionalmente, o que provoca um desvio nas coordenadas de clique geradas pelo modelo em relação à imagem original do cliente. Por isso, os programadores devem redimensionar a captura de ecrã no cliente para 1280x720 (recomendado para o Claude 4.6) ou 1080p (recomendado para o Opus 4.7).
O controlo da interface depende principalmente da perceção visual e da localização de elementos, não exigindo raciocínio lógico de cadeia longa. Os testes mostram que o Opus 4.7, com profundidade de pensamento baixa (low), consegue igualar o desempenho de controlo do Sonnet 4.6 na profundidade de pensamento máxima (max), e o custo em tokens é apenas um décimo do último. A recomendação oficial é definir a opção de pensamento como high. Comparado com a profundidade max, não só o consumo de tokens é reduzido para metade, como a taxa de sucesso é completamente idêntica. Deve evitar-se ativar max para evitar que o modelo pense em excesso, duplicando a fatura.
Uma vez que uma única captura de ecrã consome até 1800 tokens no contexto, a equipa oficial apresentou um plano de redução de custos em três camadas: manter permanentemente 1 ponto de interrupção de cache a nível de sistema e atribuir dinamicamente os outros 3 pontos de interrupção aos resultados de execução das ferramentas das últimas rondas; realizar poda por scroll no cliente, mantendo apenas as últimas 3 capturas de ecrã no contexto e substituindo as restantes por placeholders; acionar compressão de resumo quando a profundidade do contexto se aproxima dos 90%.
Além disso, a API introduziu a ferramenta em lote computer_batch, que suporta a execução em lote de múltiplas operações sem dependência visual numa única chamada; e fornece o mecanismo de consultor de agente (Advisor Tool), que permite que o modelo principal convoque diretamente o modelo Opus de alto nível em segundo plano para auditar os passos de execução. Os programadores também podem utilizar o Modo de Ensino (Teach Mode, que grava a trajetória real das operações do utilizador e a utiliza como referência de instrução durante a reprodução) para aumentar significativamente a taxa de sucesso das tarefas.
(Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário