Opus 4.7 com baixo nível de pensamento supera o máximo do Sonnet 4.6, Anthropic lança o primeiro guia de ajuste de controlo de agente.

robot
Geração de resumo em curso
Notícias AIMPACT, 20 de maio (UTC+8), segundo a monitorização do Beating, a Anthropic publicou o seu primeiro guia oficial de desenvolvimento, revelando detalhadamente os limites de resolução, proporção de profundidade de pensamento e mecanismos de redução de custos de cache para Claude 4.6 e Opus 4.7 em cenários de controlo de computador e navegador.
A resolução do ecrã determina diretamente a precisão dos cliques do agente. O limite máximo do lado maior da imagem capturada para o Claude 4.6 é de 1568 píxeis, e para o Opus 4.7 é de 2576 píxeis. Quando a captura de ecrã ultrapassa o limite, o servidor da API reduz automaticamente a imagem proporcionalmente, o que provoca um desvio nas coordenadas de clique geradas pelo modelo em relação à imagem original do cliente. Por isso, os programadores devem redimensionar previamente a captura de ecrã no cliente para 1280x720 (recomendado para Claude 4.6) ou 1080p (recomendado para Opus 4.7).
O controlo da interface depende principalmente da perceção visual e da localização de elementos, não exigindo um raciocínio lógico de longa cadeia. Os testes mostram que o Opus 4.7, com profundidade de pensamento baixa (low), já consegue igualar o desempenho do Sonnet 4.6 na profundidade máxima (max), com um custo de tokens de apenas um décimo deste último. A recomendação oficial é definir a opção de pensamento como high, que, em comparação com a profundidade max, reduz o consumo de tokens para metade e mantém a mesma taxa de sucesso. Deve evitar-se ativar max para evitar que o modelo pense em excesso, duplicando a fatura.
Como cada captura de ecrã consome até 1800 tokens no contexto, a equipa oficial apresentou um plano de redução de custos em três níveis: manter um ponto de interrupção de cache a nível do sistema e atribuir dinamicamente os outros 3 pontos de interrupção aos resultados das ferramentas das últimas rondas; realizar uma poda de rolagem no cliente, mantendo apenas as últimas 3 capturas de ecrã no contexto e substituindo as restantes por placeholders; acionar a compressão de resumo quando a profundidade do contexto se aproxima dos 90%.
Além disso, a API introduziu a ferramenta em lote computer_batch, que permite executar várias operações sem dependência visual numa única chamada; e fornece o mecanismo de conselheiro do agente (Advisor Tool), que permite ao modelo principal convocar diretamente o modelo Opus de alto nível em segundo plano para auditar os passos de execução. Os programadores também podem utilizar o modo de gravação guiada (Teach Mode, que grava o percurso real das ações do utilizador e o utiliza como referência de instruções durante a reprodução) para aumentar significativamente a taxa de sucesso das tarefas.
(Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário