Claude Sonnet 5 lançado: Anthropic afirma que várias performances se aproximam do Opus, mas o custo da API é 60% mais barato.

Anthropic lançou oficialmente o Claude Sonnet 5, e as pontuações divulgadas mostram que vários indicadores estão próximos do carro-chefe Opus 4.8. O preço padrão da API é de US$ 3 por milhão de tokens de entrada e US$ 15 por saída, cerca de 60% mais barato que o Opus.
(Notícia anterior: Califórnia anuncia parceria com Anthropic: agências estaduais podem usar Claude com 50% de desconto)
(Contexto adicional: O fim da era de preços altos da IA? Cinco razões estruturais para a inevitável queda dos tokens)

60% mais barato, desempenho apenas um pouco inferior, parece uma história comercial perfeita, mas será realmente tão bom? Há pouco tempo, a Anthropic lançou oficialmente o Claude Sonnet 5 e o definiu como o modelo padrão para usuários Free e Pro. Em termos de preço, o preço padrão da API é de US$ 3 por milhão de tokens de entrada e US$ 15 por saída (período promocional até 31 de agosto: US$ 2/US$ 10), contra US$ 5/US$ 25 do carro-chefe Opus 4.8, cerca de 60% mais barato.

Pontuações próximas ao carro-chefe

Os números divulgados pela Anthropic são os seguintes, mas todas as pontuações são dados autoavaliados, ainda não verificados de forma independente por terceiros:

No SWE-bench Pro (capacidade de código agentic), o Sonnet 5 obteve 63,2%, o antecessor Sonnet 4.6 teve 58,1%, e o carro-chefe Opus 4.8 teve 69,2%.

No Terminal-Bench 2.1 (operação de terminal): Sonnet 5 80,4%, Opus 4.8 82,7%.

No Humanity's Last Exam (raciocínio multidisciplinar): Sonnet 5 com uso de ferramentas alcançou 57,4%, quase empatado com os 57,9% do Opus 4.8.

No GDPval-AA v2 (capacidade de trabalho do conhecimento): Sonnet 5 pontuou 1.618, superando os 1.615 do Opus 4.8.

A capacidade de operação de computador também avançou: na avaliação OSWorld-Verified, Sonnet 5 obteve 81,2%, ante 78,5% da geração anterior. O cenário central deste teste de referência é fazer o modelo realmente controlar a área de trabalho, em ambiente de sistema operacional real, completando tarefas como capturas de tela, arrastar e soltar, transferência de dados entre aplicativos, aproximando-se da dificuldade de fluxos de trabalho automatizados reais.

Além disso, o Sonnet 5 suporta uma janela de contexto de até 1 milhão de tokens, e a saída máxima chega a 128 mil tokens. Isso significa que é possível alimentar aproximadamente o volume de texto de 750 romances ou um lote inteiro de contratos de uma grande empresa de uma só vez, permitindo que o modelo complete comparação, resumo e tomada de decisão entre arquivos em uma única conversa, sem necessidade de processamento em lotes. Esse recurso é especialmente adequado para tarefas agentic de ciclo longo, pois o modelo não precisa "esquecer" o contexto anterior no meio do caminho.

A conta nem sempre fica mais barata

O Sonnet 5 adota um tokenizador atualizado. Em termos simples, o tokenizador é a forma como o texto é dividido em tokens. Se a forma de divisão muda, o número de tokens para o mesmo texto também muda, e a conta acompanha.

A Anthropic explica que, com o novo tokenizador, a mesma entrada pode gerar de 1,0 a 1,35 vezes a quantidade de tokens, dependendo do conteúdo. A empresa afirma que o preço foi ajustado para ser "aproximadamente neutro em custo", mas recomenda que usuários de alto tráfego realizem seus próprios testes de referência, pois a conta pode aumentar em vez de diminuir.

Em termos de segurança, o relatório da Anthropic indica que o Sonnet 5 tem menor tendência a alucinações e bajulação em comparação com o Sonnet 4.6, e é mais capaz de recusar solicitações maliciosas. No entanto, a comparação de segurança é relativa: o Sonnet 5 ainda apresenta uma taxa de ocorrência de comportamentos inadequados maior do que o Opus 4.8, mais poderoso, e maior do que o Claude Mythos Preview, versão com restrições rigorosas.

Na avaliação de desenvolvimento de vulnerabilidades do Firefox 147 em parceria com a Mozilla, o Sonnet 5 não conseguiu gerar uma vulnerabilidade utilizável (0%), mas a taxa de sucesso parcial foi de 13,2%, superior aos 8,8% do Sonnet 4.6. Esses números ainda estão muito distantes dos 68,8% do Opus 4.8, mas a Anthropic já ativou a proteção de segurança cibernética por padrão.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado