Claude Sonnet 5 lançado: Anthropic afirma que vários desempenhos se aproximam do Opus, mas o custo da API é 60% mais barato.

A Anthropic lançou oficialmente o Claude Sonnet 5, e as pontuações oficiais mostram que vários dos seus indicadores já se aproximam do flagship Opus 4.8. O preço padrão da API é de $3 por milhão de tokens de entrada / $15 por saída, cerca de 60% mais barato que o Opus.
(Contexto anterior: A Califórnia anunciou uma parceria com a Anthropic: as agências estaduais podem usar o Claude com 50% de desconto)
(Contexto adicional: Contagem decrescente para o fim da era dos preços elevados da IA? Cinco razões estruturais pelas quais os tokens inevitavelmente vão baixar de preço)

60% mais barato, desempenho apenas ligeiramente inferior, parece uma história de negócio perfeita, mas será mesmo assim? Há pouco tempo, a Anthropic lançou oficialmente o Claude Sonnet 5 e definiu-o como modelo padrão para utilizadores Free e Pro. Em termos de preços, o preço padrão da API é de $3 por milhão de tokens de entrada e $15 por saída (período promocional até 31 de agosto: $2/$10), comparado com os $5/$25 do flagship Opus 4.8, cerca de 60% mais barato.

Pontuações aproximam-se do flagship

Os números oficiais divulgados pela Anthropic são os seguintes, no entanto todas as pontuações são dados de autoavaliação oficial e ainda não foram verificados de forma independente por terceiros:

No SWE-bench Pro (capacidade de código agentic), o Sonnet 5 obteve 63.2%, o antecessor Sonnet 4.6 teve 58.1%, e o flagship Opus 4.8 teve 69.2%.

Terminal-Bench 2.1 operação de terminal: Sonnet 5 80.4%, Opus 4.8 82.7%.

Humanity’s Last Exam raciocínio multidisciplinar: Sonnet 5 com uso de ferramentas atingiu 57.4%, quase igualando os 57.9% do Opus 4.8.

GDPval-AA v2 capacidade de trabalho de conhecimento: Sonnet 5 obteve 1.618, superando os 1.615 do Opus 4.8.

A capacidade de operação de computador também progrediu: na avaliação OSWorld-Verified, o Sonnet 5 obteve 81.2%, o antecessor teve 78.5%. O cenário principal deste teste de referência é permitir que o modelo controle realmente o ambiente de trabalho, realizando tarefas como capturas de ecrã, arrastar e largar, e transferência de dados entre aplicações num ambiente de sistema operativo real, aproximando-se da dificuldade de um fluxo de trabalho automatizado real.

Além disso, o Sonnet 5 suporta uma janela de contexto de até 1 milhão de tokens, com uma saída máxima de 128k tokens. Isto significa que pode ser alimentado de uma só vez com o volume de texto de aproximadamente 750 romances, ou um lote inteiro de ficheiros de contratos de uma grande empresa, permitindo que o modelo complete comparação, resumo e tomada de decisão entre ficheiros numa única conversa, sem necessidade de processamento em lote. Esta especificação é especialmente adequada para tarefas agentic de ciclo longo, porque o modelo não precisa de "esquecer" o contexto anterior a meio do processo.

A conta nem sempre fica mais barata

O Sonnet 5 adotou uma versão atualizada do tokenizer. Em termos simples, tokenizer é a forma de dividir o texto em tokens. Se a forma de dividir muda, o número de tokens calculados para o mesmo texto também muda, e a conta também muda.

A Anthropic explica que a mesma entrada no novo tokenizer pode gerar 1,0 a 1,35 vezes o número de tokens, dependendo do conteúdo. A empresa afirma que os preços foram ajustados para ser 'aproximadamente neutros em termos de custos', mas recomenda que utilizadores de alto tráfego realizem os seus próprios testes de referência, pois a conta pode não diminuir e até aumentar.

Em termos de segurança, o relatório da Anthropic indica que o Sonnet 5 tem menor tendência a alucinações e a ser bajulador (sycophancy) do que o Sonnet 4.6, e também tem maior capacidade de recusar pedidos maliciosos. No entanto, a comparação de segurança é relativa: o Sonnet 5 ainda apresenta uma taxa de ocorrência de comportamentos inadequados superior ao Opus 4.8, mais poderoso, e também superior à versão estritamente limitada Claude Mythos Preview.

Na avaliação de desenvolvimento de exploração de vulnerabilidades no Firefox 147 em colaboração com a Mozilla, o Sonnet 5 não conseguiu produzir vulnerabilidades exploráveis (0%), mas a taxa de sucesso parcial foi de 13,2%, superior aos 8,8% do Sonnet 4.6. Estes dois números ainda estão muito longe dos 68,8% do Opus 4.8, mas a Anthropic já ativou a proteção de segurança de rede por predefinição.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado