Anthropic lanza oficialmente Claude Sonnet 5, y las puntuaciones publicadas oficialmente muestran que múltiples indicadores se están acercando al buque insignia Opus 4.8. El precio estándar de la API es de $3 por millón de tokens de entrada / $15 por salida, aproximadamente un 60% más barato que Opus. (Contexto previo: California, EE. UU., anuncia colaboración con Anthropic: todas las agencias estatales pueden usar Claude a mitad de precio) (Complemento de antecedentes: ¿Cuenta atrás para el fin de la era de precios altos de la IA? Cinco razones estructurales por las que los tokens definitivamente bajarán de precio) Un 60% más barato, solo un poco menos de rendimiento, suena como una historia comercial perfecta, pero ¿es realmente tan bueno? Hace un momento, Anthropic lanzó oficialmente Claude Sonnet 5 y lo estableció como el modelo predeterminado para usuarios Free y Pro. En cuanto a precios, el precio estándar de la API es de $3 por millón de tokens de entrada y $15 por salida (período promocional hasta el 31 de agosto: $2/$10), en comparación con el buque insignia Opus 4.8 de $5/$25, aproximadamente un 60% más barato.

Las puntuaciones se acercan al buque insignia

Las cifras publicadas oficialmente por Anthropic son las siguientes, pero todas las puntuaciones son datos de autoevaluación oficial y aún no han sido verificadas de forma independiente por terceros: En SWE-bench Pro (capacidad de código agentic), Sonnet 5 obtuvo un 63.2%, la generación anterior Sonnet 4.6 obtuvo un 58.1%, y el buque insignia Opus 4.8 obtuvo un 69.2%. Terminal-Bench 2.1 Operación de terminal: Sonnet 5 80.4%, Opus 4.8 82.7%. Humanity’s Last Exam Razonamiento multidisciplinario: Sonnet 5 con uso de herramientas alcanzó un 57.4%, casi igualando el 57.9% de Opus 4.8. GDPval-AA v2 Capacidad de trabajo del conocimiento: Sonnet 5 obtuvo una puntuación de 1,618, superando incluso los 1,615 de Opus 4.8. La capacidad de operación informática también ha mejorado: en la evaluación OSWorld-Verified, Sonnet 5 obtuvo un 81.2%, frente al 78.5% de la generación anterior. El escenario central de esta prueba de referencia es hacer que el modelo controle realmente el escritorio, completando tareas como capturas de pantalla, arrastrar y soltar, transferencia de datos entre aplicaciones en un entorno de sistema operativo real, acercándose a la dificultad de un flujo de trabajo de automatización real. Además, Sonnet 5 admite una ventana de contexto de hasta 1 millón de tokens, con una salida máxima de 128k tokens. Esto significa que se puede introducir aproximadamente el volumen de texto de 750 novelas, o archivos de contratos completos de una gran empresa, permitiendo que el modelo complete comparaciones, resúmenes y decisiones entre archivos en una sola conversación sin necesidad de procesamiento por lotes. Esta especificación es especialmente adecuada para tareas agentic de ciclo largo, ya que el modelo no tiene que "olvidar" el contexto anterior en el camino.

La factura no necesariamente sigue lo "barato"

Sonnet 5 utiliza una versión actualizada del tokenizer. En términos simples, tokenizer es la forma de dividir el texto en tokens. Si cambia la forma de dividir, la cantidad de tokens calculada para el mismo texto será diferente, y la factura también cambiará. Anthropic explica que, con la misma entrada, el nuevo tokenizer puede generar entre 1.0 y 1.35 veces la cantidad de tokens, dependiendo del contenido. La empresa afirma que los precios se han ajustado para ser "aproximadamente neutrales en costos", pero recomienda a los usuarios de alto tráfico que realicen sus propias pruebas de referencia, ya que la factura podría no bajar sino aumentar. En términos de seguridad, el informe de Anthropic señala que Sonnet 5 tiene una menor tendencia a alucinaciones y a complacer (sycophancy) en comparación con Sonnet 4.6, y también es más fuerte para rechazar solicitudes maliciosas. Pero la comparación de seguridad es relativa: Sonnet 5 todavía tiene una tasa más alta de comportamientos inapropiados que el más potente Opus 4.8, y también más alta que la versión estrictamente limitada Claude Mythos Preview. En la evaluación de desarrollo de vulnerabilidades de Firefox 147 en colaboración con Mozilla, Sonnet 5 no logró generar una vulnerabilidad explotable (0%), pero la tasa de éxito parcial fue del 13.2%, superior al 8.8% de Sonnet 4.6. Estas dos cifras siguen estando muy lejos del 68.8% de Opus 4.8, pero Anthropic ha habilitado la protección de seguridad de red de forma predeterminada.

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
GateCompletesDividendDistribution
557,12K Popularidad
#
StrategyBuybackSurges12%
180,24K Popularidad
#
IsraelStrikesIranBTCPlunges
67,08K Popularidad
#
PredictWorldCupShare20000U
517,26K Popularidad
#
TrumpDisclosesOver100MBTCETH
3,83M Popularidad

Fijado

Claude Sonnet 5 ha sido lanzado: Anthropic afirma que su rendimiento en múltiples aspectos se acerca a Opus, pero el costo de la API es un 60% más barato.

Las puntuaciones se acercan al buque insignia

La factura no necesariamente sigue lo "barato"

Temas de actualidad

GateCompletesDividendDistribution

StrategyBuybackSurges12%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

TrumpDisclosesOver100MBTCETH

Fijado