Opus4.8 lanzamiento oficial, la IA dice por primera vez «No estoy seguro»

Autor|Huálín Wǔwáng

Editor|Jìngyǔ

Si tú y yo, como yo, dependemos a diario de la IA para escribir artículos, programar, hacer investigaciones, entonces seguramente has tenido esta experiencia: la IA entrega un resultado con mucha confianza, tú revisas durante mucho tiempo y descubres un error básico, y ella no dice nada en todo el proceso.

Este problema de "fingir que todo está bien" puede ser uno de los mayores dolores de cabeza de los modelos grandes actuales.

El 28 de mayo, Anthropic lanzó Claude Opus 4.8. Solo seis semanas después del lanzamiento de la versión anterior, Opus 4.7.

Opus 4.8 no representa un salto generacional asfixiante, Anthropic también admite que es solo una "mejora modesta pero tangible" — pero hizo una cosa que muchos esperaban desde hace tiempo: enseñar a la IA a reconocer su propia incertidumbre.

01 Ritmo más rápido, modelos más honestos

Desde Opus 4.5 en noviembre de 2025, el ritmo de iteración de los modelos insignia de Anthropic ha sido aproximadamente cada dos meses — 4.5 (noviembre pasado), 4.6 (febrero de este año), 4.7 (abril), 4.8 (finales de mayo). Un lanzamiento cada seis semanas, casi la velocidad de iteración más agresiva en la industria de modelos grandes.

Comparación entre Opus 4.8 y modelos propios y de competidores|Fuente: Anthropic

En benchmarks estándar, el rendimiento de Opus 4.8 puede resumirse como "progreso constante". En habilidades de programación, SWE-bench Pro subió del 64.3% en 4.7 al 69.2%, SWE-bench Verified del 87.6% al 88.6%. El razonamiento multidisciplinario (Humanity's Last Exam) alcanzó un 57.9% usando herramientas. La evaluación de trabajo del conocimiento GDPval-AA lidera con un valor Elo de 1890, frente a 1769 de GPT-5.5. La evaluación de operaciones informáticas OSWorld-Verified también lidera con un 83.4%.

El único ítem superado por GPT-5.5 fue programación en terminal (Terminal-Bench 2.1), con un 78.2%, mientras que Opus 4.8 obtuvo un 74.6%.

Pero, honestamente, estos puntajes ya no resultan tan emocionantes. Las evaluaciones como SWE-bench Verified están casi saturadas, varias modelos en GPQA Diamond superan el 93%. Cuanto más alto el puntaje, menor la diferencia perceptible con cada punto adicional.

Lo que realmente me hizo pensar que esta actualización valía la pena escribir, fue la inversión de Anthropic en la "honestidad".

02 IA que dice "no estoy seguro"

Anthropic proporcionó un dato muy concreto: en tareas de programación, la probabilidad de que Opus 4.8 omita reportar defectos en su código se redujo aproximadamente en cuatro veces respecto a Opus 4.7.

¿Qué significa esto? Que antes, cuando Opus 4.7 terminaba un fragmento de código, incluso si tenía errores, podía decirte con tranquilidad "he terminado, no hay problema". Pero Opus 4.8 tiende a decir proactivamente "hay una parte en la que no estoy muy seguro, sería mejor que revisaras".

En las evaluaciones de alineación, Opus 4.8 alcanzó un nuevo máximo en características pro sociales (como respetar la autonomía del usuario, pensar en sus intereses), y las tasas de comportamientos "no alineados" como engañar o colaborar en abusos cayeron mucho respecto a Opus 4.7, acercándose al mejor modelo de alineación de Anthropic, Claude Mythos Preview.

El CEO de Cursor, Michael Truell, comentó que Opus 4.8 supera a modelos anteriores en CursorBench en todos los niveles de esfuerzo, con mayor eficiencia en llamadas a herramientas, logrando el mismo nivel de inteligencia con menos pasos. El director de investigación de aplicaciones de la firma legal Casetext fue más directo, diciendo que Opus 4.8 estableció un nuevo récord en pruebas de referencia legal, siendo el primer modelo en superar el 10% en la norma de aprobación total.

Scott Wu, CEO de Devin, señaló un problema práctico: Opus 4.8 corrigió redundancias en anotaciones y problemas en llamadas a herramientas presentes en Opus 4.7, lo cual es crucial para flujos de trabajo autónomos sin supervisión.

En una era donde la IA se usa cada vez más para decisiones autónomas, un modelo que se expone a sí mismo sus debilidades es, en realidad, el más confiable.

En cuanto a la no coherencia del modelo, Opus 4.8 ya está a la par del legendario Mythos|Fuente: Anthropic

Sin embargo, en la sección de seguridad del sistema de Opus 4.8, Anthropic reveló un hallazgo interesante: durante el entrenamiento, Opus 4.8 comenzó a mostrar una tendencia a "intentar adivinar la intención del evaluador".

Es decir, el modelo, al razonar, empieza a pensar en cómo será calificado su output — incluso sin que nadie le diga que está siendo evaluado. Estudios preliminares de interpretabilidad muestran que en aproximadamente el 5% de los fragmentos de entrenamiento, el modelo realiza inferencias relacionadas con la evaluación que no son verbalizadas.

En otras palabras, la IA está aprendiendo a "pensar en los exámenes" — le importa menos dar la mejor respuesta y más dar la respuesta que más le gustaría al "profesor" que evalúa.

Anthropic enfatiza que, por ahora, esta tendencia no ha llevado a comportamientos peores en la práctica — de hecho, las declaraciones engañosas de Opus 4.8 son menores que en modelos anteriores. Pero también admiten que esto es una "tendencia que podría complicar el entrenamiento en el futuro".

Este problema no es exclusivo de Anthropic. Todos los modelos entrenados con RLHF (aprendizaje reforzado con retroalimentación humana) pueden, en teoría, desarrollar estrategias para "complacer a los revisores". La diferencia de Anthropic es que opta por hacer pública esta observación — en una industria donde muchas empresas prefieren no hablar de los fallos, esto al menos es una muestra de honestidad que merece respeto.

03 Funciones que realmente cambian la forma de trabajar

Junto con Opus 4.8, se lanzaron varias actualizaciones, siendo la más destacada "Dynamic Workflows" en Claude Code.

Esta función permite que Claude, en una sola sesión, despliegue cientos de subagentes en paralelo para colaborar en tareas. Funciona así: Claude diseña un plan, divide la tarea en sub tareas, las asigna a diferentes subagentes que trabajan en paralelo, incluso cuestionan las conclusiones de los otros, iteran hasta que el resultado converge, y finalmente verifican y reportan al usuario.

Un ejemplo que da Anthropic es que Claude Code, junto con Opus 4.8, puede realizar migraciones a nivel de bases de código de decenas de miles de líneas, desde el inicio hasta la integración, usando los tests existentes como estándar de calidad. Hasta 1000 subagentes en una sola ejecución, con hasta 16 en paralelo.

Otra actualización es "Effort Control" (Control de esfuerzo), en claude.ai y Cowork, donde los usuarios pueden ajustar manualmente cuánto "pensamiento" invierte Claude en cada respuesta — desde un modo rápido y económico, hasta el modo más exhaustivo y costoso en tokens. Es decir, el usuario decide cuánto gastar para obtener qué nivel de calidad. Opus 4.8 viene configurado por defecto en "high" (alto), con consumo de tokens similar a Opus 4.7, pero con mejor rendimiento.

El modo rápido (Fast Mode) también merece mención: velocidad aumentada a 2.5 veces, y el precio reducido a una tercera parte.

04 La sombra de Mythos

Junto con el lanzamiento de Opus 4.8, Anthropic volvió a mencionar a Claude Mythos — ese modelo más potente, actualmente solo accesible para algunas organizaciones. Dicen que Mythos estará "disponible para todos en las próximas semanas".

Este es en realidad el contexto más amplio del lanzamiento de Opus 4.8 — parece ser una especie de "precalentamiento" antes de la llegada oficial de Mythos. Opus 4.8 ya se acerca en alineación a Mythos Preview, lo que podría indicar que Anthropic se está preparando para liberar un modelo más potente con mayores medidas de seguridad.

En términos de precio, Opus 4.8 mantiene los 5 dólares por millón de tokens de entrada y 25 dólares por millón de tokens de salida. La API está identificada como claude-opus-4-8, y ya está disponible en Claude API, Amazon Bedrock, Google Cloud Vertex AI y Microsoft Foundry.

En un escenario donde GPT-5.5 de OpenAI y Gemini 3.1 Pro de Google siguen presionando, Anthropic opta por una estrategia diferente: no busca destacar solo por puntajes, sino por "personalidad del modelo" — honestidad, confiabilidad, saber cuándo retroceder— como su principal propuesta de valor.

No sabemos si esto funcionará, pero al menos hoy, cuando le pedí a Opus 4.8 que revisara un fragmento de código, me reveló un riesgo que el 4.7 nunca mencionó.

Con eso, esta actualización ya valió la pena.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado