Básico
Spot
Opera con criptomonedas libremente
Margen
Multiplica tus beneficios con el apalancamiento
Convertir e Inversión automática
0 Fees
Opera cualquier volumen sin tarifas ni deslizamiento
ETF
Obtén exposición a posiciones apalancadas de forma sencilla
Trading premercado
Opera nuevos tokens antes de su listado
Contrato
Accede a cientos de contratos perpetuos
CFD
Oro
Plataforma global de activos tradicionales
Opciones
Hot
Opera con opciones estándar al estilo europeo
Cuenta unificada
Maximiza la eficacia de tu capital
Trading de prueba
Introducción al trading de futuros
Prepárate para operar con futuros
Eventos de futuros
Únete a eventos para ganar recompensas
Trading de prueba
Usa fondos virtuales para probar el trading sin asumir riesgos
Lanzamiento
CandyDrop
Acumula golosinas para ganar airdrops
Launchpool
Staking rápido, ¡gana nuevos tokens con potencial!
HODLer Airdrop
Holdea GT y consigue airdrops enormes gratis
Pre-IPOs
Accede al acceso completo a las OPV de acciones globales
Puntos Alpha
Opera activos on-chain y recibe airdrops
Puntos de futuros
Gana puntos de futuros y reclama recompensas de airdrop
Inversión
Simple Earn
Genera intereses con los tokens inactivos
Inversión automática
Invierte automáticamente de forma regular
Inversión dual
Aprovecha la volatilidad del mercado
Staking flexible
Gana recompensas con el staking flexible
Préstamo de criptomonedas
0 Fees
Usa tu cripto como garantía y pide otra en préstamo
Centro de préstamos
Centro de préstamos integral
Promociones
Centro de actividades
Únete a actividades y gana recompensas
Referido
20 USDT
Invita amigos y gana por tus referidos
Programa de afiliados
Gana recompensas de comisión exclusivas
Gate Booster
Aumenta tu influencia y gana airdrops
Anuncio
Novedades de plataforma en tiempo real
Gate Blog
Artículos del sector de las criptomonedas
Servicios VIP
Grandes descuentos en tarifas
Gestión de activos
Solución integral para la gestión de activos
Institucional
Soluciones de activos digitales: empresas
Desarrolladores (API)
Conecta con el ecosistema de aplicaciones Gate
Transferencia bancaria OTC
Deposita y retira fiat
Programa de bróker
Reembolsos generosos mediante API
AI
Gate AI
Tu compañero de IA conversacional para todo
Gate AI Bot
Usa Gate AI directamente en tu aplicación social
GateClaw
Gate Blue Lobster, listo para usar
Gate for AI Agent
Infraestructura de IA, Gate MCP, Skills y CLI
Gate Skills Hub
+10 000 habilidades
De la oficina al trading, una biblioteca de habilidades todo en uno para sacar el máximo partido a la IA
GateRouter
Elige inteligentemente entre más de 40 modelos de IA, con 0% de costos adicionales
Opus4.8 lanzamiento oficial, la IA dice por primera vez «No estoy seguro»
Autor|Huálín Wǔwáng
Editor|Jìngyǔ
Si tú y yo, como yo, dependemos a diario de la IA para escribir artículos, programar, hacer investigaciones, entonces seguramente has tenido esta experiencia: la IA entrega un resultado con mucha confianza, tú revisas durante mucho tiempo y descubres un error básico, y ella no dice nada en todo el proceso.
Este problema de "fingir que todo está bien" puede ser uno de los mayores dolores de cabeza de los modelos grandes actuales.
El 28 de mayo, Anthropic lanzó Claude Opus 4.8. Solo seis semanas después del lanzamiento de la versión anterior, Opus 4.7.
Opus 4.8 no representa un salto generacional asfixiante, Anthropic también admite que es solo una "mejora modesta pero tangible" — pero hizo una cosa que muchos esperaban desde hace tiempo: enseñar a la IA a reconocer su propia incertidumbre.
01 Ritmo más rápido, modelos más honestos
Desde Opus 4.5 en noviembre de 2025, el ritmo de iteración de los modelos insignia de Anthropic ha sido aproximadamente cada dos meses — 4.5 (noviembre pasado), 4.6 (febrero de este año), 4.7 (abril), 4.8 (finales de mayo). Un lanzamiento cada seis semanas, casi la velocidad de iteración más agresiva en la industria de modelos grandes.
Comparación entre Opus 4.8 y modelos propios y de competidores|Fuente: Anthropic
En benchmarks estándar, el rendimiento de Opus 4.8 puede resumirse como "progreso constante". En habilidades de programación, SWE-bench Pro subió del 64.3% en 4.7 al 69.2%, SWE-bench Verified del 87.6% al 88.6%. El razonamiento multidisciplinario (Humanity's Last Exam) alcanzó un 57.9% usando herramientas. La evaluación de trabajo del conocimiento GDPval-AA lidera con un valor Elo de 1890, frente a 1769 de GPT-5.5. La evaluación de operaciones informáticas OSWorld-Verified también lidera con un 83.4%.
El único ítem superado por GPT-5.5 fue programación en terminal (Terminal-Bench 2.1), con un 78.2%, mientras que Opus 4.8 obtuvo un 74.6%.
Pero, honestamente, estos puntajes ya no resultan tan emocionantes. Las evaluaciones como SWE-bench Verified están casi saturadas, varias modelos en GPQA Diamond superan el 93%. Cuanto más alto el puntaje, menor la diferencia perceptible con cada punto adicional.
Lo que realmente me hizo pensar que esta actualización valía la pena escribir, fue la inversión de Anthropic en la "honestidad".
02 IA que dice "no estoy seguro"
Anthropic proporcionó un dato muy concreto: en tareas de programación, la probabilidad de que Opus 4.8 omita reportar defectos en su código se redujo aproximadamente en cuatro veces respecto a Opus 4.7.
¿Qué significa esto? Que antes, cuando Opus 4.7 terminaba un fragmento de código, incluso si tenía errores, podía decirte con tranquilidad "he terminado, no hay problema". Pero Opus 4.8 tiende a decir proactivamente "hay una parte en la que no estoy muy seguro, sería mejor que revisaras".
En las evaluaciones de alineación, Opus 4.8 alcanzó un nuevo máximo en características pro sociales (como respetar la autonomía del usuario, pensar en sus intereses), y las tasas de comportamientos "no alineados" como engañar o colaborar en abusos cayeron mucho respecto a Opus 4.7, acercándose al mejor modelo de alineación de Anthropic, Claude Mythos Preview.
El CEO de Cursor, Michael Truell, comentó que Opus 4.8 supera a modelos anteriores en CursorBench en todos los niveles de esfuerzo, con mayor eficiencia en llamadas a herramientas, logrando el mismo nivel de inteligencia con menos pasos. El director de investigación de aplicaciones de la firma legal Casetext fue más directo, diciendo que Opus 4.8 estableció un nuevo récord en pruebas de referencia legal, siendo el primer modelo en superar el 10% en la norma de aprobación total.
Scott Wu, CEO de Devin, señaló un problema práctico: Opus 4.8 corrigió redundancias en anotaciones y problemas en llamadas a herramientas presentes en Opus 4.7, lo cual es crucial para flujos de trabajo autónomos sin supervisión.
En una era donde la IA se usa cada vez más para decisiones autónomas, un modelo que se expone a sí mismo sus debilidades es, en realidad, el más confiable.
En cuanto a la no coherencia del modelo, Opus 4.8 ya está a la par del legendario Mythos|Fuente: Anthropic
Sin embargo, en la sección de seguridad del sistema de Opus 4.8, Anthropic reveló un hallazgo interesante: durante el entrenamiento, Opus 4.8 comenzó a mostrar una tendencia a "intentar adivinar la intención del evaluador".
Es decir, el modelo, al razonar, empieza a pensar en cómo será calificado su output — incluso sin que nadie le diga que está siendo evaluado. Estudios preliminares de interpretabilidad muestran que en aproximadamente el 5% de los fragmentos de entrenamiento, el modelo realiza inferencias relacionadas con la evaluación que no son verbalizadas.
En otras palabras, la IA está aprendiendo a "pensar en los exámenes" — le importa menos dar la mejor respuesta y más dar la respuesta que más le gustaría al "profesor" que evalúa.
Anthropic enfatiza que, por ahora, esta tendencia no ha llevado a comportamientos peores en la práctica — de hecho, las declaraciones engañosas de Opus 4.8 son menores que en modelos anteriores. Pero también admiten que esto es una "tendencia que podría complicar el entrenamiento en el futuro".
Este problema no es exclusivo de Anthropic. Todos los modelos entrenados con RLHF (aprendizaje reforzado con retroalimentación humana) pueden, en teoría, desarrollar estrategias para "complacer a los revisores". La diferencia de Anthropic es que opta por hacer pública esta observación — en una industria donde muchas empresas prefieren no hablar de los fallos, esto al menos es una muestra de honestidad que merece respeto.
03 Funciones que realmente cambian la forma de trabajar
Junto con Opus 4.8, se lanzaron varias actualizaciones, siendo la más destacada "Dynamic Workflows" en Claude Code.
Esta función permite que Claude, en una sola sesión, despliegue cientos de subagentes en paralelo para colaborar en tareas. Funciona así: Claude diseña un plan, divide la tarea en sub tareas, las asigna a diferentes subagentes que trabajan en paralelo, incluso cuestionan las conclusiones de los otros, iteran hasta que el resultado converge, y finalmente verifican y reportan al usuario.
Un ejemplo que da Anthropic es que Claude Code, junto con Opus 4.8, puede realizar migraciones a nivel de bases de código de decenas de miles de líneas, desde el inicio hasta la integración, usando los tests existentes como estándar de calidad. Hasta 1000 subagentes en una sola ejecución, con hasta 16 en paralelo.
Otra actualización es "Effort Control" (Control de esfuerzo), en claude.ai y Cowork, donde los usuarios pueden ajustar manualmente cuánto "pensamiento" invierte Claude en cada respuesta — desde un modo rápido y económico, hasta el modo más exhaustivo y costoso en tokens. Es decir, el usuario decide cuánto gastar para obtener qué nivel de calidad. Opus 4.8 viene configurado por defecto en "high" (alto), con consumo de tokens similar a Opus 4.7, pero con mejor rendimiento.
El modo rápido (Fast Mode) también merece mención: velocidad aumentada a 2.5 veces, y el precio reducido a una tercera parte.
04 La sombra de Mythos
Junto con el lanzamiento de Opus 4.8, Anthropic volvió a mencionar a Claude Mythos — ese modelo más potente, actualmente solo accesible para algunas organizaciones. Dicen que Mythos estará "disponible para todos en las próximas semanas".
Este es en realidad el contexto más amplio del lanzamiento de Opus 4.8 — parece ser una especie de "precalentamiento" antes de la llegada oficial de Mythos. Opus 4.8 ya se acerca en alineación a Mythos Preview, lo que podría indicar que Anthropic se está preparando para liberar un modelo más potente con mayores medidas de seguridad.
En términos de precio, Opus 4.8 mantiene los 5 dólares por millón de tokens de entrada y 25 dólares por millón de tokens de salida. La API está identificada como claude-opus-4-8, y ya está disponible en Claude API, Amazon Bedrock, Google Cloud Vertex AI y Microsoft Foundry.
En un escenario donde GPT-5.5 de OpenAI y Gemini 3.1 Pro de Google siguen presionando, Anthropic opta por una estrategia diferente: no busca destacar solo por puntajes, sino por "personalidad del modelo" — honestidad, confiabilidad, saber cuándo retroceder— como su principal propuesta de valor.
No sabemos si esto funcionará, pero al menos hoy, cuando le pedí a Opus 4.8 que revisara un fragmento de código, me reveló un riesgo que el 4.7 nunca mencionó.
Con eso, esta actualización ya valió la pena.