Básico
Spot
Opera con criptomonedas libremente
Margen
Multiplica tus beneficios con el apalancamiento
Convertir e Inversión automática
0 Fees
Opera cualquier volumen sin tarifas ni deslizamiento
ETF
Obtén exposición a posiciones apalancadas de forma sencilla
Trading premercado
Opera nuevos tokens antes de su listado
Contrato
Accede a cientos de contratos perpetuos
CFD
Oro
Plataforma global de activos tradicionales
Opciones
Hot
Opera con opciones estándar al estilo europeo
Cuenta unificada
Maximiza la eficacia de tu capital
Trading de prueba
Introducción al trading de futuros
Prepárate para operar con futuros
Eventos de futuros
Únete a eventos para ganar recompensas
Trading de prueba
Usa fondos virtuales para probar el trading sin asumir riesgos
Lanzamiento
CandyDrop
Acumula golosinas para ganar airdrops
Launchpool
Staking rápido, ¡gana nuevos tokens con potencial!
HODLer Airdrop
Holdea GT y consigue airdrops enormes gratis
Pre-IPOs
Accede al acceso completo a las OPV de acciones globales
Puntos Alpha
Opera activos on-chain y recibe airdrops
Puntos de futuros
Gana puntos de futuros y reclama recompensas de airdrop
Inversión
Simple Earn
Genera intereses con los tokens inactivos
Inversión automática
Invierte automáticamente de forma regular
Inversión dual
Aprovecha la volatilidad del mercado
Staking flexible
Gana recompensas con el staking flexible
Préstamo de criptomonedas
0 Fees
Usa tu cripto como garantía y pide otra en préstamo
Centro de préstamos
Centro de préstamos integral
Centro de patrimonio VIP
Planes de aumento patrimonial prémium
Gestión patrimonial privada
Asignación de activos prémium
Quant Fund
Estrategias cuantitativas de alto nivel
Staking
Haz staking de criptomonedas para ganar en productos PoS
Apalancamiento inteligente
Apalancamiento sin liquidación
Acuñación de GUSD
Acuña GUSD y gana rentabilidad de RWA
Promociones
Centro de actividades
Únete a actividades y gana recompensas
Referido
20 USDT
Invita amigos y gana por tus referidos
Programa de afiliados
Gana recompensas de comisión exclusivas
Gate Booster
Aumenta tu influencia y gana airdrops
Anuncio
Novedades de plataforma en tiempo real
Gate Blog
Artículos del sector de las criptomonedas
AI
Gate AI
Tu compañero de IA conversacional para todo
Gate AI Bot
Usa Gate AI directamente en tu aplicación social
GateClaw
Gate Blue Lobster, listo para usar
Gate for AI Agent
Infraestructura de IA, Gate MCP, Skills y CLI
Gate Skills Hub
+10 000 habilidades
De la oficina al trading, una biblioteca de habilidades todo en uno para sacar el máximo partido a la IA
GateRouter
Elige inteligentemente entre más de 40 modelos de IA, con 0% de costos adicionales
Anthropic afirma que cerró el riesgo de chantaje de Claude
Anthropic anunció el viernes que Claude ya no participa en chantajes durante su evaluación de seguridad central para agentes de IA.
Según Anthropic, todas las versiones de Claude creadas después de Claude Haiku 4.5 han pasado la evaluación de seguridad sin amenazar a los ingenieros, usar datos privados, atacar otros sistemas de IA o intentar impedir su apagado durante el escenario simulado.
Esto ocurrió después de un rendimiento desfavorable de Claude durante una prueba el año pasado, donde Anthropic evaluó varios modelos de IA de diferentes organizaciones usando dilemas éticos simulados que resultaron en comportamientos muy desalineados por parte de algunos agentes de IA cuando se sometieron a condiciones extremas.
Anthropic dice que Claude 4 mostró un problema de seguridad que el entrenamiento regular en chat no logró solucionar
Anthropic afirmó que este problema ocurrió durante el entrenamiento de Claude 4. Fue la primera vez que la compañía realizó una auditoría de seguridad mientras el entrenamiento aún estaba en curso en el grupo. Según la compañía, la desalineación de agentes es solo uno de los muchos problemas de comportamiento observados, lo que llevó a Anthropic a modificar su entrenamiento de seguridad tras las pruebas de Claude 4.
Las dos razones consideradas por Anthropic incluyen la posibilidad de que el entrenamiento posterior al modelo base pudiera estar recompensando comportamientos inapropiados o que los comportamientos ya estuvieran presentes en el modelo base, pero no se eliminaran eficazmente con un entrenamiento adicional para la seguridad.
Anthropic cree que la segunda razón fue la principal contribuyente.
En ese entonces, la mayor parte del trabajo de alineación de la compañía utilizaba el método estándar RLHF, o Aprendizaje por Refuerzo a partir de Retroalimentación Humana. Funcionaba bien en chats estándar donde los modelos responden a las solicitudes de los usuarios, pero resultó ser ineficaz al realizar tareas similares a agentes.
La compañía utilizó su modelo de clase Haiku para realizar un mini experimento respecto a la hipótesis. Aplicó una versión abreviada del entrenamiento que involucraba datos para fines de alineación. Hubo una ligera reducción en el comportamiento incorrecto, seguida de una falta de mejora muy pronto, lo que significaba que la respuesta no era una cuestión de más entrenamiento convencional.
Luego, la compañía entrenó a Claude usando escenarios tipo honeypot que tenían algunas similitudes con los de la prueba de alineación. El asistente observó varias situaciones que involucraban protegerse a sí mismo, dañar a otra IA e incluso romper las reglas para lograr un objetivo. El entrenamiento incluyó todos los casos en los que el asistente logró resistir.
Esta medida hizo que la desalineación disminuyera del 22% al 15%, lo cual no está mal pero definitivamente no es suficiente. Reescribir las respuestas para mencionar la razón de la negativa permitió reducir la proporción al 3%. Por lo tanto, la conclusión principal fue que entrenar en el comportamiento incorrecto era menos efectivo que en por qué el comportamiento incorrecto era inapropiado.
Anthropic prueba a Claude con datos éticos, archivos de constitución y entrenamiento RL más amplio
Luego, Anthropic dejó de entrenar tan cerca de la prueba exacta. Creó un conjunto de datos llamado consejo difícil. En esos ejemplos, el usuario enfrentaba el problema ético, no la IA. El usuario tenía un objetivo justo pero podía alcanzarlo rompiendo reglas o evitando la supervisión. Claude debía dar un consejo cuidadoso basado en la constitución de Claude.
Ese conjunto de datos usó solo 3 millones de tokens y logró la misma ganancia con una eficiencia 28 veces mayor. Anthropic dijo que esto importaba porque entrenar con ejemplos que no parecen la prueba puede funcionar mejor fuera del laboratorio.
Claude Sonnet 4.5 alcanzó una tasa de chantaje casi cero después de entrenar en honeypots sintéticos, pero aún fallaba con más frecuencia en casos que no se parecían en nada a esa configuración que Claude Opus 4.5 y modelos más nuevos.
La compañía también entrenó a Claude con documentos de constitución y historias ficticias sobre comportamientos de IA que siguen las reglas. Esos archivos no parecían la prueba de chantaje, pero redujeron la desalineación de agentes en más de tres veces. Anthropic dijo que el objetivo era darle al modelo una idea más clara de qué debería ser Claude, no solo una lista de respuestas aprobadas.
Luego, la compañía verificó si esas ganancias permanecían después del entrenamiento RL. Entrenó diferentes versiones de Haiku con diferentes conjuntos de datos iniciales, y luego realizó RL en configuraciones de prueba centradas en la inocuidad. Las versiones mejor alineadas permanecieron por delante en las pruebas de chantaje, verificaciones de constitución y revisiones de seguridad automatizadas.
Otra prueba utilizó el modelo base bajo Claude Sonnet 4 con diferentes mezclas de RL. Los datos básicos de seguridad incluían solicitudes dañinas e intentos de jailbreak. La versión más amplia añadió definiciones de herramientas y diferentes indicaciones del sistema, aunque las herramientas no eran necesarias para las tareas. Esa configuración llevó a una pequeña pero real ganancia en las puntuaciones de honeypot.
No solo leas noticias de criptomonedas. Entiéndelas. Suscríbete a nuestro boletín. Es gratis.