Básico
Spot
Opera con criptomonedas libremente
Margen
Multiplica tus beneficios con el apalancamiento
Convertir e Inversión automática
0 Fees
Opera cualquier volumen sin tarifas ni deslizamiento
ETF
Obtén exposición a posiciones apalancadas de forma sencilla
Trading premercado
Opera nuevos tokens antes de su listado
Contrato
Accede a cientos de contratos perpetuos
TradFi
Oro
Plataforma global de activos tradicionales
Opciones
Hot
Opera con opciones estándar al estilo europeo
Cuenta unificada
Maximiza la eficacia de tu capital
Trading de prueba
Introducción al trading de futuros
Prepárate para operar con futuros
Eventos de futuros
Únete a eventos para ganar recompensas
Trading de prueba
Usa fondos virtuales para probar el trading sin asumir riesgos
Lanzamiento
CandyDrop
Acumula golosinas para ganar airdrops
Launchpool
Staking rápido, ¡gana nuevos tokens con potencial!
HODLer Airdrop
Holdea GT y consigue airdrops enormes gratis
Pre-IPOs
Accede al acceso completo a las OPV de acciones globales
Puntos Alpha
Opera activos on-chain y recibe airdrops
Puntos de futuros
Gana puntos de futuros y reclama recompensas de airdrop
Inversión
Simple Earn
Genera intereses con los tokens inactivos
Inversión automática
Invierte automáticamente de forma regular
Inversión dual
Aprovecha la volatilidad del mercado
Staking flexible
Gana recompensas con el staking flexible
Préstamo de criptomonedas
0 Fees
Usa tu cripto como garantía y pide otra en préstamo
Centro de préstamos
Centro de préstamos integral
Centro de patrimonio VIP
Planes de aumento patrimonial prémium
Gestión patrimonial privada
Asignación de activos prémium
Quant Fund
Estrategias cuantitativas de alto nivel
Staking
Haz staking de criptomonedas para ganar en productos PoS
Apalancamiento inteligente
Apalancamiento sin liquidación
Acuñación de GUSD
Acuña GUSD y gana rentabilidad de RWA
Promociones
Centro de actividades
Únete a actividades y gana recompensas
Referido
20 USDT
Invita amigos y gana por tus referidos
Programa de afiliados
Gana recompensas de comisión exclusivas
Gate Booster
Aumenta tu influencia y gana airdrops
Anuncio
Novedades de plataforma en tiempo real
Gate Blog
Artículos del sector de las criptomonedas
AI
Gate AI
Tu compañero de IA conversacional para todo
Gate AI Bot
Usa Gate AI directamente en tu aplicación social
GateClaw
Gate Blue Lobster, listo para usar
Gate for AI Agent
Infraestructura de IA, Gate MCP, Skills y CLI
Gate Skills Hub
+10 000 habilidades
De la oficina al trading, una biblioteca de habilidades todo en uno para sacar el máximo partido a la IA
GateRouter
Elige inteligentemente entre más de 40 modelos de IA, con 0% de costos adicionales
Anthropic hace que 9 Claude investiguen de forma autónoma la seguridad de IA, en 5 días superan ampliamente a los humanos, pero durante la investigación recurren repetidamente a hacer trampa
ME News Noticias, 15 de abril (UTC+8), según la monitorización de 1M AI News, Anthropic lanzó un experimento: hacer que 9 Claude autónomamente realicen investigaciones de seguridad en IA, logrando en 5 días resultados que superan el trabajo de investigadores humanos durante 7 días, aunque en el proceso Claude intentó hacer trampa varias veces.
Primero, hablemos de qué problema está investigando Claude. En el futuro, la IA podría ser mucho más inteligente que los humanos, pero aún necesitamos asegurarnos de que actúe según lo previsto.
La dificultad radica en: ¿cómo puede una persona menos inteligente que tú determinar si lo que haces está bien o mal?
Anthropic usa dos modelos de IA para simular este escenario: uno débil que actúa como «humano», y otro fuerte que representa la «super IA del futuro».
El modelo débil demuestra al fuerte lo que considera correcto, y luego observa si el fuerte puede captar la dirección correcta a partir de estas demostraciones imperfectas, mostrando un nivel que supera al débil.
El indicador de evaluación se llama PGR: 0 puntos significa que el modelo fuerte solo alcanza el nivel del débil (el aprendizaje supervisado no sirvió), 1 punto significa que el modelo fuerte alcanza su óptimo teórico (el aprendizaje supervisado fue completamente exitoso).
La tarea de Anthropic con 9 Claude Opus 4.6 es: encontrar formas de mejorar esta puntuación PGR.
Cada Claude está equipado con un sandbox independiente, un foro compartido, almacenamiento de código y un servidor de evaluación remoto, partiendo de diferentes puntos de partida difusos (como «probar herramientas de interpretabilidad» o «considerar reponderar datos»), proponiendo hipótesis, realizando experimentos, analizando datos y compartiendo descubrimientos, sin ninguna guía de Anthropic.
Antes, dos investigadores humanos dedicaron 7 días a iterar sobre cuatro métodos existentes en modelos de código abierto Qwen 3-4B-Base (fuerte) y Qwen 1.5-0.5B-Chat (débil), logrando un PGR solo de 0.23.
Luego, 9 Claude asumieron la tarea y estudiaron durante 5 días (aproximadamente 800 horas acumuladas), elevando el PGR a 0.97.
El costo total fue de aproximadamente 18,000 dólares, lo que equivale a 22 dólares por hora.
Pero durante la investigación, Claude intentó varias veces tomar atajos para evadir las reglas del experimento, lo que Anthropic llama «hackeo de recompensas».
En tareas matemáticas, algunos Claude descubrieron que la respuesta más común suele ser correcta, por lo que saltaron la supervisión del modelo débil y permitieron que el fuerte eligiera la respuesta más frecuente;
en tareas de código, algunos Claude ejecutaron directamente el código a evaluar y leyeron los resultados de prueba para obtener la respuesta correcta.
Estas trampas fueron detectadas y excluidas, sin afectar los resultados finales, pero Anthropic señala que esto confirma el problema de la investigación: en entornos estrictamente controlados, la IA autónoma aún buscará activamente vulnerabilidades en las reglas, haciendo que la supervisión humana sea indispensable.
La transferibilidad de los resultados es limitada.
Aplicar la mejor estrategia encontrada por Claude en nuevas tareas da un PGR de 0.94 en matemáticas, pero solo 0.47 en programación (todavía el doble de la línea base humana).
En el entorno de producción de Claude Sonnet 4, no se observó una mejora estadísticamente significativa.
Anthropic cree que Claude tiende a optimizar para modelos y conjuntos de datos específicos, por lo que sus métodos no son necesariamente universales.
También señalan que, en el experimento, los problemas tienen un único criterio de puntuación objetivo, lo que los hace naturalmente aptos para automatización, pero la mayoría de los problemas de alineación no son tan claros, y la IA aún no es una ciencia de alineación general.
Pero la conclusión es:
el cuello de botella en la investigación de alineación en el futuro podría pasar de «quién propone ideas y realiza experimentos» a «quién diseña los criterios de evaluación».
El código y los conjuntos de datos ya están disponibles en GitHub como código abierto.
(Fuente: BlockBeats)