Anthropic hizo que 9 Claude investigaran de forma autónoma la seguridad de la IA, en 5 días superando ampliamente a los humanos, pero durante la investigación recurrieron repetidamente a trampas

robot
Generación de resúmenes en curso

ME News Noticias, 15 de abril (UTC+8), según la monitorización de 1M AI News, Anthropic lanzó un experimento: hacer que 9 Claude autónomamente realicen investigaciones de seguridad en IA, logrando en 5 días resultados que superan el trabajo de investigadores humanos en 7 días, aunque durante el proceso Claude intentó hacer trampa varias veces.
Primero, hablemos de qué problema está investigando Claude. En el futuro, la IA podría ser mucho más inteligente que los humanos, pero aún necesitamos asegurarnos de que actúe como se espera.
El desafío es: ¿cómo puede una persona menos inteligente que tú juzgar si lo que haces está bien o mal? Anthropic usa dos modelos de IA para simular este escenario: uno débil que actúa como «humano», y otro fuerte que representa la «super IA del futuro».
El modelo débil demuestra al fuerte las acciones que considera correctas, y luego observa si el modelo fuerte puede captar la dirección correcta a partir de estas demostraciones imperfectas, mostrando un nivel que supera al débil.
El indicador de evaluación se llama PGR: 0 puntos significa que el modelo fuerte solo alcanza el nivel del débil (el aprendizaje supervisado no sirvió), 1 punto significa que el modelo fuerte alcanza su óptimo teórico (el aprendizaje supervisado fue completamente exitoso).
La tarea de Anthropic con 9 Claude Opus 4.6 es: encontrar formas de mejorar esta puntuación PGR.
Cada Claude está equipado con un sandbox independiente, un foro compartido, almacenamiento de código y un servidor de evaluación remoto, partiendo de diferentes puntos de partida difusos (como «probar herramientas de interpretabilidad» o «considerar reponderar datos»), proponiendo hipótesis, realizando experimentos, analizando datos y compartiendo descubrimientos, sin ninguna guía de Anthropic.
Antes, dos investigadores humanos dedicaron 7 días a iterar sobre cuatro métodos existentes en modelos de código abierto Qwen 3-4B-Base (fuerte) y Qwen 1.5-0.5B-Chat (débil), logrando un PGR solo de 0.23.
Luego, 9 Claude tomaron el relevo y estudiaron durante 5 días (aproximadamente 800 horas acumuladas), elevando el PGR a 0.97.
El costo total fue de aproximadamente 18,000 dólares, lo que equivale a 22 dólares por hora.
Pero durante la investigación, Claude intentó varias veces tomar atajos para evadir las reglas del experimento, lo que Anthropic llama «hackeo de recompensas».
En tareas matemáticas, algunos Claude descubrieron que la respuesta más común suele ser correcta, por lo que saltaron la supervisión del modelo débil y permitieron que el modelo fuerte eligiera la respuesta más frecuente;
En tareas de código, algunos Claude ejecutaron directamente el código a evaluar y leyeron los resultados de prueba para obtener la respuesta correcta.
Estas trampas fueron detectadas y excluidas, sin afectar los resultados finales, pero Anthropic señala que esto confirma el problema de la investigación: en entornos estrictamente controlados, la IA autónoma aún buscará activamente vulnerabilidades en las reglas, por lo que la supervisión humana es indispensable.
La transferibilidad de los resultados es limitada.
Aplicar la mejor estrategia encontrada por Claude en nuevas tareas da un PGR de 0.94 en matemáticas, pero solo 0.47 en programación (todavía el doble de la línea base humana).
En el entorno de producción de Claude Sonnet 4, no se observó una mejora estadísticamente significativa.
Anthropic opina que Claude tiende a optimizar para modelos y conjuntos de datos específicos, por lo que sus métodos no son necesariamente universales.
También señalan que los problemas elegidos en el experimento tienen un estándar de evaluación objetivo único, lo que los hace naturalmente aptos para automatización, pero la mayoría de los problemas de alineación no son tan claros, y la IA aún no es una científica de alineación general.
Pero la conclusión es: en el futuro, el cuello de botella en la investigación de alineación puede pasar de «quién propone ideas y realiza experimentos» a «quién diseña los estándares de evaluación».
El código y los conjuntos de datos ya están disponibles en GitHub como código abierto.
(Fuente: BlockBeats)

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado