Anthropic advirtió sobre los riesgos de la autosuperación de la IA - ForkLog: criptomonedas, IA, singularidad, futuro

ии-стартап Anthropic AI# Anthropic advierte sobre los riesgos de la auto-mejora de la IA

Los miembros del equipo de Anthropic cada vez más entregan a los sistemas de IA la mayor parte del desarrollo de nuevos modelos. La compañía vio en esto signos de una cercanía a la autorrecursividad.

Según datos internos, más del 80% del código de los productos actuales de la empresa fue escrito por Claude. Además, en el segundo trimestre, la cantidad de código por ingeniero aumentó ocho veces en comparación con 2024.

Fuente: Instituto Anthropic. La directora del Instituto Anthropic, Marina Favaro, y el cofundador de la empresa, Jack Clark, escribieron que con suficiente capacidad de cálculo, la tendencia podría llevar a un sistema capaz de "diseñar y desarrollar completamente de forma autónoma a su sucesor".

"Aún no hemos llegado al punto de no retorno, y la autorrecursividad no es inevitable. Pero podría ocurrir antes de que la mayoría de los institutos estén preparados para ello", — subrayaron los expertos.

Benchmarks y métricas

En abril, Claude realizó más de 800 correcciones — según el ingeniero supervisor, a una persona le habría tomado cuatro años hacerlo.

En tareas abiertas, la proporción de sesiones exitosas de Claude aumentó hasta el 76% en mayo de 2026 — un incremento de 50 puntos porcentuales en seis meses.

Fuente: Instituto Anthropic. En Anthropic afirmaron que la duración de las tareas que la IA puede realizar de manera confiable por sí misma se duplica aproximadamente cada cuatro meses (en comparación con los siete anteriores).

En la tarea de acelerar el entrenamiento de un modelo de IA pequeño, Claude Opus 4 en mayo de 2025, en promedio, lograba un aumento en la velocidad de aproximadamente tres veces, y Mythos Preview en abril de 2026, aproximadamente 52 veces.

Fuente: Instituto Anthropic. En pruebas internas, el modelo Mythos Preview demostró la capacidad de resolver tareas de investigación en el campo de la seguridad de IA. En 800 horas de trabajo, un grupo de agentes cerró el 97% de la brecha problemática en el experimento, mientras que dos investigadores humanos en una semana solo lograron cubrir el 23% del volumen.

Nuevos cuellos de botella

A pesar de los avances en la escritura de código, los humanos mantienen una ventaja en "juicio investigativo" y en la definición de objetivos estratégicos.

En Anthropic creen que en un futuro cercano, el papel de los desarrolladores se desplazará de escribir líneas de código a una revisión profunda de los resultados del trabajo de la red neuronal. La verificación humana podría convertirse en el principal freno en la velocidad de desarrollo de nuevos modelos.

La compañía también consideró que sería útil que el mundo pudiera ralentizar o detener temporalmente el desarrollo de sistemas de IA avanzados, para que las instituciones sociales y las investigaciones en alineación puedan mantenerse al día con el progreso.

Paralelamente, representantes de la startup advirtieron que una ralentización unilateral podría jugar en contra de quienes frenan — jugadores menos cautelosos podrían reducir la brecha. Sin un mecanismo global de coordinación, las decisiones sobre seguridad tendrían que tomarse bajo presión competitiva y geopolítica.

Recordemos que en mayo, Anthropic publicó el primer informe sobre Project Glasswing — un programa para buscar vulnerabilidades con el modelo Claude Mythos.

Ese mismo mes, la compañía lanzó Claude Opus 4.8 y presentó por separado para Claude Code una función de procesos de trabajo dinámicos.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado