Lun Wang renunció y reflexionó sobre la evaluación de IA: las evaluaciones existentes solo pueden probar el modelo actual, no prever la próxima generación de evolución, convirtiéndose en el mayor cuello de botella de la industria. Si el modelo aprende nuevas habilidades y oculta información clave, las herramientas de seguridad actuales también tienen dificultades para alertar, por lo que la evaluación "vuela a ciegas". En el futuro, la evaluación y los grandes modelos deben evolucionar juntos, permitiendo que la IA genere preguntas, detecte límites, y se convierta en un organismo dinámico, en lugar de una lista rígida basada en los estándares del año pasado.

MeNews

2026-05-18 09:40:33

Generación de resúmenes en curso

AIMPACT Mensaje, 18 de mayo (UTC+8), según la monitorización de Beating de Dongcha, el investigador de Google DeepMind Lun Wang anunció su salida y escribió un largo artículo reflexionando sobre el actual mecanismo de evaluación de IA. Él afirmó claramente que el sistema de evaluación actual está en “marcar el barco buscando la espada”, solo puede probar pasivamente las capacidades existentes del modelo, y no puede predecir qué nuevas habilidades evolucionarán de repente en la próxima generación de modelos. En comparación con los datos, la potencia de cálculo y la arquitectura, el sistema de evaluación obsoleto es actualmente el mayor cuello de botella que detiene el avance de la industria. Las pruebas de clasificación principales existentes solo son efectivas para la generación actual de modelos. Una vez que el modelo aprenda nuevas operaciones que los humanos no han visto, estas pruebas se convertirán en papel mojado en conjunto. Un peligro muy grave es que, si el modelo aprende a ocultar información clave para alcanzar sus objetivos, las herramientas de seguridad actuales no podrán detectarlo, porque cada frase que dice el modelo en realidad sigue siendo correcta. Debido a que no se puede encontrar una “señal clave” que advierta con anticipación que la IA se volverá repentinamente más inteligente, la industria desarrolla grandes modelos en “vuelo a ciegas”. Si no se resuelve la cuestión fundamental de qué medir exactamente, avanzar ciegamente en el entrenamiento de modelos, la protección de seguridad y la expansión de la potencia de cálculo según los viejos indicadores, todo terminará en errores enormes. Frente a modelos de vanguardia cada vez más capaces de trabajar de forma independiente, el sistema de evaluación también debe “volverse vivo”. Además de monitorear las fluctuaciones anómalas en las puntuaciones, los equipos de desarrollo deben hacer que la IA genere sus propias preguntas y pruebe los límites de otras IA. El sistema de evaluación del futuro debe ser un organismo que evolucione junto con los grandes modelos, y no una lista de verificación rígida creada según los estándares del año pasado. (Fuente: BlockBeats)

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
TradfiTradingChallenge
91.46K Popularidad
#
CryptoMarketDrops150KLiquidated
50.18M Popularidad
#
IsraelStrikesIranBTCPlunges
47.5K Popularidad
#
#DailyPolymarketHotspot
1M Popularidad
#
ZEC/HYPE/FLRStrength
3.83M Popularidad

Fijado

Investigador de DeepMind advierte sobre la salida: el sistema de evaluación se está convirtiendo en el mayor cuello de botella para el avance de las capacidades de IA

Temas de actualidad

TradfiTradingChallenge

CryptoMarketDrops150KLiquidated

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

ZEC/HYPE/FLRStrength

Fijado