Junto con el flujo de capital que ingresa en la IA, existe una lista larga y en su mayoría no resuelta de obstáculos reales para la adopción masiva. Entre ellos, la contaminación recursiva de datos. Los grandes modelos de lenguaje generan enormes volúmenes de contenido, que luego se utilizan como material de entrenamiento para la próxima generación de modelos. Los errores y las alucinaciones se intensifican con cada ciclo. Esto recuerda una copia múltiple de una copia: la calidad disminuye constantemente, y finalmente es imposible determinar cuál fue la fuente original. La industria ya recurre a datos sintéticos para compensar la escasez de contenido humano de calidad, — sin embargo, esto corre el riesgo de acelerar la degradación en lugar de eliminarla. Aún más grave es el problema de la contaminación de datos. Los actores malintencionados pueden distorsionar intencionadamente el conjunto de datos de entrenamiento, y una vez introduido, el «veneno» permanece en el modelo para siempre. Especialmente peligroso es el escenario militar: un IA entrenada para reconocer a sus propios y a extraños basado en datos comprometidos, solo descubrirá una vulnerabilidad oculta en medio de un conflicto real. Está documentado que para contaminar modelos de lenguaje de cualquier tamaño, basta con 250 documentos maliciosos — esto hace que los ataques a los datos de entrenamiento no sean una amenaza hipotética, sino un problema de ciberseguridad bastante actual.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado