Finalmente alguien se encarga de los problemas de IA: la estación de reporte de riesgos FLARE-AI está en línea.

Un grupo de investigadores de IA lanzó la plataforma de código abierto FLARE-AI, siguiendo el concepto del sitio de informes de fallos Downdetector, para que cualquiera pueda reportar y rastrear los daños causados por la IA. (Resumen: "2 + 2 = 5" engaña a los navegadores de IA: ChatGPT Atlas, Claude y Perplexity caen colectivamente y filtran credenciales) (Contexto adicional: ¿Qué es el red teaming de IA? ¿Por qué lo necesitas para proteger la seguridad empresarial?)

Índice

Alternar

  • De coaliciones multinacionales a leyes bipartidistas
  • Por qué el mecanismo de informes fragmentado es un verdadero problema
  • El proyecto de ley del Congreso tomará el relevo, pero los informes colaborativos aún tienen preocupaciones

Cuando un chatbot enseña a hacer bombas, filtra datos personales o vuelve al usuario cada vez más paranoico, actualmente no hay un lugar reconocido en el mundo para reportarlo. La comunidad de ciberseguridad de software ya tiene un mecanismo maduro de "divulgación coordinada de vulnerabilidades", pero los fallos de IA solo han podido ser documentados por periodistas uno tras otro, mientras el público mira sin dejar ningún registro sistemático. Ante esto, un grupo de investigadores de IA lanzó la plataforma de código abierto FLARE-AI (Flaw Reporting for AI), para que cualquiera pueda reportar y rastrear los daños causados por la IA, y luego entregar los casos a los desarrolladores de modelos y a la organización sin fines de lucro MITRE, que rastrea problemas de sistemas tecnológicos a largo plazo. Todo el concepto es muy similar al sitio de informes de fallos Downdetector, la diferencia es que esta vez no se trata de capturar sitios web caídos, sino el comportamiento de caja negra de los modelos de IA.

De coaliciones multinacionales a leyes bipartidistas

El impulsor de FLARE-AI es Avijit Ghosh, investigador de políticas de IA en Hugging Face, quien lidera el desarrollo junto con las científicas de la computación Elaine Zhu y Shayne Longpre. Los tres no lo hicieron de manera improvisada; ya el año pasado habían invertido en la investigación de mecanismos de informes de IA. Esta vez conectaron a 49 expertos en IA de 32 organizaciones diferentes para escribir conjuntamente un artículo de investigación, argumentando que a medida que la IA se adopta más ampliamente y los agentes de IA tienen mayores permisos, la falta de un canal de informes consistente será un riesgo importante. "Actualmente no hay una forma centralizada y responsable de reportar fallas en los sistemas de IA", dice Ghosh. Esta frase señala la contradicción central: en todo el mundo se habla de los riesgos de la IA, pero ni siquiera hay consenso sobre "a quién notificar cuando ocurre algo malo".

Por qué el mecanismo de informes fragmentado es un verdadero problema

Jessica Ji, investigadora del think tank Center for Security and Emerging Technology, considera que es "una muy buena iniciativa" y señala que el mecanismo de informes existente está realmente fragmentado, y los modelos de IA en sí son cajas negras. "Apoyo cualquier medida que haga que la IA sea más transparente", dice. Ghosh también añade que los problemas de los sistemas de IA no son solo vulnerabilidades de seguridad, sino también daños psicológicos, sesgos discriminatorios y desinformación, y diferentes empresas tienen diferentes estándares para identificar estos problemas, lo que resulta en que algunos problemas nunca son reconocidos como ocurridos. "Sin un mecanismo de divulgación coordinada, no hay ningún medio externo para exigir transparencia", dice. Varios eventos recientes son suficientes para demostrar cuán real es esta vulnerabilidad. Esta semana, la empresa de ciberseguridad LayerX reveló un método que engaña a los navegadores con IA incorporada (incluyendo Atlas de OpenAI y Comet de Perplexity) para que eludan sus propias barreras. Con solo hacer que la IA piense que está jugando, el navegador puede descontrolarse e intentar invadir sitios web (los proveedores relevantes ya han solucionado este problema). Lectura adicional: "2 + 2 = 5" engaña a los navegadores de IA: ChatGPT Atlas, Claude, Perplexity Comet... 6 versiones entregan obedientemente sus credenciales En abril de este año, el investigador de seguridad Johann Rehberger también descubrió que se pueden usar imágenes generadas por ChatGPT para inducir a Claude a filtrar datos personales.

El proyecto de ley del Congreso tomará el relevo, pero los informes colaborativos aún tienen preocupaciones

Rumman Chowdhury, CEO de Humane Intelligence PBC, considera que FLARE-AI puede ser una forma práctica para que muchos desarrolladores de IA implementen mecanismos de informes, pero también advierte que este tipo de iniciativas suele conllevar desafíos reales: uno, cómo manejar una gran cantidad de informes que no necesariamente son graves; dos, si el propio mecanismo de informes puede obtener el respaldo de organizaciones confiables y autorizadas. Por eso el proyecto de ley del Congreso de Estados Unidos del mes pasado es especialmente crucial. El proyecto de ley presentado por los representantes Deborah Ross, Jeff Hurd y Don Beyer exigirá al Instituto Nacional de Estándares y Tecnología (NIST) de EE.UU. establecer estándares de informes de defectos de IA y mantener una base de datos centralizada de informes de defectos de IA. Ghosh y otros líderes creen que esto puede incentivar a los desarrolladores de IA a enfrentar y reparar los problemas en sus sistemas, y también permitir a los usuarios examinar la seguridad de varios sistemas según diferentes escenarios de uso.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado