Después de dos accidentes en una semana, al mirar atrás, cómo los siete cofundadores de Anthropic hablaron sobre la «seguridad» hace un año

Título original del video: Building Anthropic | Una conversación con nuestros cofundadores
Fuente original del video: Anthropic
Compilación del texto original: 深潮 TechFlow

Resumen de puntos clave

En el transcurso de la última semana, Anthropic tuvo dos incidentes seguidos:

Primero, casi 3000 archivos internos fueron expuestos por un error de configuración en el CMS; a continuación, Claude Code v2.1.88, al publicarse en npm, incluyó un source map de 59,8 MB y 510.000 líneas de código fuente quedaron literalmente al descubierto.

Una empresa que ha escrito la «seguridad» en sus genes, fallando de manera consecutiva en su propia operación y mantenimiento, resulta de lo más irónico.

Pero antes de apresurarnos a burlarnos, vale la pena volver atrás y escuchar una charla interna de Anthropic con sus siete cofundadores, realizada poco más de un año atrás. Este podcast se grabó en diciembre de 2024: las siete personas hablan sobre cómo se creó esta empresa, cómo se fue puliendo la RSP (Responsible Scaling Policy, traducción literal: «Política de Escalado Responsable»), por qué la palabra «seguridad» no puede usarse a la ligera, y una frase del CEO Dario que se cita repetidamente:

«Si un edificio suena la alarma de incendio cada semana, en realidad es un edificio muy inseguro».

Ahora que vuelves a escuchar esta frase, el sabor es, efectivamente, bastante distinto.

Siete cofundadores: reconocimiento rápido

Dario Amodei|CEO, ex vicepresidente senior de investigación en OpenAI, de formación en neurociencia, y la persona que dio el visto final definitivo a la estrategia y la ruta de seguridad de Anthropic. Es quien más habla en esta conversación.

Daniela Amodei|Presidenta, hermana de Dario. Antes trabajó durante cinco años y medio en Stripe, donde lideró equipos de confianza y seguridad; además, trabajó antes en el ámbito sin fines de lucro y de desarrollo internacional. La creación de la organización y la comunicación externa en Anthropic las lidera prácticamente ella.

Jared Kaplan|Profesor de física convertido en investigador de IA; uno de los autores centrales de scaling laws. A menudo ofrece juicios desde la perspectiva de alguien externo; afirma que en aquel entonces hizo IA porque «se cansó de la física».

Chris Olah|Figura representativa de la investigación en interpretabilidad; entró en el círculo de la IA de la Bahía a los 19 años y trabajó en Google Brain y en OpenAI. En Anthropic, es quien tiene más fuerte el tinte de idealismo tecnológico.

Tom Brown|Autor principal del paper de GPT-3; ahora gestiona los recursos de cómputo de Anthropic. Su perspectiva es más de ingeniería e infraestructura; en el podcast habló bastante sobre su proceso de pasar de «no creo que la IA vaya a ser tan rápida» a cambiar de opinión.

Jack Clark|Ex reportero tecnológico de Bloomberg; responsable de política y asuntos públicos en Anthropic. En esta conversación actúa como presentador: se encarga de hilvanar los temas y hacer preguntas de seguimiento.

Sam McCandlish|Cofundador de investigación; el que menos interviene, pero con frecuencia una frase basta para dar en el blanco, del tipo «picar el anzuelo final».

Resumen de opiniones destacadas

Por qué hacer IA: de la física aburrida a «cuando ya lo ves, te parece que es verdad»

Jared Kaplan: «Yo había hecho física durante mucho tiempo, me resultaba un poco aburrida, y también quería trabajar con más amigos, así que hice IA.»

Dario Amodei: «No creo haber dicho algo que te haya convencido con claridad; simplemente te seguí mostrando resultados de modelos de IA. En algún momento, cuando ya te mostré suficientes, tú dijiste: «Ajá, parece que es correcto».»

Apuesta contra la opinión dominante: la mayoría de consensos es efecto de manada disfrazado de madurez

Jared Kaplan: «Muchos investigadores de IA fueron heridos psicológicamente por el invierno de la IA de manera muy fuerte; como si tener ambición no estuviera permitido.»

Dario Amodei: «La lección más profunda de mis últimos diez años es esta: muchos consensos de «todo el mundo sabe» en realidad son efecto de manada disfrazado de madurez. Has visto cuántas veces que, tras una inversión en una noche, la gente dice: «No, vamos a apostar por esto». Aunque no sea seguro que sea correcto; ignora el ruido y apuesta. Incluso si solo tienes un 50% de acierto, vas a aportar muchísimo de lo que otros no han aportado.»

Seguridad y escalado están entrelazados

Dario Amodei: «Una de las motivaciones por las que ampliamos los modelos era que el modelo primero necesitaba ser lo suficientemente inteligente para que el RLHF pudiera funcionar. Y eso es lo que aún creemos: la seguridad y el escalado están entrelazados.»

RSP, la Política de Escalado Responsable es la «constitución» de Anthropic

Tom Brown: «Para Anthropic, la RSP es como nuestra «constitución». Es un documento central con capacidad de guía; por eso estamos dispuestos a invertir muchísimo tiempo y esfuerzo para pulirla una y otra vez.»

Dario Amodei: «La RSP impide que los planes que no cumplen con los estándares de seguridad sigan adelante. No estamos hablando solo de eslóganes: integramos la seguridad de forma real en cada parte del proceso.»

Suena demasiadas veces la alarma: cuando de verdad hay fuego, nadie corre

Daniela Amodei: «No podemos usar «seguridad» a la ligera para orientar el progreso del trabajo. Nuestro objetivo real es que todos tengan claro qué entendemos por seguridad.»

Dario Amodei: «Lo que daña la seguridad con más frecuencia son esas «pruebas de seguridad» constantes. Si en un edificio las alarmas de incendio suenan cada semana, entonces en realidad es un edificio muy inseguro.»

«El fracaso noble» es una trampa

Chris Olah: «Hay una idea que sostiene que la conducta más moral es sacrificar otros objetivos en nombre de la seguridad para demostrar la pureza de tu compromiso con la causa. Pero ese enfoque en realidad es autodestructivo. Porque hace que el poder de decisión recaiga en quienes no valoran la seguridad.»

Los cofundadores se comprometen a donar el 80% de sus ingresos

Tom Brown: «Nos comprometemos en conjunto a donar el 80% de los ingresos a causas que puedan impulsar el desarrollo social; es algo que todos apoyan sin dudarlo.»

Nadie quiere emprender, pero se siente que es necesario hacerlo

Sam McCandlish: «En realidad, ninguno de nosotros tenía la intención de fundar una empresa desde el principio. Simplemente sentimos que es nuestra responsabilidad: porque es la única manera de asegurar que el desarrollo de la IA avance en la dirección correcta.»

Daniela Amodei: «Nuestra misión es clara y pura, y en la industria tecnológica, una situación así no es común.»

Interpretabilidad: «bio-psicología» entera escondida en redes neuronales

Chris Olah: «Las redes neuronales son algo maravilloso: hay muchas cosas que todavía no hemos visto. A veces imagino que, dentro de diez años, entras en una librería y compras un libro de texto sobre biología de redes neuronales, con todo tipo de contenido asombroso.»

La IA para fortalecer la democracia, no para convertirse en una herramienta de dictadura

Dario Amodei: «Nos preocupa que, si la IA se desarrolla de forma incorrecta, pueda convertirse en una herramienta del autoritarismo. ¿Cómo hacer que la IA sea una herramienta para promover la libertad y la autodeterminación? La importancia de este ámbito no es menor que la biología y la interpretabilidad.»

De conferencias en la Casa Blanca al Nobel: la influencia de la IA ya se salió hace tiempo del círculo tecnológico

Jared Kaplan: «En 2018 no habrías imaginado que el presidente te llamaría a la Casa Blanca para decirte que estaban siguiendo los modelos de lenguaje.»

Dario Amodei: «Ya hemos visto que el Nobel de química se ha concedido a AlphaFold. Deberíamos esforzarnos por desarrollar herramientas capaces de ayudarnos a crear cientos de AlphaFolds.»

¿Por qué estudiar IA?

Jack Clark: ¿Por qué empezamos a hacer IA? Jared, ¿por qué tú hiciste IA?**

Jared Kaplan: «Yo había hecho física durante mucho tiempo, me resultaba un poco aburrida, y también quería trabajar con más amigos, así que hice IA.»

Tom Brown: «Pensé que fue Dario quien te convenció.»

Dario Amodei: «No creo que yo te haya convencido de manera clara. Simplemente te fui mostrando resultados de modelos de IA, con la intención de que vieras que son bastante universales y no solo aplican a un único problema. En algún momento, cuando ya te mostré suficientes, tú dijiste: «Ajá, parece que es correcto».»

Jack Clark: Chris, cuando tú hacías investigación en interpretabilidad, ¿conociste a la gente en Google?

Chris Olah: «No. En realidad, cuando yo tenía 19 años, la primera vez que fui a la Bahía, ya conocí a bastantes de las personas de ustedes. Entonces vi a Dario y a Jared: eran posdoctorandos, y en ese momento me pareció especialmente genial. Más tarde, en Google Brain, después de que Dario se uniera, llegamos a sentarnos uno al lado del otro durante un tiempo; también trabajé con Tom. Luego, cuando fui a OpenAI, empecé a trabajar con ustedes a todos.»

Jack Clark: «Recuerdo que en 2015 vi a Dario en una conferencia y que quería entrevistarte; incluso Google PR me dijo que primero tenía que leer tus papers.»

Dario Amodei: «En ese momento yo escribía en Google «Concrete Problems in AI Safety».»

Sam McCandlish: «Antes de empezar a trabajar contigo, me invitaste a hablar en la oficina y me diste un panorama general de la IA. Recuerdo que al terminar pensé: «Esto es muchísimo más serio de lo que yo había entendido». Tú hablaste de «Big Blob de potencia de cómputo», del número de parámetros, de la escala de neuronas del cerebro humano, esas cosas.»

Jack Clark: «De ahí que empecemos a acercarnos.»

Jack Clark: «Recuerdo que en esa época estábamos hablando.»

Jack Clark: «Ok, vamos al siguiente tema.»

Jack Clark: «¿Cómo fue que pasamos de un paper a un trabajo real?»

Dario Amodei: «Chris sabe, él participó.»

Dario Amodei: «En ese momento en Google, ni siquiera recuerdo cuál era mi proyecto principal; me parece que esto fue algo que saqué por la procrastinación.»

Tom Brown: «Creo que fue un paper muy temprano y muy influyente.»

Sam McCandlish: «Lo que queríamos era escribir sobre cuáles eran los problemas abiertos en la seguridad de la IA. En ese momento se hablaba mucho de ello de una manera muy abstracta; queríamos aterrizarlo en ML real de aquel momento. Ahora ya hay seis o siete años trabajando esta línea, pero en aquel entonces era una idea extraña.»

Chris Olah: «Pienso que, de alguna manera, era casi un proyecto político. En aquel entonces, mucha gente no se tomaba la seguridad en serio. Queríamos ordenar una lista de problemas razonables en los que todos coincidieran. Muchos de esos problemas ya existían en la literatura; luego buscamos personas con credibilidad y con influencia transversal entre instituciones para cofirmarlo.»

Recuerdo que pasé muchísimo tiempo hablando con más de veinte investigadores en Brain para conseguir apoyo para publicarlo. Si miras solo el problema en sí, volviendo hoy tal vez no todo seguiría siendo válido; quizá ni siquiera era el problema más adecuado. Pero si lo entiendes como construcción de consenso: demostrar «aquí hay problemas reales, vale la pena tomarlos en serio», entonces sí es un momento importante.

Jack Clark: «Al final, te metes en un mundo de ciencia ficción bastante peculiar. Recuerdo que en los primeros tiempos de Anthropic se hablaba de Constitutional AI; Jared dijo: «Le escribimos una constitución a un modelo de lenguaje y su comportamiento se vuelve así». Sonaba totalmente loco. ¿Por qué pensaron que era viable?»

Jared Kaplan: «Hablé largo con Dario. Creo que, en la IA, los métodos sencillos a menudo funcionan extremadamente bien. La versión más temprana era bastante compleja; luego se fue recortando una y otra vez hasta quedar en: aprovechando que el modelo es bueno en preguntas tipo test, le das indicaciones claras para decirle qué buscar; con eso basta. Entonces ya puedes escribir directamente los principios.»

Dario Amodei: «Y esto se conecta con «Big Blob of Compute» (The Big Blob of Compute), «The Bitter Lesson» (la lección amarga) y «Scaling Hypothesis» (hipótesis de escalado):** siempre que puedas darle a la IA un objetivo claro y datos, puede aprenderlo. Un conjunto de instrucciones, un conjunto de principios; el modelo de lenguaje puede leerlos y compararlos con su propio comportamiento, y el objetivo de entrenamiento queda ahí.** Así que nuestra visión con Jared es: se puede lograr, siempre y cuando los detalles se iteren una y otra vez.»

Jared Kaplan: «Para mí, al principio era algo extraño. Vengo de la física; ahora todo el mundo está emocionado con la IA, es fácil olvidar cómo era el ambiente entonces. Yo hablé con Dario de estas cosas y sentí que muchos investigadores de IA resultaron psicológicamente muy heridos por el invierno de la IA, como si tener «ambición» no estuviera permitido. Hablar de seguridad requiere creer que la IA puede ser extremadamente fuerte y extremadamente útil, pero en aquel entonces había una especie de prohibición anti-ambición. Una ventaja de los físicos es su «arrogancia»: suelen hacer cosas muy ambiciosas y están acostumbrados a hablar de grandes panoramas.»

Dario Amodei: «Creo que eso es cierto. En 2014, muchas cosas directamente no se podían decir. Esto también es similar a un problema general en el mundo académico: salvo en algunos ámbitos, las instituciones se han vuelto cada vez más adversas al riesgo. La IA industrial también heredó esa mentalidad; yo creo que no se salió de ahí hasta alrededor de 2022.»

Chris Olah: «Y también hay dos formas de «conservador». Una es tomarse en serio los riesgos; la otra es considerar que tomarse en serio los riesgos y creer que las ideas pueden tener éxito es una forma de arrogancia. En ese momento, estábamos dominados por la segunda. En la historia de la discusión sobre la física nuclear de 1939 también había algo parecido: Fermi se resistía; Szilard o Teller consideraban el riesgo con más seriedad.»

Dario Amodei: «La lección más profunda de mis últimos diez años es esta: muchos consensos de «todo el mundo sabe» en realidad son efecto de manada disfrazado de madurez. Has visto cuántas veces que, tras que un consenso se voltee de la noche a la mañana, la gente dice: «No, vamos a apostar por esto». Tal vez no sea necesariamente correcto, pero apóyate quitando el ruido y apostando. Incluso si solo tienes un 50% de acierto, vas a aportar muchísimo de lo que otros no han aportado.»

Cambio de actitud del público hacia la inteligencia artificial

Jared Kaplan: «Hoy, incluso en algunos temas de seguridad, pasa algo así. El consenso externo cree que muchos problemas de seguridad «no crecen» naturalmente desde la tecnología; pero en Anthropic vemos en investigación que en realidad sí aparecen naturalmente.»

Daniela Amodei: «Pero en los últimos 18 meses esto ha cambiado, y también se nota claramente un cambio de emociones del mundo hacia la IA. Cuando hacemos investigación con usuarios, escuchamos con más frecuencia que usuarios comunes se preocupan por el impacto global de la IA en el mundo.»

A veces es por el trabajo, los sesgos, la toxicidad; a veces es «si va a alterar el mundo y cambiar la forma en que la humanidad colabora». En realidad, yo no había previsto del todo esto.

Sam McCandlish: «No sé por qué, pero el círculo de investigación en ML suele ser más pesimista que el público sobre que la IA se vuelva muy fuerte.»

Jared Kaplan: «En 2023 yo y Dario fuimos a la Casa Blanca. En la reunión, Harris y Raimondo básicamente querían decir esto: ustedes son nuestro foco, la IA es un asunto grande, estamos prestando mucha atención, pero en 2018 no habrías imaginado que «el presidente te llamaría a la Casa Blanca para decirte que están prestando atención a los modelos de lenguaje».»

Tom Brown: «Lo interesante es que mucha de nuestra gente entró cuando aún no estaba claro del todo esta historia, como Fermi con la bomba atómica: tenía dudas. Había algunas evidencias de que podría fabricarse, pero también muchas evidencias de que no; aun así, al final decidió intentarlo. Porque si fuera verdad, el impacto sería enorme y, por tanto, vale la pena.»

De 2015 a 2017 hubo algunas evidencias —y con el tiempo fueron aumentando— de que la IA podría ser algo realmente grande. En 2016 yo hablaba con mi mentor: hice emprendimiento antes y quería hacer seguridad de la IA, pero mi matemática no era lo bastante fuerte y no sabía qué hacer. Entonces algunos decían que tenías que dominar la teoría de la decisión; otros decían que no aparecerían eventos locos con IA, y que los verdaderos defensores eran pocos.

Jack Clark: «En 2014, cuando yo informaba sobre la tendencia de ImageNet, me tomaron por loco. En 2015, yo quería escribir sobre NVIDIA porque los papers hablaban de GPUs, y también me dijeron que estaba loco. En 2016, dejé el periodismo y me pasé a la IA: incluso me llegaron correos diciendo que «cometiste el mayor error de tu vida». Si miras las cosas desde muchos ángulos, apostar en serio a que el escalado «llegaría» realmente parecía de locos.»

Jared Kaplan: «¿Cómo decidiste? ¿Te costó dudar?»

Jack Clark: «Hice una apuesta al revés: les pedí que me contrataran como periodista de IA a tiempo completo y que duplicaran mi salario; yo sabía que no lo aceptarían. Luego me fui a dormir una siesta y al despertar renuncié. Porque yo leo archivos todos los días y siempre siento que hay algo loco ocurriendo, y que en algún momento debes apostar con mucha convicción

Tom Brown: «Yo no fui tan decisivo; dudé durante seis meses.»

Daniela Amodei: «Además, en esa época no era común que «la ingeniería también pudiera impulsar de forma significativa la IA». En aquel entonces era «solo los investigadores pueden hacer IA». Así que que te costara dudar no es raro.»

Tom Brown: «Después OpenAI dijo: «Puedes ayudar a la seguridad de la IA mediante la ingeniería», y eso fue lo que me hizo unirme. Daniela, tú seguías siendo mi gerente en OpenAI. ¿Por qué te uniste?»

Daniela Amodei: «En Stripe estuve cinco años y medio. Greg había sido mi jefe. También presenté a Greg y a Dario para que se conocieran. En ese entonces él estaba fundando OpenAI, y yo le dije: «La persona más inteligente que conozco es Dario. Si puedes hacer que se una al equipo, esa es tu suerte». Más tarde, Dario se unió a OpenAI.»

Tal vez como tú, yo también pensaba en lo que haría después de dejar Stripe. Me uní a Stripe porque, cuando trabajaba en organizaciones sin fines de lucro y en desarrollo internacional antes, sentí que necesitaba más habilidades. En ese momento incluso pensaba que al final volvería a ese ámbito.

Antes de entrar a Stripe, yo sentía que no tenía suficiente capacidad para ayudar a personas con condiciones peores que las mías. Por eso estaba prestando atención a otras empresas tecnológicas, con la esperanza de encontrar una manera nueva de lograr un impacto mayor. Y en ese momento, OpenAI me pareció una opción muy buena: es una organización sin fines de lucro dedicada a lograr un objetivo muy importante y con gran significado.

Siempre creí en el potencial de la IA; además, sabía algunas cosas sobre Dario y también que realmente necesitaban a alguien para ayudar con la gestión. Así que pensé que este trabajo encajaba muy bien con mi formación. En aquel entonces me dije: «Es una organización sin fines de lucro; aquí se reúne un grupo de personas muy excelentes, con una gran visión. Pero su operación parece un poco caótica». Y precisamente ese tipo de desafío fue lo que me emocionó: porque podía incorporarme ahí.

En aquel momento yo me veía como un comodín: no solo gestionaba miembros del equipo, también lideraba algunos equipos técnicos y la gestión de la expansión de la organización. Me encargué del trabajo de expansión de la organización; también trabajé en el equipo de lenguajes. Después me encargué de algunas otras tareas. Además, participé en algunos asuntos de políticas, y colaboré con Chris. Sentía que dentro de la empresa había muchísimos talentos excelentes, y eso hizo que quisiera unirme para ayudar a que la empresa fuera más eficiente y ordenada.

Jack Clark: «Recuerdo que después de hacer GPT-3 dijiste: «¿Ustedes han oído hablar de trust and safety?»»

Daniela Amodei: «Yo antes llevé equipos de trust and safety en Stripe. Para una tecnología como esta, ustedes quizá necesiten considerar el tema de confianza y seguridad. Eso es un puente entre la investigación en seguridad de la inteligencia artificial (AI Safety Research) y el trabajo diario más práctico. Es decir, cómo lograr que el modelo sea verdaderamente seguro.»

Plantear que «esta tecnología en el futuro tendrá un impacto importante» es muy crucial. Al mismo tiempo, también necesitamos hacer en el día a día algún trabajo más práctico, para sentar las bases de cara a escenarios de riesgo más alto en el futuro.

Política de Escalado Responsable: asegurar el desarrollo seguro de la IA

Jack Clark: «Hablemos precisamente de cómo se propuso la estrategia de escalado responsable (RSP, Responsible Scaling Policy), por qué pensamos en ella y cómo la aplicamos hoy, especialmente considerando el trabajo que estamos haciendo actualmente en confianza y seguridad de modelos. Entonces, ¿quién propuso primero esta RSP (Responsible Scaling Policy)?»

Dario Amodei: «La propusimos inicialmente Paul Christiano y yo, aproximadamente a finales de 2022. La idea más temprana era: antes de escalar el modelo a una escala específica, ¿deberíamos limitarlo temporalmente hasta que encontremos una forma de resolver ciertos problemas de seguridad?»

Pero después pensamos que, simplemente restringir el escalado en un punto y luego liberarlo, era algo extraño. Así que decidimos establecer una serie de umbrales: cada vez que el modelo alcance un umbral, hay que hacer una serie de pruebas para evaluar si tiene las capacidades de seguridad correspondientes.

Cada vez que alcanzamos un umbral, debemos aplicar medidas de seguridad y garantías más estrictas. Pero, desde el principio, teníamos una idea: si esto lo ejecutara un tercero, quizá sería mejor. Es decir, esta estrategia no debería depender únicamente de que una sola compañía se responsabilice, o entonces otras compañías quizá no estarían dispuestas a adoptarla. Por eso Paul diseñó personalmente la estrategia. Por supuesto, con el tiempo, muchos detalles también cambiaron. Y del lado de nuestro equipo, seguimos investigando cómo lograr que esta estrategia funcione mejor.

Cuando Paul ordenó y dio forma a este concepto, casi al mismo tiempo publicamos también nuestra propia versión en uno o dos meses. En realidad, muchos miembros de nuestro equipo participaron de manera profunda en ese proceso. Recuerdo haber escrito al menos uno de los borradores iniciales, pero el documento completo pasó por múltiples revisiones.

Tom Brown: «Para Anthropic, la RSP es como nuestra «constitución». Es un documento central con capacidad de guía; por eso estamos dispuestos a invertir muchísimo tiempo y esfuerzo para pulirla, asegurando su precisión y completitud.»

Daniela Amodei: «Creo que el proceso de desarrollo de la RSP en Anthropic es realmente muy interesante. Tiene varias etapas, y para implementarla se necesitan diferentes habilidades. Por ejemplo, hay algunas ideas grandes, que se deben principalmente a Dario, Paul, Sam, Jared, etc. Estaban pensando: «¿Cuáles son nuestros principios fundamentales? ¿Qué clase de información queremos transmitir? ¿Cómo sabemos que nuestra dirección es correcta?»»

Pero además de eso, también hay trabajo muy práctico a nivel operativo: por ejemplo, en un proceso iterativo, evaluamos y ajustamos algunos detalles. Por ejemplo, originalmente esperábamos alcanzar ciertos objetivos bajo un nivel de seguridad, pero si no se logra, re-evaluamos y aseguramos que podamos responsabilizarnos de los resultados de nuestro trabajo.

Además, hay muchos ajustes relacionados con la estructura organizativa. Por ejemplo, decidimos rediseñar la estructura organizativa de la RSP para que las responsabilidades queden más claras. Me gusta mucho usar una comparación con una constitución para explicar la importancia de este documento. Al igual que para asegurar la implementación de la constitución en Estados Unidos, se crean todo un conjunto de instituciones y mecanismos como tribunales, la Corte Suprema, el presidente y el Congreso (Cámara y Senado). Aunque esas instituciones también cumplen otras responsabilidades, en gran medida existen para proteger la constitución. Y nuestra RSP en Anthropic también está pasando por un proceso similar.

Sam McCandlish: «Pienso que esto refleja una visión central: los problemas de seguridad se pueden resolver. Es una tarea muy compleja y ardua, que requiere invertir muchísimo tiempo y energía.»

Al igual que en el ámbito de la seguridad automotriz, las instituciones y mecanismos relacionados se han construido con el tiempo durante años. Pero el problema al que nos enfrentamos ahora es: ¿tenemos suficiente tiempo para hacer todo esto? Por eso, debemos identificar lo antes posible las instituciones clave que requiere la seguridad de la IA y establecerlas primero aquí, al mismo tiempo asegurando que otras partes puedan tomarlas como referencia, imitarlas y promoverlas.

Dario Amodei: «Esto también ayuda a lograr colaboración interna y alineación, porque si alguna parte de la organización hace cosas que no encajan con nuestros valores de seguridad, la RSP de alguna manera sacará el problema a la luz, ¿cierto? La RSP impedirá que avancen planes que no cumplan con los estándares de seguridad. Por tanto, también se convierte en una herramienta constante para recordar a todo el mundo, asegurando que la seguridad sea un requisito básico en el proceso de desarrollo y planificación de productos. No estamos hablando de eslóganes: integramos la seguridad en cada parte. Si alguien se une al equipo y no puede identificar con estos principios, se dará cuenta de que no puede encajar. O se adapta a esa dirección, o se da cuenta de que le será difícil continuar.»

Jack Clark: «Con el tiempo, la RSP se vuelve cada vez más importante. Le dedicamos miles de horas de trabajo; cuando explicaba la RSP a senadores, decía: «Creamos ciertas medidas para que nuestra tecnología no sea fácil de abusar y, al mismo tiempo, para garantizar la seguridad». Su reacción normalmente era: «Suena bastante normal. ¿No lo hace cada compañía?» Esto me hizo sentir un poco divertido, en realidad no es que todas las compañías lo hagan.»

Daniela Amodei: «Además, creo que además de promover la alineación de valores del equipo, la RSP mejora la transparencia de la empresa. Porque deja claro cuáles son nuestros objetivos: cada persona dentro de la empresa puede entenderlos, y al mismo tiempo la gente externa también puede entender con claridad qué buscamos en seguridad y cuál es nuestra dirección. Aunque todavía no es perfecta, seguimos optimizándola y mejorándola de manera continua.»

Creo que al señalar claramente «cuál es el problema central en el que estamos enfocados», no podemos usar «seguridad» de forma aleatoria para dirigir el progreso del trabajo, como por ejemplo: «porque hay un problema de seguridad, no podemos hacer X» o «porque hay un problema de seguridad, debemos hacer X». Nuestro objetivo real es que todos entiendan con claridad qué entendemos por seguridad.

Dario Amodei: «A largo plazo, lo que realmente daña la seguridad suele ser esa clase de «simulacros de seguridad» que se repiten con frecuencia. Yo solía decir: «Si un edificio suena la alarma de incendio cada semana, entonces en realidad es un edificio muy inseguro». Porque cuando ocurra un incendio real, quizás nadie le prestará atención. Por eso debemos enfocarnos muchísimo en la precisión y el ajuste de las alarmas.»

Chris Olah: «Mirándolo desde otro ángulo, creo que la RSP crea mecanismos de incentivos saludables en muchos niveles. Por ejemplo, dentro de la empresa, la RSP alinea los incentivos de cada equipo con los objetivos de seguridad. Esto significa que, si no logramos suficiente avance en seguridad, el trabajo correspondiente se pausa.»

Y hacia afuera, la RSP también puede crear incentivos saludables mejor que otros métodos. Por ejemplo, si un día tenemos que tomar acciones importantes, como admitir: «nuestros modelos han evolucionado hasta cierto punto, pero todavía no podemos garantizar su seguridad», entonces la RSP proporciona un marco claro y evidencia para respaldar esa decisión. Este marco ya existía de antemano y era claro y comprensible. Cuando recordaba las discusiones sobre las primeras versiones de la RSP, no me daba cuenta completamente de su potencial; pero ahora creo que es más efectiva que otras formas que yo podría haber imaginado.»

Jared Kaplan: «Estoy de acuerdo con estos puntos, pero creo que tal vez subestimemos los desafíos que enfrentamos al formular políticas correctas, evaluar estándares y trazar límites. Ya hemos iterado mucho en esas áreas y aún seguimos optimizando. Un problema difícil es que, para algunas tecnologías emergentes, a veces es difícil decidir con claridad si son peligrosas o seguras. Muchas veces nos topamos con una gran zona gris. Estos desafíos me emocionaron muchísimo durante el desarrollo inicial de la RSP y aún lo hacen. Pero al mismo tiempo, también me doy cuenta de que implementar de forma clara esta estrategia y hacer que realmente funcione es más complejo y desafiante de lo que yo había imaginado al principio.»

Sam McCandlish: «Las zonas grises no se pueden predecir por completo, porque están en todas partes. Solo cuando empiezas a implementarlas de verdad descubres dónde está el problema. Así que nuestro objetivo es implementar todo lo antes posible, para encontrar los problemas potenciales lo más rápido que podamos.»

Dario Amodei: «Necesitas hacer de 3 a 4 iteraciones antes de que realmente quede perfecto. La iteración es una herramienta muy potente; casi no es posible acertar por completo a la primera. Así que, si los riesgos están aumentando, tienes que hacer estas iteraciones pronto, no esperar hasta el final.»

Jack Clark: «Al mismo tiempo, también necesitas establecer internamente instituciones y procesos. Aunque los detalles específicos pueden cambiar con el tiempo, lo más importante es cultivar la capacidad de ejecución del equipo.»

Tom Brown: «Yo me encargo de la gestión de recursos de cómputo de Anthropic. Para mí, necesitamos comunicarnos con partes interesadas externas. Diferentes personas externas tienen diferentes puntos de vista sobre la velocidad a la que evoluciona la tecnología. Al principio yo también pensé que la tecnología no avanzaría tan rápido, pero luego mi opinión cambió, y por eso lo entiendo muy bien. Siento que la RSP es especialmente útil para mí, sobre todo al conversar con gente que cree que el avance tecnológico será más lento. Podemos decirles: «Antes de que la tecnología llegue a un nivel muy urgente, no necesitamos tomar medidas de seguridad extremas». Si te dicen: «Creo que las cosas no se volverán urgentes durante mucho tiempo», entonces tú puedes responder: «Está bien, entonces por ahora no necesitamos medidas de seguridad extremas». Esto hace que la comunicación con el mundo exterior sea mucho más fluida.»

Jack Clark: «Entonces, ¿en qué otras áreas la RSP también ha impactado a todos?»

Sam McCandlish: «Todo gira en torno a la evaluación. Cada equipo está haciendo evaluaciones. Por ejemplo, tu equipo de entrenamiento siempre está haciendo evaluación. Intentamos determinar si este modelo ya se ha vuelto lo suficientemente fuerte como para potencialmente traer peligro.»

Daniela Amodei: «Esto significa, en el fondo, que necesitamos medir el desempeño del modelo según los estándares de la RSP. Por ejemplo, verificar si hay señales que podrían generarnos preocupación.»

Sam McCandlish: «Evaluar las capacidades mínimas del modelo es relativamente sencillo; pero evaluar su capacidad máxima es muchísimo más difícil. Por eso invertimos una gran cantidad de esfuerzo de investigación para intentar responder preguntas como: «¿El modelo puede ejecutar tareas peligrosas? ¿Hay métodos que todavía no hemos considerado? Por ejemplo, mapas mentales, best event o el uso de ciertas herramientas: ¿podrían hacer que el modelo ejecute conductas extremadamente peligrosas?»»

Jack Clark: «Estas herramientas de evaluación son muy útiles en la formulación de políticas. Porque «seguridad» es un concepto muy abstracto. Cuando digo: «Tenemos una herramienta de evaluación que decide si podemos desplegar este modelo», entonces podemos colaborar con quienes formulan políticas, expertos de seguridad nacional y expertos de dominio en CBRN (química, biología, radiología y nuclear) para construir criterios de evaluación precisos. Si no tuviéramos estas herramientas concretas, es posible que esa colaboración ni siquiera pudiera ocurrir. Pero una vez que hay estándares claros, a la gente le resulta más probable participar para ayudarnos a asegurar su precisión. Por eso, en este aspecto, la RSP tiene un papel muy evidente.»

Daniela Amodei: «Para mí la RSP también es muy importante, y a menudo influye en mi trabajo. Me resulta interesante que mi manera de pensar la RSP sea un poco especial: lo hago más a partir de su «tono», es decir, su forma de expresarse. Recientemente ajustamos de manera importante el tono de la RSP, porque el tono anterior era demasiado técnico e incluso daba una sensación de confrontación. Pasé mucho tiempo pensando cómo construir un sistema que haga que la gente quiera involucrarse.»

Si la RSP fuera un documento que todo el mundo en una empresa pudiera entender fácilmente, sería mucho mejor. Como los OKR (objetivos y resultados clave) que usamos ahora. Por ejemplo, ¿cuál es el objetivo principal de la RSP? ¿Cómo sabemos si se alcanzó ese objetivo? ¿Cuál es el nivel actual de seguridad de la IA (ASL)? ¿Es ASL-2 o ASL-3? Si todos conocen en qué hay que enfocarse, detectar problemas potenciales se vuelve mucho más fácil. En cambio, si la RSP está demasiado tecnificada y solo una minoría puede entenderla, entonces su utilidad práctica se reduce mucho.

Me alegra ver que la RSP se está moviendo hacia una dirección más fácil de comprender. Ahora, creo que la mayoría de la gente en la empresa, incluso quizá todos independientemente de su cargo, pueden leer este documento, sentir: «Tiene sentido. Espero que desarrollemos IA guiados por estos principios, y también entiendo por qué debemos prestar atención a estos temas. Si me encuentro con un problema en el trabajo, más o menos sé en qué fijarme». Queremos que la RSP sea lo suficientemente simple como para que quienes trabajan en una planta de fabricación puedan juzgar fácilmente: «El cinturón de seguridad debería conectarse aquí, pero ahora no está conectado a su lugar». De ese modo, podemos descubrir problemas a tiempo.

La clave está en establecer un mecanismo de retroalimentación saludable, que permita que haya un intercambio fluido entre el liderazgo, la junta directiva, otros departamentos de la empresa y los equipos que realmente hacen I+D. Creo que la mayoría de los problemas suelen aparecer por una mala comunicación o por una desviación en la transmisión de información. Si los problemas surgieran solo por estas razones, sería muy lamentable, ¿no? Al final, lo que necesitamos es convertir estas ideas en práctica de manera tangible, asegurando que sean simples y claras, para que todos las comprendan.

Historia de la fundación de Anthropic

Sam McCandlish: «En realidad, ninguno de nosotros tenía la intención de fundar una empresa desde el principio. Simplemente sentimos que es nuestra responsabilidad: debemos actuar. Porque es la única manera de garantizar que el desarrollo de la IA avance en la dirección correcta. Esa es la razón por la que hicimos ese compromiso.»

Dario Amodei: «Mi idea inicial era simple: yo solo quería inventar y explorar cosas nuevas de una manera que fuera beneficiosa. Esta idea me llevó al campo de la IA. Y la investigación de IA necesita mucho apoyo de ingeniería; finalmente también necesita mucho apoyo financiero.»

Sin embargo, me di cuenta de que, si no se establece un objetivo claro y una planificación para crear la empresa y gestionar el entorno, muchas cosas pueden completarse, pero al mismo tiempo se repiten errores de la industria tecnológica que me generan una sensación de distancia. Esos errores suelen venir de las mismas personas, la misma actitud y los mismos patrones de pensamiento. Así que en algún momento, entendí que teníamos que hacer esta cosa de una forma totalmente nueva; eso casi era inevitable.

Jared Kaplan: «¿Recuerdas cuando estábamos en la escuela de posgrado? Tú tenías un plan completo para explorar cómo la investigación científica podía promover el bien público. Creo que eso se parece mucho a nuestra forma actual de pensar. Recuerdo que tenías un proyecto llamado «Project Vannevar», cuyo objetivo era lograr exactamente eso. Yo era profesor en ese momento; observé cómo estaban las cosas y estaba convencido de que el impacto de la IA estaba creciendo a una velocidad extremadamente rápida.»

Pero debido a la alta demanda de financiación de la investigación en IA, y también porque soy profesor de física, me di cuenta de que no podía impulsar estos avances solo con investigación académica. Quería construir una institución con personas en quienes confiar, para asegurar que el desarrollo de la IA avanzara en la dirección correcta. Pero, siendo honestos, nunca le habría recomendado a alguien que fundara una empresa, ni había tenido yo mismo ese deseo. Para mí, solo era un medio para lograr el objetivo. Creo que, normalmente, la clave del éxito está en que de verdad te importe lograr un objetivo significativo para el mundo y luego encuentres el mejor medio para alcanzarlo.

Cómo construir una cultura de confianza

Daniela Amodei: «Pienso a menudo en nuestras ventajas estratégicas como equipo. Uno de los factores, que puede sonar algo inesperado, pero que es extremadamente importante, es que tenemos una confianza muy alta entre nosotros. Hacer que un gran grupo de personas tenga una misión compartida es muy difícil, pero en Anthropic logramos transmitir esa sensación de misión a cada vez más personas. En este equipo, incluyendo el liderazgo y todos los miembros, todos estamos reunidos por una misión compartida. Nuestra misión es clara y pura, y una situación así no es común en la industria tecnológica.»

Siento que el objetivo que estamos intentando alcanzar está lleno de un significado puro. Nadie de nosotros comenzó a hacer esto queriendo crear una empresa. Simplemente sentimos que debíamos hacerlo. No podíamos seguir avanzando en el lugar original; tuvimos que hacerlo por nuestra cuenta.

Jack Clark: «En aquel momento, con la aparición de GPT-3 y con todos nosotros expuestos o involucrados en proyectos que habían aparecido, como scaling laws, etc., ya podíamos ver con claridad en 2020 hacia dónde iba el desarrollo de la IA. Nos dimos cuenta de que si no actuábamos pronto, tal vez llegaríamos rápidamente a un punto de no retorno irreversible. Teníamos que actuar para influir en ese entorno.»

Tom Brown: «Quiero continuar con la visión de Daniela: creo que existe una confianza muy alta dentro del equipo. Cada uno de nosotros sabe que nos unimos a este equipo porque queremos contribuir al mundo. Además, nos comprometimos conjuntamente a donar el 80% de los ingresos a causas que impulsen el desarrollo social; eso es algo que todos apoyan sin dudarlo: «Sí, por supuesto que lo haremos». Esa confianza es muy especial y rara.»

Daniela Amodei: «Creo que Anthropic es una empresa con muy poca carga política. Claro, nuestra perspectiva puede ser distinta a la del ciudadano promedio, y también me lo recuerdo siempre. Creo que nuestro proceso de contratación y las características de los miembros del equipo hacen que nuestra cultura tenga una especie de rechazo innato a la «política de oficina».»

Dario Amodei: «Y también está la cohesión del equipo. La cohesión del equipo es crucial. Ya sea el equipo de producto, el equipo de investigación, el equipo de confianza y seguridad, el equipo de marketing o el equipo de políticas, todos estamos trabajando para lograr el mismo objetivo de la empresa. Cuando diferentes departamentos dentro de la empresa persiguen objetivos completamente distintos, a menudo se genera confusión. Y si creen que otros departamentos están destruyendo su propio trabajo, eso es aún más anormal.»

Creo que uno de nuestros logros más importantes es haber mantenido con éxito la coherencia general de la empresa. Mecanismos como la RSP han jugado un papel clave. Este tipo de mecanismo asegura que dentro de la empresa no sea que algunos departamentos están creando problemas mientras otros intentan repararlos, sino que todos los departamentos están cumpliendo sus funciones correspondientes y colaborando dentro de un marco unificado de teoría del cambio (theory of change).

Chris Olah: «Mi razón principal para unirme a OpenAI fue que es una organización sin fines de lucro, donde podía centrarme en la investigación de seguridad de la IA. Pero con el tiempo, empecé a descubrir que ese modelo no encajaba completamente conmigo, y eso me obligó a tomar algunas decisiones difíciles. En ese proceso, confié mucho en el juicio de Dario y Daniela, pero no quería irme. Porque no creo que añadir más laboratorios de IA sea necesariamente bueno para el mundo, y eso me hizo dudar mucho sobre marcharme.»

Cuando al final decidimos irnos, yo seguía teniendo reservas sobre fundar una empresa. Yo había defendido que deberíamos crear una organización sin fines de lucro enfocada en la investigación en seguridad. Pero finalmente, el enfoque pragmático y la honestidad sobre las limitaciones reales nos hicieron ver que fundar Anthropic era la mejor manera de lograr nuestros objetivos.

Dario Amodei: «Una lección importante que aprendimos al inicio fue esta: pocas promesas, muchas entregas. Mantente realista y enfrenta los trade-offs: la confianza y la reputación importan más que cualquier política concreta.»

Daniela Amodei: «Una característica única de Anthropic es la confianza y la unidad muy altas dentro del equipo. Por ejemplo, cuando veo que Mike Krieger se niega a no publicar ciertos productos por razones de seguridad, y al mismo tiempo veo a Vinay discutiendo cómo equilibrar las necesidades del negocio para sacar los proyectos adelante, siento que es algo realmente especial. Además, ingenieros del equipo de seguridad técnica y del equipo de inferencia también están discutiendo cómo asegurar que el producto sea tanto seguro como útil. Esta unidad en el objetivo y el enfoque práctico es una de las cosas más atractivas del entorno de trabajo en Anthropic.»

Dario Amodei: «Una cultura organizacional saludable está en que todos puedan comprender y aceptar los trade-offs compartidos. El mundo en el que vivimos no es perfecto; cada decisión necesita encontrar un equilibrio entre distintos intereses, y esos equilibrios no pueden ser completamente satisfactorios. Sin embargo, mientras todo el equipo pueda enfrentar esos trade-offs bajo un objetivo unificado y, desde sus respectivos puestos, contribuir con fuerza al objetivo general, entonces eso es un ecosistema saludable.»

Sam McCandlish: «En cierto sentido, esto es una «competencia hacia arriba». Sí, de hecho es una «competencia hacia arriba». Aunque no es una elección completamente sin riesgos; las cosas pueden salir mal. Pero todos estamos de acuerdo: «Esa es la elección que estamos haciendo».»

Pujando por la cima de la carrera de la IA

Jack Clark: «Pero el mercado es, por naturaleza, pragmático. Por tanto, cuanto más exitoso sea Anthropic como empresa, más motivados estarán otros para imitar las cosas que nos hicieron exitosos. Además, cuando nuestro éxito está estrechamente relacionado con nuestro trabajo real en el ámbito de la seguridad, ese éxito se convierte en una «fuerza de atracción» dentro de la industria y hace que otras compañías también se unan a esta competencia. Es como si desarrolláramos el cinturón de seguridad: otras empresas pueden imitarlo. Es un ecosistema sano.»

Dario Amodei: «Pero si dices: «No vamos a desarrollar esta tecnología y tú tampoco puedes hacerlo mejor que los demás», entonces no funciona, porque no has probado que el camino del estado actual hacia el futuro sea viable. Lo que necesita el mundo —ya sea la industria entera o una compañía en particular— es encontrar una manera de que la sociedad pase de «la tecnología no existe» a «la tecnología existe en una forma poderosa y se gestiona de manera efectiva». Pienso que la única forma de lograrlo es enfrentarse a esos trade-offs a nivel de una sola compañía e incluso, eventualmente, a nivel de la industria.»

Necesitas encontrar una manera que te permita mantenerte competitivo e incluso liderar la industria en algunos ámbitos, al mismo tiempo que garantizas la seguridad de la tecnología. Si puedes lograr eso, entonces el poder de atracción de tu empresa hacia la industria será muy fuerte. Desde el entorno regulatorio hasta las esperanzas de unirse con talentos excelentes de diferentes compañías, incluso hasta la percepción de los clientes: todos estos factores empujarán a la industria en la misma dirección. Si puedes demostrar que puedes lograr seguridad sin sacrificar competitividad —es decir, encontrar soluciones de beneficio mutuo— entonces otras compañías también se sentirán incentivadas a imitar ese enfoque.

Jared Kaplan: «Creo que por eso mecanismos como la RSP son tan importantes. Podemos ver claramente hacia dónde va el desarrollo tecnológico, y entendemos que necesitamos estar muy alerta ante algunos problemas, pero al mismo tiempo debemos evitar emitir alarmas de «lobo viene» de forma equivocada. No podemos simplemente decir: «La innovación debe detenerse aquí». Necesitamos encontrar una manera que permita que la tecnología de IA ofrezca a los clientes una experiencia útil, innovadora y agradable, y al mismo tiempo deje claros los límites que debemos respetar. Esos límites deben asegurar la seguridad del sistema, y al mismo tiempo permitir que otras compañías crean que también pueden tener éxito bajo la condición de seguridad, compitiendo con nosotros.»

Dario Amodei: «Unos meses después, cuando lanzamos la RSP, tres de las compañías de IA más conocidas también publicaron mecanismos similares. La investigación en interpretabilidad es otro ámbito en el que logramos avances. Además, también colaboramos con instituciones de investigación en seguridad de la IA. Este enfoque integral en seguridad está produciendo un impacto profundo.»

Jack Clark: «Sí, Frontier Red Team fue imitado casi de inmediato por otras compañías. Es algo bueno; queremos que todos los laboratorios prueben posibles fallos de seguridad de alto riesgo.»

Daniela Amodei: «Jack también mencionó que los clientes se preocupan muchísimo por la seguridad. Los clientes no quieren que los modelos generen información falsa, ni que sean fáciles de eludir con restricciones de seguridad. Ellos quieren que el modelo sea útil y no haga daño. En nuestras conversaciones con clientes, escuchamos con frecuencia: «Elegimos Claude porque sabemos que es más seguro». Pienso que esto tiene un impacto enorme en el mercado. Podemos proporcionar modelos confiables y fiables, lo cual también genera una presión de mercado considerable sobre la competencia.»

Chris Olah: «Quizá se pueda expandir aún más el punto de Dario. Hay una idea según la cual la conducta más moral es «el fracaso noble». Es decir, deberías sacrificar otros objetivos en nombre de la seguridad, incluso actuar de una manera poco realista para demostrar la pureza de tu compromiso. Pero yo creo que este enfoque en realidad es autodestructivo.»

Primero, este enfoque hace que el poder de decisión recaiga en quienes no valoran la seguridad ni la priorizan. Por otro lado, si tú trabajas para encontrar una manera de alinear los incentivos, colocar las decisiones difíciles donde las apoyen con más fuerza quienes toman decisiones correctas, y basarlas en la evidencia más poderosa, entonces puedes activar esa «competencia hacia arriba» que describió Dario. En esa competencia, no es que quienes se preocupan por la seguridad sean marginados; más bien, otros son obligados a seguir tu ritmo y a unirse a esa competencia.

Mirando hacia el futuro de la inteligencia artificial

Jack Clark: «Entonces, de cara a lo que tenemos que hacer a continuación, ¿qué es lo que les emociona a todos?»

Chris Olah: «Creo que hay muchas razones para emocionarse con la interpretabilidad. Una, obviamente, es por seguridad. Pero hay otra razón: a nivel emocional, esto también me emociona o me resulta profundamente significativo. Porque creo que las redes neuronales son algo maravilloso y que dentro de ellas hay muchísima belleza que aún no hemos visto. Siempre tratamos las redes neuronales como una caja negra; no nos interesa mucho su estructura interna. Pero cuando comienzas a investigarlas en profundidad, te das cuenta de que dentro hay estructuras asombrosas.»

Es un poco como la actitud que la gente tiene hacia la biología: algunos podrían pensar que «la evolución es aburrida; es solo un proceso simple que lleva mucho tiempo y luego crea animales». Pero en realidad, cada animal creado por la evolución está lleno de complejidad e inmensas estructuras. Y yo pienso que la evolución es un proceso de optimización, como entrenar una red neuronal. Dentro de las redes neuronales también hay estructuras complejas parecidas a una «biología artificial». Si te animas a investigarlas a fondo, descubrirás muchas cosas asombrosas.

Siento que apenas estamos empezando a revelar lentamente su superficie. Es tan increíble que hay demasiadas cosas esperando ser descubiertas. Apenas estamos abriendo la puerta y creo que los hallazgos que siguen serán muy emocionantes y maravillosos. A veces imagino que, dentro de diez años, entras en una librería y compras un libro de texto sobre interpretabilidad de redes neuronales, o un libro que realmente hable de la «biología» de las redes neuronales, con todo tipo de contenido sorprendente. Creo que en los próximos diez años —e incluso en los próximos años— comenzaremos a descubrir de verdad estas cosas. Será un viaje loco y maravilloso.

Jack Clark: «Hace unos años, si alguien hubiera dicho: «El gobierno creará nuevas instituciones para probar y evaluar sistemas de IA, y estas instituciones serán muy profesionales y funcionarán», probablemente no lo creerías. Pero ya ha ocurrido. Podría decirse que el gobierno ya ha establecido «una nueva embajada» para hacer frente a esta nueva categoría de tecnología; tengo muchas ganas de ver a dónde va esto. Creo que esto realmente significa que los países tienen capacidad para afrontar una transformación social así, y no solo depender de las empresas. Me alegra poder participar en ello.»

Daniela Amodei: «Ahora me entusiasma esto, pero creo que solo imaginar lo que la IA podría hacer por los seres humanos en el futuro es difícil no emocionarse. Incluso hoy, las señales de que Claude puede ayudar a desarrollar vacunas, hacer investigación sobre cáncer y también investigación en biología, ya son increíbles. Ver lo que ya puede hacer ahora es asombroso, y cuando pienso en los próximos tres a cinco años, imaginar que Claude podría resolver de verdad muchos de los problemas fundamentales a los que se enfrenta la humanidad, especialmente en el ámbito de la salud, me emociona muchísimo. Recordando cuando trabajaba en desarrollo internacional: si Claude hubiera podido ayudar a completar mi trabajo de entonces, que era muy ineficiente, ¿qué increíble habría sido?»

Tom Brown: «Desde una perspectiva personal, me encanta usar Claude en mi trabajo. De hecho, últimamente también lo uso en casa para hablar con Claude sobre cosas. El cambio más grande recientemente es el código. Hace seis meses yo ni siquiera usaba Claude para tareas de programación, y nuestro equipo tampoco usaba mucho Claude para escribir código; pero ahora esto ha cambiado de manera notable. Por ejemplo, la semana pasada di una charla en un evento organizado por Y Combinator. Al principio pregunté: «¿Cuánta gente está usando Claude para programar?» y casi el 95% levantó la mano. Casi todo el mundo levantó la mano; eso es completamente distinto a lo que era hace cuatro meses.»

Dario Amodei: «Cuando pienso en cosas que me emocionan, recuerdo cosas como la interpretabilidad, que yo mencioné antes y que parece ya haber alcanzado un consenso, pero en realidad ese consenso está a punto de romperse. Pienso que la interpretabilidad no solo es una clave para guiar y asegurar la seguridad de los sistemas de IA, sino que también contiene profundas ideas sobre el problema de optimizar la inteligencia y cómo funciona el cerebro humano. Yo había dicho que Chris Olah ganaría un Premio Nobel de Medicina en el futuro.»

Como yo antes fui neurocientífico, y dado que aún no hemos resuelto muchas enfermedades mentales —por ejemplo, la esquizofrenia o los trastornos emocionales—, sospecho que podrían estar relacionadas con un problema sistémico de un nivel más alto. Sin embargo, debido a la complejidad del cerebro humano y a que es difícil de estudiar de manera directa, estos problemas son difíciles de comprender por completo. Las redes neuronales, aunque no son un análogo perfecto, no son tan difíciles de analizar e interactuar como el cerebro humano. Con el tiempo, las redes neuronales se convertirán en una herramienta de analogía mejor.

Otro ámbito relacionado es la aplicación de la IA en biología. La biología es un problema extremadamente complejo; por muchas razones, la gente aún duda de ella. Pero creo que ese consenso de duda está empezando a desmoronarse. Ya hemos visto que el Nobel en química se ha concedido a AlphaFold: un logro increíble. Deberíamos esforzarnos por desarrollar herramientas que nos ayuden a crear cientos de «AlphaFold».

Por último, está el uso de la IA para fortalecer la democracia. Nos preocupa que si la IA se desarrolla de manera incorrecta pueda convertirse en una herramienta del autoritarismo. Entonces, ¿cómo hacer que la IA sea una herramienta que promueva la libertad y la autodeterminación? Creo que este campo podría desarrollarse antes que los dos anteriores, pero su importancia no es menor que la de esos dos.

Jared Kaplan: «Quiero destacar al menos dos puntos que reflejan lo que tú acabas de decir. Uno es que creo que muchas personas se unieron a Anthropic porque sienten una curiosidad enorme por la ciencia de la IA. A medida que avanza la tecnología de IA, poco a poco se van dando cuenta de que no solo necesitamos impulsar el desarrollo técnico, sino también entenderlo con más profundidad y asegurarnos de que sea seguro. Me parece emocionante poder trabajar con cada vez más personas que comparten una visión común sobre el desarrollo de la IA y el sentido de responsabilidad. Y además, siento que muchos avances tecnológicos ocurridos en el último año realmente han impulsado la formación de ese consenso.»

El otro aspecto es que, volviendo al problema práctico, creo que ya hemos hecho mucho trabajo en seguridad de la IA. Pero con algunos desarrollos recientes, comenzamos a adquirir una comprensión inicial sobre los riesgos que podrían traer sistemas de un nivel muy avanzado. Esto nos permite estudiar e investigar esos riesgos directamente mediante investigación en interpretabilidad y otros tipos de mecanismos de seguridad.

De esta manera, podemos entender con mayor claridad los riesgos que los sistemas de IA avanzados pueden traer, y eso nos permitirá avanzar nuestra misión de una forma más científica y basada en evidencia. Por eso, me siento muy emocionado por los próximos seis meses: usaremos nuestra comprensión de los problemas potenciales de los sistemas avanzados para seguir investigando y encontrar formas de evitar esas trampas.

Enlace del video original

Haz clic para conocer BlockBeats en proceso de contratación en puestos abiertos

Bienvenido a unirte a la comunidad oficial de BlockBeats:

Telegram grupo suscripción: https://t.me/theblockbeats

Telegram grupo chat: https://t.me/BlockBeats_App

Twitter cuenta oficial: https://twitter.com/BlockBeatsAsia

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado