El CEO de Google DeepMind, ganador del Premio Nobel de Química Demis Hassabis, visitó Y Combinator, donde habló sobre los avances clave hacia la AGI, consejos para emprendedores sobre cómo mantenerse a la vanguardia, y dónde podría aparecer el próximo gran avance científico.

La evaluación más práctica para emprendedores en tecnología profunda es que, si hoy inicias un proyecto de tecnología profunda con una duración de diez años, debes incluir en tu planificación la aparición de la AGI. Además, reveló que Isomorphic Labs (la compañía de farmacéutica de IA separada de DeepMind) pronto tendrá noticias importantes.

Frases destacadas

Ruta y cronología de la AGI

·「Estos componentes tecnológicos existentes casi con certeza formarán parte de la arquitectura final de la AGI.」

·「El aprendizaje continuo, el razonamiento a largo plazo y ciertos aspectos de la memoria aún no están resueltos; la AGI necesita dominar todos estos aspectos.」

·「Si tu cronología para la AGI es alrededor de 2030, como la mía, y hoy comienzas un proyecto de tecnología profunda, debes considerar que la AGI aparecerá en medio del camino.」

Memoria y ventana de contexto

·「La ventana de contexto es aproximadamente equivalente a la memoria de trabajo. La memoria de trabajo humana promedia solo siete dígitos, mientras que nosotros tenemos ventanas de contexto de millones o incluso decenas de millones de tokens. Pero el problema es que llenamos todo con información, incluyendo datos irrelevantes o errores, y esa práctica es bastante burda actualmente.」

·「Para procesar flujos de video en tiempo real y guardar todos los tokens, un millón de tokens en realidad solo alcanza para unos 20 minutos.」

Defectos del razonamiento

·「Me gusta jugar ajedrez con Gemini. A veces se da cuenta de que un movimiento es terrible, pero no encuentra una mejor opción, y termina haciendo ese movimiento. Pero un sistema de razonamiento preciso no debería comportarse así.」

·「Por un lado puede resolver problemas de nivel medallista de oro en IMO, pero por otro, si se le pregunta de otra forma, comete errores de matemáticas básicas. En la introspección de su proceso de pensamiento, parece que todavía le falta algo.」

Agente y creatividad

·「Para lograr la AGI, necesitas un sistema que pueda resolver problemas de forma proactiva por ti. El agente es ese camino, y creo que apenas estamos empezando.」

·「Aún no he visto a nadie usar vibe coding para crear un juego AAA que encabece las listas de aplicaciones. Con el esfuerzo actual, eso debería ser posible, pero aún no ha ocurrido. Indica que falta algo en las herramientas o en los procesos.」

Destilación y modelos pequeños

·「Nuestra hipótesis es que, un modelo Pro de vanguardia, lanzado medio año a un año después, puede ser comprimido en un modelo muy pequeño que pueda correr en dispositivos edge. Todavía no hemos llegado a los límites teóricos de densidad de información.」

Descubrimiento científico y la «Prueba Einstein»

·「A veces la llamo la ‘Prueba Einstein’, que consiste en entrenar un sistema con conocimientos de 1901 y ver si puede derivar de forma independiente los logros de Einstein en 1905, incluyendo la relatividad especial. Si se logra, estos sistemas están cerca de inventar cosas completamente nuevas.」

·「Resolver un problema de premio Millennium ya sería un logro impresionante. Pero aún más difícil sería plantear un conjunto de nuevos problemas de premio Millennium que sean considerados igualmente profundos y dignos de una vida de investigación por los mejores matemáticos.」

Consejos para emprendimientos en tecnología profunda

·「Buscar problemas difíciles y problemas simples en realidad es similar, solo que la dificultad se manifiesta de diferentes maneras. La vida es corta, mejor enfocar energía en cosas que, si no haces tú, nadie más hará.」

Caminos hacia la AGI

Gary Tan: Tú has pensado en la AGI casi más que nadie. Con el paradigma actual, ¿cuánto crees que ya tenemos de la arquitectura final de la AGI? ¿Qué nos falta fundamentalmente ahora?

Demis Hassabis: Grandes preentrenamientos, RLHF, cadenas de pensamiento, estoy muy seguro de que formarán parte de la arquitectura final de la AGI. Estas tecnologías han demostrado mucho en su camino hasta ahora. No puedo imaginar que en dos años descubramos que son un callejón sin salida; eso no me cuadra. Pero sobre lo que ya existe, quizás falte una o dos cosas. Aprendizaje continuo, razonamiento a largo plazo, ciertos aspectos de la memoria, todavía hay problemas sin resolver.

La AGI necesita dominar todo eso. Quizás con las tecnologías actuales y algunas innovaciones progresivas, se pueda ampliar hasta ese nivel, pero también podrían quedar uno o dos puntos clave por romper. No creo que sean más de uno o dos. Personalmente, creo que la probabilidad de que existan estos puntos críticos sin resolver es de aproximadamente 50-50. Por eso, en Google DeepMind, estamos avanzando en ambas líneas.

Gary Tan: Trabajo con muchos sistemas de agentes, y lo que más me sorprende es que en el nivel más profundo, todo se basa en el mismo conjunto de pesos. Por eso, el concepto de aprendizaje continuo es muy interesante, porque ahora estamos usando parches temporales, como esos ciclos de sueños nocturnos.

Demis Hassabis: Exacto, esos ciclos de sueños son muy interesantes. En el pasado, hemos pensado en cómo integrar la memoria contextual. Mi doctorado fue sobre cómo el hipocampo integra elegantemente nuevos conocimientos en los existentes. El cerebro hace esto de forma excelente.

Durante el sueño, especialmente en el sueño REM, repasan experiencias importantes para aprender de ellas. Nuestro primer programa de Atari, DQN (DeepMind, 2013), que usó aprendizaje profundo para jugar a nivel humano en Atari, logró dominar los juegos mediante una técnica clave: la reproducción de experiencias (experience replay).

Aprendimos esto de la neurociencia: repetir caminos exitosos. Eso fue en 2013, en la era antigua de la IA, pero en ese momento fue fundamental.

Estoy de acuerdo contigo, ahora estamos usando parches. Metemos todo en la ventana de contexto. Eso no se siente correcto. Aunque hagamos que la máquina tenga millones o decenas de millones de tokens de memoria, y que la memoria sea perfecta, el costo de buscar y recuperar sigue siendo alto. En decisiones en tiempo real, encontrar información realmente relevante no es sencillo, incluso si podemos guardar todo. Por eso, creo que hay mucho espacio para innovar en memoria.

Gary Tan: La ventana de contexto de un millón de tokens ya es mucho más de lo que esperaba, y permite hacer muchas cosas.

Demis Hassabis: Para la mayoría de los escenarios, sí, es suficiente. Pero piensa en que la ventana de contexto equivale a la memoria de trabajo. La memoria de trabajo humana promedia solo siete dígitos, mientras que nosotros tenemos ventanas de contexto de millones o decenas de millones de tokens. El problema es que llenamos todo con información, incluyendo datos irrelevantes o errores, y esa práctica es bastante burda. Además, si quieres procesar flujo de video en tiempo real y guardar todos los tokens, un millón solo alcanza para unos 20 minutos. Pero si quieres que el sistema entienda tu vida en uno o dos meses, todavía está muy lejos.

Gary Tan: DeepMind siempre ha invertido mucho en aprendizaje por refuerzo y búsqueda, ¿qué tan profundo está esa filosofía en la construcción de Gemini? ¿Se subestima aún el aprendizaje por refuerzo?

Demis Hassabis: Probablemente sí, todavía se le subestima. La atención a esto ha subido y bajado. Desde que fundamos DeepMind, hemos estado trabajando en sistemas de agentes. Todo el trabajo en Atari y AlphaGo, en esencia, son agentes de aprendizaje por refuerzo, sistemas que pueden completar objetivos, tomar decisiones y planear de forma autónoma. Claro, en ese momento, elegimos los juegos porque su complejidad era controlable, y luego avanzamos a juegos más complejos, como AlphaStar tras AlphaGo, y prácticamente hemos cubierto todos los juegos posibles.

El siguiente paso es, ¿podemos generalizar estos modelos a modelos de mundo o modelos de lenguaje, no solo a modelos de juegos? Hemos estado en eso en los últimos años. La forma de pensar y las cadenas de razonamiento de los modelos líderes hoy en día, en esencia, son una regresión de lo que AlphaGo inició en su momento.

Creo que mucho de lo que hicimos en su momento está muy relacionado con lo que hacemos hoy. Estamos revisitando esas ideas antiguas, pero a mayor escala y de forma más general, incluyendo métodos como la búsqueda en árboles Monte Carlo y otras técnicas de aprendizaje por refuerzo. Las ideas de AlphaGo y AlphaZero están muy relacionadas con los modelos base actuales, y creo que gran parte del progreso en los próximos años vendrá de allí.

Destilación y modelos pequeños

Gary Tan: Ahora, para ser más inteligente, se necesitan modelos más grandes, pero también la destilación avanza, y los modelos pequeños pueden ser bastante rápidos. Vuestro modelo Flash es muy potente, alcanza aproximadamente el 95% del rendimiento de los modelos de vanguardia, pero cuesta solo una décima parte. ¿Es correcto?

Demis Hassabis: Creo que esa es una de nuestras ventajas principales. Primero, hay que construir el modelo más grande para obtener capacidades de vanguardia. Nuestra mayor fortaleza es que podemos destilar y comprimir esas capacidades en modelos cada vez más pequeños rápidamente. La destilación fue una invención nuestra, y todavía somos líderes mundiales en ello. Además, tenemos un fuerte impulso comercial para hacer esto. Somos probablemente la plataforma de aplicaciones de IA más grande del mundo.

Con AI Overviews, AI Mode y Gemini, cada producto de Google, desde Maps hasta YouTube, integra Gemini o tecnologías relacionadas. Esto involucra miles de millones de usuarios y productos con decenas de miles de millones de usuarios. Necesitan ser extremadamente rápidos, eficientes, económicos y con baja latencia. Esto nos motiva mucho a optimizar modelos como Flash y Flash-Lite para que sean altamente eficientes, y espero que al final sirvan para facilitar todo tipo de tareas a los usuarios.

Gary Tan: Tengo curiosidad por qué tan inteligentes pueden ser estos modelos pequeños. ¿Hay un límite en la destilación? ¿Modelos de 50B o 400B de parámetros pueden ser tan inteligentes como los modelos de vanguardia actuales?

Demis Hassabis: No creo que hayamos llegado a un límite teórico en la información, al menos nadie lo sabe todavía. Quizá algún día encontremos un techo en la densidad de información, pero por ahora, nuestra hipótesis es que, tras lanzar un modelo Pro de vanguardia, en medio año o un año, su capacidad puede comprimirse en un modelo muy pequeño, casi que en un dispositivo edge.

También se puede ver esto en el modelo Gemma; nuestro Gemma 4, en la misma escala, muestra un rendimiento muy fuerte. Todo esto usa muchas técnicas de destilación y optimización de modelos pequeños. Así que realmente no veo un límite teórico, todavía estamos lejos de él.

Gary Tan: Ahora, hay un fenómeno bastante absurdo: los ingenieros pueden hacer en seis meses 500 a 1000 veces más trabajo que hace medio año. Algunos en esta sala están haciendo en ese tiempo lo que un ingeniero de Google en los 2000 hacía en mil veces menos. Steve Yegge lo mencionó.

Demis Hassabis: Me emociona mucho. Los modelos pequeños tienen muchas aplicaciones. Una es que son de bajo costo y rápidos, lo que también trae beneficios. En programación y otras tareas, puedes iterar más rápido, especialmente en colaboración con sistemas. Un sistema rápido, aunque no sea de vanguardia, digamos solo al 90-95%, es suficiente, y la velocidad de iteración te da un retorno mucho mayor que ese 5-10% adicional.

Otra gran dirección es correr estos modelos en dispositivos edge, no solo por eficiencia, sino también por privacidad y seguridad. Piensa en dispositivos que manejan información muy privada, o en robots. Para tu robot doméstico, querrías que corriera un modelo potente y eficiente localmente, y solo en casos específicos delegar tareas a la nube. Procesar audio y video en local, mantener los datos en local, sería un estado final muy deseable.

Memoria y razonamiento

Gary Tan: Volviendo a la memoria y el contexto. Los modelos actualmente son sin estado. Si logramos que tengan aprendizaje continuo, ¿cómo sería la experiencia del desarrollador? ¿Cómo guiarías a estos modelos?

Demis Hassabis: Es una pregunta muy interesante. La falta de aprendizaje continuo es una de las principales limitaciones actuales de los agentes. Ahora, los agentes son útiles en partes locales de tareas, puedes combinarlos para hacer cosas interesantes, pero no se adaptan bien a su entorno específico. Esa es la razón por la que no pueden simplemente «lanzarse y no preocuparse más». Necesitan aprender de su contexto específico. Para alcanzar una inteligencia verdaderamente general, ese problema debe resolverse.

Gary Tan: ¿En qué punto estamos en el razonamiento? Los modelos tienen cadenas de pensamiento muy fuertes, pero todavía cometen errores que un estudiante de secundaria no cometería. ¿Qué cambios esperas en el razonamiento? ¿Qué avances anticipas?

Demis Hassabis: Hay mucho espacio para innovar en el paradigma de pensamiento. Lo que hacemos todavía es bastante burdo y violento. Hay muchas mejoras posibles, como monitorear el proceso de la cadena de pensamiento y hacer intervenciones en medio del proceso. A menudo siento que, tanto en nuestro sistema como en los de la competencia, hay un exceso de pensamiento, que se queda en ciclos.

Me gusta usar jugar ajedrez con Gemini para observar. Todos los modelos base líderes en ajedrez son bastante malos, lo cual es interesante.

Es valioso seguir su trayectoria de pensamiento, porque el ajedrez es un campo muy bien entendido. Puedo rápidamente juzgar si se están desviando, si su razonamiento es válido. Lo que vemos es que a veces consideran un movimiento, se dan cuenta de que es terrible, pero no encuentran una mejor opción, y terminan haciendo ese movimiento. Un sistema de razonamiento preciso no debería comportarse así.

Esa gran brecha todavía existe, pero arreglarla quizás solo requiere uno o dos ajustes. Por eso, se habla de la «inteligencia dentada» (jagged intelligence): puede resolver problemas de nivel medallista en IMO, pero si se le pregunta de otra forma, comete errores de matemáticas básicas. En la introspección de su proceso de pensamiento, parece que todavía le falta algo.

Capacidad real del agente

Gary Tan: El agente es un tema muy amplio. Algunos dicen que es solo marketing. Personalmente, creo que apenas estamos empezando. ¿Cuál es la evaluación real del equipo de DeepMind sobre la capacidad de los agentes? ¿Qué diferencia hay con la percepción pública?

Demis Hassabis: Estoy de acuerdo contigo, apenas estamos empezando. Para lograr la AGI, necesitas un sistema que pueda resolver problemas de forma proactiva por ti. Eso siempre ha sido claro para nosotros. El agente es ese camino, y creo que estamos en los primeros pasos.

Todos estamos explorando cómo hacer que los agentes colaboren mejor en el trabajo. Hemos hecho muchas pruebas en proyectos personales, y muchos aquí seguramente también. Cómo integrar los agentes en los flujos de trabajo, que no sean solo un añadido, sino que realmente hagan tareas fundamentales. Actualmente, estamos en fase experimental. Solo en los últimos dos o tres meses hemos empezado a encontrar escenarios muy valiosos. La tecnología ya no es solo una demostración, sino que realmente aporta valor en términos de tiempo y eficiencia.

Frecuentemente veo a gente lanzar decenas de agentes y hacer que funcionen durante horas, pero todavía no sé si los resultados justifican esa inversión.

Aún no hemos visto a alguien usar vibe coding para crear un juego AAA en la cima de las listas. Yo mismo he hecho algunos demos, y muchos aquí también. Ahora puedo hacer un prototipo de «Theme Park» en media hora, cuando a los 17 años me tomó seis meses.

Siento que si dedicas un verano completo, puedes crear algo realmente increíble. Pero aún así, requiere artesanía, alma y gusto humano. Tienes que asegurarte de que esas cualidades estén en cualquier producto que construyas. De hecho, ningún niño ha creado un juego superventas que venda más de diez millones de copias, pero con las herramientas actuales, eso debería ser posible. Falta algo, quizás en los procesos o en las herramientas. Espero ver resultados en los próximos 6 a 12 meses.

Gary Tan: ¿Hasta qué punto será todo automático? Creo que no será instantáneo. Lo más probable es que primero logren aumentar la eficiencia en 1000 veces, y luego alguien use esas herramientas para crear aplicaciones y juegos populares, y solo después se automatizarán más etapas.

Demis Hassabis: Exacto, eso es lo que deberías esperar primero.

Gary Tan: También hay quienes ya están haciendo eso, pero no quieren decir cuánto ayudaron los agentes.

Demis Hassabis: Puede ser. Pero quiero hablar sobre la creatividad. Siempre pongo el ejemplo de AlphaGo, todos recuerdan la jugada 37 en la segunda partida. Para mí, esa fue la chispa que me hizo empezar proyectos como AlphaFold. Justo al día siguiente de volver de Seúl, comenzamos con AlphaFold, hace diez años. Este viaje a Corea fue para celebrar el décimo aniversario de AlphaGo.

Pero solo hacer esa jugada no es suficiente. Es genial, muy útil. Pero ¿puede ese sistema inventar el juego de Go en sí? Si le das una descripción general, como «un juego que puede aprender en cinco minutos, pero que requiere toda una vida para dominar, con estética elegante, y que puede jugarse en una tarde», y el sistema responde que es Go, eso todavía no lo puede hacer hoy. ¿Por qué?

Gary Tan: Tal vez alguien en esta sala sí pueda lograrlo.

Demis Hassabis: Si alguien logra eso, la respuesta no será que el sistema le falta algo, sino que la forma en que usamos el sistema está mal. Quizá esa sea la respuesta correcta. Tal vez los sistemas actuales ya tienen esa capacidad, solo que necesitan un creador muy talentoso que los impulse, que aporte el alma del proyecto, y que esté en perfecta sintonía con la herramienta. Si te sumerges en esas herramientas día y noche, y tienes una creatividad profunda, quizás puedas crear cosas asombrosas.

Código abierto y modelos multimodales

Gary Tan: Cambiando de tema, hablemos de código abierto. La reciente publicación de Gemma permite que modelos muy potentes funcionen localmente. ¿Qué opinas? ¿La IA se convertirá en algo que los usuarios controlen, en lugar de estar principalmente en la nube? ¿Esto cambiará quién puede construir productos con estos modelos?

Demis Hassabis: Somos firmes defensores del código abierto y la ciencia abierta. Mencionaste AlphaFold, que liberamos completamente. Nuestro trabajo científico sigue publicándose en revistas de primer nivel. En el caso de Gemma, queremos crear modelos líderes en su escala. Hasta ahora, Gemma ha sido descargada unas 40 millones de veces en solo dos semanas y media desde su lanzamiento.

Creo que es importante que exista una comunidad de código abierto con tecnología occidental. Los modelos de código abierto chinos son excelentes y actualmente lideran en ese campo, pero creemos que Gemma es muy competitiva en su escala.

Para nosotros, también hay un problema de recursos: nadie tiene capacidad de computación de sobra para entrenar dos modelos de vanguardia a escala completa. Por eso, nuestra decisión actual es usar modelos en dispositivos edge para Android, gafas, robots, etc., preferiblemente en código abierto, porque una vez desplegados en dispositivos, están expuestos. Es mejor abrir completamente. Hemos unificado una estrategia de apertura a nivel nanométrico, que también tiene sentido desde una perspectiva estratégica.

Gary Tan: Antes de la presentación, te mostré cómo interactúo con un sistema de IA usando solo voz, y logré que Gemini funcionara. Es un demo, y todavía me siento nervioso, pero funcionó. Desde el principio, Gemini fue construido en modo multimodal. He probado muchos modelos, y la interacción por voz con capacidades de herramientas y comprensión contextual no tiene comparación.

Demis Hassabis: Exacto. Una ventaja que aún no se ha reconocido completamente de Gemini es que desde el principio lo construimos en modo multimodal. Esto hace que el inicio sea más difícil que solo texto, pero creemos que a largo plazo será muy beneficioso, y ya estamos empezando a cosechar esas ventajas.

Por ejemplo, en modelos del mundo, construimos Genie (un modelo de entorno interactivo generativo desarrollado por DeepMind). En robótica, Gemini Robotics se basará en modelos multimodales, y esa ventaja será una barrera competitiva. También usamos cada vez más Gemini en Waymo (la compañía de conducción autónoma de Alphabet).

Imagina un asistente digital que te acompaña en el mundo real, en tu teléfono o gafas, que entiende tu entorno físico. Nuestro sistema es muy fuerte en eso. Seguiremos invirtiendo en esa dirección, y creo que nuestra ventaja en estos temas será grande.

Gary Tan: El costo del razonamiento está bajando rápidamente. Cuando el razonamiento sea casi gratuito, ¿qué será posible? ¿Cambiará eso la dirección de sus optimizaciones?

Demis Hassabis: No estoy seguro de que el razonamiento sea realmente gratuito, por la paradoja de Jevons (que indica que la eficiencia puede aumentar el consumo total). Creo que todos terminarán usando toda la capacidad computacional que puedan obtener.

Podemos imaginar grupos de millones de agentes colaborando, o un pequeño grupo de agentes pensando en múltiples direcciones y luego integrando resultados. Todos estamos experimentando con esas ideas, y todas consumirán recursos de razonamiento.

En energía, si resolvemos problemas como la fusión nuclear controlada, superconductividad a temperatura ambiente, o las mejores baterías, creo que podremos reducir los costos energéticos a casi cero mediante avances en ciencia de materiales. Pero aún hay cuellos de botella en la fabricación de chips y en procesos físicos, al menos en las próximas décadas. Por eso, el límite en razonamiento seguirá existiendo, y será necesario usar esa capacidad de forma eficiente.

El próximo avance científico

Gary Tan: Es alentador que los modelos pequeños sean cada vez más inteligentes. Muchos fundadores en biotecnología y ciencias de la vida están aquí. AlphaFold 3 ya superó los límites de las proteínas, extendiéndose a moléculas biológicas más amplias. ¿Qué tan lejos estamos de modelar sistemas celulares completos? ¿Es esto un problema de dificultad completamente diferente?

Demis Hassabis: Isomorphic Labs está avanzando muy bien. AlphaFold es solo una parte del proceso de descubrimiento de fármacos. Estamos trabajando en investigación bioquímica relacionada, diseñando compuestos con propiedades correctas, y pronto tendremos anuncios importantes.

Nuestro objetivo final es crear una célula virtual completa, un simulador de célula funcional que pueda ser perturbado y que produzca resultados cercanos a los experimentales, con aplicaciones prácticas. Podemos saltarnos muchos pasos de búsqueda y generar datos sintéticos para entrenar otros modelos que predigan el comportamiento celular real.

Calculo que aún nos quedan unos diez años para una célula virtual completa. En DeepMind, estamos empezando desde el núcleo de la célula, que es relativamente autónomo. La clave es poder extraer una porción de complejidad adecuada, que sea autosuficiente, y que podamos aproximar razonablemente sus entradas y salidas, concentrándonos en ese subsistema. El núcleo celular es un buen punto de partida.

Otro problema es la falta de datos. He hablado con top científicos en microscopía electrónica y otras técnicas de imagen. Si pudiéramos hacer imágenes de células vivas sin matarlas, sería revolucionario, porque convertiría esto en un problema visual, y ya sabemos cómo abordarlo.

Pero, por lo que sé, todavía no hay tecnología que permita imágenes en vivo a resolución nanométrica sin dañar la célula. Podemos obtener imágenes estáticas muy detalladas, pero no lo suficiente para convertirlo en un problema visual completo.

Por eso, hay dos caminos: uno, mejorar hardware y datos; otro, construir simuladores más precisos para modelar estas dinámicas.

Gary Tan: No solo en biología. Materiales, descubrimiento de fármacos, modelado climático, matemáticas: si tuvieras que ordenar, ¿qué campo será transformado más en los próximos cinco años?

Demis Hassabis: Cada campo es emocionante, y esa es la razón por la que llevo más de 30 años en IA. Siempre he pensado que la IA será la herramienta definitiva para avanzar en la ciencia, en descubrimientos médicos y en nuestra comprensión del universo.

Nuestra misión, en dos pasos, fue inicialmente: primero, resolver la inteligencia, construir la AGI; segundo, usarla para resolver todos los demás problemas. Luego, tuvimos que ajustar el lenguaje, porque algunos preguntaron: «¿Realmente dices que resolverás todos los problemas?»

Y en realidad, sí. Ahora la gente empieza a entender qué significa eso. Específicamente, me refiero a resolver esas «problemas raíz» en ciencia, que al superarlos desbloquean nuevas ramas de descubrimiento. AlphaFold es un prototipo de lo que queremos hacer.

Más de tres millones de investigadores en todo el mundo usan AlphaFold. Algunos ejecutivos de farmacéuticas me han dicho que casi todos los nuevos medicamentos en el futuro usarán AlphaFold en alguna etapa del descubrimiento. Nos enorgullece eso, y es la influencia que esperamos que tenga la IA. Pero esto es solo el comienzo.

No puedo pensar en ningún campo científico o ingenieril que la IA no pueda ayudar. Los campos que mencionaste están en lo que llamo el «momento AlphaFold 1»: resultados prometedores, pero aún sin superar los grandes desafíos. En los próximos dos años, veremos avances en todos estos campos, desde ciencia de materiales hasta matemáticas.

Gary Tan: Se siente como un regalo de Prometeo, otorgando a la humanidad una capacidad completamente nueva.

Demis Hassabis: Exacto. Pero, como en la historia de Prometeo, debemos ser cautelosos con cómo usamos esa capacidad, en qué la aplicamos, y con los riesgos de que las mismas herramientas sean mal utilizadas.

Lecciones de éxito

Gary Tan: Muchos aquí están intentando fundar empresas que apliquen IA a la ciencia. Desde tu perspectiva, ¿qué diferencia a las startups que realmente avanzan en la frontera, de aquellas que solo envuelven modelos base en APIs y se autodenominan «IA para la ciencia»?

Demis Hassabis: Pienso en qué haría si estuviera en su lugar, en Y Combinator, evaluando proyectos. Una cosa es predecir hacia dónde va la tecnología de IA, lo cual es difícil. Pero creo que hay una gran oportunidad en combinar la IA con otra tecnología profunda. Esa intersección, ya sea en materiales, medicina o ciencias difíciles, especialmente en el mundo atómico, no tendrá atajos en el futuro cercano. No serán desplazadas por una actualización de modelos base. Pero si buscas una dirección defensiva, esa sería mi recomendación.

Siempre he preferido la tecnología profunda. Lo que es duradero y valioso no es fácil. La IA en 2010, cuando empezamos, ya era tecnología profunda — los inversores me decían «esto no funciona», y la academia pensaba que era una moda de los 90 que fracasó.

Pero si tienes convicción en tu idea — por qué será diferente esta vez, qué combinación única tienes, si eres experto en aprendizaje automático y en aplicaciones, o si puedes formar un equipo fundador así —, hay un impacto y valor enormes por crear.

Gary Tan: Esa información es muy valiosa. Cuando algo funciona, parece obvio, pero antes todos estaban en contra.

Demis Hassabis: Claro, por eso hay que hacer lo que uno realmente ama. Para mí, seguiré haciendo IA pase lo que pase. Desde pequeño, decidí que sería lo más influyente que pudiera imaginar. Y así ha sido, aunque quizás con 50 años de retraso.

También es lo que más me divierte. Aunque hoy estemos en un garaje y la IA aún no esté lista, seguiré buscando maneras de avanzar. Quizá vuelva a la academia, pero seguiré en esto de alguna forma.

Gary Tan: AlphaFold es un ejemplo de que apostaste a una dirección y acertaste. ¿Qué hace que un campo científico sea propicio para un avance como AlphaFold? ¿Hay alguna regla, como una función objetivo particular?

Demis Hassabis: Debería escribir esto en algún lado. La experiencia de AlphaGo y AlphaFold me enseñó que los sistemas funcionan mejor cuando:

Primero, el problema tiene un espacio de búsqueda combinatoria enorme, cuanto mayor, mejor, hasta el punto en que ningún método de búsqueda exhaustiva o algoritmo especial pueda resolverlo. Los espacios de movimiento en ajedrez y las conformaciones de proteínas superan con mucho la cantidad de átomos en el universo. Segundo, puedes definir claramente la función objetivo, como la energía libre en proteínas o ganar en ajedrez, para que el sistema pueda hacer optimización por gradiente. Tercero, hay suficiente datos o un simulador que genere datos sintéticos en gran cantidad.

Si estos tres criterios se cumplen, las técnicas actuales pueden avanzar mucho y encontrar esa aguja en el pajar. Lo mismo en descubrimiento de fármacos: si existe un compuesto que cura una enfermedad sin efectos secundarios, y las leyes físicas lo permiten, el único problema es encontrarlo de forma eficiente. AlphaFold demostró que estos sistemas pueden buscar en espacios inmensos y encontrar esas agujas.

Gary Tan: Quiero elevar la discusión. Hemos hablado de cómo los humanos usan estos métodos para crear AlphaFold, pero hay un nivel meta: los humanos usan IA para explorar espacios hipotéticos. ¿Qué tan lejos estamos de que los sistemas de IA puedan hacer ciencia de verdad, no solo patrones en datos?

Demis Hassabis: Creo que estamos muy cerca. Ya estamos desarrollando sistemas generalistas. Tenemos un sistema llamado AI co-scientist, y algoritmos como AlphaEvolve, que van más allá de Gemini. Todos los laboratorios punteros están explorando esa dirección.

Pero, hasta ahora, no he visto un descubrimiento científico realmente importante que haya sido hecho por estos sistemas. Creo que está muy cerca. Podría estar relacionado con la creatividad, con romper límites conocidos. En ese nivel, ya no será solo reconocimiento de patrones, porque no habrá patrones que reconocer. Será razonamiento análogo, y actualmente estos sistemas no lo poseen, o no los usamos de la forma correcta.

Una métrica que uso en ciencia es si pueden proponer una hipótesis realmente interesante, no solo verificar una. Porque verificar una hipótesis también puede ser un gran logro, como probar la hipótesis de Riemann o resolver un problema del milenio, pero quizás estamos a solo unos años de poder hacer eso.

Y aún más difícil, sería que puedan plantear un conjunto de nuevos problemas del milenio, considerados igualmente profundos y dignos de una investigación de toda una vida por matemáticos top. Eso sería un salto de nivel, y no sabemos cómo lograrlo todavía. Pero no creo que sea magia; confío en que estos sistemas podrán hacerlo, quizás solo les falte una o dos cosas.

Un método de prueba sería el «test de Einstein»: entrenar un sistema con conocimientos de 1901 y ver si puede derivar por sí solo los logros de Einstein en 1905, incluyendo la relatividad especial y otros trabajos. Creo que deberíamos hacer ese test, repetirlo varias veces, y ver cuándo se logra. Cuando eso pase, estos sistemas estarán cerca de inventar cosas completamente nuevas.

Consejos para emprendedores

Gary Tan: La última pregunta. Muchos aquí quieren fundar empresas que apliquen IA a la ciencia. Desde tu experiencia, ¿qué diferencia a las startups que realmente avanzan en la frontera, de las que solo envuelven modelos base en APIs y se autodenominan «IA para la ciencia»?

Demis Hassabis: Pienso en qué haría si estuviera en su lugar, en Y Combinator, evaluando proyectos. Una cosa es predecir hacia dónde va la tecnología de IA, que es difícil. Pero creo que hay una gran oportunidad en combinar la IA con otra tecnología profunda. Esa intersección, ya sea en materiales, medicina o ciencias difíciles, especialmente en el mundo atómico, no tendrá atajos en el futuro cercano. No serán desplazadas por una actualización de modelos base. Pero si buscas una dirección defensiva, esa sería mi recomendación.

Gary Tan: Esa información es muy valiosa. Cuando algo funciona, parece obvio, pero antes todos estaban en contra.

Demis Hassabis: Debería escribir esto en algún lado. La experiencia de AlphaGo y AlphaFold me enseñó que los sistemas funcionan mejor cuando:

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
WCTCTradingKingPK
460.97K Popularidad
#
USSeeksStrategicBitcoinReserve
58.7M Popularidad
#
IsraelStrikesIranBTCPlunges
37.42K Popularidad
#
BitcoinETFOptionLimitQuadruples
993.55K Popularidad
#
#FedHoldsRateButDividesDeepen
31.17K Popularidad

Anclado

Entrevista con el fundador de DeepMind: Arquitectura de AGI, estado actual de los Agentes y los avances científicos en la próxima década

Introducción del editor

Frases destacadas

Ruta y cronología de la AGI

Memoria y ventana de contexto

Defectos del razonamiento

Agente y creatividad

Destilación y modelos pequeños

Descubrimiento científico y la «Prueba Einstein»

Consejos para emprendimientos en tecnología profunda

Caminos hacia la AGI

Destilación y modelos pequeños

Memoria y razonamiento

Capacidad real del agente

Código abierto y modelos multimodales

El próximo avance científico

Lecciones de éxito

Consejos para emprendedores

Temas de actualidad

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Anclado