El CEO de Google DeepMind, ganador del Premio Nobel de Química Demis Hassabis, visitó Y Combinator, donde habló sobre los avances clave hacia la AGI, consejos para emprendedores sobre cómo mantenerse a la vanguardia, y dónde podría aparecer el próximo gran avance científico.

La evaluación más práctica para los emprendedores en tecnología profunda es que, si hoy inicias un proyecto de tecnología profunda con una visión a diez años, debes incluir en tu planificación la aparición de la AGI. Además, reveló que Isomorphic Labs (la compañía de farmacéutica de IA separada de DeepMind) pronto tendrá noticias importantes.

Frases destacadas

Ruta y cronograma de la AGI

·「Estos componentes tecnológicos existentes casi con certeza serán parte de la arquitectura final de la AGI.」

·「El aprendizaje continuo, el razonamiento a largo plazo y ciertos aspectos de la memoria aún no están resueltos; la AGI necesita dominar todos estos aspectos.」

·「Si tu cronograma para la AGI es alrededor de 2030, y hoy comienzas un proyecto de tecnología profunda, debes considerar que la AGI podría aparecer en medio del camino.」

Memoria y ventana de contexto

·「La ventana de contexto es aproximadamente equivalente a la memoria de trabajo. La memoria de trabajo humana promedia solo siete dígitos, mientras que nosotros contamos con ventanas de contexto de millones o incluso decenas de millones de tokens. Pero el problema es que llenamos todo con información, incluyendo datos irrelevantes o erróneos, y esa práctica es bastante burda actualmente.」

·「Para procesar streams de video en tiempo real y guardar todos los tokens, un millón de tokens solo alcanza para unos 20 minutos.」

Defectos del razonamiento

·「Me gusta jugar ajedrez con Gemini. A veces se da cuenta de que una jugada es mala, pero no encuentra una mejor, y termina haciendo esa jugada. Pero un sistema de razonamiento preciso no debería cometer ese tipo de errores.」

·「Por un lado puede resolver problemas de nivel medallista en IMO, pero por otro, si se le pregunta de otra forma, comete errores de matemáticas básicas. En la introspección de su proceso de pensamiento, parece que todavía le falta algo.」

Agente y creatividad

·「Para lograr la AGI, necesitas un sistema que pueda resolver problemas de forma proactiva por ti. El agente es ese camino, y creo que apenas estamos empezando.」

·「Aún no he visto a nadie usar vibe coding para crear un juego AAA que encabece las listas de aplicaciones. Con el esfuerzo actual, eso debería ser posible, pero aún no ha ocurrido. Indica que falta algo en las herramientas o en los procesos.」

Destilación y modelos pequeños

·「Nuestra hipótesis es que, aproximadamente medio año a un año después del lanzamiento de un modelo Pro de vanguardia, su capacidad puede comprimirse en un modelo muy pequeño, apto para dispositivos en el borde. Todavía no hemos llegado a los límites teóricos de densidad de información.」

Descubrimiento científico y la «Prueba Einstein»

·「A veces la llamo la ‘Prueba Einstein’, que consiste en entrenar un sistema con conocimientos de 1901 y ver si puede derivar de forma independiente los logros de Einstein en 1905, incluyendo la relatividad especial. Si se logra, estos sistemas están cerca de inventar cosas completamente nuevas.」

·「Resolver un problema de premio Millennium ya es impresionante. Pero aún más difícil es proponer un conjunto de nuevos problemas de premio Millennium que sean considerados igualmente profundos y dignos de una vida de investigación por los mejores matemáticos.」

Consejos para emprendimientos en tecnología profunda

·「Buscar problemas difíciles y problemas simples en realidad es similar, solo que la dificultad se manifiesta de diferentes maneras. La vida es corta, mejor enfocar energía en lo que nadie más hará si tú no lo haces.」

Caminos hacia la AGI

Gary Tan: Tú has pensado en la AGI casi más que todos los demás. Con el paradigma actual, ¿cuánto crees que ya tenemos de la arquitectura final de la AGI? ¿Qué nos falta fundamentalmente ahora?

Demis Hassabis: Grandes modelos preentrenados, RLHF, cadenas de pensamiento, estoy muy seguro de que serán parte de la arquitectura final de la AGI. Estas tecnologías han demostrado mucho en su camino hasta hoy. No puedo imaginar que en dos años descubramos que son un callejón sin salida; eso no me cuadra. Pero sobre lo que ya existe, quizás falte una o dos cosas. Aprendizaje continuo, razonamiento a largo plazo, ciertos aspectos de la memoria, todavía hay problemas sin resolver.

La AGI necesita que todo esté resuelto. Quizás con las tecnologías actuales y algunas innovaciones graduales, se pueda ampliar hasta ese nivel, pero también puede que falte uno o dos puntos clave por romper. No creo que sean más de uno o dos. Personalmente, la probabilidad de que existan estos puntos críticos sin resolver es aproximadamente 50/50. Por eso, en Google DeepMind, estamos avanzando en ambas líneas.

Gary Tan: He trabajado con muchos sistemas de agentes, y lo que más me sorprende es que en la base, todo se basa en el mismo conjunto de pesos. Por eso, el concepto de aprendizaje continuo es muy interesante, porque ahora estamos usando parches temporales, como esos ciclos de «sueños nocturnos».

Demis Hassabis: Exacto, esos ciclos de sueños son bastante interesantes. En el pasado, hemos pensado en esto en la integración de la memoria contextual. Mi doctorado fue sobre cómo el hipocampo integra elegantemente nuevos conocimientos en los existentes. El cerebro hace esto de forma excelente.

Durante el sueño, especialmente en el sueño REM, repasan experiencias importantes para aprender de ellas. Nuestro primer programa de Atari, DQN (DeepMind, 2013, la primera red Q profunda que usó aprendizaje por refuerzo profundo en juegos de Atari para alcanzar nivel humano), dominaba los juegos de Atari principalmente por la experiencia de reproducción (experience replay).

Esto lo aprendimos de la neurociencia: repetir caminos exitosos. Fue en 2013, en la era antigua de la IA, pero en ese momento fue crucial.

Estoy de acuerdo contigo, ahora estamos usando parches. Metemos todo en la ventana de contexto. Eso no se siente correcto. Aunque hagamos que la máquina tenga millones o decenas de millones de tokens de contexto, y memoria perfecta, el costo de buscar y recuperar sigue siendo alto. En decisiones en tiempo real, encontrar información realmente relevante no es sencillo, incluso si podemos guardar todo. Por eso, creo que hay mucho espacio para innovar en memoria.

Gary Tan: La ventana de contexto de un millón de tokens ya es mucho más de lo que esperaba, y permite hacer muchas cosas.

Demis Hassabis: Para la mayoría de los escenarios, sí, es suficiente. Pero piensa en esto: la ventana de contexto es aproximadamente equivalente a la memoria de trabajo. La memoria de trabajo humana promedia solo siete dígitos, mientras que nosotros tenemos ventanas de contexto de millones o incluso decenas de millones de tokens. El problema es que llenamos todo con información, incluyendo datos irrelevantes o erróneos, y esa práctica es bastante burda. Además, si quieres procesar streams de video en tiempo real y guardar todos los tokens, un millón solo alcanza para unos 20 minutos. Pero si quieres que el sistema entienda tu vida en uno o dos meses, todavía está muy lejos.

Gary Tan: DeepMind siempre ha invertido mucho en aprendizaje por refuerzo y búsqueda. ¿Qué tan profundo está esa filosofía en la construcción de Gemini? ¿El aprendizaje por refuerzo todavía está subestimado?

Demis Hassabis: Probablemente sí, todavía está subestimado. La atención a esto ha subido y bajado. Desde que fundamos DeepMind, hemos estado trabajando en sistemas de agentes. Todo el trabajo en Atari y AlphaGo, en esencia, son agentes de aprendizaje por refuerzo, sistemas que pueden completar objetivos, tomar decisiones y planear de forma autónoma. Por supuesto, en ese momento, elegimos el dominio de los juegos por su complejidad controlada, y luego avanzamos a juegos más complejos, como AlphaGo, AlphaStar, y otros.

El siguiente paso es, ¿podemos generalizar estos modelos a modelos de mundo o modelos de lenguaje, no solo a modelos de juegos? Hemos estado en eso en los últimos años. La forma de pensar y las cadenas de razonamiento de los modelos líderes hoy en día son en esencia una regresión de lo que AlphaGo inició.

Creo que mucho de lo que hicimos en su momento está muy relacionado con lo que estamos haciendo ahora. Estamos revisitando esas ideas antiguas, pero a mayor escala y de forma más general, incluyendo métodos como la búsqueda de Monte Carlo y otras técnicas de aprendizaje por refuerzo. Las ideas de AlphaGo y AlphaZero están muy relacionadas con los modelos base actuales, y creo que gran parte del progreso en los próximos años vendrá de allí.

Destilación y modelos pequeños

Gary Tan: Ahora, para ser más inteligente, necesitas modelos más grandes, pero también la destilación avanza, y los modelos pequeños pueden ser bastante rápidos. Vuestro modelo Flash es muy potente, alcanza aproximadamente el 95% del rendimiento de los modelos de vanguardia, pero cuesta solo una décima parte. ¿Es correcto?

Demis Hassabis: Creo que esa es una de nuestras ventajas principales. Primero, hay que construir el modelo más grande para obtener capacidades de vanguardia. Nuestra mayor fortaleza es que podemos destilar y comprimir esas capacidades en modelos cada vez más pequeños rápidamente. La destilación la inventamos nosotros, y todavía somos líderes mundiales en ello. Además, tenemos un fuerte impulso comercial para hacerlo. Somos probablemente la plataforma de IA de aplicaciones más grande del mundo.

Con AI Overviews, AI Mode y Gemini, cada producto de Google, incluyendo Maps, YouTube, etc., está integrando Gemini o tecnologías relacionadas. Esto involucra miles de millones de usuarios y productos con decenas de miles de millones de usuarios. Necesitan ser extremadamente rápidos, eficientes, económicos y con baja latencia. Esto nos motiva mucho a optimizar los modelos Flash y Flash-Lite para máxima eficiencia, con la esperanza de que también sirvan para diferentes tareas de los usuarios.

Gary Tan: Tengo curiosidad por qué tan inteligentes pueden ser estos modelos pequeños. ¿Hay un límite en la destilación? ¿Modelos de 50B o 400B de parámetros pueden igualar la inteligencia de los modelos de vanguardia actuales?

Demis Hassabis: No creo que hayamos llegado a un límite teórico en la información, al menos nadie lo sabe todavía. Quizá algún día encontremos un techo en la densidad de información, pero ahora asumimos que, tras lanzar un modelo Pro de vanguardia, en medio año o un año, su capacidad puede comprimirse en un modelo muy pequeño, casi apto para dispositivos en el borde.

También se puede ver esto en el modelo Gemma: nuestro Gemma 4, que tiene un rendimiento muy fuerte en el mismo tamaño. Todo esto usa muchas técnicas de destilación y optimización de modelos pequeños. Realmente no veo un límite teórico, todavía estamos lejos de él.

Gary Tan: Ahora, hay un fenómeno bastante sorprendente: los ingenieros pueden hacer en seis meses lo que antes tomaba mucho más tiempo, multiplicando por 500 o 1000 su productividad. Algunos en esta sala están haciendo en ese tiempo lo que un ingeniero de Google en los 2000 hacía en mil veces menos. Steve Yegge lo mencionó.

Demis Hassabis: Me emociona mucho. Los modelos pequeños tienen muchas aplicaciones. Una es que son de bajo costo y rápidos, lo que también trae beneficios. En programación y otras tareas, puedes iterar más rápido, especialmente en colaboración con sistemas. Sistemas rápidos, aunque no sean los más avanzados, como solo el 90-95% de la frontera, son suficientes, y la velocidad de iteración te da un retorno mucho mayor que esa diferencia.

Otra gran dirección es correr estos modelos en dispositivos en el borde, no solo por eficiencia, sino también por privacidad y seguridad. Piensa en dispositivos que manejan información muy privada, o en robots. Para tu robot doméstico, querrías que corriera localmente un modelo potente y eficiente, delegando tareas al cloud solo en escenarios específicos. Procesar audio y video en local, mantener los datos en local, sería un estado final muy deseable.

Memoria y razonamiento

Gary Tan: Volviendo a la memoria y el contexto. Los modelos actualmente son sin estado. Si logramos que tengan aprendizaje continuo, ¿cómo sería la experiencia del desarrollador? ¿Cómo guiarías a estos modelos?

Demis Hassabis: Es una pregunta muy interesante. La falta de aprendizaje continuo es un cuello de botella clave para que los agentes actuales puedan completar tareas completas. Los agentes actuales son útiles en partes locales, puedes combinarlos para hacer cosas interesantes, pero no se adaptan bien a tu entorno específico. Esa es la razón por la que aún no pueden «lanzarse y olvidarse»: necesitan aprender de tu escenario concreto. Para alcanzar una inteligencia verdaderamente general, este problema debe resolverse.

Gary Tan: ¿En qué punto estamos en razonamiento? Los modelos tienen cadenas de pensamiento fuertes, pero todavía cometen errores que un estudiante de secundaria no cometería. ¿Qué cambios esperas en el razonamiento?

Demis Hassabis: Hay mucho espacio para innovar en paradigmas de pensamiento. Lo que hacemos todavía es bastante burdo y violento. Hay muchas mejoras posibles, como monitorear las cadenas de pensamiento y hacer intervenciones en medio del proceso. A menudo siento que, tanto en nuestro sistema como en los de la competencia, hay un exceso de pensamiento, que se queda en ciclos.

Me gusta usar jugar ajedrez con Gemini para observar. Todos los modelos base líderes son bastante malos en ajedrez, lo cual es interesante.

Ver sus trayectorias de pensamiento es valioso, porque el ajedrez es un campo muy bien entendido. Puedo detectar rápidamente si se están desviando, si el razonamiento es válido. Lo que vemos es que a veces consideran un movimiento, se dan cuenta de que es malo, pero no encuentran una mejor opción, y terminan haciendo ese movimiento. Un sistema de razonamiento preciso no debería cometer ese error.

Esa gran brecha todavía existe, pero arreglarla solo requiere uno o dos ajustes. Por eso se habla de la «inteligencia dentada» (jagged intelligence): puede resolver problemas de nivel medallista en IMO, pero al cambiar la formulación, comete errores de matemáticas básicas. En la introspección de su proceso de pensamiento, parece que todavía le falta algo.

La verdadera capacidad del agente

Gary Tan: El agente es un tema amplio. Algunos dicen que es solo marketing. Personalmente, creo que apenas estamos empezando. ¿Cuál es la evaluación real del equipo de DeepMind sobre la capacidad de los agentes, en comparación con la publicidad?

Demis Hassabis: Estoy de acuerdo contigo, apenas estamos empezando. Para lograr la AGI, necesitas un sistema que pueda resolver problemas de forma proactiva. Eso siempre ha sido claro para nosotros. El agente es ese camino, y creo que estamos en los primeros pasos.

Todos estamos explorando cómo hacer que los agentes colaboren mejor en el trabajo. Hemos hecho muchas pruebas en experimentos personales, y muchos aquí seguramente también. Cómo integrar los agentes en los flujos de trabajo, que no sean solo complementos, sino que realmente hagan tareas fundamentales. Actualmente estamos en fase experimental. Probablemente en los últimos dos o tres meses empezamos a encontrar escenarios muy valiosos. La tecnología ha llegado a un punto en que ya no es solo una demostración de juguete, sino que realmente aporta valor en tiempo y eficiencia.

Frecuentemente veo a gente poner decenas de agentes corriendo durante horas, pero todavía no estoy seguro de que los resultados justifiquen esa inversión.

Aún no hemos visto a nadie usar vibe coding para crear un juego AAA que encabece las listas de aplicaciones. Yo mismo he hecho algunos demos, y muchos aquí también. Ahora puedo hacer un prototipo de «Theme Park» en media hora, cuando a los 17 años me tomó seis meses.

Tengo la sensación de que si dedicas un verano completo, puedes crear algo realmente increíble. Pero aún así, requiere artesanía, alma y gusto humano. Tienes que asegurarte de incorporar estos elementos en cualquier producto que construyas. De hecho, ningún niño ha creado un juego superventas que venda más de diez millones de copias, pero con las herramientas actuales, eso debería ser posible. Falta algo, quizás en los procesos o en las herramientas. Espero ver resultados en los próximos 6 a 12 meses.

Gary Tan: ¿Hasta qué punto será todo automático? Creo que no será completamente automático desde el principio. Es más probable que primero logren aumentar la eficiencia en 1000 veces, y luego alguien use esas herramientas para crear aplicaciones y juegos populares, y solo después se automatizarán más etapas.

Demis Hassabis: Exactamente, eso es lo que deberías esperar primero.

Gary Tan: También hay quienes ya están haciendo eso, pero no quieren decir cuánto ayudaron los agentes.

Demis Hassabis: Puede ser. Pero quiero hablar sobre la creatividad. Siempre pongo el ejemplo de AlphaGo, todos recuerdan la jugada 37 en la segunda partida. Para mí, esa fue la chispa que me hizo empezar proyectos como AlphaFold. Cuando volvimos de Seúl, en realidad ya estábamos trabajando en AlphaFold, hace diez años. Este viaje a Corea fue para celebrar el décimo aniversario de AlphaGo.

Pero solo hacer esa jugada no es suficiente. Es genial, muy útil, pero ¿puede ese sistema inventar el juego de go en sí? Si le das una descripción de alto nivel, como «un juego que puede aprender en cinco minutos, pero que requiere toda una vida para dominar, con estética elegante, que se puede jugar en una tarde», y el sistema te devuelve que es go, eso sería un avance. Hoy en día, los sistemas no pueden hacer eso. ¿Por qué?

Gary Tan: Quizá alguien en esta sala pueda lograrlo.

Demis Hassabis: Si alguien logra eso, la respuesta no será que el sistema carece de algo, sino que nuestra forma de usarlo está equivocada. Quizá esa sea la respuesta correcta. Tal vez los sistemas actuales tengan esa capacidad, solo que necesitan un creador muy talentoso para impulsarlos, que aporte el alma del proyecto y esté en perfecta sintonía con la herramienta. Si te sumerges en esas herramientas día y noche, y tienes una creatividad profunda, quizás puedas crear cosas asombrosas.

Open source y modelos multimodales

Gary Tan: Cambiando de tema, hablemos de open source. La reciente publicación de Gemma permite que modelos muy potentes funcionen localmente. ¿Qué opinas? ¿La IA se convertirá en algo que los usuarios controlen, en lugar de estar principalmente en la nube? ¿Esto cambiará quién puede construir productos con estos modelos?

Demis Hassabis: Somos firmes defensores del open source y la ciencia abierta. AlphaFold fue completamente abierto y gratuito. Nuestro trabajo científico sigue publicándose en revistas de primer nivel. En el caso de Gemma, queremos crear modelos líderes en su tamaño. Hasta ahora, Gemma ha tenido unas 40 millones de descargas en solo dos semanas y media desde su lanzamiento.

Creo que es importante que exista una infraestructura de open source en el mundo occidental. Los modelos open source chinos son excelentes y actualmente lideran en ese campo, pero creemos que Gemma es muy competitivo en tamaño y capacidades.

Para nosotros, también hay un tema de recursos: nadie tiene capacidad de computación sobrante para entrenar dos modelos de vanguardia a tamaño completo. Por eso, nuestra decisión actual es usar modelos en el borde para Android, gafas, robots, etc., y preferimos que sean modelos abiertos, porque una vez desplegados en dispositivos, están expuestos. Es mejor abrir todo de una vez. Hemos unificado una estrategia de apertura a nivel nanométrico, lo cual tiene sentido desde una perspectiva estratégica.

Gary Tan: Antes de la presentación, te mostré cómo interactúo con un sistema de IA usando solo voz, y aunque estaba nervioso, funcionó. Desde el principio, Gemini fue construido como un sistema multimodal. He probado muchos modelos, y la interacción por voz con capacidades de herramientas y comprensión contextual que tiene Gemini no tiene comparación.

Demis Hassabis: Exacto. Una ventaja que quizás no se ha reconocido suficientemente de Gemini es que desde el inicio lo construimos en modo multimodal. Esto hace que el inicio sea más difícil que solo texto, pero creemos que a largo plazo será muy beneficioso, y ya estamos empezando a ver frutos.

Por ejemplo, en modelos del mundo, construimos Genie (el modelo de entorno interactivo generativo de DeepMind) sobre Gemini. En robótica, Gemini Robotics se basará en modelos multimodales, y esa ventaja será una barrera competitiva. También estamos usando cada vez más Gemini en Waymo (la compañía de conducción autónoma de Alphabet).

Imagina un asistente digital que te acompaña en el mundo real, en tu teléfono o gafas, que entiende tu entorno físico. Nuestro sistema es muy fuerte en eso. Seguiremos invirtiendo en esa línea, y creo que nuestra ventaja en estos temas será grande.

Gary Tan: El costo del razonamiento está bajando rápidamente. Cuando el razonamiento sea casi gratuito, ¿qué será posible? ¿Cambiará eso la dirección de sus optimizaciones?

Demis Hassabis: No estoy seguro de que el razonamiento sea realmente gratuito, por la paradoja de Jevons (que indica que la eficiencia puede aumentar el consumo total). Creo que todos terminarán usando toda la capacidad computacional que puedan obtener.

Podemos imaginar grupos de millones de agentes colaborando, o un pequeño grupo de agentes pensando en múltiples direcciones y luego integrando resultados. Todos estamos experimentando con esas ideas, y todas consumirán recursos de razonamiento.

En energía, si logramos resolver la fusión nuclear controlada, superconductividad a temperatura ambiente, o baterías óptimas, creo que podremos reducir los costos energéticos a casi cero mediante avances en ciencia de materiales. Pero aún hay cuellos de botella en la fabricación de chips y otros procesos físicos, al menos en las próximas décadas. Por eso, en el lado del razonamiento, seguirá habiendo límites en la cuota, y será necesario usar los recursos de forma eficiente.

El próximo avance científico

Gary Tan: Es alentador que los modelos pequeños sean cada vez más inteligentes. Muchos fundadores en biotecnología y ciencias de la vida están aquí. AlphaFold 3 ya superó los límites de las proteínas, extendiéndose a moléculas biológicas más amplias. ¿Qué tan lejos estamos de modelar sistemas celulares completos? ¿Es esto un problema de dificultad completamente diferente?

Demis Hassabis: Isomorphic Labs está avanzando muy bien. AlphaFold es solo una parte del proceso de descubrimiento de fármacos. Estamos trabajando en investigación bioquímica relacionada, diseñando compuestos con propiedades correctas, y pronto tendremos anuncios importantes.

Nuestro objetivo final es crear una célula virtual completa, un simulador de células funcionales en el que puedas aplicar perturbaciones, con resultados que se acerquen a los experimentales y tengan utilidad práctica. Puedes saltarte muchos pasos de búsqueda, generando datos sintéticos para entrenar otros modelos y predecir comportamientos celulares reales.

Calculo que aún nos quedan unos diez años para una célula virtual completa. En DeepMind, estamos empezando desde el núcleo de la célula, que es relativamente autónomo. La clave es poder extraer una porción de complejidad adecuada, que sea autosuficiente, y que podamos aproximar razonablemente sus entradas y salidas, enfocándonos en ese subsistema. El núcleo celular es un buen candidato para eso.

Otro problema es la falta de datos. He hablado con top científicos en microscopía electrónica y otras técnicas de imagen. Si pudiéramos hacer imágenes de células vivas sin matarlas, sería revolucionario, porque convertiría esto en un problema visual, y ya sabemos cómo abordarlo.

Pero, por lo que sé, aún no existe tecnología para hacer imágenes en vivo a resolución nanométrica sin dañar las células. Podemos obtener imágenes estáticas muy detalladas, pero no lo suficiente para convertirlo en un problema visual completo.

Por eso, hay dos caminos: uno, hardware y datos; otro, construir simuladores más precisos para modelar estas dinámicas.

Gary Tan: No solo en biología. Materiales, descubrimiento de fármacos, modelado climático, matemáticas: si tuvieras que ordenar, ¿qué campo será transformado más en los próximos cinco años?

Demis Hassabis: Cada campo es emocionante, y esa es la razón por la que llevo más de 30 años en IA. Siempre he pensado que la IA será la herramienta definitiva para avanzar en la ciencia, en descubrimientos científicos, medicina y nuestra comprensión del universo.

Nuestra misión inicial fue en dos pasos: primero, resolver la inteligencia, construir la AGI; segundo, usarla para resolver todos los demás problemas. Luego, tuvimos que ajustar el lenguaje, porque algunos preguntaron «¿realmente dices que resolverás todos los problemas?»

Pero esa es exactamente la idea. Ahora la gente empieza a entender qué significa eso. Específicamente, me refiero a resolver esas áreas que llamo «problemas raíz», que al superarlos desbloquean nuevas ramas de descubrimiento. AlphaFold es un prototipo de lo que queremos hacer.

Más de tres millones de investigadores en todo el mundo, casi todos los biólogos, usan AlphaFold. Algunos ejecutivos de farmacéuticas me han dicho que casi todos los nuevos medicamentos en el futuro usarán AlphaFold en alguna etapa del descubrimiento. Nos enorgullece eso, y es la influencia que esperamos que tenga la IA. Pero esto es solo el comienzo.

No puedo pensar en ninguna otra disciplina científica o ingenieril que la IA no pueda ayudar. Los campos que mencionaste están en lo que llamo el «momento AlphaFold 1»: resultados prometedores, pero aún sin superar los grandes desafíos. En los próximos dos años, veremos avances en todos estos campos, desde ciencia de materiales hasta matemáticas.

Gary Tan: Se siente como un regalo de Prometeo, otorgando a la humanidad una capacidad completamente nueva.

Demis Hassabis: Exacto. Pero, como en la historia de Prometeo, debemos ser cautelosos con cómo usamos esa capacidad, en qué la aplicamos y los riesgos de su mal uso.

Lecciones de éxito

Gary Tan: Muchos aquí están intentando fundar empresas que apliquen IA a la ciencia. Desde tu perspectiva, ¿en qué se diferencian las startups verdaderamente innovadoras en frontera de aquellas que solo envuelven modelos base en APIs y se autodenominan «IA para la ciencia»?

Demis Hassabis: Pienso en qué haría si estuviera en su lugar, en Y Combinator, evaluando proyectos. Una cosa es predecir la dirección de la IA, que es muy difícil. Pero creo que hay una gran oportunidad en combinar la IA con otra área de tecnología profunda. Esa intersección, ya sea en materiales, medicina o ciencias difíciles, especialmente en el mundo atómico, no tendrá atajos en el futuro cercano. Estas áreas no serán superadas solo con actualizaciones de modelos base. Pero si buscas una dirección defensiva, esa sería mi recomendación.

Siempre he preferido la tecnología profunda. Lo que es duradero y valioso no es fácil. La tecnología profunda me atrae mucho. Cuando empezamos en 2010, la IA era tecnología profunda: los inversores me decían «esto no funciona», y la academia pensaba que era una moda de los 90 que había fracasado.

Pero si tienes convicción en tu idea —por qué será diferente esta vez, qué combinación única tienes—, y en el mejor escenario, si eres experto en aprendizaje automático y aplicaciones, o puedes formar un equipo fundador así, hay un gran impacto y valor por crear.

Gary Tan: Esa información es muy valiosa. Cuando algo funciona, parece obvio, pero antes todos estaban en contra.

Demis Hassabis: Claro, por eso hay que hacer lo que uno realmente ama. Para mí, seguiré haciendo IA pase lo que pase. Desde pequeño, decidí que eso sería lo más influyente que podría hacer. Y así ha sido, aunque quizás fue demasiado pronto, 50 años antes de lo esperado.

También es lo que más me divierte. Aunque hoy todavía estamos en un garaje, y la IA aún no está lista, seguiré buscando maneras de avanzar. Quizá vuelva a la academia, pero seguiré en esto de alguna forma.

Gary Tan: AlphaFold es un ejemplo de que seguiste una dirección y acertaste. ¿Qué hace que un campo científico sea propicio para avances como AlphaFold? ¿Hay alguna regla, como una función objetivo particular?

Demis Hassabis: Debería escribir esto en algún momento. La experiencia que aprendí de AlphaGo y AlphaFold es que los métodos actuales funcionan mejor cuando:

Primero, el problema tiene un espacio de búsqueda combinatoria enorme, cuanto mayor, mejor, hasta el punto en que ningún método de búsqueda exhaustiva o algoritmos especiales pueda resolverlo. Los espacios de movimiento en go y las conformaciones de proteínas superan con mucho la cantidad de átomos en el universo. Segundo, puedes definir claramente la función objetivo, como la energía libre de la proteína o ganar en el go, para que el sistema pueda hacer optimización por gradiente. Tercero, hay suficientes datos o un simulador que pueda generar datos sintéticos en gran cantidad.

Si se cumplen estas condiciones, los métodos actuales pueden avanzar mucho para encontrar esa aguja en el pajar. La misma lógica aplica en descubrimiento de fármacos: si existe una molécula que puede tratar una enfermedad sin efectos secundarios, y la física lo permite, el único problema es cómo encontrarla de forma eficiente y factible. AlphaFold demostró que estos sistemas pueden buscar en espacios inmensos y encontrar esas agujas.

Gary Tan: Quiero elevar la discusión. Hemos hablado de que los humanos usan estos métodos para crear AlphaFold, pero también hay un nivel meta: los humanos usan IA para explorar espacios hipotéticos. ¿Qué tan lejos estamos de que los sistemas de IA puedan hacer razonamiento científico real, no solo patrones en datos?

Demis Hassabis: Creo que estamos muy cerca. Ya estamos desarrollando sistemas generalistas. Tenemos un sistema llamado AI co-scientist, y algoritmos como AlphaEvolve que van más allá de Gemini. Todos los laboratorios punteros están explorando esa vía.

Pero, hasta ahora, no he visto un descubrimiento científico realmente importante que haya sido hecho por estos sistemas. Creo que está muy cerca. Podría estar relacionado con la creatividad, con romper límites conocidos. En ese nivel, ya no será solo coincidencia de patrones, porque no habrá patrones que coincidan. Será algún tipo de razonamiento por analogía, y creo que estos sistemas aún no tienen esa capacidad, o no los estamos usando correctamente.

Una forma en que evalúo en ciencia es si pueden proponer hipótesis verdaderamente interesantes, no solo verificar las existentes. Verificar hipótesis puede ser un gran logro, como probar la hipótesis de Riemann o resolver un problema del milenio, pero quizás estamos a solo unos años de poder hacer eso.

Más difícil aún es proponer un conjunto de nuevos problemas del milenio que sean considerados igualmente profundos y dignos de una investigación de toda una vida por matemáticos top. Creo que eso es un nivel superior, y todavía no sabemos cómo lograrlo. Pero no creo que sea magia; confío en que estos sistemas podrán hacerlo, quizás solo con uno o dos ajustes.

Podemos usar una especie de «Prueba Einstein»: entrenar un sistema con conocimientos de 1901 y ver si puede derivar por sí solo los logros de Einstein en 1905, incluyendo la relatividad especial y otros trabajos. Creo que deberíamos hacer esa prueba en serio, repetirla varias veces, y ver cuándo se logra. Cuando eso pase, estos sistemas estarán cerca de inventar cosas completamente nuevas.

Consejos para emprendedores

Gary Tan: La última pregunta. Muchos aquí tienen antecedentes en tecnología profunda y quieren hacer algo a la escala de ustedes. Ustedes son una de las organizaciones de investigación en IA más grandes del mundo. Desde tu experiencia en la frontera de la AGI, ¿qué cosas sabes ahora que hubieras querido saber a los 25 años?

Demis Hassabis: Ya hemos hablado de parte de esto. Verás que buscar problemas difíciles y problemas simples en realidad es muy similar, solo que la dificultad se manifiesta de formas distintas. La vida es corta, y la energía es limitada, así que mejor enfocar en lo que, si no haces tú, nadie más hará.

Además, creo que en los próximos años la combinación interdisciplinaria será más común, y la IA facilitará mucho esa integración.

Finalmente, todo depende de tu cronograma para la AGI. El mío es alrededor de 2030. Si empiezas un proyecto de tecnología profunda hoy, generalmente será un viaje de diez años. Debes incluir en tu planificación la aparición de la AGI en medio del camino. ¿Qué implica eso? No necesariamente algo negativo, pero debes considerarlo. ¿Tu proyecto puede aprovechar la AGI? ¿Cómo interactuará la AGI con tu proyecto?

Volviendo a lo que hablamos antes sobre AlphaFold y sistemas de IA general, puedo imaginar que Gemini, Claude o sistemas similares usarán sistemas especializados como AlphaFold como herramientas. No creo que integremos todo en un solo sistema gigante.

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
WCTCTradingKingPK
512.95K Popularidad
#
USSeeksStrategicBitcoinReserve
58.74M Popularidad
#
IsraelStrikesIranBTCPlunges
38.82K Popularidad
#
BitcoinETFOptionLimitQuadruples
1.01M Popularidad
#
#FedHoldsRateButDividesDeepen
41.64K Popularidad

Anclado

Fundador de DeepMind en una entrevista exclusiva: Arquitectura de AGI, Estado actual de los Agentes y los avances científicos en la próxima década

Introducción del editor

Frases destacadas

Ruta y cronograma de la AGI

Memoria y ventana de contexto

Defectos del razonamiento

Agente y creatividad

Destilación y modelos pequeños

Descubrimiento científico y la «Prueba Einstein»

Consejos para emprendimientos en tecnología profunda

Caminos hacia la AGI

Destilación y modelos pequeños

Memoria y razonamiento

La verdadera capacidad del agente

Open source y modelos multimodales

El próximo avance científico

Lecciones de éxito

Consejos para emprendedores

Temas de actualidad

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Anclado