El CEO de Google DeepMind, ganador del Premio Nobel de Química Demis Hassabis, visitó Y Combinator, donde habló sobre los avances clave hacia la AGI, consejos para emprendedores sobre cómo mantenerse a la vanguardia, y dónde podría aparecer el próximo gran avance científico.

La evaluación más práctica para los emprendedores en tecnología profunda es que, si hoy inicias un proyecto de tecnología profunda con una visión a diez años, debes incluir en tu planificación la aparición de la AGI. Además, reveló que Isomorphic Labs (la compañía de farmacéutica de IA separada de DeepMind) pronto tendrá noticias importantes.

Frases destacadas

Ruta y cronología de la AGI

·「Estos componentes tecnológicos existentes casi con certeza formarán parte de la arquitectura final de la AGI。」

·「El aprendizaje continuo, el razonamiento a largo plazo y ciertos aspectos de la memoria aún no están resueltos; la AGI necesita dominar todos estos aspectos.」

·「Si tu cronología para la AGI es aproximadamente 2030, y hoy comienzas un proyecto de tecnología profunda, debes considerar que la AGI podría aparecer en medio del camino.」

Memoria y ventana de contexto

·「La ventana de contexto es aproximadamente equivalente a la memoria de trabajo. La memoria de trabajo humana promedia solo siete dígitos, mientras que nosotros tenemos ventanas de contexto de millones o incluso decenas de millones de tokens. Pero el problema es que llenamos todo con información, incluyendo datos irrelevantes o errores, y esa práctica es bastante burda actualmente.」

·「Para procesar flujos de video en tiempo real y guardar todos los tokens, un millón de tokens solo alcanza para unos 20 minutos.」

Defectos del razonamiento

·「Me gusta jugar ajedrez con Gemini. A veces se da cuenta de que un movimiento es muy malo, pero no encuentra una mejor opción, y termina haciendo ese movimiento. Pero un sistema de razonamiento preciso no debería comportarse así.」

·「Por un lado puede resolver problemas de nivel medallista en IMO, pero por otro, si se le pregunta de otra forma, comete errores de matemáticas básicas. Parece que todavía le falta algo en la introspección de su proceso de pensamiento.」

Agente y creatividad

·「Para lograr la AGI, necesitas un sistema que pueda resolver problemas de forma proactiva por ti. El agente es ese camino, y creo que apenas estamos empezando.」

·「Aún no he visto a nadie crear un juego AAA en la tienda de aplicaciones que destaque usando codificación de vibraciones. Con el esfuerzo actual, eso debería ser posible, pero aún no ha ocurrido. Indica que falta algo en las herramientas o en los procesos.」

Destilación y modelos pequeños

·「Nuestra hipótesis es que, aproximadamente medio año a un año después del lanzamiento de un modelo Pro de vanguardia, su capacidad puede comprimirse en un modelo muy pequeño que pueda correr en dispositivos edge. Todavía no hemos llegado a los límites teóricos de densidad de información.」

Descubrimiento científico y la «Prueba Einstein»

·「A veces la llamo la ‘Prueba Einstein’, que consiste en entrenar un sistema con conocimientos de 1901 y ver si puede derivar de forma independiente los logros de Einstein en 1905, incluyendo la relatividad especial. Si se logra, estos sistemas están cerca de inventar cosas completamente nuevas.」

·「Resolver un problema de premio Millennium ya sería un logro impresionante. Pero aún más difícil sería plantear un nuevo conjunto de problemas de premio Millennium que sean considerados igualmente profundos y dignos de una vida de investigación por los mejores matemáticos.」

Consejos para emprendimientos en tecnología profunda

·「Buscar problemas difíciles y problemas simples en realidad es muy similar, solo que la dificultad se manifiesta de diferentes maneras. La vida es corta; mejor enfocar energía en cosas que, si no haces tú, nadie más hará.」

Caminos hacia la AGI

Gary Tan: Tú has pensado en la AGI casi más que nadie. Con los paradigmas actuales, ¿cuánto crees que ya tenemos de la arquitectura final de la AGI? ¿Qué nos falta fundamentalmente ahora?

Demis Hassabis: La preentrenamiento a gran escala, RLHF, cadenas de pensamiento, etc., estoy muy seguro de que formarán parte de la arquitectura final de la AGI. Estas tecnologías han demostrado mucho en su camino hasta ahora. No puedo imaginar que en dos años descubramos que son un callejón sin salida; eso no me cuadra. Pero sobre lo que ya existe, quizás falte una o dos cosas. El aprendizaje continuo, el razonamiento a largo plazo, ciertos aspectos de la memoria, todavía tienen problemas sin resolver.

La AGI necesita que todo esté resuelto. Quizás con las tecnologías actuales y algunas innovaciones graduales, se pueda ampliar hasta ese nivel, pero también puede quedar uno o dos puntos clave que requieran un avance. No creo que sean más de uno o dos. Personalmente, estimo que la probabilidad de que existan estos puntos críticos sin resolver es aproximadamente 50-50. Por eso, en DeepMind, estamos avanzando en ambas líneas.

Gary Tan: He interactuado con muchos sistemas de agentes, y lo que más me sorprende es que en la base, todo se basa en el mismo conjunto de pesos. Por eso, el concepto de aprendizaje continuo es muy interesante, porque ahora estamos usando parches temporales, como esos ciclos de sueños nocturnos.

Demis Hassabis: Exacto, esos ciclos de sueños son bastante interesantes. En el pasado, hemos pensado en esto en relación con la integración de la memoria de escenarios. Mi doctorado fue sobre cómo el hipocampo integra elegantemente nuevos conocimientos en los sistemas existentes. El cerebro hace esto de forma excelente.

Durante el sueño, especialmente en el sueño REM, repasan experiencias importantes para aprender de ellas. Nuestro primer programa de Atari, DQN (DeepMind, 2013), que usó aprendizaje profundo para jugar a nivel humano en Atari, logró dominar los juegos mediante una técnica clave: la reproducción de experiencias (experience replay).

Esto lo aprendimos de la neurociencia: repetir caminos exitosos. Eso fue en 2013, en la era antigua de la IA, pero en ese momento fue fundamental.

Estoy de acuerdo contigo, ahora estamos usando parches. Metemos todo en la ventana de contexto. Eso no se siente correcto. Aunque hagamos que la máquina tenga millones o decenas de millones de tokens de contexto, y memoria perfecta, el costo de buscar y recuperar sigue siendo alto. En decisiones en tiempo real, encontrar información realmente relevante no es sencillo, incluso si podemos guardar todo. Por eso, creo que hay mucho espacio para innovar en memoria.

Gary Tan: La ventana de contexto de un millón de tokens ya es mucho más de lo que esperaba, y permite hacer muchas cosas.

Demis Hassabis: Para la mayoría de los escenarios, sí, es suficiente. Pero piensa en que la ventana de contexto equivale a la memoria de trabajo. La memoria de trabajo humana promedia solo siete dígitos, mientras que nosotros tenemos ventanas de contexto de millones o incluso decenas de millones de tokens. El problema es que llenamos todo con información, incluyendo datos irrelevantes o errores, y esa práctica es bastante burda. Además, si quieres procesar flujo de video en tiempo real y guardar todos los tokens, un millón solo alcanza para unos 20 minutos. Pero si quieres que el sistema entienda tu vida en uno o dos meses, todavía está muy lejos.

Gary Tan: DeepMind siempre ha invertido mucho en aprendizaje por refuerzo y búsqueda, ¿qué tan profundo está esa filosofía en la construcción de Gemini? ¿El aprendizaje por refuerzo todavía está subestimado?

Demis Hassabis: Probablemente sí, está subestimado. La atención a esto ha subido y bajado. Desde que fundamos DeepMind, hemos estado trabajando en sistemas de agentes. Todo el trabajo en Atari y AlphaGo, en esencia, son agentes de aprendizaje por refuerzo, sistemas que pueden completar objetivos, tomar decisiones y planear de forma autónoma. Por supuesto, en ese momento, elegimos el dominio de los juegos por su complejidad controlada, y luego avanzamos a juegos más complejos, como AlphaStar tras AlphaGo, y prácticamente hemos cubierto todos los juegos posibles.

La siguiente pregunta es si podemos generalizar estos modelos a modelos de mundo o modelos de lenguaje, no solo a modelos de juegos. Hemos estado trabajando en eso en los últimos años. Hoy, los modelos líderes en pensamiento y razonamiento en cadena son en esencia una reintroducción de lo que AlphaGo inició.

Creo que mucho de lo que hicimos en su momento está muy relacionado con lo que estamos haciendo ahora. Estamos revisitando esas ideas antiguas, pero a mayor escala y de forma más general, incluyendo métodos como la búsqueda en árboles Monte Carlo y otros enfoques de aprendizaje por refuerzo. Las ideas de AlphaGo y AlphaZero están muy relacionadas con los modelos base actuales, y creo que gran parte del progreso en los próximos años vendrá de allí.

Destilación y modelos pequeños

Gary Tan: Ahora, para ser más inteligente, necesitamos modelos más grandes, pero también la destilación avanza, y los modelos pequeños pueden ser bastante rápidos. Tu modelo Flash es muy potente, alcanza aproximadamente el 95% del rendimiento de los modelos de vanguardia, pero cuesta solo una décima parte. ¿Es correcto?

Demis Hassabis: Creo que esa es una de nuestras ventajas principales. Primero, hay que construir el modelo más grande para obtener capacidades de vanguardia. Nuestra mayor fortaleza es que podemos destilar y comprimir rápidamente esas capacidades en modelos cada vez más pequeños. La destilación fue una técnica que inventamos nosotros, y todavía somos líderes mundiales en ello. Además, tenemos un fuerte impulso comercial para hacer esto. Somos probablemente la plataforma de aplicaciones de IA más grande del mundo.

Con AI Overviews, AI Mode y Gemini, cada producto de Google, incluyendo Maps, YouTube, etc., está integrando Gemini o tecnologías relacionadas. Esto involucra miles de millones de usuarios y productos con decenas de miles de millones de usuarios. Necesitan ser extremadamente rápidos, eficientes, económicos y con baja latencia. Esto nos motiva mucho a optimizar modelos como Flash y Flash-Lite para que sean altamente eficientes, y espero que también sirvan para diferentes tareas de los usuarios.

Gary Tan: Me intriga qué tan inteligentes pueden llegar a ser estos modelos pequeños. ¿Hay un límite en la destilación? ¿Modelos de 50B o 400B de parámetros pueden ser tan inteligentes como los modelos de vanguardia actuales?

Demis Hassabis: No creo que hayamos llegado a un límite en la teoría de la información, al menos no sabemos si existe uno. Quizá algún día encontremos un techo en la densidad de información, pero por ahora, nuestra hipótesis es que, tras el lanzamiento de un modelo Pro de vanguardia, en medio año o un año, su capacidad puede comprimirse en un modelo muy pequeño que pueda correr en dispositivos edge.

También se puede ver esto en Gemma, nuestro modelo Gemma 4, que tiene un rendimiento muy fuerte en el mismo tamaño. Todo esto usa técnicas de destilación y optimización de modelos pequeños. Realmente no veo un límite teórico, todavía estamos lejos de ese punto.

Gary Tan: Ahora, hay un fenómeno bastante sorprendente: los ingenieros pueden hacer en seis meses lo que antes tomaba mucho más tiempo, multiplicando por 500 o 1000 su productividad. Algunos en esta sala están haciendo en ese período lo que un ingeniero de Google en los años 2000 hacía en mil veces menos tiempo. Steve Yegge lo mencionó.

Demis Hassabis: Me emociona mucho. Los modelos pequeños tienen muchas aplicaciones. Uno, que son más económicos y rápidos, y eso también trae beneficios. En programación y otras tareas, puedes iterar más rápido, especialmente en colaboración con sistemas. Un sistema rápido, aunque no sea de vanguardia, con solo el 90-95% del rendimiento, es suficiente, y la velocidad de iteración te da un retorno mucho mayor que esa diferencia del 5-10%.

Otra gran dirección es correr estos modelos en dispositivos edge, no solo por eficiencia, sino también por privacidad y seguridad. Piensa en dispositivos que manejan información muy personal, o en robots. Para tu robot doméstico, querrías que corriera localmente un modelo eficiente y potente, y solo en casos específicos delegar tareas a la nube. Procesar audio y video en local, mantener los datos en local, sería un estado final muy deseable.

Memoria y razonamiento

Gary Tan: Volviendo a la memoria y el contexto. Los modelos actualmente son sin estado. Si logramos una capacidad de aprendizaje continuo, ¿cómo sería la experiencia del desarrollador? ¿Cómo guiarías a estos modelos?

Demis Hassabis: Es una pregunta muy interesante. La falta de aprendizaje continuo es una de las principales limitaciones actuales de los agentes. Los agentes actuales son útiles en partes locales de tareas, y puedes combinarlos para hacer cosas interesantes, pero no se adaptan bien a su entorno específico. Esa es la razón por la que aún no pueden «lanzar y olvidar»: necesitan aprender de su contexto particular. Para alcanzar una inteligencia verdaderamente general, este problema debe resolverse.

Gary Tan: ¿En qué punto estamos en el razonamiento? Los modelos actuales tienen cadenas de pensamiento muy fuertes, pero todavía cometen errores que un estudiante de secundaria no cometería. ¿Qué cambios esperas en el razonamiento?

Demis Hassabis: Hay mucho espacio para innovar en el paradigma de pensamiento. Lo que hacemos todavía es bastante burdo y violento. Hay muchas mejoras posibles, como monitorear el proceso de la cadena de pensamiento y hacer intervenciones en medio del proceso. A menudo siento que, tanto en nuestro sistema como en los de la competencia, hay un exceso de pensamiento, que se queda en ciclos.

Me gusta usar jugar ajedrez con Gemini para observar. Todos los modelos base líderes son bastante malos en ajedrez, lo cual es interesante.

Es valioso seguir su trayectoria de pensamiento, porque el ajedrez es un dominio muy bien entendido. Puedo detectar rápidamente si se están desviando, si el razonamiento es válido. Lo que vemos es que a veces consideran un movimiento, se dan cuenta de que es muy malo, pero no encuentran una mejor opción, y terminan haciendo ese movimiento. Un sistema de razonamiento preciso no debería comportarse así.

Esa gran brecha todavía existe, pero arreglarla probablemente solo requiere uno o dos ajustes. Por eso se habla de la «inteligencia dentada» (jagged intelligence): puede resolver problemas de nivel medallista en IMO, pero al cambiar la formulación, comete errores de matemáticas básicas. En la introspección de su proceso de pensamiento, parece que todavía le falta algo.

Capacidad real del agente

Gary Tan: El agente es un tema muy amplio. Algunos dicen que es solo marketing. Personalmente, creo que apenas estamos empezando. ¿Cuál es la evaluación real del equipo de DeepMind sobre la capacidad de los agentes? ¿Qué diferencia hay con la percepción pública?

Demis Hassabis: Estoy de acuerdo contigo, apenas estamos empezando. Para lograr la AGI, necesitas un sistema que pueda resolver problemas de forma proactiva por ti. Eso siempre ha sido claro para nosotros. El agente es ese camino, y creo que estamos en los primeros pasos.

Todos estamos explorando cómo hacer que los agentes colaboren mejor en el trabajo. Hemos hecho muchas pruebas en proyectos personales, y muchos aquí seguramente también. Cómo integrar los agentes en los flujos de trabajo, que no sean solo complementos, sino que realmente hagan tareas fundamentales. Actualmente, estamos en fase experimental. Solo en los últimos dos o tres meses hemos empezado a encontrar escenarios muy valiosos. La tecnología ha llegado a un punto en que ya no es solo una demostración de juguete, sino que realmente aporta valor en tiempo y eficiencia.

Frecuentemente veo a gente poner decenas de agentes corriendo durante horas, pero todavía no sé si el resultado justifica esa inversión.

Aún no hemos visto a nadie crear un juego AAA en la tienda usando codificación por vibraciones. Yo mismo he hecho algunos demos, y muchos aquí también. Puedo hacer un prototipo de «Theme Park» en media hora, cuando a los 17 años me tomó seis meses.

Tengo la sensación de que si dedicas un verano completo, puedes crear algo realmente increíble. Pero aún así, requiere artesanía, alma y gusto humano. Tienes que asegurarte de incorporar esas cualidades en cualquier producto que construyas. De hecho, ningún niño ha creado un juego superventas que venda más de diez millones de copias, pero con las herramientas actuales, eso debería ser posible. Falta algo, quizás en los procesos o en las herramientas. Espero ver resultados en los próximos 6 a 12 meses.

Gary Tan: ¿Hasta qué punto será todo automático? Creo que no será completamente automático desde el principio. Es más probable que primero logren una eficiencia mil veces mayor, y luego aparezca alguien que use esas herramientas para crear aplicaciones y juegos exitosos, y solo después se automatizarán más etapas.

Demis Hassabis: Exacto, eso es lo que deberías esperar primero.

Gary Tan: También hay quienes ya están haciendo eso, pero no quieren decir cuánto ayudaron los agentes.

Demis Hassabis: Puede ser. Pero quiero hablar sobre la creatividad. Siempre pongo el ejemplo de AlphaGo, todos recuerdan la jugada 37 en la segunda partida. Para mí, esa fue la chispa que me hizo empezar proyectos como AlphaFold. Justo al día siguiente de volver de Seúl, comenzamos a trabajar en AlphaFold, hace diez años. Este viaje a Corea fue para celebrar el décimo aniversario de AlphaGo.

Pero solo hacer esa jugada no es suficiente. Es genial, muy útil. Pero ¿puede ese sistema inventar el juego de go en sí? Si le das una descripción de alto nivel, como «un juego que puede aprender en cinco minutos, pero que requiere toda una vida para dominar, con estética elegante, que se puede jugar en una tarde», y el sistema te devuelve que es el go, eso no lo puede hacer hoy en día. ¿Por qué?

Gary Tan: Tal vez alguien en esta sala sí pueda lograrlo.

Demis Hassabis: Si alguien logra eso, la respuesta no será que el sistema le falta algo, sino que la forma en que usamos el sistema está mal. Quizá esa sea la respuesta correcta. Tal vez los sistemas actuales ya tienen esa capacidad, solo que necesitan un creador muy talentoso que los impulse, que aporte el alma del proyecto, y que esté en perfecta sintonía con la herramienta. Si te sumerges en esas herramientas día y noche, y tienes una creatividad profunda, quizás puedas crear cosas asombrosas.

Open source y modelos multimodales

Gary Tan: Cambiando de tema, hablemos de open source. La reciente publicación de Gemma permite que modelos muy potentes funcionen localmente. ¿Qué opinas? ¿La IA se convertirá en algo que los usuarios controlen, en lugar de estar principalmente en la nube? ¿Esto cambiará quién puede construir productos con estos modelos?

Demis Hassabis: Somos firmes defensores del open source y la ciencia abierta. AlphaFold fue completamente abierto y gratuito. Nuestro trabajo científico sigue publicándose en revistas de primer nivel. En el caso de Gemma, queremos crear modelos líderes en su tamaño. Hasta ahora, Gemma ha tenido aproximadamente 40 millones de descargas en solo dos semanas y media desde su lanzamiento.

Creo que la presencia de tecnologías occidentales en open source es muy importante. Los modelos chinos en open source son excelentes y actualmente lideran en ese campo, pero creemos que Gemma es muy competitivo en tamaño y capacidades.

Para nosotros, también hay un problema de recursos: nadie tiene capacidad de cómputo sobrante para entrenar dos modelos de vanguardia a tamaño completo. Por eso, nuestra decisión actual es usar modelos en el edge para Android, gafas, robots, etc., y preferimos que sean modelos abiertos, porque una vez desplegados en dispositivos, están expuestos. Es mejor abrir todo de forma completa. Hemos unificado una estrategia de apertura a nivel nanométrico, y eso tiene sentido desde una estrategia.

Gary Tan: Antes de la presentación, te mostré cómo interactúo con un sistema de IA usando solo voz, y aunque estaba nervioso, funcionó. Gemini desde el principio fue diseñado como multimodal. He probado muchos modelos, y la interacción por voz con capacidades de herramientas y comprensión contextual que tiene Gemini no tiene comparación.

Demis Hassabis: Exacto. Una ventaja que quizás no se ha reconocido suficientemente de Gemini es que desde el inicio lo construimos en modo multimodal. Esto hace que el comienzo sea más difícil que solo hacer texto, pero creemos que a largo plazo será muy beneficioso, y ya estamos empezando a ver frutos.

Por ejemplo, en modelos del mundo, construimos sobre Gemini el sistema Genie (modelo de entorno interactivo generativo de DeepMind). En robótica, Gemini Robotics se basará en modelos multimodales, y esa ventaja será una barrera competitiva. También estamos usando cada vez más Gemini en Waymo (la compañía de conducción autónoma de Alphabet).

Imagina un asistente digital que te acompaña en el mundo real, en tu teléfono o gafas, que entiende tu entorno físico. Nuestro sistema es muy fuerte en eso. Seguiremos invirtiendo en esa línea, y creo que nuestra ventaja en estos temas será muy grande.

Gary Tan: El costo del razonamiento está bajando rápidamente. Cuando el razonamiento sea casi gratuito, ¿qué será posible? ¿Cambiará eso la dirección de sus optimizaciones?

Demis Hassabis: No estoy seguro de que el razonamiento sea realmente gratuito, por el efecto rebote de Jevons (Jevons’ Paradox), que indica que la eficiencia puede aumentar el consumo total. Creo que todos terminarán usando toda la capacidad de cómputo que puedan obtener.

Podemos imaginar grupos de millones de agentes colaborando, o un pequeño grupo de agentes pensando en múltiples direcciones y luego integrando sus resultados. Todos estamos experimentando con esas ideas, y todo eso consumirá recursos de razonamiento.

En energía, si logramos resolver problemas como la fusión nuclear controlada, superconductividad a temperatura ambiente, o baterías óptimas, creo que mediante ciencia de materiales podremos reducir los costos energéticos a casi cero. Pero aún hay cuellos de botella en la fabricación física de chips, al menos en las próximas décadas. Por eso, el límite en razonamiento seguirá existiendo, y será necesario usarlo de forma eficiente.

El próximo avance científico

Gary Tan: Es alentador que los modelos pequeños sean cada vez más inteligentes. Muchos fundadores en biotecnología y ciencias de la vida están aquí. AlphaFold 3 ya superó los límites de las proteínas, extendiéndose a moléculas biológicas más amplias. ¿Qué tan lejos estamos de modelar sistemas celulares completos? ¿Es esto un problema de dificultad completamente diferente?

Demis Hassabis: Isomorphic Labs está avanzando muy bien. AlphaFold es solo una parte del proceso de descubrimiento de fármacos. Estamos trabajando en investigaciones bioquímicas relacionadas, diseñando compuestos con propiedades correctas, y pronto tendremos anuncios importantes.

Nuestro objetivo final es crear una célula virtual completa, un simulador de célula de función total que pueda ser perturbado y que produzca resultados cercanos a los experimentales, con aplicaciones prácticas. Podemos saltarnos muchas búsquedas y generar datos sintéticos para entrenar otros modelos que predigan el comportamiento celular real.

Calculo que aún nos quedan unos diez años para una célula virtual completa. En DeepMind, estamos empezando desde el núcleo de la célula, que es relativamente autónomo. La clave es poder extraer una porción de complejidad adecuada, que sea autosuficiente, y que podamos aproximar razonablemente sus entradas y salidas, concentrándonos en ese subsistema. Desde esa perspectiva, el núcleo celular es muy adecuado.

Otra limitación es la falta de datos. He hablado con top científicos en microscopía electrónica y otras técnicas de imagen. Si pudiéramos hacer imágenes de células vivas sin matarlas, sería revolucionario, porque convertiría esto en un problema visual, y ya sabemos cómo resolver problemas visuales.

Pero, por lo que sé, aún no existe tecnología para hacer imágenes en vivo a resolución nanométrica sin dañar la célula. Podemos obtener imágenes estáticas muy detalladas, pero no lo suficiente para convertirlo en un problema visual completo.

Por eso, hay dos caminos: uno, hardware y datos, y otro, construir simuladores más precisos para modelar estas dinámicas.

Gary Tan: No solo en biología. Materiales, descubrimiento de fármacos, modelado climático, matemáticas: si tuvieras que ordenar, ¿qué campo será transformado más en los próximos cinco años?

Demis Hassabis: Cada campo es emocionante, y esa es la razón por la que esto ha sido mi mayor pasión durante más de 30 años en IA. Siempre he pensado que la IA será la herramienta definitiva para avanzar en la ciencia, en descubrimientos científicos, medicina y nuestra comprensión del universo.

Nuestra misión inicial fue en dos pasos: primero, resolver la inteligencia, construir la AGI; segundo, usarla para resolver todos los demás problemas. Luego, tuvimos que ajustar la formulación, porque algunos preguntaron «¿realmente dices que resolverás todos los problemas?»

Y en realidad, sí. Ahora la gente empieza a entender qué significa eso. Específicamente, me refiero a resolver esas «problemáticas raíz» en ciencia, que al superarlas desbloquean nuevas ramas de descubrimiento. AlphaFold es un prototipo de lo que queremos hacer.

Más de tres millones de investigadores en todo el mundo usan AlphaFold. Algunos ejecutivos de farmacéuticas me han dicho que casi todos los nuevos medicamentos en el futuro usarán AlphaFold en alguna etapa del descubrimiento. Nos enorgullece eso, y refleja el impacto que esperamos de la IA. Pero esto es solo el comienzo.

No puedo pensar en ningún campo científico o ingenieril que la IA no pueda ayudar. Los que mencionaste están en una etapa similar a la de «AlphaFold 1», con resultados prometedores, pero sin haber superado aún los grandes desafíos. En los próximos dos años, veremos avances en todos esos campos, desde ciencia de materiales hasta matemáticas.

Gary Tan: Se siente como un regalo de Prometeo, otorgando a la humanidad una capacidad completamente nueva.

Demis Hassabis: Exacto. Pero, como en la historia de Prometeo, también debemos ser cautelosos con cómo usamos esa capacidad, en qué la aplicamos, y con los riesgos de que las mismas herramientas sean mal utilizadas.

Lecciones de éxito

Gary Tan: Muchos aquí están intentando fundar empresas que apliquen IA a la ciencia. Desde tu perspectiva, ¿qué diferencia a las startups que realmente avanzan en la frontera de las que solo envuelven modelos básicos en APIs y se autodenominan «IA para la ciencia»?

Demis Hassabis: Pienso en qué haría si estuviera en su lugar, en Y Combinator, evaluando proyectos. Una cosa clave es predecir la dirección de la tecnología IA, lo cual es muy difícil. Pero creo que hay un gran valor en combinar la IA con otros campos de tecnología profunda. La intersección, ya sea en materiales, medicina o ciencias difíciles, especialmente en el mundo atómico, no tendrá atajos en el futuro cercano. Estos campos no serán superados solo por la próxima actualización de modelos básicos. Pero si buscas una dirección defensiva, esa sería mi recomendación.

Siempre he preferido la tecnología profunda. Las cosas duraderas y valiosas no son fáciles. Siempre me ha atraído la tecnología profunda. Cuando empezamos en 2010, la IA era una tecnología profunda: los inversores me decían «esto no funciona», y la academia pensaba que era una moda de los 90 que había fracasado.

Pero si tienes convicción en tu idea — por qué será diferente esta vez, qué combinación única tienes en tu background — y en el mejor escenario, eres experto en aprendizaje automático y aplicaciones, o puedes formar un equipo fundador así, hay un impacto y valor enormes por crear.

Gary Tan: Esa información es muy valiosa. Cuando algo funciona, parece obvio, pero antes todos estaban en contra.

Demis Hassabis: Claro, por eso hay que hacer lo que uno realmente ama. Para mí, seguiré haciendo IA pase lo que pase. Desde pequeño, decidí que eso sería lo más influyente que podría hacer. Y así ha sido, aunque quizás con 50 años de retraso.

También es lo que más me divierte. Aunque hoy todavía estamos en un garaje, y la IA aún no está lista, seguiré buscando maneras de avanzar. Quizá vuelva a la academia, pero seguiré en esto de alguna forma.

Gary Tan: AlphaFold es un ejemplo de que apostaste a una dirección y acertaste. ¿Qué hace que un campo científico sea propicio para un avance como AlphaFold? ¿Hay alguna regla, como una función objetivo específica?

Demis Hassabis: Debería escribir esto en algún momento. La experiencia que aprendí de AlphaGo y AlphaFold es que los métodos actuales funcionan mejor cuando:

Primero, el problema tiene un espacio de búsqueda combinatoria enorme, cuanto mayor, mejor, hasta el punto en que ningún método de fuerza bruta o algoritmo especial pueda resolverlo. Los espacios de movimiento en go y las conformaciones de proteínas superan con mucho la cantidad de átomos en el universo. Segundo, puedes definir claramente la función objetivo, como la energía libre de la proteína o ganar en el go, para que el sistema pueda hacer optimización por gradiente. Tercero, hay suficiente datos, o un simulador que genere datos sintéticos en gran cantidad.

Si estos tres criterios se cumplen, los métodos actuales pueden avanzar mucho y encontrar esa aguja en el pajar. La descubrimiento de fármacos sigue una lógica similar: si existe un compuesto que puede tratar una enfermedad sin efectos secundarios, y la ley física lo permite, solo falta encontrarlo de forma eficiente. AlphaFold demostró que estos sistemas pueden buscar en espacios inmensos y encontrar esas agujas.

Gary Tan: Quiero elevar la discusión. Hemos hablado de cómo los humanos usan estos métodos para crear AlphaFold, pero hay un nivel meta: los humanos usan IA para explorar espacios hipotéticos. ¿Qué tan lejos estamos de que los sistemas de IA puedan hacer razonamiento científico real, no solo patrones en datos?

Demis Hassabis: Creo que estamos muy cerca. Ya estamos desarrollando sistemas generalistas. Tenemos un sistema llamado AI co-scientist, y algoritmos como AlphaEvolve que van más allá de Gemini. Todos los laboratorios punteros están explorando esa dirección.

Pero, hasta ahora, no he visto un descubrimiento científico realmente importante que haya sido hecho por estos sistemas. Creo que está muy cerca. Podría estar relacionado con nuestra discusión sobre creatividad, y con romper límites conocidos. En ese nivel, ya no será solo coincidencia de patrones, porque no habrá patrones que copiar. Será más bien razonamiento por analogía, y creo que estos sistemas aún no tienen esa capacidad, o no los estamos usando correctamente.

Una forma que suelo usar para evaluar en ciencia es si pueden proponer una hipótesis verdaderamente interesante, no solo verificar una. Porque verificar una hipótesis también puede ser un gran avance, como probar la conjetura de Riemann o resolver un problema del milenio. Pero quizás estamos a solo unos años de poder hacer eso.

Y aún más difícil, sería que puedan plantear un conjunto de nuevos problemas del milenio que sean considerados igualmente profundos y dignos de una investigación de toda una vida por matemáticos top. Eso sería un salto de nivel, y no sabemos cómo lograrlo todavía. Pero no creo que sea magia; confío en que estos sistemas podrán hacerlo, quizás solo con una o dos cosas más.

Un método que podemos usar para probarlo es el «test de Einstein»: entrenar un sistema con conocimientos de 1901 y ver si puede derivar por sí solo los logros de Einstein en 1905, incluyendo la relatividad especial. Creo que deberíamos hacer ese test en serio, repetirlo varias veces, y ver cuándo se logra. Cuando eso pase, estos sistemas estarán muy cerca de inventar cosas totalmente nuevas.

Consejos para emprendedores

Gary Tan: La última pregunta. Muchos aquí tienen fondo en tecnología profunda y quieren hacer algo similar a ustedes. Ustedes son una de las organizaciones de investigación en IA más grandes del mundo. Desde su experiencia en la frontera de la AGI, ¿qué cosas saben ahora que desearían haber sabido a los 25 años?

Demis Hassabis: Ya hemos hablado de parte de esto. La diferencia entre buscar problemas difíciles y problemas simples no es tan grande, solo que la dificultad se manifiesta de formas distintas. Cada cosa tiene su dificultad. Pero la vida es corta, y la energía es limitada; mejor dedicarla a esas cosas que, si no haces tú, nadie más hará. Elige con ese criterio.

Otra cosa: en los próximos años, la combinación interdisciplinaria será más común. La IA facilitará mucho esa integración.

Y finalmente, todo depende de tu cronología para la AGI. La mía es en torno a 2030. Si empiezas un proyecto de tecnología profunda hoy, generalmente será un viaje de unos diez años. Y debes incluir en tu planificación que la AGI podría aparecer en medio del camino. ¿Qué implica eso? No necesariamente es algo negativo, pero hay que considerarlo. ¿Tu proyecto puede aprovechar la AGI? ¿Cómo interactuará esa AGI con tu proyecto?

Volviendo a lo que hablamos antes sobre AlphaFold y sistemas de IA general, puedo imaginar que Gemini, Claude o sistemas similares usarán sistemas especializados como AlphaFold como herramientas, y no los integrarán en un solo sistema gigante.

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
WCTCTradingKingPK
396.36K Popularidad
#
#FedHoldsRateButDividesDeepen
18.03K Popularidad
#
IsraelStrikesIranBTCPlunges
36.48K Popularidad
#
#DailyPolymarketHotspot
721.06K Popularidad
#
BitcoinSpotVolumeNewLow
162.66M Popularidad

Anclado

Fundador de DeepMind en entrevista: arquitectura de AGI, estado actual de los Agentes y los avances científicos de la próxima década

Introducción del editor

Frases destacadas

Ruta y cronología de la AGI

Memoria y ventana de contexto

Defectos del razonamiento

Agente y creatividad

Destilación y modelos pequeños

Descubrimiento científico y la «Prueba Einstein»

Consejos para emprendimientos en tecnología profunda

Caminos hacia la AGI

Destilación y modelos pequeños

Memoria y razonamiento

Capacidad real del agente

Open source y modelos multimodales

El próximo avance científico

Lecciones de éxito

Consejos para emprendedores

Temas de actualidad

WCTCTradingKingPK

#FedHoldsRateButDividesDeepen

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinSpotVolumeNewLow

Anclado