Título del video: La oferta y la demanda de tokens de IA | Entrevista con Dylan Patel
Autor del video: Invest Like The Best
Traducción: Peggy, BlockBeats

Nota del editor: En un contexto donde las capacidades de los modelos de IA siguen avanzando rápidamente, y herramientas como Claude Code, Cursor, entre otras, son adoptadas a gran escala por las empresas, la discusión en la industria está pasando de «qué tan fuertes son los modelos» a «cómo los modelos entran en producción». Pero cuando la programación de IA, el análisis automatizado y la modelación de datos se convierten en un consenso emergente, surge una cuestión más fundamental: cuando los costos de ejecución se reducen rápidamente, ¿lo que realmente escasea es la mano de obra, el capital, o el derecho de uso de modelos de vanguardia y tokens?

A la izquierda, el presentador Patrick O'Shaughnessy; a la derecha, Dylan Patel

Este artículo recopila una conversación entre Patrick O'Shaughnessy y Dylan Patel, fundador de SemiAnalysis. Dylan ha estado atento durante mucho tiempo a la infraestructura de IA, la cadena de suministro de semiconductores y la economía de los modelos. En esta charla, partiendo del aumento explosivo en los gastos de su propia empresa en Claude Code, discuten cómo la IA está cambiando la organización empresarial, los servicios de información, la demanda de tokens, la cadena de suministro de potencia computacional y el estado de ánimo social.

Lo más interesante de esta conversación no es que un modelo vuelva a batir un benchmark, sino que ofrece una forma de entender la economía de la IA: considerarla como un sistema de producción que está redistribuyendo capacidades de ejecución, eficiencia organizacional y beneficios industriales, en lugar de solo una actualización de herramientas de software.

Se puede entender esta conversación desde aproximadamente cinco perspectivas.

Primero, se ha roto el costo de ejecución. Antes, las ideas no eran escasas; lo realmente difícil era convertir ideas en productos, sistemas y servicios entregables. Ahora, Claude Code permite que personas sin conocimientos técnicos puedan programar, construir aplicaciones y hacer análisis de datos. Lo que antes requería un equipo dedicado a mantenimiento a largo plazo, ahora puede ser realizado por unos pocos con ayuda de modelos. Los gastos anuales en Claude Code de SemiAnalysis ya alcanzan los 7 millones de dólares, más de una cuarta parte de sus gastos en salarios, lo que indica que la IA ya no es solo una herramienta de eficiencia, sino que se está convirtiendo en un nuevo capital de producción para las empresas.

En segundo lugar, la industria de servicios de información es la primera en ser reescrita. La actividad de Dylan consiste en vender análisis, consultoría y conjuntos de datos, que son precisamente los campos más susceptibles a la comercialización por IA. Análisis inverso de chips, modelado de redes eléctricas, construcción de indicadores macroeconómicos: antes, estos requerían un equipo dedicado a largo plazo; ahora, unos pocos pueden crear productos útiles en semanas. Esto significa que la presión sobre las empresas de servicios de información no es «¿será reemplazada por IA?», sino «¿quién puede rehacer más rápido los productos de sus competidores?». Las empresas que no adopten IA serán rápidamente comercializadas por otras más ágiles, y las que sí la usen, deberán seguir elevando sus estándares para no ser desplazadas por competidores aún más eficientes.

En un nivel más profundo, los tokens están convirtiéndose en un nuevo medio de producción. Antes, las empresas compraban suscripciones de software, y la cuestión central era si la herramienta era útil; ahora, el acceso a modelos de vanguardia, los límites de tasa, los contratos empresariales y el presupuesto de tokens, comienzan a determinar directamente la capacidad productiva. Modelos más potentes no necesariamente implican costos mayores, porque tokens más inteligentes pueden completar tareas de mayor valor con menos pasos. La competencia real se está desplazando de «quién usa IA» a «quién puede acceder a los modelos más fuertes y usar los tokens más costosos en los escenarios de mayor valor».

Esta demanda también se transmite a toda la cadena de suministro. El uso masivo de tokens provocará una presión continua sobre GPU, CPU, memoria, FPGA, PCB, cobre, equipos semiconductores y gastos de capital en fábricas de obleas. El «efecto látigo» mencionado en el artículo refleja esta lógica: lo que parece ser solo un aumento en la demanda de llamadas a modelos en la parte baja de la cadena, puede traducirse en pedidos varias veces mayores en la parte superior, impulsando expansión y aumento de precios. La distribución de beneficios en la industria de IA no se limitará a las empresas de modelos y NVIDIA, sino que se extenderá a lo largo de toda la cadena de semiconductores y centros de datos.

Por último, la resistencia social a la IA podría llegar antes de lo esperado. Cuando la IA realmente se integre en los flujos de trabajo, las preocupaciones públicas sobre sustitución laboral, consumo energético, expansión de centros de datos y concentración de poder aumentarán en paralelo. Dylan incluso predice que en tres meses podrían surgir protestas masivas contra la IA. Para las empresas de modelos, seguir enfatizando que «la IA cambiará el mundo» quizás no alivie la ansiedad, sino que refuerce la percepción de pérdida de control. La industria de IA debe demostrar que no solo tiene capacidades técnicas, sino que puede crear valor público tangible y perceptible en el presente.

Hoy, la cuestión central de la IA ha cambiado de «qué puede hacer el modelo» a «quién puede acceder, cómo usarlo y quién puede capturar su valor». En ese sentido, el foco de este artículo no es solo Claude Code, Anthropic o alguna empresa de IA, sino una reconfiguración estructural en torno a productividad, gastos de capital, eficiencia organizacional y aceptación social.

A continuación, el contenido original (reorganizado para facilitar la lectura):

TL; DR

· La variable central de la IA está pasando de «¿puede hacer?» a «¿vale la pena hacer?», y tras la caída drástica en costos de ejecución, lo que realmente escasea son las ideas de alto valor que los modelos pueden amplificar.

· El gasto en Claude Code representa el 25% de los costos salariales, solo el comienzo; la IA se está transformando en un nuevo capital de producción empresarial.

· La competencia en modelos de vanguardia ya no es solo de capacidades, sino de acceso a tokens; quien pueda acceder más temprano y de forma más estable a los modelos más fuertes, puede crear nuevas barreras comerciales.

· La industria de servicios de información será la primera en ser reestructurada por IA, ya que los costos de producción de datos, análisis e investigación están bajando rápidamente; las empresas lentas serán desplazadas por las más rápidas.

· La demanda de tokens no disminuirá con la bajada de precios de modelos antiguos, porque cada avance en modelos genera nuevos casos de uso de alto valor y empuja a los usuarios hacia modelos más avanzados y caros.

· La mayor transformación de la IA no es que la gente trabaje menos, sino que unos pocos puedan producir varias veces más en el mismo tiempo; quienes no puedan crear y capturar valor en tokens, quedarán atrapados en la «estratificación permanente».

· La escasez de potencia de cálculo se está transmitiendo a toda la cadena de semiconductores, desde GPU, CPU, memoria, hasta PCB, cobre y fabricantes de equipos; la demanda de IA se ha convertido en una fuerza de presión en toda la industria.

· El valor económico de la IA es difícil de captar en el PIB tradicional; el verdadero problema no es cuánto ganan las empresas de modelos, sino cuánto valor en decisiones, eficiencia y efectos en cadena generan los tokens, creando un «PIB fantasma».

Entrevista original:

Claude Code se convierte en la nueva fuerza laboral

Patrick O'Shaughnessy (presentador):
Me contaste una historia muy interesante sobre el gran cambio en el uso de tokens en tu equipo este año. ¿Puedes repetirla? ¿Qué te ha enseñado sobre lo que está pasando en el mundo?

Dylan Patel (fundador de SemiAnalysis):
El año pasado pensábamos que éramos usuarios intensivos de IA. Todos usaban ChatGPT, todos usaban Claude, y yo también proporcionaba a mi equipo varias suscripciones. En ese entonces, los gastos estaban en unos pocos miles de dólares al año.

Pero este año, los gastos comenzaron a dispararse. El punto de inflexión fue a finales de diciembre, con la aparición de Opus. Incluye también a Doug, nuestro presidente Douglas Lawler, que básicamente lideró la adopción de IA para que personal no técnico programara. Poco a poco, toda la empresa se volcó a ello. Claro, los ingenieros ya usaban IA, pero desde enero, nuestros gastos en Claude Code se dispararon y explotaron rápidamente.

Luego firmamos un contrato empresarial con Anthropic. La última vez que hablamos, nuestro gasto anual era de unos 5 millones de dólares; ahora ya son 7 millones.

Patrick O'Shaughnessy:
Y eso fue la semana pasada.

Dylan Patel:
Exacto, gran parte de ese gasto es simplemente volumen de uso. Lo interesante es que personas que nunca habían programado ahora usan Claude Code, y algunos gastan miles de dólares al día. Pero en términos generales, nuestro gasto en Claude Code ya alcanza los 7 millones anuales, en comparación con unos 25 millones en salarios. Es decir, el gasto en Claude Code supera el 25% de los costos salariales.

Si esta tendencia continúa, para fin de año podría superar el total de salarios. Es algo sorprendente. Afortunadamente, no tengo que elegir entre «persona» y «IA», porque la empresa crece mucho. Es más bien: puedo no contratar rápido, pero gastar más en IA, y eso funciona, permitiendo que la compañía crezca más rápido.

Pero creo que otras empresas también enfrentan esto: si con Claude Code un solo empleado puede hacer el trabajo de 5, 10 o incluso 15 personas, ¿qué se hace después? Primero, quizás hay que reducir personal; segundo, los escenarios de uso son muy amplios.

Por ejemplo, tenemos un laboratorio de ingeniería inversa en Oregón, que lleva un año y medio funcionando. Tiene equipos de alta gama, como microscopios electrónicos y de fuerza atómica. Su función principal es analizar chips, extraer su arquitectura y materiales, y vender esos datos.

Antes, analizar estos datos era muy lento. Ahora, un solo empleado, con unos pocos miles de dólares en tokens, ha creado una aplicación que acelera GPU y corre en servidores de CoreWeave. Solo necesita enviar una imagen del chip, y la app marca automáticamente cada material: cobre, tantalio, germanio, cobalto. Luego, puede hacer análisis de elementos finitos visualizados, con interfaz gráfica y paneles.

Este empleado antes trabajaba en Intel, y dice que antes esto requería un equipo completo para hacer y mantener. Ahora, en toda la empresa, esto es inimaginable.

Otro ejemplo interesante es Malcolm, ex economista de un gran banco. Ese banco tenía entre 100 y 200 economistas. Lo que Malcolm ha logrado es sorprendente.

Conecta datos de FRED, informes de empleo y otras API, y firma contratos con proveedores de datos para acceder a sus APIs. Luego, corre regresiones y analiza cómo los cambios económicos afectan la inflación o deflación.

El Bureau of Labor Statistics tiene unas 2000 tareas clasificadas. Malcolm usa IA para evaluar cuáles tareas pueden hacer ya los modelos y cuáles no, asignándoles puntuaciones según un criterio. El resultado muestra que aproximadamente el 3% de las tareas ya son realizables por IA.

Entonces, crea un índice para medir qué tareas pueden hacer los modelos y qué impacto tendría en la deflación. La producción puede subir, pero por la caída de costos, el PIB podría contraerse, y llama a esto «GDP fantasma».

Basándose en esto, desarrolla análisis y un benchmark de modelos, con unos 2000 evaluaciones.

Patrick O'Shaughnessy:
¿Todo esto lo hizo él solo?

Dylan Patel:
Sí, todo solo. Me dice: «Hermano, esto antes lo hacían 200 economistas durante un año». Ahora, está completamente inmerso en Claude, y dice que todo ha cambiado.

Patrick O'Shaughnessy:
¿Y cómo lo interpretas como empresario? Ustedes pasaron de casi nada en ese gasto a que ya sea un 25% de los costos salariales, y sigue creciendo. ¿En qué momento piensas: «Espera, quizás debo frenar, controlar gastos, usar modelos más baratos»?

Dylan Patel:
Al final, yo vendo información. Análisis, consultoría, conjuntos de datos. No veo razón para pensar que esto no se pueda comercializar rápidamente.

Si no sigo mejorando, el primer producto de datos que vendimos hace tiempo, ahora ya tiene competencia. Seguimos vendiendo porque mejoramos y afinamos. Pero en 2023, la forma en que hacemos esto no es muy distinta a la de otros. Si no subo el estándar, seré desplazado. Si no actúo rápido, perderé ventaja.

Por eso, sí, la IA está comercializando muchas cosas, igual que la software. Pero quienes actúan rápido, mantienen relaciones con clientes, ofrecen servicios excelentes y los mejoran, crecerán más. Los que no hagan nada, perderán.

Es una cuestión de supervivencia: si no adoptas IA, otros lo harán y te vencerán.

Un ejemplo simple es el sector energético. Hace un año, teníamos analistas que intentaban construir modelos energéticos complejos, en un mercado de unos 9 mil millones de dólares. Aunque llevamos un año, no hemos entrado realmente en ese mercado.

Luego llegó «Claude Code Mentalidad». Jeremy, responsable de energía y data industrial, empezó a usar Claude Code y en tres semanas gastó mucho dinero, unos 6,000 dólares diarios. Logró mapear todas las plantas de generación y líneas de transmisión en EE. UU., usando datos públicos y conectando muchas fuentes.

Creamos un panel para analizar déficit y exceso de energía en regiones, y en semanas lo tuvimos listo.

Mostramos esto a clientes que ya compraban nuestros datos, incluyendo traders energéticos. Dijeron: «¿Cuánto tiempo tomó? Está muy bien, mejor que la competencia». Y descubrimos que esa competencia lleva 10 años en esto, con 100 personas.

Nuestro producto aún no es tan completo, pero en algunos aspectos ya es mejor. Así que estamos en proceso de comercializar estos datos energéticos. Pero si no avanzamos más rápido, ¿quién nos desplazará?

Desde la perspectiva del empresario, no es solo cuánto gastamos. Es qué nos aporta ese gasto. Si genera ingresos, vale la pena.

Patrick O'Shaughnessy:
¿No te preocupa que, al final, los que controlan el capital y hacen las inversiones —los que contratan a ustedes— digan: «Nosotros también tenemos analistas, somos inteligentes, podemos hacerlo nosotros»? Si esto se vuelve tan fácil, ¿no volverá todo a las instituciones de inversión? Porque ellas tienen más palanca con los datos y las decisiones.

Dylan Patel:
Primero, toda actividad de información funciona así: el valor que yo obtengo de una información, no es mayor que el que obtiene el cliente.

Si te vendo información por 1 dólar, tú lo pagas porque sabes que te ayuda a tomar decisiones que te generan más de 1 dólar. Es decir, tienes una oportunidad de arbitraje. Lo que ganas con esa información, supera lo que yo gano vendiéndola.

Los fondos de inversión también tienen su propia capacidad de análisis. Como Jane Street, Citadel, que tienen datos muy profundos. Pero aún así, compran nuestros datos y seguirán comprándolos, y nuestra colaboración crece.

Hay un «factor clave». Nosotros somos más rápidos, flexibles, con equipos más pequeños, enfocados en infraestructura de IA y en la gran transformación que esto genera, incluyendo tokens y toda esa economía. Podemos ver más temprano, construir más rápido.

Por eso, los profesionales de inversión intentan hacer lo que hacemos, pero más barato, comprando nuestros datos y construyendo sobre ellos. Al final, comprar nuestros datos y seguir desarrollando suele ser más barato que empezar desde cero. Pero, claro, algunos intentarán hacerlo por su cuenta.

Token como nuevo medio de producción

Patrick O'Shaughnessy:
Cada vez que hablo contigo, vuelvo a la misma pregunta: la oferta y la demanda de tokens. Es lo que más me interesa ahora. ¿Tu experiencia te ha dado una nueva perspectiva sobre la demanda? Cuando lo sientes en carne propia, ¿cambian tus juicios sobre la demanda de tokens?

Dylan Patel:
Si damos un paso atrás y miramos macro, los ingresos anuales de Anthropic podrían haber pasado de 9 mil millones a 35-40 mil millones de dólares. Cuando salga este episodio, quizás ya estén en 40-45 mil millones.

Pero su crecimiento en potencia de cálculo no ha sido igual. Si asumimos que no redujeron I+D, y que siguen lanzando modelos como Metis, Opus 4, Opus 4.7, entonces, aunque toda su potencia adicional se dedique a inferencia, su margen bruto mínimo sería alrededor del 72%.

En realidad, parte de esa potencia adicional también se destina a I+D, por lo que el margen real puede ser aún mayor. A principios de año, se filtraron algunos documentos de financiación que mostraban un margen bruto de solo el 30%.

¿Cómo puede un negocio en tan poco tiempo elevar su margen bruto a ese nivel? La respuesta es que la demanda es muy alta. Pueden restringir uso, limitar tasas y aplicar restricciones. Lo clave es tener un gerente de cliente en Anthropic, contratos empresariales y poder obtener aumentos en los límites de tasa. Sin eso, los tokens serán muy codiciados.

Quien pueda pagar, tendrá acceso. La misma lógica aplica a Anthropic: aunque los clientes paguen 40 mil millones de dólares al año en tokens, el valor que generan en sus negocios es mucho mayor.

Cada empresa obtiene un valor diferente de cada token. Pero a medida que los modelos se vuelven más inteligentes, lo que importa es quién puede acceder a los tokens más inteligentes y usarlos en las tareas más valiosas.

Como individuo, debes decidir cómo usar esos tokens para hacer crecer tu negocio y crear valor. Muchos quieren tokens, y los consumen. Pero las startups en SaaS en San Francisco que usan Claude para crear software, quizás no generan un valor enorme. Eventualmente, el precio de los tokens desplazará a esas empresas.

Patrick O'Shaughnessy:
Hoy, en el camino a San Francisco, justo antes de llegar, intenté usar Opus 4.7 y me limitaron. No pude seguir. Ni siquiera puedo imaginar usar 4.6, aunque en semanas anteriores me había funcionado muy bien.

¿Te sorprende que la gente insista en usar los modelos más caros y avanzados?

Dylan Patel:
No, para nada. La anécdota más divertida en la última semana fue que, junto a mi amigo Leopold, casi suplicamos a los fundadores de Anthropic que nos dieran acceso a Metis.

Sabemos que existe, y solo decíamos: «Por favor, déjanos usarlo». Y nos respondían: «No sé de qué hablan».

Patrick O'Shaughnessy:
¿Y qué piensas cuando sale la evaluación o la tarjeta de evaluación?

Dylan Patel:
Antes en Silicon Valley ya circulaban rumores, y sabíamos que sería muy potente. Los benchmarks cambian, pero Mephisto / Metis probablemente representan el mayor salto en capacidad de modelos en los últimos dos años.

Es muy importante: es tan fuerte que Anthropic ni siquiera quiere lanzarlo completamente. Aunque ya lo han mostrado a algunos clientes y han hecho lanzamientos selectivos, por ejemplo, para seguridad cibernética, su costo en tokens puede ser 5 o 10 veces mayor, pero aún así no quieren liberarlo por completo, por temor a su impacto en el mundo real.

Lo que nos ofrecen ahora es una versión más débil, Opus 4.7, y en la ficha del modelo dicen claramente que han hecho una preoptimización para reducir capacidades en seguridad cibernética. No sé si leíste esa parte.

Por eso, creo que cualquiera con suficiente capital debería comprar suscripciones empresariales a Anthropic, pagando por tokens, no con las suscripciones normales, para evitar limitaciones.

Luego, hay que pensar en cómo usar esos tokens en las tareas de mayor valor y obtener beneficios. Porque, en realidad, quizás en uno o dos años, muchas operaciones serán simplemente arbitraje de tokens. Los tokens son poderosos, pero hay que saber dónde usarlos.

En tres o cuatro años, los modelos podrán saber cómo usar los tokens para maximizar su valor.

Si revisas benchmarks, verás que antes alcanzar cierto nivel de capacidad costaba X, y ahora quizás solo una centésima o milésima de eso. Por ejemplo, alcanzar GPT-4 cuesta aproximadamente una sexta parte de lo que costaba antes. Y ese costo sigue bajando.

Por supuesto, ya no se trata solo de GPT-4. La demanda real viene de modelos de vanguardia, que generan valor económico real. Pero, en general, los modelos de GPT-4 todavía se usan en escenarios más pequeños.

Lo que impulsa la demanda no es que las capacidades antiguas sean más baratas, sino que aparecen nuevos casos de uso. Hoy, usas Opus 4.6 o 4.7. En un año, para obtener un modelo con la misma calidad, quizás gastarás solo 70,000 dólares, una reducción de 100 veces.

Pero eso no importa, porque en ese momento usarás un modelo más potente para tareas de mayor valor.

El modelo Metis de Anthropic, aunque más caro, requiere mucho menos tokens para completar tareas similares, por lo que en la mayoría de los casos, es más barato que Opus 4.6.

Dylan Patel:
Porque es mucho más eficiente. Aunque cada token sea más «inteligente» y costoso, se necesitan menos tokens para completar las tareas.

Patrick O'Shaughnessy:
La última vez que te vi, Metis apenas había salido, o la ficha del modelo. Dijiste que era tan potente que te daba miedo. ¿Qué querías decir con eso?

Dylan Patel:
El objetivo de Anthropic para 2025, y desde 2024, es que su modelo tenga un nivel equivalente a un ingeniero de software L4. En general, con Opus 4.6, lo han logrado.

Pero lo que no dijeron es que, si comparas Metis con benchmarks, parece más un ingeniero L6, que es bastante experimentado, en lugar de L4, que sería un ingeniero junior.

Recuerdo que Anthropic dijo que ese modelo ya estaba listo internamente desde febrero, en solo dos meses, pasó de ser L4 a L6. ¿Qué pasará después?

Al pensar en el avance de los modelos, se ve que la aceleración continúa. La velocidad de lanzamiento de Anthropic se comprime, y la de OpenAI también. ¿Por qué? Porque para hacer mejores modelos, necesitas varias cosas.

Primero, potencia de cálculo. Muy costosa y con su propio ritmo. Ya la estamos siguiendo, y sigue creciendo, pero en el corto plazo, ya está bastante definida. La potencia que ya firmaste, en general, está fija. Puede haber ajustes, pero en líneas generales, es estable.

Segundo, necesitas investigadores excelentes, que ahora reciben decenas de millones de dólares.

Y tercero, la capacidad de implementación. Históricamente, esto siempre fue difícil. Tener una idea no basta; hay que implementarla, y eso es muy difícil. Pero ahora, las ideas abundan y la implementación se vuelve muy fácil, aunque costosa.

Entonces, la pregunta es: ¿cómo decide alguien qué ideas implementar? Cuando la implementación se vuelve muy barata, puedes hacer más ideas y avanzar más rápido.

Esto pasa en investigación de modelos de IA, y también en otros campos. Por ejemplo, puedo modelar cada planta de energía en EE. UU., hacer regresiones, analizar microregiones. Ahora, también puedo hacerlo.

Las ideas son baratas. Lo importante es qué ideas tienen sentido, cuáles valen la pena para invertir en tokens y realizarlas. Porque la capacidad de implementación ya está allí. Ese es el cambio más importante.

Si la capacidad de implementación sigue bajando, y lo está haciendo, y aún no hemos obtenido completamente Metis, solo unos días después de lanzar Opus 4.7, ya estamos muy emocionados.

¿Y qué traerá esto al mundo? Creo que reordenará la forma en que funciona la economía.

Antes, la ejecución era muy importante, porque era difícil; las ideas, en cambio, eran baratas. Ahora, las ideas no solo son baratas, sino que abundan, y la ejecución también se vuelve muy sencilla. Por eso, solo las ideas suficientemente buenas, que puedan demostrar que, incluso siendo muy baratas, valen la pena, seguirán siendo relevantes.

Patrick O'Shaughnessy:
¿De verdad tienes miedo? ¿O solo es una incertidumbre difícil de manejar?

Dylan Patel:
Hay incertidumbre, claro. Pero sí siento que esto genera cierto temor. La cuestión es: ¿cómo se reorganiza la sociedad?

Cuando vives en un mundo donde «la capacidad de realizar algo» ya no es tan importante, ¿qué sí lo es? Es si puedes escoger las ideas correctas para la IA, si puedes vender esas ideas, o si puedes vender lo que la IA produce. También, si puedes conseguir capital para esa dirección. Eso será lo importante.

Y eso vuelve a la pregunta anterior: ¿quién puede acceder a los modelos más recientes?

Anthropic tiene un proyecto, que no se llama Earwig, pero me gusta llamarlo así, en broma, para burlarme de ellos. Solo ofrecen Metis a algunas empresas, para seguridad cibernética. Creo que esto seguirá, y los modelos se desplegarán cada vez más en ámbitos restringidos, menos públicos.

Nota: Earwig, en inglés, significa «erizo» o «bicho que se mete en el oído». Aquí es un apodo con tono de burla: suena a un insecto, y también evoca la idea de algo que se cuela sigilosamente y manipula.

Sé que OpenAI, Anthropic y otras empresas dicen que quieren que todos tengan IA potente. Pero la IA es muy cara. ¿Quién pagará por la infraestructura de billones de dólares? Los que tienen dinero y pueden construir cosas útiles con IA.

Y tampoco quieres que otros distilien tu modelo, por eso no lo lanzas a todo el mundo. Lo das a unos pocos clientes, y entre ellos compiten por los tokens.

A menos que Anthropic suba mucho los precios. Podrían duplicar el precio de Opus, y yo seguiría pagando. La mayoría seguiría pagando, pero eso no resolvería su problema de capacidad.

Entonces, ¿dónde termina este ciclo? Cuando la demanda de tokens y su valor generado se concentren en pocas empresas, ¿qué pasará?

No tengo Metis ahora, pero ¿quién la tiene? Los grandes bancos, por ejemplo. Quizás solo la usan en ciberseguridad, pero imagina un escenario: si tengo un contrato con Anthropic, y ellos todavía me quieren, quizás me den acceso anticipado o límites más altos. Espero que sí.

Y así, puedo superar a mis competidores que no tengan ese acceso.

Otra posibilidad es que alguien como Ken Griffin, de Citadel, con mucho poder y dinero, negocie con OpenAI o Anthropic: «Yo compro 10 mil millones en tokens cada año. Cuando lancen un modelo nuevo, compro los primeros 10 mil millones, y los demás compiten con eso».

¿Y qué pasa? Que ese jugador puede dominar el mercado.

Es solo un ejemplo. También puede pasar en ciberseguridad, si Anthropic teme que los modelos faciliten hackeos. O en servicios de información, donde yo uso IA para superar a otros.

Creo que el impacto será muy amplio. No sabemos qué pueden hacer estos modelos. Anthropic, OpenAI, nadie lo sabe. Al final, será cada usuario quien descubra: ¿dónde se pueden usar estos tokens? ¿Qué pueden construir? ¿Qué ideas pueden imaginar?

Eso aumentará mucho la productividad, y tendrá efectos positivos. Pero la cuestión es: ¿cómo se concentrarán los recursos y derechos de uso?

Los robots cubrirán la próxima ola de demanda

Patrick O'Shaughnessy:
Hoy, los tokens que usan los robots o en robótica, son casi insignificantes comparados con otros ámbitos. ¿Qué opinas? ¿Podrán convertirse en una segunda curva de demanda? Cada día aparecen nuevas startups de robots que intentan hacer cosas interesantes.

Dylan Patel:
Hay un concepto llamado «singularidad solo de software». Es decir, puede que primero surja una singularidad de IA en el software, pero la mayor parte del mundo sigue siendo física. La realidad se organizará en torno a hardware, no solo a software. La «singularidad solo de software» será solo una fase corta, no el fin. Porque, al final, todo volverá al mundo físico.

Una vez que el software sea muy fácil, ¿cuál será la parte más difícil en robótica? Programar, microcontroladores, actuadores, controlarlos. Todo eso sigue siendo muy difícil.

Las modelos de IA tienen una característica interesante: su eficiencia de aprendizaje es baja. Solo gracias a datos masivos aprenden y superan a los humanos en algunos aspectos.

Pero los modelos actuales, como VLA (Vision-Language-Action), son muy populares, pero no serán la solución definitiva. Tienen baja eficiencia de datos, y no podemos ampliar rápidamente los datos para robots.

En el futuro, seguramente habrá formas de preentrenar modelos de robots a gran escala, como los humanos que ven datos toda la vida. La clave es que los humanos aprenden con pocos ejemplos, muy «eficientes en muestras». Un ejemplo o dos, y ya aprenden.

Si aplicamos esa capacidad a los robots, cambiará todo. Cuando la singularidad de software sea barata, cualquiera podrá construir estos modelos. Entonces, podremos crear robots realmente útiles.

Creo que en 6 a 18 meses veremos avances reales en robótica. La habilidad clave será el aprendizaje con pocos ejemplos, «few-shot». Se tendrá un modelo preentrenado, y solo hay que mostrarle unos ejemplos para que complete tareas.

Por ejemplo, decirle: «Apila estos dos objetos», y lo hará. O: «Mantén el equilibrio de esto». Se le enseña, y lo intenta. Ya he volcado muchas cosas, así que sé que funciona.

Por eso, creo que los robots tendrán capacidades de few-shot learning.

Ya hay muchas empresas haciendo robots, algunos solo para publicidad, otros para tareas simples. Pero en el futuro, serán muy especializados: robots para doblar ropa, limpiar pizarras, etc. Podrán ser servicios de alquiler o paquetes de modelos que puedas descargar y usar en robots estándar, pagando por uso.

En cualquier caso, el campo de los productos físicos tendrá un gran impulso, con efectos deflacionarios. Y eso seguirá impulsando la demanda de tokens. Personalmente, no creo que esa demanda disminuya.

Patrick O'Shaughnessy:
¿Y qué aprendiste de Metis y su construcción? ¿Alguna idea nueva sobre el mundo? Por ejemplo, si desglosamos las leyes de escalado, como el preentrenamiento...

Dylan Patel:
Es un modelo mucho más grande que los anteriores. Un ejemplo: 100,000 bloques de Blackwell, equivalentes a decenas de miles de chips de la generación anterior. Aunque, claro, las plataformas como TPU y Triton tienen ritmos diferentes, pero en general, Metis es claramente más grande. Demuestra que las leyes de escalado siguen vigentes: más potencia, modelos mejores.

Además, en todo este proceso, no solo se trata de más potencia. También mejoramos en eficiencia computacional. La inversión en I+D en laboratorios se traduce en que, en unos meses o semanas, el costo para alcanzar cierto nivel de capacidad se reduce mucho. Y si aumentamos la escala, la mejora en capacidades continúa.

Por eso, sí, esto sigue en marcha. Google, Anthropic, y pronto OpenAI lanzarán nuevos modelos. La estrategia de escalado de OpenAI parece más racional, con pequeños pasos, mientras que Anthropic dio un salto gigante.

Este año veremos modelos cada vez mejores, y el ritmo de lanzamiento se acelerará.

Patrick O'Shaughnessy:
Hemos hablado mucho, pero casi no mencionamos a OpenAI. Antes sería raro, pero ahora es interesante.

Dylan Patel:
Exacto. Muchos piensan: «Anthropic ya ganó». Tienen Metis desde febrero, sin lanzarlo todavía, porque creen que no es necesario. Ya vendieron toda su potencia, y sus ingresos crecen en 10 mil millones mensuales. Hoy lanzaron Opus 4.7, antes de que se anuncie el supuesto «Spud» de OpenAI, que ya se rumorea en medios como The Information.

A simple vista, parece que Anthropic lleva ventaja, y OpenAI está en problemas. Pero, en realidad, Anthropic tiene limitaciones de potencia, y su expansión es más lenta. Dario antes decía que OpenAI era más agresivo en inversión en potencia, y que la escalabilidad de Anthropic era más racional. Pero ahora, quizás, Anthropic piensa: «Deberíamos haber invertido más en potencia».

OpenAI puede pagar esas inversiones. Ya ha recaudado mucho dinero para ampliar su potencia. Además, ha comprado capacidad en Oracle, CoreWeave, SoftBank, Microsoft, y ahora también en Amazon con Trainium.

Por eso, OpenAI está haciendo movimientos muy agresivos en potencia, y sabe que necesita más.

Si solo miramos Opus 4.6, sin considerar mejoras en modelos, y pensamos en la difusión de la tecnología, tú y yo quizás usaríamos el modelo en el primer día, pero otras empresas necesitan tiempo. La «despertar de Claude» no será instantánea para todos. Para fin de año, un modelo como Opus 4.6, en toda la economía, podría generar 100 mil millones de dólares en valor anual, no es exagerado, considerando que ya se gastan 40 mil millones.

Patrick O'Shaughnessy:
Eso es solo una proyección lineal.

Dylan Patel:
Sí, una proyección lineal, no exponencial. Para crecimiento exponencial, necesitas modelos mejores. Pero Anthropic no tiene suficiente potencia para cubrir toda esa demanda. Si OpenAI o Google alcanzan ese nivel pronto, cualquiera puede hacerlo.

Anthropic quizás tenga un 70% de margen bruto, pero si OpenAI logra ese nivel, incluso con un 50%, capturará toda esa demanda adicional. Probablemente, no tendrán suficiente potencia para todos. Entonces, un modelo como Metis, si hubiera suficiente capacidad en todo el mundo, podría generar 500 mil millones de dólares en ingresos, o más. La demanda de tokens y la oferta de potencia están en un desequilibrio extremo.

Ya vimos esto en el aumento de precios de las H100. La vida útil de las GPU se extiende. Incluso laboratorios de segunda línea agotarán sus tokens, y los de primera, tendrán márgenes altos. Los de tercera línea también se acercarán a agotarse.

El valor económico de los modelos más potentes crece más rápido que la infraestructura que los soporta. La brecha se amplía. Los márgenes en laboratorios de modelos seguirán subiendo, hasta que la cadena de suministro de hardware reaccione y diga: «¿Por qué no aumento mi margen?».

Patrick O'Shaughnessy:
Entonces, tu juicio sobre la demanda, especialmente en SemiAnalysis, es explosivo. Y, en general, con la «psicosis IA», la gente siente que puede hacer mucho, y que la dificultad de realizar esas tareas desaparece. En semanas, mi gasto en tokens se ha disparado.

¿Y qué más falta en la demanda? Si no usas más tokens, ¿nunca podrás salir de la «estratificación permanente»? ¿Puedes explicar esa frase?

Es decir, si no usas más tokens, o no creas valor con ellos, o no capturas ese valor, seguirás atrapado en la capa más baja, sin posibilidad de escalar.

La idea es: o usas más tokens y generas valor, o usas tokens para crear valor, y luego capturas ese valor. Si no logras esas tres cosas, con el avance de los modelos y la concentración de recursos, siempre estarás en la base.

Hablemos ahora de la oferta. ¿Qué está pasando? Si la demanda crece exponencialmente, toda la cadena de suministro de hardware y modelos, ¿cómo responde? Los precios suben en toda la cadena: GPU, memoria, PCB, cobre, equipos. La vida útil también se extiende.

El precio de las H100, por ejemplo, no bajó, sino que subió. Algunos clusters de hace tres o cuatro años están renovando contratos por 3 o 4 años más.

La vida útil de las GPU no es de cinco años, sino quizás de siete u ocho. Aún no sabemos, pero en el momento en que Hopper esté en esa etapa, será así. Y los precios en renovación siguen subiendo.

Eso significa que la rentabilidad de los clusters es mayor de lo que parece. La rentabilidad de los proveedores de hardware también crece. NVIDIA, por ejemplo, sigue cobrando márgenes del 75%. La cadena de memoria también ha visto aumentos de márgenes. Los pagos anticipados

TOKEN-1,77%

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
GTBurns2.57MInQ
177,02K Popularidad
#
PredictWorldCupShare20000U
155,33K Popularidad
#
IsraelStrikesIranBTCPlunges
69,54K Popularidad
#
StrategySells3588BTC
14,62M Popularidad
#
gStocksTokenizedStocksLive
4,86M Popularidad

Fijado

En la era de la IA, la deducción definitiva de la guerra de oferta y demanda de tokens

TL; DR

Entrevista original:

Claude Code se convierte en la nueva fuerza laboral

Token como nuevo medio de producción

Los robots cubrirán la próxima ola de demanda

Temas de actualidad

GTBurns2.57MInQ

PredictWorldCupShare20000U

IsraelStrikesIranBTCPlunges

StrategySells3588BTC

gStocksTokenizedStocksLive

Fijado