La ansiedad de los inversores en IA en 2026: cuando los modelos devoran todo, ¿qué queda de la ventaja competitiva de las startups?

Autor: Sarah Guo

Traducido por: Deep Tide TechFlow

Deep Tide Introducción: Cuando los grandes modelos comienzan a aplastar a los humanos en todas las listas, los inversores empiezan a caer en una especie de desesperación: además de Anthropic y Nvidia, ¿qué más vale la pena invertir? Esta inversora de Silicon Valley de élite usa datos y casos para ilustrar que la verdadera ventaja competitiva no está en las listas—está en aquellos lugares que no pueden ser medidos por benchmarks.

A mediados de 2026, la locura de AI en versión inversora es una desesperación: no hay nada más que valga la pena, deberíamos invertir todo en Anthropic y Nvidia y volver a casa.

Nunca he sentido eso. Estoy convencido de que los modelos son varios niveles más inteligentes que yo, y estoy dispuesto a comprar Anthropic y Nvidia al precio de mercado, todos mis amigos más inteligentes están bastante seguros de que la auto-mejora pronto tendrá éxito—pero aún así, no siento esa desesperación.

Esa desesperación no es tonta. La lógica es así: si los modelos mejoran continuamente en todo, cada empresa construida sobre ellos es solo una capa delgada de envoltura, esperando ser absorbida; el único valor que puede sobrevivir son la potencia de cálculo y los pesos de vanguardia.

Tomando software como ejemplo, este es el caso en el que los desesperados confían más. Cuando Devin lanzó en 2024, solo podía resolver el 13% de las tareas en benchmarks estándar de software, siendo prácticamente ignorado. Un año y medio después, los mejores agentes alcanzan más de 80 puntos, y están haciendo trabajos reales en Goldman Sachs y el Ejército de EE. UU. Casi todos sacaron la misma lección equivocada: los modelos están comiendo la ingeniería de software. Pero cuando los modelos devoran la parte más fácil de medir en la ingeniería de software, estamos redescubriendo algo que muchas equipes ya sabían: la ingeniería siempre ha resistido la medición, y lo que es fácil de medir puede no ser lo más importante.

Mert Demirer del MIT y sus colaboradores finalmente dieron cifras: entre más de 100,000 desarrolladores, el último agente de codificación aumentó la cantidad de código escrito en aproximadamente un 180%, y la cantidad de código publicado en aproximadamente un 30%. Es decir, programar se volvió más barato. La parte restante todavía requiere humanos, y eso es muy importante. Por supuesto, el impacto neto sigue siendo sorprendente.

Un benchmark es algo que puedes medir, y lo que puedes medir es lo que entrenas para mejorar. Por eso, los agentes de codificación son los primeros en madurar: los compiladores son verificadores gratuitos, los conjuntos de pruebas son verificadores gratuitos, y cuando las respuestas verifican ellas mismas gratis, puedes perfeccionarlas continuamente hasta que las superes. Pero las pruebas nunca te dicen si ese cambio es correcto para un código que tiene tres módulos no documentados, que depende de un pipeline de despliegue que se mantiene con un viejo código de hace diez años, forzado a funcionar con un cron job que nadie quiere admitir que escribió.

Esa corrección no puede leerse en un ranking, ni en nada más. Solo aprendiendo a través de correr en el mundo real durante suficiente tiempo puedes descubrir si un sistema complejo funciona, y modelos más inteligentes no hacen que el mundo funcione más rápido. Nadie hace pruebas unitarias en Google a escala y luego confía en la marca verde; confían en que ha resistido cargas reales durante años. Esa corrección no solo es privada, sino que también es esa especie de ventaja competitiva lenta que el capital no puede derribar. Incluso los optimistas admiten que el tiempo no puede saltarse: Noam Brown, pionero en modelos de razonamiento de OpenAI, escribió recientemente que la única forma confiable de evaluar un agente en un período de un año puede ser... ejecutarlo durante un año.

Como dice Gabe Pereyra, la verdadera automatización no es solo que los modelos mejoren. Es que producto, modelos, flujos de trabajo y empresas se mueven juntos, y en tres de estos cuatro, el ritmo organizacional es lo que importa.

Lo que se mueve son las partes que los benchmarks no alcanzan: hacer que un socio escéptico cambie su forma de manejar las cosas, mantener unido al equipo durante una reconstrucción. Por eso, cuando contratamos un CEO, la capacidad de gestionar personas es tan importante como la de analizar, y un modelo más inteligente no cambia ese peso. La retroalimentación es difusa, el período de tiempo es de años, y la confianza pertenece a una sola persona. Conozco empresas donde todos los ingenieros usan modelos de codificación de vanguardia, pero ninguna cambia su organización a esa velocidad. Adoptar lleva un trimestre, ¡qué trimestre de crecimiento de tokens tan mágico! Pero la reconstrucción lleva años.

Lo que se está yendo es lo que se puede ver. El trabajo valioso es estructuralmente invisible: todo lo que puedes poner en un ranking, puedes entrenar para ello, por lo que todo lo medible ya está en camino de convertirse en commodity. Este proceso lleva tiempo y nunca será completo, pero la dirección nunca cambiará. En términos de dinero, como dice Matt MacInnis de Rippling: los tokens gastados en responder preguntas generales valen casi nada, porque cualquier modelo puede responderlas, mientras que los tokens que se usan para razonar sobre los datos de tu empresa valen mucho más, porque hacen lo que realmente quieres, no solo lo que parece razonable.

El trabajo visible se está comiendo desde dos frentes. Desde abajo, la saturación de tareas: una vez que un trabajo puede ser revisado barato, los compradores dejan de preguntar qué modelo lo hizo y empiezan a preguntar cuánto cuesta, y el trabajo pasa a los modelos open source o de destilación más baratos esa semana. En cualquier lugar donde puedan hacer impacto, la rentabilidad finalmente importa. Desde arriba, los laboratorios intentan que sus modelos devoren sus propios andamios. La recuperación, el enrutamiento entre llamadas baratas y caras, el uso de herramientas, incluso las estrategias de razonamiento, todos los dispositivos que envolvían a los modelos se integran en los pesos, hasta que el envoltorio es el propio modelo. Esa es la absorción de la vanguardia. La presión por rentabilidad también reduce esa absorción: los agentes generales deben estar preparados para todo, lo cual es caro, mientras que las aplicaciones especializadas pueden ajustar un flujo de trabajo para que funcione con una pequeña fracción de tokens, y a diferencia de los laboratorios que venden tokens, conservan la diferencia de precio.

Por eso, podemos hacer dos preguntas sobre cualquier tipo de trabajo: ¿su corrección es privada y costosa de construir, esa verdad que solo existe en los datos internos de alguien? ¿Está aislado, encerrado en un sistema al que no puedes acceder? Comparando esto con el nivel de saturación de tareas, obtienes una matriz 2x2. El trabajo saturado con respuestas abiertas es un token de commodity, lo tienen los modelos open source. El trabajo de vanguardia con respuestas abiertas, donde está el benchmark de codificación, es donde ganan los laboratorios, porque cuando la evaluación es gratuita, tenerlo no es gran cosa. La recompensa está en la esquina final, en la que no se puede entrenar: la corrección solo existe en la frontera privada del trabajo de vanguardia. Puedes verla en la nube de inferencia de los pioneros en AI nativos, donde la mayoría de los tokens son generados por modelos personalizados, no por modelos open source universales.

La pared en esa última esquina varía en altura. Los repositorios de código de un solo desarrollador son portátiles y estandarizados, por lo que escalar es corto. Los sistemas de producción de bancos no lo son, no obtendrás acceso root por ser un 2% más inteligente en SWE-Bench Verified.

La capacidad devora muchas cosas, pero un modelo mejor no convierte hechos básicos privados en públicos. No tiene licencia, no firma responsabilidades, no posee los documentos de la empresa, y cuando da respuestas incorrectas, no puede ser demandado. La inteligencia no es el cuello de botella aquí. La licencia sí, y la responsabilidad también. Puedes imaginar un modelo mucho más inteligente que aún así debe ser autorizado, y alguien debe firmar por lo que hace.

Esa puerta tiene una cerradura y un pestillo. La cerradura es el entorno: solo después de ser confiado dentro del sistema, tras auditorías de seguridad, integración y contratos de firma, puedes verificar si la IA hizo algo útil. El pestillo es el usuario. Hoy en EE. UU., la mayoría de los médicos abren OpenEvidence todos los días, y ninguna cantidad de poder computacional puede comprar eso. Los laboratorios pueden entrenar mañana un modelo médico perfecto, pero aún no podrán integrarlo en la rutina de los médicos, ni en los procesos de decisión en UC San Francisco, porque la confianza se construye lentamente, basada en relaciones, y requiere la aprobación del usuario, no eliminar su gradiente descendente.

Eso también es trabajo. Una aplicación gana su lugar en la esquina no entrenable haciendo trabajos discretos: organizando la realidad privada de la empresa para que el modelo pueda actuar sobre ella, proporcionando herramientas para que el modelo actúe, y colaborando con los clientes para cambiar su realidad laboral. Una empresa que ofrece traducción difícil de copiar—y la traducción nunca termina. La integración y el mantenimiento duran tanto como las relaciones, y las equipes que colocan ingenieros especializados y herramientas junto a los clientes ganan.

Por ejemplo, en un bufete de abogados de primera categoría, solo en M&A se manejan cerca de mil transacciones al año. Por razones de confidencialidad y otras, no puedes dejar que cientos de asistentes descarguen archivos de clientes en sus escritorios y pidan a un agente general que los revise, incluso si pudieras, solo aprenderías fragmentos, una corrección a la vez, sin ver cómo fluye toda la transacción. Las señales importantes están en el nivel de la transacción, y la transacción tiene una forma: en M&A, son acuerdos de confidencialidad, listas de términos, diligencias, contratos de compra, anexos, listas de entrega; en litigios de propiedad intelectual, son mociones, divulgación de evidencia, tecnología existente, más mociones. Cada área tiene sus propias cosas, y abogados y herramientas no pueden intercambiarse entre ellas. Pero la verdadera problemática que resuelve la firma está en un nivel superior: ejecutar en paralelo cada área, como si los socios principales gestionaran cientos de asuntos simultáneamente, introduciendo nuevos casos y entrenando asistentes. Transformar una firma así no es una tarea que puedas evaluar con un solo criterio. Necesita un operador que use análisis de datos, con objetivos muy difusos, retroalimentación incompleta, períodos largos, en un entorno que no se detiene.

Desafortunadamente, el valor invisible también es difícil de vender, por la misma razón que es difícil de commoditizar: las empresas no pueden juzgar externamente si la IA transformará sus operaciones, igual que los benchmarks no pueden. Por eso, las empresas más fuertes dejan de intentar demostrarlo externamente y entran en una evaluación interna, poniendo precio a los resultados. Sierra cobra por resolver problemas de clientes con sus agentes, y no cobra cuando los remite a humanos, por lo que el precio se vuelve la evaluación, que solo funciona cuando Sierra tiene una definición de "resuelto". Devin de Cognition hace lo mismo en software, ofreciendo "garantía de rendimiento", que solo puede ofrecerse en sistemas en los que confían para los resultados.

Incluso los tokens de servicio, que todos llaman commodities, no funcionan como tal. Las mejores empresas nativas de AI concentran sus servicios en uno o dos proveedores (Baseten o Fireworks), porque el costo por token se commoditiza según lo planeado, pero la confiabilidad y el acceso a recursos escasos no. Dónde sirves no es una elección sobre qué modelos usas. El precio es la única parte que funciona como un commodity en la inferencia.

Una objeción frecuente es: los laboratorios son tus proveedores—¿por qué no operan sus propios productos de primera parte por debajo del costo para agotarte, o retiran tu acceso a la API y toman el mercado? Esa es la versión desesperada, que solo funciona si el nivel de los modelos es un juego de un solo jugador. Claramente no—se parece más a una competencia de muerte de tres y medio jugadores, con un grupo de actores internacionales entrenando con seis meses de retraso, y alianzas que crecen cinco veces más que el año pasado. Los clientes quieren competencia entre proveedores, y los laboratorios quieren cuota de mercado, no que una aplicación muera.

Eso se ve en los mercados donde los laboratorios compiten frontalmente. En las conversaciones con consumidores, los mejores modelos nunca ganan simplemente. ChatGPT ha mantenido su liderazgo en competencia real durante años, y la cuota que pierde ahora se va a Gemini, impulsado por Android y búsquedas, no por modelos mejores. Anthropic, que en el mercado de predicciones (y en la atmósfera de internet) se considera la empresa con el mejor modelo, en las conversaciones con consumidores casi no existe, y en los negocios y codificación ha construido su propia base. Si un modelo mejor no puede quitar usuarios a sus competidores en las aplicaciones más centrales, no podrá atravesar registros hospitalarios o bancos mediante integración. La elección pública de hoy no solo se basa en codificación. Si la frontera avanza, su valor superior será en lo que está por encima.

Si el trabajo no puede ser calificado desde afuera, alguien interno debe decidir qué es una buena respuesta, y esa decisión es todo el juego. Muchas de esas decisiones, escritas, se convierten en benchmarks. Harvey publicó uno para leyes, Sierra para agentes de voz. Tú ganas el derecho a definir qué significa que algo sea bueno en ese campo, siendo un campo ya en uso, y esas empresas ganan ese derecho luchando por adopción real.

La evaluación que decide en serio qué es bueno es privada y varía por empresa: esa empresa, en ese tipo de tareas, aceptará lo que considere un buen trabajo, y aún no está terminada, porque la profundidad del derecho hace que cualquier prueba pública quede en comparación. OpenEvidence está definiendo cómo son las respuestas clínicas seguras. Todo esto no es una verdadera medición, sino un juicio sobre qué es real y qué es bueno, que se escribe hasta convertirse en el estándar para todos los demás, y que ningún laboratorio fundamental, por inteligente que sea, puede crear, porque esa autoridad solo existe en ese campo. Esa autoridad tiende a residir en donde ya está. Abogados senior crean benchmarks legales. La definición de respuestas clínicas seguras recae en los médicos. Y "resuelto" significa que cualquier empresa con clientes ya sabe qué significa eso.

La frontera de absorción sigue en ascenso, porque seguimos aprendiendo a medir más trabajos, y lo que se puede medir se come. La superficie no entrenable se reduce bajo los pies de quien la pisa, por lo que no puedes encontrar un punto defendible y descansar. Sigues avanzando en lo que aún no puede ser calificado, reasegurando continuamente. En tareas estrechas, con tus datos privados y tu propia evaluación, puedes entrenar en la frontera y vencer en lugares importantes, y ese modelo especializado se vuelve parte de la ventaja competitiva. Por otro lado, competir con modelos generales es una guerra de capital: perderás ante quien tenga más potencia de cálculo, atrapado en empresas con acceso superficial y tareas visibles. Promete que en algún día, para sobrevivir, la frontera será superada por entrenamiento general, y el ganador será generalmente determinado por la escala del centro de datos, terminando no en un campeón independiente, sino en la venta a quienes tengan más recursos computacionales.

Todo esto es defensivo. Lo más difícil es el ataque, decidir qué construir primero. Eso es lo que he buscado durante un año, y quizás solo he encontrado tres veces. Los modelos aquí no ayudan. Harán lo que les indiques, pero no te dicen qué vale la pena indicar, no puedes benchmarkear eso, y por tanto no puedes entrenarlo. Esa es también la razón por la que las empresas existentes no toman todo: mantienen su territorio, y lo próximo viene de quienes descubren usos antes que los demás. Quizás la intención es que la inversión más escasa sea más valiosa que la potencia de cálculo.

La desesperación tiene su parte de verdad. La capa delgada de envoltura sí está siendo absorbida, y hoy muchas cosas parecen envolturas delgadas. Pero lo que queda está mal entendido. El mecanismo está claro; el destino no. Apostaría a la dirección: la inteligencia se vuelve cada vez más barata, y el valor se desliza hacia los pocos lugares donde los modelos no pueden llegar. Lo que no puede entrenarse tiene valor histórico. Así que entra en uno, haz traducciones discretas, empieza a escribir qué significa que algo sea bueno allí, porque alguien lo hará. La puntuación de benchmark más citada hoy es un mapa territorial que pronto será inútil, y una notificación sobre quién perderá la capacidad de decir qué es bueno.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado