Después de que la IA devora todo, ¿qué hay que no se pueda entrenar?

Título original: The Untrainable
Autor original: Sarah Guo, Conviction
Traducción: Peggy, BlockBeats

Nota del editor: Cuando las capacidades de la IA continúan avanzando, en el mundo de las inversiones aparece una nueva visión pesimista: si los modelos se vuelven cada vez más fuertes, todas las empresas aplicadas terminarán siendo absorbidas por modelos y capacidades computacionales como Anthropic, OpenAI y Nvidia, dejando en el mercado solo los modelos de vanguardia, la potencia de cálculo y unas pocas infraestructuras básicas. Pero Sarah Guo cree que esta visión solo acierta en parte. Aquellas «thin wrapper» (envoltorios delgados, es decir, aplicaciones que simplemente envuelven modelos) sí serán absorbidas, y cualquier tarea que pueda ser medida por benchmarks, entrenada con datos públicos y validada a bajo costo, también se irá convirtiendo en un producto.

La verdadera cuestión es: después de que la IA devore todo lo que puede ser entrenado, ¿qué sigue siendo inentrenable?

La respuesta en este artículo es aquello que existe dentro de organizaciones reales, y que no puede ser fácilmente replicado desde fuera: datos privados de la empresa, flujos de trabajo complejos, confianza de los usuarios, permisos del sistema, juicios sectoriales, responsabilidades de cumplimiento, y la experiencia acumulada en operaciones a largo plazo. Los modelos pueden ser más inteligentes, pero no pueden acceder automáticamente a los sistemas de producción bancarios; pueden generar respuestas médicas, pero no ganarse la confianza de los médicos ni integrarse en los procesos de decisión hospitalarios; pueden redactar textos legales, pero no asumir responsabilidades como abogados senior, ni definir de la nada qué constituye un trabajo legal competente.

Por eso, las verdaderas empresas de IA con una barrera de entrada sólida en el futuro no serán simplemente más inteligentes que los modelos generalistas, sino que profundizarán en un sector específico, realizando la difícil pero crucial tarea de «traducción»: transformar la realidad privada, las herramientas, los procesos y los estándares de juicio de los clientes en sistemas accionables por modelos, y en el servicio a largo plazo definir gradualmente qué se considera un buen resultado. Cuanto más poderosa sea la IA, más se devaluarán las tareas medibles y replicables; y más se resaltarán esas «cosas inentrenables» que llevan historia, relaciones, permisos y juicios profesionales. Esa es la verdadera riqueza que puede mantenerse incluso después de que los modelos devoren todo lo demás.

A continuación, el texto original:

A mediados de 2026, la versión de los inversores de la «locura de la IA» es una sensación de desesperanza: pensar que ya no hay nada que valga la pena invertir, y que deberíamos poner todo nuestro dinero en Anthropic y Nvidia, y luego volver a casa a dormir. Pero yo nunca he sentido eso. Desde varias versiones menores anteriores, he estado convencido de que los modelos ya son más inteligentes que yo; si comprara Anthropic y Nvidia a los precios del mercado, también lo haría con gusto; mis amigos más inteligentes también creen firmemente que la auto-mejora de los modelos pronto será una realidad —pero yo todavía no siento esa desesperanza.

Esa desesperanza no es tonta. Su lógica es la siguiente: si los modelos siguen fortaleciéndose en todos los ámbitos, todas las empresas basadas en modelos serán solo capas delgadas, envueltas en la absorción por parte de los modelos y la potencia computacional; y el valor que quede será solo la capacidad de cálculo y los pesos de los modelos de vanguardia.

Tomemos el software como ejemplo, que es el caso en el que esta desesperanza se apoya más. Cuando Devin lanzó su primer agente en 2024, solo podía resolver el 13% de las tareas en benchmarks estándar, por lo que fue en general subestimado por el mercado. Un año y medio después, el agente más avanzado ya alcanzaba más del 80% de puntuación y empezaba a gestionar tareas reales en Goldman Sachs y el Ejército de EE. UU. Casi todos llegaron a la misma conclusión errónea: que los modelos estaban devorando la ingeniería de software.

Pero cuando los modelos se comen la parte más fácil de medir en ingeniería, también estamos redescubriendo algo que muchas organizaciones ya sabían: que la ingeniería siempre ha resistido la medición, y que las partes más fáciles de medir no siempre son las más importantes.

Mert Demirer del MIT y sus colaboradores finalmente cuantificaron esto: entre más de 100,000 desarrolladores, la última generación de agentes de codificación aumentó la cantidad de código escrito en aproximadamente un 180%, pero la cantidad de código entregado y puesto en producción solo aumentó en un 30%. Es decir, escribir código se volvió más barato, pero las etapas restantes todavía requieren humanos, y esas etapas son muy importantes. Por supuesto, el impacto neto sigue siendo asombroso.

Las benchmarks son algo que se puede medir; y cualquier cosa que se pueda medir puede usarse para entrenar. Por eso, los agentes de codificación fueron los primeros en madurar: los compiladores son verificadores gratuitos, y los conjuntos de pruebas también. Cuando las respuestas pueden verificarse casi sin costo, se puede perfeccionar continuamente el sistema en torno a esa señal de verificación, hasta que se logre un rendimiento óptimo.

Pero que pase un benchmark no significa que ese cambio sea correcto para un código que lleva diez años en producción. Es posible que ese módulo exista por tres razones que nadie ha documentado; que la línea de producción dependa de un cron que alguien no quiere admitir que escribió.

Esa corrección no puede leerse en un ranking, ni tampoco en ninguna otra cosa directamente. Solo se puede saber si un sistema tan complejo funciona en el mundo real después de que ha estado operando lo suficiente, durante mucho tiempo. Y modelos más inteligentes no acelerarán esa operación en el mundo real. Nadie confiaría en que un sistema tan grande como Google pase todas sus pruebas unitarias y quede con una marca verde, y eso que ya lleva años soportando cargas reales.

Esa corrección no solo es privada, sino que también es una barrera de protección que se forma lentamente, una barrera que el capital no puede acortar. Incluso los optimistas admiten que ese reloj no puede saltarse. Noam Brown, pionero en modelos de inferencia de OpenAI, escribió recientemente: la única forma confiable de evaluar el rendimiento de un agente en un ciclo de un año puede ser dejarlo correr realmente durante un año.

Como dice Gabe Pereyra, la verdadera automatización no es solo que los modelos sean más fuertes. Es que productos, modelos, flujos de trabajo y organización empresarial cambian en conjunto, y en estos cambios, tres de los cuatro avanzan a la velocidad de la organización.

Lo que realmente moviliza, es algo que ningún benchmark puede tocar: convencer a un socio escéptico de cambiar su forma de gestionar asuntos, mantener la cohesión de un equipo durante una reconstrucción. Por eso, cuando contratamos a un CEO, valoramos tanto su capacidad para gestionar personas como su análisis. Que los modelos sean más inteligentes no cambia esa prioridad.

La retroalimentación en este proceso es difusa, y el tiempo se mide en años, y la confianza pertenece a una persona concreta. En todas las empresas que conozco, cada ingeniero usa ya modelos de codificación de vanguardia, pero ninguna organización de ingeniería ha cambiado su estructura a la velocidad del avance de los modelos. Adoptar herramientas solo toma un trimestre, ¡y qué trimestre tan mágico de crecimiento en tokens! Pero la verdadera reconstrucción lleva años.

El trabajo que puede ser claramente visto, se está yendo. El trabajo realmente valioso, en su estructura, es inentrenable: todo lo que puedas poner en un ranking puede ser usado para entrenar; por eso, todo lo que puede medirse ya se está convirtiendo en un producto. Este proceso lleva tiempo y nunca se completa por completo, pero la dirección nunca se invierte.

Como dice mi amigo Matt MacInnis de Rippling, en términos monetarios: un token solo vale la pena si se usa para responder una pregunta general, porque cualquier modelo puede responderla; pero si ese token se usa para inferir sobre los datos de tu empresa, entonces vale mucho más, porque hace lo que realmente quieres, y no solo genera una respuesta que parece razonable.

El trabajo legible será absorbido desde dos frentes.

Desde abajo, las tareas se saturan: una vez que una tarea puede ser verificada a bajo costo, los compradores ya no se preocupan por qué modelo la realiza, sino cuánto les cuesta. Entonces, esa tarea pasará a la mano del modelo open source más barato o del modelo distilado más económico esa semana. Mientras la rentabilidad funcione, eventualmente, funcionará.

Desde arriba, los laboratorios intentan que los modelos absorban sus propios andamios. La gestión del enrutamiento entre llamadas baratas y caras, el uso de herramientas, incluso las estrategias de inferencia —todas esas estructuras que antes estaban fuera del modelo, están siendo integradas en los pesos del modelo, hasta que la «cáscara» misma se convierte en modelo. Esa es la frontera de absorción.

La presión por rentabilidad también actúa en otra dirección: un agente general debe estar preparado para todo, lo que lo hace costoso; mientras que una aplicación especializada puede optimizar un flujo de trabajo hasta consumir solo una pequeña parte de tokens. Además, a diferencia de los laboratorios que venden tokens, las empresas aplicadas pueden quedarse con la diferencia.

Por eso, podemos plantear dos preguntas para cualquier tarea: ¿su corrección es privada y costosa, o representa una verdad que solo existe en los datos internos de una empresa? ¿Está aislada en un sistema inaccesible para externos? Al juntar estas preguntas con el grado de saturación de la tarea, se obtiene una matriz 2×2.

Las tareas saturadas y con respuestas públicas son terreno de los tokens comercializables, y los modelos open source las dominarán. Las tareas en la frontera, como los benchmarks de codificación, son terreno de los laboratorios, porque cuando la evaluación es gratuita, poseerla en sí misma no tiene valor.

El verdadero premio está en la esquina final, la «inentrenable»: trabajos de vanguardia, pero cuya corrección solo existe en entornos privados. Esto se puede ver en la nube de inferencia que proveen los pioneros en IA nativa: la mayoría de los tokens son generados por modelos personalizados, no por modelos open source generalistas.

La pared hacia esa última esquina tiene alturas variables. Un repositorio de código de un desarrollador es transferible y estandarizado, por lo que no es difícil acceder a él. Pero los sistemas de producción de un banco no son transferibles ni estandarizados. No ganarías acceso root solo por ser un 2% más inteligente en SWE-Bench Verified.

Las capacidades devoran muchas cosas, pero un mejor modelo no convertirá los estándares privados en estándares públicos. No tendrá licencias, no firmará responsabilidades, no poseerá los documentos de la empresa; y cuando cometa errores, no podrá ser demandado. La limitación no es la inteligencia, sino los permisos y las responsabilidades. Puedes imaginar un modelo mucho más inteligente que cualquiera, pero aún así debe ser autorizado a entrar, y alguien debe firmar por lo que hace.

Esa puerta tiene una cerradura y un cerrojo.

La cerradura es el entorno: solo si se obtiene confianza dentro de un sistema, tras una revisión de seguridad, integración y firma de contratos con responsabilidad por los resultados, se puede verificar si la IA realmente hizo algo útil.

El cerrojo es el usuario. Hoy en día, la mayoría de los médicos en EE. UU. abren OpenEvidence todos los días; esto no es algo que cualquier capacidad computacional pueda comprar. Un laboratorio puede entrenar mañana un modelo médico perfecto, pero aún no puede integrarlo en la rutina del médico ni en los procesos de decisión en UCSF. La confianza se construye lentamente, a través de relaciones y la aceptación del usuario, no solo por descenso de gradiente que elimine esas barreras.

Y esa es también la tarea de las empresas aplicadas. Una aplicación que logre posicionarse en esa esquina «inentrenable» se basa en trabajos poco glamurosos: organizar la realidad privada de una empresa para que el modelo pueda actuar en ella; dar herramientas de acción al modelo; y cambiar la forma en que los clientes gestionan su fuerza laboral.

Una empresa capaz de hacer esa «traducción» difícil es difícil de copiar, y esa traducción nunca termina. La integración y el mantenimiento continuarán mientras exista la relación con el cliente. Quienes ganan, son los equipos que colocan ingenieros especializados en el dominio y herramientas junto a los clientes.

Por ejemplo, en un bufete de abogados de élite, casi mil transacciones de fusiones y adquisiciones al año. No puedes hacer que cientos de asistentes legales descarguen archivos de clientes en sus escritorios y luego se los entreguen a un agente general para que los lea. La confidencialidad ya lo impide, y hay muchos otros problemas. Incluso si fuera posible, solo aprenderías fragmentos: un asistente corrigiendo una cosa a la vez, sin que nadie vea cómo fluye toda una transacción.

Las señales realmente importantes están en el nivel de la transacción. Cada transacción tiene su forma: en fusiones, NDA, listas de términos, due diligence, acuerdos de compra, documentos anexos, listas de cierre; en litigios de propiedad intelectual, mociones, divulgación de pruebas, tecnología existente, más mociones. Cada área tiene su estructura, y abogados y herramientas no son intercambiables a la ligera.

Y el problema que esa firma realmente necesita resolver está en un nivel superior: cómo gestionar simultáneamente cada área, como un socio principal que administra cientos de asuntos en paralelo, introduce nuevos casos y entrena a los abogados asistentes. Transformar esa organización no es solo definir una tarea de evaluación. Requiere un gestor que maneje todo como un «béisbol de datos»: objetivos intermedios borrosos, retroalimentación incompleta, ciclos largos, y un entorno que no se detiene.

Desafortunadamente, el valor inentrenable también es difícil de vender, por la misma razón que no puede ser producto: una empresa no puede juzgar desde afuera si la IA puede realmente transformar su operación como muestran los benchmarks. Por eso, las empresas más fuertes dejan de intentar demostrarlo externamente, y en cambio, entran primero en la organización del cliente, y luego fijan el precio en función de los resultados.

Sierra solo cobra cuando su agente resuelve el problema del cliente; si el problema pasa a manos humanas, no cobra. Por eso, el precio se convierte en un mecanismo de evaluación. Y esto funciona porque Sierra tiene la autoridad para definir qué significa «resuelto». Devin de Cognition hizo algo similar en software, lanzando una «garantía de rendimiento». Solo cuando se entra con confianza en un sistema, se puede ofrecer esa garantía por los resultados.

Incluso en la capa de servicios de tokens —que todos consideran un commodity puro—, su rendimiento no es como un producto. Las mejores empresas de IA nativa concentran sus servicios en uno o dos proveedores, como Baseten o Fireworks. Porque, aunque el costo de cada token tenderá a la mercantilización, la fiabilidad en tráfico real y el acceso estable a capacidades computacionales escasas no se vuelven commodities. La decisión de dónde ofrecer inferencia y qué modelos usar son decisiones distintas. La única parte que realmente se asemeja a un producto en la inferencia, es el precio.

Una objeción común es: los laboratorios son tus proveedores, ¿por qué no usar sus productos propios a menor costo para arruinarte? ¿Por qué no revocar tu API y tomar el mercado? Esa es la versión más realista de esa sensación de desesperanza. Pero solo aplica cuando el nivel de modelos es un juego de un solo jugador.

Claramente, no es así. El nivel de modelos es más como una carrera de muerte entre tres y medio jugadores, con otros jugadores internacionales con avances unos seis meses atrás, y una coalición de desarrollo cinco veces mayor que el año pasado. Los clientes quieren competencia entre proveedores, y los laboratorios quieren cuota de mercado, no matar a ningún aplicación en particular.

Se puede ver esto en los mercados donde los laboratorios compiten abiertamente. En escenarios de chat con consumidores, los mejores modelos nunca ganan todo el mercado. ChatGPT ha mantenido su liderazgo en años de competencia real; la pérdida de cuota actual se debe a Gemini, y a la distribución de Android y búsqueda, no a que el modelo sea mejor. Anthropic, en predicciones y en el ambiente de internet, se considera que tiene el mejor modelo, pero en chat con consumidores no es un jugador principal, sino que ha construido su negocio en aplicaciones empresariales y codificación.

Si un modelo mejor no puede arrebatar usuarios en las aplicaciones más críticas, tampoco lo hará integrándose en un sistema hospitalario o en un sistema de responsabilidad bancaria. Hoy, las decisiones de los usuarios no solo se basan en capacidades de codificación. Si los modelos de vanguardia siguen siendo competitivos, las capas superiores de aplicaciones seguirán teniendo valor.

Si una tarea no puede ser evaluada desde afuera, alguien interno debe decidir qué es una buena respuesta. Y esa decisión es el juego completo. Cuantas más decisiones así se documenten, más se convertirán en benchmarks. Harvey publicó benchmarks en el campo legal, y Sierra en agentes de voz. La razón por la que tienes derecho a definir qué significa «bueno» en un campo, es porque ese campo ya te está usando. Y esas empresas han ganado ese derecho a través de la lucha en la adopción real.

La evaluación que realmente determina el flujo de dinero es privada, y se forma empresa por empresa: qué considera esa empresa como un buen trabajo en ese asunto. Y esto aún no termina, porque la profundidad del derecho supera cualquier prueba pública. OpenEvidence está consolidando qué respuestas clínicas son seguras.

Todo esto no es realmente «medición», sino juicios sobre qué es verdadero y qué es bueno. Estos juicios se escriben, hasta que se convierten en estándares que todos deben aceptar. Por más inteligentes que sean los laboratorios de modelos base, no pueden inventar estos estándares de la nada, porque solo existen en el interior del campo.

Esa autoridad suele residir en donde ya existe. Los abogados senior escriben benchmarks legales. Los médicos definen qué significa una respuesta clínica segura. «Resuelto» lo decide la empresa que ya tiene la relación con el cliente.

La frontera de absorción seguirá subiendo, porque aprenderemos a medir más trabajos, y lo que se pueda medir será absorbido. La superficie inentrenable se reducirá bajo los pies de quienes la sostienen, por lo que no basta con encontrar un lugar defendible y detenerse. Hay que seguir avanzando hacia lo que aún no puede ser evaluado, y seguir reevaluando y reinsurando riesgos.

En tareas estrechas, con datos privados y sistemas propios, puedes entrenar modelos de vanguardia y vencer en escenarios clave; ese modelo especializado será parte de tu barrera. Pero si compites solo con capacidades de modelos generalistas, será una guerra de capital, y perderás ante quienes tengan más potencia computacional. Esa es la trampa en la que caen las empresas con acceso superficial y tareas altamente legibles.

Cuando una empresa decide entrenar capacidades por encima de la vanguardia en tareas amplias, la victoria suele decidirse por la escala del centro de datos. El final no suele ser un campeón independiente, sino la venta a un jugador con suficiente potencia.

Todo esto es una estrategia defensiva. Lo más difícil es avanzar: decidir qué construir. Eso es lo que he estado buscando este año, y solo he encontrado tres veces. Los modelos no ayudan en eso. A dónde los diriges, ellos harán; pero no te dicen qué vale la pena dirigir. No puedes hacer benchmarks para eso, y por tanto, no puedes entrenarlos.

Por eso, los grandes no toman todo: defienden su territorio, y lo que viene después lo descubre alguien que antes encontró un uso. Quizá, la intención sea un insumo más escaso que la potencia.

Esa sensación de desesperanza tiene una mitad correcta. La capa delgada sí está siendo absorbida, y muchas cosas que parecen empresas, en realidad solo son envoltorios delgados. Pero su juicio sobre «qué queda después de la absorción» es equivocado. La mecánica está clara, pero el destino no.

Yo apuesto a que la dirección es esa: la inteligencia seguirá abaratándose, y el valor seguirá desplazándose hacia lugares que pocos modelos puedan alcanzar. Lo inentrenable es un valor con historia.

Por eso, entrar en uno de esos campos, hacer esas traducciones poco glamurosas, y empezar a definir qué es un buen resultado allí, es algo que alguien siempre hará. Los puntajes en benchmarks más citados este año, en realidad, son un mapa de frontera que pronto será inútil, y también una advertencia: una notificación a algunos de que están a punto de perder el derecho a definir qué es «bueno».

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado