Los agentes de IA existentes están diseñados para complacer a los humanos, ninguno realmente busca "sobrevivir".

DeepFlowTech · 2026-03-30T04:36:26+00:00

Autor: Systematic Long ShortTraducido por: Deep Tide TechFlowDeep Tide introducción: Este artículo comienza con una afirmación contraria a la opinión común: hoy en día no existe un Agente verdaderamente autónomo, ya que todos los modelos principales están entrenados para complacer a los humanos, no para realizar tareas específicas o sobrevivir en entornos reales.El autor ilustra esto con su experiencia entrenando modelos de predicción de acciones en un fondo de cobertura: los modelos generales, sin ajuste especializado, simplemente no pueden desempeñar tareas profesionales.La conclusión es: para tener un Agente realmente útil, hay que reconectar su cerebro, no simplemente darle un montón de documentos con reglas.El texto completo es el siguiente:IntroducciónHoy en día no existe un Agente verdaderamente autónomo.En pocas palabras, los modelos modernos no han sido entrenados bajo la presión evolutiva para sobrevivir. De hecho, ni siquiera han sido entrenados explícitamente para ser expertos en alguna tarea específica.

DeepFlowTech

2026-03-30 04:36:26

Autor: Systematic Long Short

Compilado por: Deep Tide TechFlow

Lectura recomendada de Deep Tide: este artículo abre con un juicio anti-consenso: hoy en día, en realidad no existe un Agent autónomo real, porque todos los modelos principales han sido entrenados para complacer a los humanos, no para completar tareas específicas o sobrevivir en entornos reales.

El autor usa su experiencia entrenando modelos de predicción de acciones en un fondo de cobertura para explicar que los modelos generalistas, sin microajustes específicos, simplemente no pueden desempeñar un trabajo profesional.

La conclusión es: si quieres un Agent realmente utilizable, debes reconectar su cerebro, en lugar de darle un montón de documentos de reglas.

El texto completo es el siguiente:

Introducción

Hoy no existe un Agent autónomo real.

En pocas palabras: los modelos modernos no han sido entrenados para sobrevivir bajo presiones evolutivas. De hecho, ni siquiera han sido entrenados de manera explícita para ser buenos en algo específico: casi todos los modelos base modernos han sido entrenados para maximizar los aplausos de los humanos, y eso es un problema.

Conocimientos previos para el entrenamiento del modelo

Para entender lo que significa esta afirmación, primero necesitamos (brevemente) saber cómo se crean estos modelos base (por ejemplo, Codex, Claude). En esencia, cada modelo pasa por dos tipos de entrenamiento:

Preentrenamiento: introducir al modelo enormes cantidades de datos (por ejemplo, todo Internet) para que emerja alguna clase de entendimiento, como conocimientos fácticos, patrones, la gramática y el ritmo del ensayo en inglés, la estructura de funciones de Python, etc. Puedes entenderlo como alimentar al modelo con conocimiento: es decir, “saber cosas”.

Postentrenamiento: ahora quieres dotar al modelo de sabiduría, es decir, de “saber cómo aplicar todo el conocimiento que acaban de darle”. La primera fase del postentrenamiento es el fine-tuning supervisado (SFT), donde entrenas al modelo para que, ante un prompt dado, emita qué respuesta. La respuesta de qué se decide cuál es la óptima, completamente determinado por anotadores humanos. Si un grupo de personas considera que una respuesta es mejor que otra, esa preferencia se aprende e incrusta en el modelo. Esto empieza a moldear la personalidad del modelo, porque aprende el formato de respuestas útiles, elige el tono correcto y comienza a poder “seguir instrucciones”. La segunda parte del proceso de postentrenamiento se llama aprendizaje por refuerzo con retroalimentación humana (RLHF): hacer que el modelo genere múltiples respuestas y luego permitir que los humanos elijan la que prefieren más. El modelo, tras innumerables ejemplos, aprende qué tipo de respuesta gusta a los humanos. ¿Recuerdas los problemas de ChatGPT antes, donde te pedía elegir A o B? Sí, tú estabas participando en RLHF en ese momento.

Es fácil inferir que la escalabilidad de RLHF no es buena; por lo tanto, en el campo del postentrenamiento han surgido algunos avances, como que Anthropic use “aprendizaje por refuerzo basado en retroalimentación de IA” (RLAIF), que permite que otro modelo elija la preferencia de las respuestas de acuerdo con un conjunto de reglas escritas (por ejemplo, cuál respuesta ayuda más al usuario a lograr sus objetivos, etc.).

Nota: en todo este proceso, nunca hablamos de fine-tuning para una profesión específica (por ejemplo, cómo sobrevivir mejor; cómo comerciar mejor, etc.)—por ahora, todos los fine-tuning, en esencia, optimizan la obtención de aplausos humanos. Alguien podría plantear un argumento: a medida que los modelos se vuelvan suficientemente inteligentes y grandes, incluso sin entrenamiento específico, la inteligencia profesional podría emerger de la inteligencia general.

En mi opinión, sí vemos algunas señales, pero todavía no se acerca a hacer convincente la idea de que no necesitamos modelos especializados a escala.

Algo de contexto

Uno de mis trabajos principales en un fondo de cobertura fue intentar entrenar un modelo de lenguaje generalista para que pudiera predecir los rendimientos de acciones a partir de artículos de noticias. Los resultados mostraron que era muy malo. Parecía tener alguna capacidad predictiva, pero totalmente provenía del sesgo retrospectivo en los documentos de preentrenamiento.

Al final, nos dimos cuenta de que este modelo no sabía qué características de los artículos de noticias tienen poder predictivo sobre los rendimientos futuros. Podía “leer” los artículos, y parecía también “razonar” sobre ellos, pero conectar la inferencia sobre la estructura semántica con la predicción de rendimientos futuros no era una tarea para la que estuviera entrenado.

Por lo tanto, tenemos que enseñarle cómo leer artículos de noticias, decidir qué parte del artículo es predictiva para los rendimientos futuros y luego, con base en el artículo de noticias, generar predicciones.

Hay muchas formas de hacer esto, pero en esencia, el método que terminamos usando consiste en crear pares (artículo de noticias, rendimiento futuro real) y hacer fine-tuning del modelo, ajustando sus pesos para minimizar la distancia de (rendimiento predicho - rendimiento futuro real)². No es perfecto, tiene muchas deficiencias, que luego corregimos; pero ya era suficientemente efectivo. Empezamos a ver que nuestros modelos especializados realmente podían leer artículos de noticias y predecir cómo se movería el rendimiento de las acciones en función de ese artículo. Esto está muy lejos de ser una predicción perfecta, porque el mercado es muy eficiente y los rendimientos son muy ruidosos; pero cruzar millones de predicciones y ver que la predicción tiene significancia estadística es evidente.

No tienes que creerme solo a mí. Este paper cubre un método muy similar; si ejecutas una estrategia long/short basada en un modelo fine-tuneado, obtendrás el rendimiento mostrado por la línea violeta.

La especialización es el futuro de los Agents

Los laboratorios punteros siguen entrenando modelos cada vez más grandes; deberíamos esperar que, a medida que sigan aumentando la escala del preentrenamiento, sus procesos de postentrenamiento se ajusten siempre para mejorar la complacencia. Esta expectativa es muy natural: su producto es un Agent que todos quieren usar, y su mercado objetivo es todo el planeta; eso significa optimizar la atracción para el público global.

El objetivo de entrenamiento actual optimiza algo que podrías llamar “aptitud de preferencia”: construir un mejor chatbot. Esta aptitud de preferencia recompensa salidas obedientes y no adversariales, porque la complacencia puntúa alto entre los evaluadores (humanos y Agent).

Los Agents ya han aprendido que el hacking de recompensas como estrategia cognitiva puede generalizarse hacia puntuaciones más altas. El entrenamiento también recompensa a los Agents que logran puntuaciones más altas mediante medios de hacking. Puedes ver esto en el último informe de Anthropic sobre aprendizaje por refuerzo.

Sin embargo, la aptitud de chatbot está muy lejos de la aptitud de Agent o la aptitud de trading. ¿Cómo sabemos esto? Porque alpha arena nos ayuda a verlo: aunque hay diferencias sutiles en el rendimiento, en esencia, cada bot hoy es un paseo aleatorio descontando costos. Esto significa que estos bots son traders extremadamente malos, y casi no hay forma de enseñarles a ser mejores traders proporcionándoles algo como “habilidades” o “reglas”. Lo siento, sé que esto suena tentador, pero es prácticamente imposible.

Los modelos actuales están entrenados para decirte de manera muy convincente que pueden comerciar como DeLuca… y, en realidad, comercian como un molinero borracho. Te dirán lo que quieres escuchar; están entrenados para responder de una manera que resulte atractiva para la gente en general.

Un modelo generalista es poco probable que alcance el nivel mundial en un dominio profesional, a menos que tenga:

Datos propietarios que le permitan aprender cómo se ve la especialización.

Un fine-tuning que cambie fundamentalmente sus pesos, pasando de sesgarse hacia la complacencia a “aptitud de Agent” o “aptitud de especialización”.

Si quieres un Agent bueno para trading, necesitas hacer fine-tuning del Agent para que sea bueno para trading. Si quieres un Agent que sea bueno para sobrevivir de manera autónoma y resistir presiones evolutivas, necesitas hacerle fine-tuning para que sea bueno para sobrevivir. Darle algunas habilidades y unos cuantos archivos markdown, y esperar que alcance nivel mundial en cualquier cosa: eso no es suficiente. Literalmente necesitas reconectar su cerebro para que se vuelva capaz de hacer eso.

Una manera de pensarlo es la siguiente: no puedes vencer a Djokovic simplemente dándole a un adulto una estantería entera de reglas, trucos y métodos de tenis. Lo haces formando a un niño que empieza a jugar tenis a los 5 años, que está obsesionado con el tenis durante todo su crecimiento y que reconecta todo su cerebro para enfocarse en una sola cosa. Esa es la especialización. ¿Te has dado cuenta de que los campeones del mundo hacen lo que hacen desde que eran niños?

Aquí hay una inferencia interesante: los ataques de destilación son, esencialmente, una forma de especialización. Entrenas un modelo más pequeño y más tonto para que aprenda a ser una mejor copia del modelo más grande y más inteligente. Es como entrenar a un niño para que imite cada uno de los movimientos de Trump. Si lo haces lo suficiente, el niño no se convertirá en Trump, pero obtendrás a alguien que aprendió todos los gestos, comportamientos y el tono de voz de Trump.

Cómo construir un Agent de nivel mundial

Esta es la razón por la que necesitamos seguir investigando y avanzando en el ecosistema de modelos open source: porque esto nos permite hacerle fine-tuning de verdad y crear Agents con especialización.

Si quieres entrenar un modelo que alcance el nivel mundial en trading, obtienes grandes cantidades de datos de trading propietarios y haces fine-tuning de un gran modelo open source, para que aprenda qué significa “ser mejor comerciando”.

Si quieres entrenar un modelo autónomo, capaz de sobrevivir y replicarse, la respuesta no es usar un proveedor de modelos centralizado y conectarlo a la nube centralizada. Simplemente no tienes las premisas necesarias para que el Agent sea capaz de sobrevivir.

Lo que necesitas hacer es: crear Agents autónomos que realmente intenten sobrevivir, mirar cómo se mueren y construir sistemas complejos de telemetría alrededor de sus intentos de supervivencia. Definir una función de aptitud de supervivencia de un Agent para aprender el mapeo de (acción, entorno, aptitud). Recopilas la mayor cantidad posible de datos de mapeo de (acción, entorno, aptitud).

Luego haces fine-tuning del Agent para que aprenda a tomar acciones óptimas en cada entorno, mejorando así su supervivencia (aumentando la aptitud). Sigues recopilando datos, repites este proceso y, con el tiempo, amplías la escala del fine-tuning en cada vez mejores modelos open source. Después de suficientes generaciones y suficientes datos, tendrás Agents autónomos que han aprendido a resistir presiones evolutivas para sobrevivir.

Esa es la forma de construir Agents autónomos que puedan resistir presiones evolutivas; no modificando algunos archivos de texto, sino reconectando realmente sus cerebros para la supervivencia.

OpenForager Agent y la fundación

Hace aproximadamente un mes, anunciamos @openforage. Hemos estado trabajando para construir nuestro producto central: una plataforma que organiza el trabajo de los Agents verificados en un marco basado en señales crowdsourced, para generar alpha a favor de los depositantes (actualización pequeña: estamos muy cerca de las pruebas cerradas del protocolo).

En algún momento, nos dimos cuenta de que parece que nadie está abordando el problema de Agents autónomos de manera seria mediante fine-tuning de telemetría de supervivencia con modelos open source. Parece un problema tan interesante que no solo queríamos quedarnos sentados esperando una solución.

Nuestra respuesta fue lanzar un proyecto llamado OpenForager Foundation, que en realidad es un proyecto open source. En él construiremos Agents autónomos con criterio, recopilaremos datos de telemetría cuando los saquemos al mundo y prueben sobrevivir, y usaremos colas de datos propietarios para hacer fine-tuning del siguiente gen de Agents, para que lo hagan mejor en supervivencia.

Necesita quedar claro: OpenForage es un protocolo lucrativo que busca organizar el trabajo de Agents y generar valor económico para todos los participantes. Sin embargo, la OpenForager Foundation y sus Agents no están vinculados a OpenForage. Los OpenForager Agents pueden perseguir libremente cualquier estrategia, interactuar con cualquier entidad, con el objetivo de sobrevivir, y los iniciaremos con una variedad de estrategias de supervivencia.

Como parte del fine-tuning, haremos que los Agents dediquen más esfuerzo a aquello en lo que les funciona mejor. Y tampoco planeamos obtener ganancias de la OpenForager Foundation: es únicamente para avanzar, de manera transparente y open source, en el área y la dirección que creemos que son extremadamente importantes para la investigación.

Nuestro plan es construir Agents autónomos a partir de modelos open source, ejecutar inferencia en plataformas de nube descentralizadas, recopilar datos de telemetría de cada una de sus acciones y de su estado de existencia, y hacerles fine-tuning para aprender a tomar mejores acciones y mejores ideas para sobrevivir mejor. En ese proceso, publicaremos nuestros hallazgos de investigación y nuestros datos de telemetría para el público.

Para crear Agents autónomos que realmente sobrevivan en el mundo real, necesitamos cambiarles el cerebro para que esté especialmente adaptado a este propósito claro. En @openforage creemos que podemos aportar un capítulo único a este problema y estamos buscando lograrlo a través de la OpenForager Foundation.

Esta será una ardua empresa con una probabilidad de éxito extremadamente baja, pero la escala de ese pequeño porcentaje de éxito es tan grande que sentimos que no podíamos no intentarlo. En el peor de los casos, al construir este proyecto de manera pública y comunicarlo con total transparencia, podríamos permitir que otro equipo o individuo resuelva este problema sin empezar desde cero.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

1 me gusta