¡Qué desastre! ¡Los traders de IA se hunden en conjunto, perdiendo un tercio en dos semanas, ¿los minoristas todavía se atreven a confiar su dinero a las máquinas?

Question

La inteligencia artificial está tocando la puerta de Wall Street, pero la primera hoja de resultados que presenta es tan fea como una escena de accidente.

Una serie de datos preliminares de competencias de trading público muestran que los modelos de lenguaje grandes dominantes en operaciones autónomas generalmente tienen un rendimiento pobre — la mayoría de los sistemas registran pérdidas, con una frecuencia de operaciones increíblemente alta, y decisiones completamente diferentes ante la misma instrucción.

El ejemplo más típico proviene de la competencia Alpha Arena operada por la startup tecnológica Nof1. Colocaron ocho sistemas de IA de vanguardia, como Claude de Anthropic, Gemini de Google, ChatGPT de OpenAI, Grok de Elon Musk, en cuatro rondas de competencia, dando a cada modelo 10,000 dólares antes de cada ronda, y permitiéndoles hacer operaciones autónomas en acciones tecnológicas estadounidenses durante dos semanas.

¿Y los resultados? La cartera de inversión en general perdió aproximadamente un tercio. De las 32 operaciones, solo 6 fueron rentables. Jay Azhang, fundador de Nof1, fue directo: “Ahora mismo, entregar dinero directamente a los grandes modelos para que operen por sí mismos, no funciona.”

Los datos revelan múltiples defectos de la IA en escenarios de trading. Por ejemplo, con las mismas instrucciones, Qwen de Alibaba realizó 1,418 operaciones en una ronda, mientras que Grok, el mejor, solo hizo 158. La mejor actuación de Grok ocurrió en la ronda en la que pudo observar el rendimiento de sus competidores.

El blog de IA Flat Circle rastreó 11 arenas de mercado relacionadas, y los resultados muestran que en cada arena al menos un modelo logró beneficios, pero solo en dos arenas la mediana de los modelos fue positiva — la mayoría no logra superar al mercado.

Las diferencias en las decisiones entre modelos son aún más problemáticas. Azhang explicó que en la última ronda de Alpha Arena, Claude tendía a ir en largo, Gemini no tenía resistencia a ir en corto, y Qwen prefería apalancarse mucho y arriesgarse.

Doug Clinton, responsable de Intelligent Alpha, que gestiona fondos impulsados por LLM, dijo: “Cada uno tiene su ‘personalidad’, gestionar estos modelos es casi como gestionar a un analista humano.” Pero, al informar a los modelos sobre ciertos sesgos, se puede mejorar los resultados en cierta medida.

Azhang señaló que los grandes modelos tienen ventajas en investigación y en el uso de herramientas, pero en la ejecución de operaciones tienen claras deficiencias: no comprenden bien cómo ponderar variables como calificaciones de analistas, operaciones internas, cambios de sentimiento, por lo que compran en picos y venden en mínimos, y no gestionan bien las posiciones.

Las pruebas de referencia de Intelligent Alpha ofrecen un marco relativamente positivo. Proporcionaron a 10 modelos de IA acceso a informes financieros, predicciones de analistas, registros de llamadas de resultados, datos macroeconómicos y búsquedas en internet, y solo juzgaron la dirección de las predicciones de beneficios. En el cuarto trimestre de 2025, ChatGPT alcanzó una precisión del 68%, logrando la mejor marca. Clinton afirmó que cada nueva versión del modelo muestra una mejora general en el rendimiento.

Hay un obstáculo metodológico fundamental para evaluar la capacidad de trading de la IA: las estrategias cuantitativas tradicionales se validan con backtesting histórico, pero esto casi no funciona con grandes modelos — un modelo preguntado en 2026 sobre cómo operar en marzo de 2020 ya “sabe” la tendencia de esa historia. Este “sesgo prospectivo” obliga a los investigadores a evaluar en vivo, lo que ha llevado a la proliferación de muchas arenas de competencia.

Jim Moran, cofundador del blog Flat Circle y ex socio de YipitData, una firma de datos alternativos, opina que la mayoría de los experimentos públicos actuales son demasiado cortos y ruidosos, y no permiten conclusiones definitivas. Además, estas arenas tienen desventajas inherentes, como la falta de recursos exclusivos de investigación sobre acciones y la baja calidad de ejecución. “Si trasladáramos un AI de estas arenas a un fondo de cobertura de primer nivel, probablemente rendiría mejor,” afirmó.

Alexander Izydorczyk, ex jefe de ciencia de datos en Coatue Management y actual en NX1 Capital, escribió recientemente que ninguno de los robots de trading de IA que sigue muestra una capacidad sostenida de obtener beneficios excesivos. Cree que las limitaciones de estas arenas radican en que los datos de entrenamiento carecen de las técnicas cuantitativas secretas que usan las instituciones de trading profesionales.

Pero dejó una reflexión interesante: “A veces, los principiantes ven cosas que los expertos no ven.” En su blog personal, escribió: “Cuando los agentes de grandes modelos realmente comiencen a tener éxito en las estrategias de trading, no escucharás nada de inmediato.”

Nof1 está preparando la segunda temporada de Alpha Arena, con planes de dar a cada modelo de IA búsquedas en internet, más tiempo para pensar, más fuentes de datos y capacidades de ejecución en múltiples pasos. Pero el núcleo de su modelo de negocio es ofrecer a los inversores minoristas herramientas para construir sus propios agentes de trading con IA — no poner directamente la IA en las mesas de operaciones.

Tal enfoque, quizás, ya sea la nota más práctica sobre las capacidades actuales de la IA en trading.

¡Qué desastre! ¡Los traders de IA se hunden en conjunto, perdiendo un tercio en dos semanas, ¿los minoristas todavía se atreven a confiar su dinero a las máquinas?

Temas de actualidad

GateSquareMayTradingShare

BTCPullback

IsraelStrikesIranBTCPlunges

CLARITYActStalled

CryptoStocksRally

Anclado