Xiaomi y MiniMax lanzan grandes movimientos simultáneamente, la guerra de precios de Agent comienza oficialmente

robot
Generación de resúmenes en curso

18 y 19 de marzo, dos empresas chinas lanzaron sus grandes modelos de agentes en diferentes direcciones. La startup de IA nacional MiniMax presentó M2.7, y el equipo de modelos de Xiaomi, MiMo, lanzó V2-Pro. Ambos modelos están en el primer nivel mundial en el benchmark Agent, pero sus precios de API son 1/21 y 1/8 de Claude Opus 4.6, respectivamente.

Las dos empresas lanzaron en la misma semana, pero sus cartas son completamente diferentes. Representan dos rutas tecnológicas distintas, apostando por dos futuros diferentes en la era de los agentes.

La misma prueba, una matrícula de 1/17

Veamos la comparación más directa.

Según datos de OpenRouter y las páginas oficiales de precios de las empresas, en base al precio por salida de API (por millón de tokens), MiniMax M2.7 cuesta 1.2 dólares, y MiMo-V2-Pro cuesta 3 dólares. Como referencia, el precio de salida de Claude Opus 4.6 es 25 dólares, GPT-5.2 es 14 dólares, y Claude Sonnet 4.6 es 15 dólares.

La diferencia de precios es de varias órdenes de magnitud, pero la diferencia de capacidades no lo es. En SWE-bench Verified (el benchmark más popular actualmente para medir habilidades de ingeniería de código), MiMo-V2-Pro obtiene un 78%, Sonnet 4.6 un 79.6%, con una diferencia de menos de dos puntos porcentuales. M2.7 tiene un 56.22% en SWE-Pro, igualando a GPT-5.3-Codex. En VIBE-Pro (capacidad de entrega de proyectos de extremo a extremo), M2.7 alcanza un 55.6%, cerca del nivel de Opus 4.6.

El enfoque de esta gráfica no es quién es mejor o peor—los sistemas de benchmark de cada uno no están completamente alineados, por lo que la comparación directa debe hacerse con cautela. El punto clave es la «brecha de precio-rendimiento»: los modelos de agentes nacionales ya están en el mismo rango de capacidades, pero en rangos de precios completamente diferentes.

Billones de parámetros vs autoevolución

El precio es solo una apariencia. Ambas empresas han presentado dos estrategias completamente diferentes.

MiMo-V2-Pro sigue la ruta de «gran esfuerzo, milagros». Según un anuncio oficial de Xiaomi, V2-Pro tiene más de un billón de parámetros en total, con 42B activados, y soporta contextos ultra largos de 1 millón de tokens. Su innovación principal es la atención híbrida (Hybrid Attention), que combina atención de ventana deslizante (SWA) y atención global (GA) en una proporción de 7:1—su predecesor V2-Flash era 5:1. Esta arquitectura hace que el modelo sea más estable al manejar documentos largos y llamadas paralelas a múltiples herramientas en escenarios de agentes. En PinchBench (evaluación de capacidad de llamadas a herramientas de agentes), obtiene un 84%.

M2.7 tomó un camino completamente diferente. Según el blog técnico oficial publicado por MiniMax el 18 de marzo, el número de parámetros de M2.7 no se ha divulgado, pero muestra un mecanismo de «autoevolución iterativa»: el modelo realiza más de 100 ciclos de optimización autónoma, incluyendo análisis de fallos, planificación de modificaciones, cambios en su propia arquitectura, evaluación y ciclos repetidos, logrando una mejora del 30% en rendimiento en conjuntos de evaluación internos. En las 22 tareas de alta dificultad de MLE Bench Lite (evaluación de dificultad en competencias de aprendizaje automático), M2.7 obtuvo 9 medallas de oro, 5 de plata y 1 de bronce, con una tasa de medallas promedio del 66.6%.

Desde cinco dimensiones, las dos rutas muestran enfoques completamente diferentes: MiMo-V2-Pro destaca en longitud de contexto y capacidades de ingeniería de código, mientras que M2.7 se diferencia en automatización de oficina y capacidad de autoevolución. Según el mismo blog técnico de MiniMax, M2.7 obtiene un ELO de 1495 en GDPval-AA (evaluación de procesamiento de documentos de oficina), siendo el mejor modelo de código abierto, y mantiene una tasa de cumplimiento del 97% en la prueba MM-Claw, que cubre más de 40 habilidades complejas.

Cinco meses, cuatro versiones

No solo las rutas tecnológicas son diferentes, sino también el ritmo de iteración.

Según registros públicos, MiniMax lanzó M2 en octubre de 2025 y M2.7 en marzo de 2026, en cinco meses, con cuatro versiones principales, con un promedio de 49 días entre cada gran lanzamiento. La diferencia entre M2.5 y M2.7 fue solo de unos 30 días.

El ritmo de Xiaomi con MiMo fue diferente: en abril de 2025 lanzó MiMo-7B (modelo de inferencia de código abierto de 7B de parámetros), en diciembre del mismo año lanzó V2-Flash (con 309B en total), y en marzo de 2026 lanzó V2-Pro (con 1T en total). Cada generación tiene un tamaño de parámetros mucho mayor, pero los intervalos entre versiones también son más largos.

MiniMax optó por pasos pequeños y rápidos, con cambios moderados en cada iteración, y su mecanismo de autoevolución está diseñado para «evolución continua». Xiaomi, en cambio, optó por golpes de fuerza, con cada versión representando un salto importante en tamaño y arquitectura.

Ocho días anónimos, alcanzando la cima en OpenRouter

Además de las rutas tecnológicas, la estrategia de lanzamiento de Xiaomi también rompe con las convenciones del sector.

Según Reuters, el 11 de marzo apareció en la plataforma de API agregadora más grande del mundo, OpenRouter, un modelo anónimo llamado Hunter Alpha. Sin marca, sin conferencia de lanzamiento, sin blog técnico. Su precio de API es muy bajo, pero su rendimiento sorprendentemente fuerte.

La comunidad empezó a especular sobre su origen. Según Republic World y varios medios tecnológicos, la hipótesis más aceptada es que se trata de DeepSeek V4, ya que el responsable del equipo de MiMo, Luo Fuli, trabajó anteriormente en DeepSeek. La cantidad de llamadas aumentó rápidamente, y durante el período anónimo superó los 1 billón de tokens, alcanzando el primer puesto en la lista semanal de OpenRouter.

La madrugada del 19 de marzo, Xiaomi reveló: Hunter Alpha es en realidad MiMo-V2-Pro. Según el mismo informe de Reuters, tras la revelación, las acciones de Xiaomi en Hong Kong subieron hasta un 5.8%.

Es la primera vez que un gran modelo nacional demuestra su capacidad en una plataforma global mediante una prueba ciega pura. Sin depender de marca ni publicidad, en solo 8 días logró que los desarrolladores votaran con sus pies.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado