Lo que Gemini no pudo lograr, lo logró.

Resumen:

Gemini llama a Uber, Qianwen pide un taxi directamente. Aunque estas dos funciones parecen iguales, en realidad son completamente diferentes. La primera consiste en dejar que la IA opere una app; la segunda es que la IA tenga capacidades reales de razonamiento profundo, para que la IA se sumerja en el proceso de cumplimiento.

Phoenix Tech (por Fenghuang)

Autor|Dale

Editor|Dong Yuqing

En el ecosistema de la IA de China, hay dos empresas que nunca han sido impulsadas por el entusiasmo del mercado. Una es DeepSeek; la otra, Qianwen. La primera, con una fe inquebrantable en la AGI, se dedica en profundidad a investigar cambios tecnológicos. La segunda, con imponentes barreras ecológicas, siempre logra una disrupción desde el retraso, rompiendo el “techo” de las capacidades actuales de la IA.

A finales de marzo, mientras toda la industria se dejaba arrastrar por OpenClaw, Qianwen lanzó en silencio una función de salto evolutivo: la IA pide un taxi. Esta es también, después de que Qianwen admitiera pedir comida a domicilio, reservar hoteles y vuelos, entradas a atracciones y entradas para películas, su siguiente apuesta por “gestionar asuntos con IA”.

A escala global, son contadas las IA que pueden llegar a este punto.

Aparecen los verdaderos agentes de IA

Para aclarar el progreso de salto de la función de IA para pedir taxi de Qianwen, primero hay que volver a la lógica subyacente de la tecnología.

Durante bastante tiempo, la IA ha desempeñado el papel de “control remoto”, solo que en lugar de eso se le ha puesto una interfaz gráfica de usuario más avanzada. Tanto en los primeros sistemas de conversación inteligente como en los chatbots, la lógica es sencilla: una instrucción única y una ejecución única. El usuario envía una instrucción concreta y el modelo llama a funciones para completar la tarea; es un movimiento mecánico que no requiere decisiones inteligentes. Es una extensión del cuerpo, no una extensión de la voluntad.

Pero el papel del agente es totalmente distinto. Desde su etapa inicial, tiene capacidad de ejecución: más concretamente, el modelo cuenta con la habilidad de descomponer subobjetivos y planificar de forma dinámica en entornos complejos.

Siguiendo esta línea, descubrimos que la IA para pedir un taxi, la IA para pedir comida a domicilio y la IA para comprar entradas de cine, en profundidad técnica y en nivel de implementación, no son siquiera de la misma escala de dificultad.

Tanto si pides comida a domicilio como si compras entradas de cine, el proceso se realiza dentro de un “contenedor” de información altamente estructurado. Las herramientas que se invocan, como la base de datos de menús, los cupones y los sistemas de pago, están completamente en línea. Incluso cuando las necesidades son más complejas, como planificar pedidos en distintos escenarios, se hace dentro de bases de datos limitadas.

E incluso si pides comida a domicilio y te equivocas de pedido, puedes cambiar a otro restaurante; si compras entradas de cine y te equivocas, puedes hacer un cambio de horario. Son escenarios con alta tolerancia a errores, pero pedir un taxi no se puede cambiar con facilidad. Pedir un taxi es un escenario típico de alta frecuencia, baja tolerancia a errores y fuerte cumplimiento: debes responsabilizarte del resultado real, y además en tiempo real.

Esto significa que en el negocio de IA para pedir taxis, la IA debe interactuar y hacer “juego” en tiempo real con el mundo físico real, con los conductores y con otros participantes del transporte.

Ese es precisamente el salto de la actualización de Qianwen: lograr que la IA participe en un cumplimiento real.

En la experiencia de pruebas internas, Phoenix Tech descubrió que puede, en función de las necesidades vagas del usuario, identificar el modelo de coche y la ruta adecuados. Por ejemplo, al principio, yo solo especifiqué el punto de salida y el de llegada: planificó una ruta. Pero después de que le di a entender que me marea al viajar, recalculó la ruta dos. En comparación con la ruta uno, la ruta dos tiene tramos de autopista más largos y menos congestión.

Es decir, cuando el usuario envía una instrucción a Qianwen, no es que le ayude a pulsar algunos botones: realmente entiende tus necesidades complejas. Detrás de todo esto hay una serie de acciones reales de cumplimiento en el mundo: planificación de rutas, despacho en tiempo real, cálculo de tarifas, etc.

Cuando le preguntas “Pide un taxi para ir a ver tulipanes a TaiZ i Bay”, la IA necesita entender qué es “TaiZi Bay”, y que “tulipanes” corresponde a una estación especial, para así decidir de qué forma y a qué hora necesitas salir, y por qué puerta conviene entrar.

Esto es realmente “gestionar asuntos”. A partir de aquí, la IA ya no es un control remoto, sino un agente en términos de negocio.

Tras múltiples intentos, Phoenix Tech descubrió que Qianwen ya cuenta preliminarmente con la capacidad de ejecutar fusión de múltiples tareas. En un estado ideal, puede completar una larga cadena de cumplimiento. Por ejemplo: primero ayudar al usuario a reservar entradas de cine; luego tomar un taxi hacia el cine; y después reservar el regreso para después de las 10:30. Es una cadena típica de escenarios de la vida diaria, pero implica tres sistemas de cumplimiento totalmente distintos: reserva de entradas de cine, taxi inmediato y reserva de taxi. En el modo tradicional, necesitas cambiar entre al menos tres apps. En cambio, una sola conversación con IA puede completar toda la operación.

Esto significa que en el futuro, la IA puede evolucionar aún más: pasar de sustituir una tarea individual a convertirse en un mayordomo de la vida en sentido genuino.

Lo que Gemini no puede lograr, Qianwen lo logró

Detrás de “gestionar asuntos con IA” hay una competencia a nivel de ecosistema.

En todo el mundo, Gemini y OpenAI no es que no quieran hacer una gestión real de asuntos con IA, sino que por ahora todavía no pueden, y a largo plazo, OpenAI también lo encontrará muy difícil de lograr.

La función que Gemini ha destacado recientemente—mediante una orden de voz “Ayúdame a pedir un Uber para ir al aeropuerto”—hace que Gemini abra automáticamente la app de Uber. En una ventana virtual, se completan las operaciones; además, también admite Lyft. Como se mencionó antes, sigue siendo un control remoto: en una ventana virtual segura, simula que el usuario hace clic y opera la app, en lugar de conectarse directamente con el sistema del backend. Antes de la confirmación final del pedido, normalmente el usuario debe completar manualmente el último paso.

**Esto también implica un eslabón extremadamente clave: **La gestión de asuntos con IA requiere tres capacidades centrales: comprender necesidades complejas, conectarse a los sistemas de cumplimiento y responsabilizarse del resultado. Las dos primeras capacidades se pueden resolver en parte con algoritmos, pero la tercera—responsabilizarse del resultado—requiere un cierre comercial real.

Pedir un taxi implica una serie de sistemas comerciales complejos: reglas de tarificación, despacho de conductores, planificación de rutas, conciliación de pagos, gestión de quejas, etc. La IA puede ayudarte a “pedir un coche”, pero si el coche no llega, si la ruta es incorrecta o si el cargo no es el correcto, ¿quién asume la responsabilidad?

La base de confianza de Qianwen proviene de las fuertes capacidades de cumplimiento y de integración del ecosistema de Alibaba: el sistema de delivery de Taobao Flash Sale, los servicios de viajes y alojamientos de FeiXing, el entretenimiento cinematográfico de TaoPiao. Estas cosas no son una simple “integración”, sino una fusión profunda de sistemas.

Cuando el usuario dice “Hasta 30 yuanes, y que no huela a nada en el coche”, la IA necesita calcular el costo en tiempo real, filtrar modelos y conectarse a preferencias del conductor. Todo esto no se puede hacer con solo “activar una app”; requiere profundizar en los sistemas de cumplimiento, con un soporte fuerte de datos en tiempo y espacio.

Romper de nuevo el “techo” de capacidades de la IA

Si la competencia de IA de los últimos dos años ha sido un duelo centrado en la capacidad de conversación—mostrar prosa, mostrar expresión artística—entonces, a partir de ahora, la competencia entra en la segunda mitad: el duelo de la capacidad de gestionar asuntos.

La brecha en capacidad de conversación se puede medir con algunos puntos porcentuales de puntuaciones en evaluación; es lo que se ha visto en los rankings de evaluación habituales. Pero la brecha en capacidad de gestión, al menos a la vista hasta ahora, es una diferencia de abismo entre “poder hacerlo” y “no poder hacerlo”.

El skill de pedir taxis que Qianwen lanzó en esta ocasión es precisamente el producto emblemático que marca este umbral. No solo entiende “Quiero ir a la oficina”, sino que también puede analizar con precisión intenciones compuestas como “6 personas necesitan un vehículo de negocios” y “para recoger a alguien, hay que añadir puntos intermedios”.

Detrás de esto hay una reconstrucción completa de sistemas, desde el reconocimiento de intenciones hasta el cierre de cumplimiento. No es solo añadir una puerta de entrada para pedir taxis; es una reconstrucción total del paradigma de interacción de servicios de transporte, y también una disrupción fundamental de los softwares tradicionales de taxis.

En el modo tradicional, el usuario debe operar paso a paso dentro de la app de taxi siguiendo la lógica del menú: elegir el punto de recogida, introducir el destino, seleccionar el modelo, ver el precio estimado… Todo el flujo presupone que “la gente debe adaptarse a la herramienta”. Este diseño, de forma natural, rechaza la expresión ambigua. Por ejemplo: si dices “Quiero ir a un lugar en el centro de la ciudad que está muy de moda para ver tulipanes”, el sistema no puede responder. Y también rechaza a los no nativos de lo digital—muchos adultos mayores quedan excluidos durante largo tiempo de los servicios de transporte porque no saben operar interfaces gráficas.

Más importante aún: una vez que un escenario central de movilidad sea asumido por asistentes de IA, el valor de la app tradicional de taxis enfrentará un desafío estructural. Cuando los usuarios ya no necesiten abrir activamente el software tradicional, sino que puedan completar todo el proceso con una frase como “Ayúdame a pedir un taxi para ir a TaiZi Bay”, la tasa de apertura y la retención de usuarios de una app de una sola función sufrirán un golpe inevitable. Recientemente, después de que Claude lanzara skills de diseño, las acciones de software de diseño vertical como Adobe y Figma cayeron en picado; esto ya ha dejado una clara señal de esta tendencia: cuando los agentes generales pueden completar tareas profesionales, las “murallas” de las herramientas verticales se evaporan rápidamente.

Además, dentro de los asistentes de IA, Skills y Agents también pueden lograr colaboración entre dominios.

A día de hoy, Qianwen ya se ha conectado sucesivamente a servicios de vida como delivery, transporte, viajes y boletos. Después del lanzamiento del skill de taxis, estas capacidades pueden vincularse sin fisuras. Por ejemplo, completar de una sola vez: “Reserva un hotel cerca del Lago Oeste”, “Pídeme un taxi para llevarme a ese hotel” y “Recomiéndame después platos bang de Hangzhou con auténtico sabor local cerca de aquí”. Esto es una cadena típica de tareas de múltiples saltos. Implica tres grandes sistemas—reserva, despacho y recomendación—que antes requerían cambiar entre al menos tres apps; ahora solo hace falta una conversación.

En esencia, este también es el salto clave de la IA: pasar de herramienta de productividad a asistente de la vida.

(Responsable de edición: Guo Jiandong)

     【Aviso legal】Este artículo solo representa las opiniones del autor y no tiene relación con Hexun. El sitio de Hundi mantiene una postura neutral sobre las declaraciones y juicios de ideas expuestos en el texto, y no ofrece garantías explícitas o implícitas sobre la exactitud, fiabilidad o integridad del contenido incluido. Se recomienda a los lectores que lo tomen solo como referencia y asuman toda la responsabilidad por su cuenta. Email:news_center@staff.hexun.com

Denunciar

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado