O que a Gemini não conseguiu fazer, a Qianwen conseguiu

Resumo:

O Gemini chama um Uber, o Qianwen chama directamente um carro; estas duas funcionalidades que parecem semelhantes são, na verdade, completamente diferentes. A primeira faz com que a IA opere uma aplicação; a segunda dá verdadeiramente à IA capacidade de raciocínio profundo, permitindo que a IA mergulhe no processo de cumprimento.

Phoenix News Technology

Produção | Dale

Editor | Dong Yuqing

No ecossistema de IA da China, existem duas casas que nunca foram impulsionadas por modas. Uma é a DeepSeek. A outra é o Qianwen. A primeira, com a crença AGI de foco absoluto, dedica-se ao estudo profundo das mudanças tecnológicas. A segunda, com barreiras ecológicas poderosas, garante sempre a disrupção tardia, furando o “tecto” das capacidades actuais de IA.

No fim de Março, quando toda a indústria era arrastada pelo OpenClaw, o Qianwen lançou em silêncio uma funcionalidade em salto — AI de chamar táxi; este é também, depois de o Qianwen suportar encomendar comida, reservar hotéis e bilhetes de avião para locais turísticos e comprar bilhetes de cinema, um investimento adicional no “tratamento de tarefas por IA”.

No mundo inteiro, apenas um punhado de IAs consegue chegar a este ponto.

O verdadeiro agente de IA apareceu

Para esclarecer o salto progressivo desta funcionalidade de AI de chamar táxi do Qianwen, é preciso primeiro regressar à lógica subjacente da tecnologia.

Durante um período de tempo considerável, a IA tem desempenhado o papel de “telecomando”. A única diferença é que foi substituído por uma interface de utilizador gráfica mais avançada. Quer nos primeiros tipos de conversa inteligente, quer nos chatbots, a lógica é simples: instrução única, execução única. O utilizador envia uma instrução específica, o modelo chama funções para concluir a tarefa — um movimento mecânico que não necessita de decisões inteligentes. É extensão dos membros, não extensão da vontade.

Mas o papel de um agente é completamente diferente: inicialmente possui capacidade de execução — mais concretamente, o modelo tem capacidade de decompor objectivos subordinados e de fazer planeamento dinâmico num ambiente complexo.

Seguindo esta linha, verificamos que a AI de chamar táxi, a AI de encomendar comida e a AI de comprar bilhetes de cinema, em termos de profundidade tecnológica e de implementação no terreno, não são, de forma alguma, do mesmo nível de dificuldade.

Quer seja encomendar comida ou comprar bilhetes de cinema, o processo ocorre numa “caixa” altamente estruturada de informação. As ferramentas que chama, como a base de dados de menus, cupons e sistemas de pagamento, estão tudo online; mesmo que as necessidades sejam ainda mais complexas — por exemplo, planear pedidos em diferentes cenários — tudo é feito dentro de bases de dados limitadas.

Além disso, mesmo quando se erra ao encomendar comida e se pode trocar por outra; ou quando se compra um bilhete de cinema incorrecto e se pode reagendar — estes são cenários com alta tolerância a erros. Mas chamar um táxi não pode ser facilmente trocado. Chamar um táxi é um cenário típico de alta frequência, baixa tolerância a erro e forte exigência de cumprimento — tens de ser responsável pelo resultado real, e tens de o ser em tempo real.

Isto significa que, num negócio de chamar táxi com IA, a IA tem de interagir e fazer “jogo de apostas” em tempo real com o mundo físico real, com o motorista e com outros intervenientes no transporte.

Este é precisamente o salto desta actualização do Qianwen: fazer com que a IA participe no cumprimento real.

Na experiência de pré-teste conduzida pela Phoenix News Technology, foi descoberto que a IA consegue, com base em necessidades vagas do utilizador, identificar o modelo de carro e a rota adequados. Por exemplo, inicialmente, tal como eu apenas indiquei o ponto de partida e o destino, ela planeou uma rota A; mas depois de eu avisar que fico enjoado de carro, ela replaneou para uma rota B, que comparada com a rota A tem troços de auto-estrada mais longos e menos congestionamento.

Ou seja, quando o utilizador dá instruções ao Qianwen, não é apenas ajudar-te a carregar em alguns botões: é compreender verdadeiramente as tuas necessidades complexas. Por trás disso estão uma série de acções reais de cumprimento, como planeamento de rota, despacho em tempo real, cálculo de custos, entre outras.

Quando perguntas “Chamar um táxi para ver tulipas na Baía do Príncipe”, a IA precisa de compreender o que é “Baía do Príncipe”, o que “tulipas” corresponde a uma estação especial; depois, determinar que horas precisas de sair e por que porta é mais conveniente entrar.

Isto é o verdadeiro “tratar de assuntos” — a partir daqui, a IA já não é um telecomando, mas sim um agente do negócio.

Depois de várias tentativas, a Phoenix News Technology descobriu que o Qianwen já tem, de forma preliminar, capacidade de executar de forma integrada múltiplas tarefas. No estado ideal, pode concluir uma longa cadeia de cumprimento. Por exemplo, primeiro ajudar o utilizador a reservar bilhetes de cinema; depois chamar táxi para ir ao cinema; e em seguida agendar o transporte de regresso após as 10:30. Trata-se de uma cadeia típica de cenários de vida, mas envolve três sistemas de cumprimento totalmente diferentes: reserva de bilhetes de cinema, chamada imediata de táxi e agendamento de táxi. No modo tradicional, tens de alternar entre pelo menos três apps. Com uma única conversa, a IA consegue concluir toda a operação.

Isto significa que, no futuro, a IA pode evoluir ainda mais: deixar de substituir tarefas individuais e passar a ser, no sentido verdadeiro, um assistente de vida.

O que o Gemini não conseguiu, o Qianwen conseguiu

Por detrás de “tratar de assuntos com IA” está uma batalha ao nível do ecossistema.

Num enquadramento global, o Gemini e a OpenAI não é que não queiram fazer um “tratamento de assuntos por IA” verdadeiro; é que, até agora, não conseguem. E, olhando para o futuro, mesmo a OpenAI terá muita dificuldade em conseguir fazê-lo.

A funcionalidade que o Gemini tem destacado recentemente — através de um comando de voz “ajuda-me a chamar um Uber para o aeroporto” — faz com que o Gemini abra automaticamente a aplicação do Uber e conclua a operação numa janela virtual; actualmente também suporta Lyft. Como foi referido antes, continua a ser um papel de telecomando: simula o clique e a operação da app dentro de uma janela virtual segura, em vez de se ligar directamente ao sistema de backend. Antes da confirmação final da encomenda, normalmente o utilizador precisa de concluir manualmente o último passo.

Isto também está ligado a uma etapa extremamente central: **** “O tratamento de assuntos com IA” precisa de três capacidades essenciais: compreender necessidades complexas, ligar-se aos sistemas de cumprimento e responsabilizar-se pelo resultado. As duas primeiras capacidades podem ser resolvidas em parte por algoritmos, mas a terceira capacidade — responsabilizar-se pelo resultado — requer um ciclo comercial real e fechado.

A tarefa de chamar um táxi envolve uma série de sistemas comerciais complexos, como regras de faturação, despacho de motoristas, planeamento de rotas, acertos de pagamento e tratamento de reclamações. A IA pode ajudar-te a “chamar um carro”, mas se o carro não chegar, a rota estiver errada ou o custo estiver incorrecto, quem é que assume a responsabilidade?

A confiança do Qianwen vem das capacidades fortes de cumprimento e de integração do ecossistema da Alibaba: o sistema de refeições do Taobao Flash, os bilhetes de hotelaria e viagens da Feizhu e o entretenimento de filmes do Taopiao — isto não é apenas “integração”, é uma fusão profunda de sistemas.

Quando o utilizador diz “Até 30 yuans, sem cheiros no carro”, a IA precisa de calcular o custo em tempo real, filtrar modelos de carro e interligar preferências dos motoristas. Tudo isto não é algo que se faça com “acender uma app”; requer mergulhar nos sistemas de cumprimento, apoiados por dados fortes no tempo e no espaço.

Voltar a furar o tecto das capacidades de IA

Se as competições de IA dos últimos dois anos foram centradas na comparação de capacidades de conversação — mostrar talento literário, mostrar expressão artística — então a partir de agora a competição entra na segunda metade: a disputa das capacidades de “tratar de assuntos”.

As diferenças em capacidades de conversação podem ser medidas por alguns pontos percentuais em avaliações; são rankings de avaliação que já se tornaram habituais. Mas as diferenças em capacidades de tratar de assuntos, pelo menos até agora, são a distância entre “conseguir fazer” e “não conseguir fazer”, tal como o abismo.

A skill de chamar táxi que o Qianwen lançou é um produto marcante desse limiar. Ela não só consegue compreender “quero ir para o escritório”, como também analisar com precisão intenções compostas como “6 pessoas precisam de corresponder a uma carrinha de negócios” e “para pegar pessoas adicionais é preciso aumentar o ponto de passagem”.

Por trás disso está uma reconstrução completa do sistema, desde o reconhecimento de intenções até ao ciclo fechado de cumprimento. Não é apenas acrescentar uma entrada de chamada de táxi; é uma reestruturação total do paradigma de interacção do serviço de deslocação, e é uma subversão fundamental do software tradicional de táxis.

No modo tradicional, o utilizador tem de operar passo a passo dentro da app de táxi, seguindo a lógica do menu: escolher ponto de partida, inserir ponto de chegada, escolher tipo de carro, ver preço estimado… Todo o processo pressupõe que “as pessoas precisam de se adaptar às ferramentas”. Este tipo de design exclui naturalmente expressões vagas — por exemplo, quando dizes “quero ir para um lugar de tulipas, bem perto no centro da cidade, que está muito popular”, o sistema não consegue responder; e exclui naturalmente não-nativos digitais — muitos idosos ficam excluídos durante muito tempo do serviço de deslocação porque não sabem operar interfaces gráficas.

Ainda mais importante, quando os cenários centrais de deslocação ficam entregues a um assistente de IA, o valor de existência da app tradicional de táxis enfrenta desafios estruturais. Quando os utilizadores já não precisarem de abrir proactivamente software tradicional e conseguirem completar todo o processo apenas com uma frase como “ajuda-me a chamar um táxi para a Baía do Príncipe”, a taxa de abertura de aplicações de ferramenta única e a aderência dos utilizadores irão inevitavelmente sofrer impactos fundamentais. Recentemente, depois de a Claude lançar skills de design, as acções de software de design vertical como a Adobe e a Figma caíram em flecha — e isto já escreveu uma nota clara para esta tendência: quando agentes generalistas conseguem completar tarefas profissionais, os “fosso” de ferramentas verticais evaporam rapidamente.

Além disso, dentro do assistente de IA, Skills e Agents conseguem ainda coordenar de forma跨-域.

Até ao momento, o Qianwen já integrou sucessivamente serviços de vida como refeições, deslocações, hotelaria e bilheteira. Depois de a skill de chamar táxi ser lançada, estas capacidades podem interligar-se sem costuras. Por exemplo, completar de uma só vez: “ajuda-me a reservar um hotel à beira do Lago Oeste”; “chama um táxi para me levar até a este hotel”; “e recomenda ainda, perto daqui, o melhor prato local de Hangbang”. Trata-se de uma cadeia típica de tarefas em múltiplos saltos, envolvendo três grandes sistemas — reserva, despacho e recomendação — que antes exigiam alternar pelo menos três apps; hoje, basta apenas uma conversa.

No essencial, este também é o salto crucial de a IA passar de ferramenta de produtividade para assistente de vida.

(Editor: Guo Jiandong)

     【Declaração de responsabilidade】Este artigo representa apenas as opiniões do próprio autor, não tem qualquer relação com a Hexun.com. O website da Hexun mantém neutralidade relativamente às afirmações, opiniões e julgamentos no texto, não oferece quaisquer garantias, expressas ou implícitas, quanto à exactidão, fiabilidade ou integralidade do conteúdo incluído. Os leitores devem apenas consultar como referência e assumir toda a responsabilidade por si próprios. news_center@staff.hexun.com

Denunciar

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar