ジェミニができなかったことを、千問が成し遂げた

概要:

GeminiはUberを呼ぶ、千問は直接タクシーを呼ぶ。この一見同じ機能に見える2つは、実はまったく別物だ。前者はAIにアプリを操作させることだが、後者はAIに真に深い推論能力を持たせ、AIが履行プロセスに深く踏み込むことに他ならない。

凤凰网科技(フェンフアン・テック)制作

著者|Dale

編集|董雨晴

中国のAIエコシステムには、熱狂の波に押されることのない2社がある。その一つがDeepSeek、もう一つが千問だ。前者は、揺るぎないAGI信念をもって、技術の変革をじっくり掘り下げている。後者は強力なエコシステムの壁を武器に、常に後発で覆し、現時点のAI能力の天井を突き破り続けている。

3月末、業界全体がOpenClawに巻き込まれて走っている最中、千問はこっそりと飛躍的な機能を投げ込んだ——AIタクシーだ。これは千問が点外し(点外食のイメージ:食事注文)、ホテルや航空券、観光地のチケット購入、映画チケット対応をサポートした後の、「AIが用事をこなす」ことへのさらなる投資でもある。

世界規模でここまでできるAIは、数えるほどしかない。


本物のAIエージェントが現れた

今回の千問AIタクシー機能の飛躍的な進歩を理解するには、まず技術の基底ロジックに立ち返る必要がある。

これまでかなり長い時間、AIが担ってきたのは「リモコン」の役割だった。違いがあるとすれば、より先進的なグラフィカル・ユーザー・インターフェースに置き換えられているだけだ。初期のスマート対話型であれチャットボットであれ、ロジックは単純な単発の指示、単発の実行である。ユーザーが具体的な指示を送ると、モデルは関数を呼び出してタスクを完了させる——知的な意思決定を必要としない機械的な動作だ。身体の延長であって、意志の延長ではない。

しかしエージェントの役割はまったく違う。エージェントは、初歩的ながら実行能力を持つ——より具体的には、複雑な環境の中でサブ目標を分解し、動的計画を行う能力をモデルが備えている、ということだ。

この考え方に沿うと、AIタクシーとAIでの食事注文、AIでの映画チケット購入は、技術の深さや実装の観点で、そもそも同じ土俵の難易度ではないことがわかる。

食事注文でも映画チケット購入でも、そのプロセスは高度に構造化された情報のコンテナ内で完了する。呼び出すツール、例えばメニューのデータベース、クーポン、決済システムはいずれもオンライン化されている。仮に需要が複雑であっても、たとえば異なるシーンでの注文を計画する場合でも、有限のデータベースの中で行う。

注文を間違えたら別の店に変えられるし、映画チケットを買い間違えたら払い替え(日時変更)できる——こうしたのは高い許容度(高容錯率)の場面だが、タクシーはそう簡単に差し替えられない。タクシーは頻度が高く、容錯が低く、強い履行(約束したことを確実に果たす)を要求する典型的な場面だ。あなたは実際の結果に責任を持たなければならず、しかもリアルタイムで責任を持つ必要がある。

つまり、AIタクシーのビジネスでは、AIは実世界の物理環境や、運転手など他の交通参加者とリアルタイムにやり取りし、駆け引きをしなければならない。

これこそが、今回の千問アップデートの飛躍点だ——AIが実際の履行に参加する。

凤凰网科技(フェンフアン・テック)は内検(ベータ)体験で、千問がユーザーの曖昧なニーズに応じて適切な車種やルートを絞り込めることを見つけた。たとえば私が最初に出発地点と到着地点だけを指定したとする。すると千問はルート1を計画する。しかし「自分は乗り物酔いする」と私が示した後、千問はルート2を再計画する。ルート2はルート1よりも高速道路区間が長く、渋滞が少ない。

つまり、ユーザーが千問に指示を出すとき、それはボタンをいくつか押す手助けではなく、あなたの複雑なニーズを本当に理解しているのだ。この背後には、ルート計画、リアルタイムの配車、費用計算など、実世界の履行アクションが一連として関わっている。

「“太子湾”まで行ってチューリップを見たい」と聞いたとき、AIは「太子湾」がどんな場所かを理解し、「チューリップ」が特別な季節に対応していることを判断し、そのうえで、いつ出発する必要があるか、どの入口から入るのが最も便利かを見極める必要がある。

これこそが本当の“用事をこなす”——ここに至ってAIは、もはやリモコンではなく、業務上の代理人になる。

凤凰网科技(フェンフアン・テック)は複数回の試みの後、千問がすでに多タスクの融合実行を初歩的に備えていることを見つけた。理想的な状態では、長い履行チェーンを完了できる。たとえば、まずユーザーが映画チケットを予約し、次にタクシーで映画館へ行き、そして10時30分終了後の帰りの車も予約する。これは典型的な生活シーンの連鎖だが、映画チケットの予約、即時のタクシー、タクシー予約という、まったく異なる3つの履行システムが関わっている。従来のモードでは、3つのAPPを行き来して切り替える必要があった。だがAIは、1回の会話で一連の操作をすべて完了できる。

これはつまり、将来的にAIがさらに進化し、単一タスクの代替から、真に“生活の家事(ライフ)メイド”へと変わっていけるということだ。


Geminiができないことを、千問ができた

AIが“用事をこなす”ことの背後には、エコシステム規模の勝負がある。

世界に目を向ければ、GeminiとOpenAIは本当のAIによる“用事代行”をやりたくないわけではない。ただ現時点でできないだけで、さらに長期的にはOpenAIにとっても非常に難しい。

Geminiが最近重点的に推している機能——音声指示で「Uberを空港まで呼んで」と言うと、Geminiが自動的にUberアプリを開き、仮想ウィンドウ内で操作を完了する。さらにLyftも対応している。前述の通り、これはやはりリモコン役だ。安全な仮想ウィンドウ内でユーザーのクリックやアプリ操作をシミュレートするのであって、バックエンドのシステムと直接接続しているわけではない。最終的に注文を確定する前には、通常ユーザーが最後の一手を手動で行う必要がある。

**これには極めて重要な環節が関わる。**AIの用事代行には3つの中核能力が必要だ:複雑なニーズを理解すること、履行システムと接続すること、そして結果に責任を持つこと。最初の2つの能力はアルゴリズムで一定部分を解決できるが、3つ目の能力——結果に責任を持つこと——に必要なのは、真の商業的なクローズドループだ。

タクシーを呼ぶという行為には、課金ルール、ドライバーの配車、ルート計画、支払い精算、クレーム処理など、一連の複雑な商業システムが関わる。AIはあなたのために「1台呼ぶ」ことは手伝える。だが、車が来なかったら、ルートが間違っていたら、費用が違っていたら——誰が責任を取るのか?

千問にその自信があるのは、アリのエコシステムにある強い履行能力と強い融合能力に由来する。淘宝(タオバオ)の“瞬速即時”外食体系、飛猪(フリッパー)の宿泊・旅・チケット業務、淘票票(タオピァオピァオ)の映画エンタメ——これらは単なる“接続”ではなく、深いシステム融合だ。

ユーザーが「30元以内で、車内に匂いがないなら」と言うとき、AIはリアルタイムに費用を計算し、車種を絞り込み、ドライバーの嗜好に接続しなければならない。これは「アプリを起動する」だけではできず、履行システムの奥まで入り込む必要があり、強力な時空間データの支えが要るのだ。


再びAI能力の天井を突き破る

過去2年のAI競争が、対話能力をめぐる争いだったとするなら——文章力を競い、芸術的表現を見せる——これからは競争の後半戦に入る。つまり“用事をこなす能力”の勝負だ。

対話能力の差は、いくつかの評価指標の点数で測れる。過去には見慣れた評価ランキングだ。一方、“用事をこなす能力”の差は、少なくとも現時点では「できるか/できないか」という、天地ほどの違いだ。

千問が今回リリースしたタクシーskillは、まさにこの分水嶺の象徴的成果物だ。それは「会社に行きたい」を理解するだけでなく、「6人なので商用車に合わせる必要がある」「迎えに来る人に迂回地点を追加する必要がある」といった複合意図も正確に解析できる。

その背後には、意図認識から履行のクローズドループまでを丸ごと再構築する一連のシステム的な組み替えがある。単にタクシーの入口が増えただけではなく、移動サービスの対話インタラクションのパラダイム自体を徹底的に再構築し、従来のタクシーアプリに対する根本的な転覆でもある。

従来のモードでは、ユーザーはタクシーApp内でメニューのロジックに従って段階的に操作しなければならない:出発地を選び、目的地を入力し、車種を選び、見積もり価格を確認する……。この一連のプロセスには、「人がツールに適応しなければならない」という前提が最初から組み込まれている。この設計は、曖昧な表現を自然に排除する。たとえば「市区でいちばん近くて今人気のチューリップが見られる場所に行きたい」と言っても、システムは応答できない。さらに、非デジタルネイティブも自然に排除する。多くの高齢者はグラフィカルなインターフェースを操作できないため、長期にわたり移動サービスの外に置かれてきた。

もっと重要なのは、コアとなる移動シーンがAIアシスタントに引き継がれると、従来のタクシーAppの存在価値は構造的な課題に直面することになる。ユーザーが従来のソフトを自分で開く必要がなくなり、「太子湾まで迎えに来て(タクシーを呼んで)」の一言で全プロセスが完了するようになれば、単一ツール型アプリの起動率とユーザーの粘着性は、必ず根本的な打撃を受ける。最近、Claudeがデザイン系スキルを立ち上げた後、AdobeやFigmaなどの垂直系デザインソフト株の株価が急落し、このトレンドに鮮明な注釈を残した。汎用エージェントが専門タスクをこなせるようになれば、垂直ツールの堀(参入障壁)は急速に蒸発するのだ。

さらに、AIアシスタントの内部では、SkillsとAgentsはドメインをまたいだ協調も実現できる。


ここまでに、千問はすでに相次いで、デリバリー、移動、宿泊・旅、チケットなどの生活サービスに接続してきた。タクシーSkillがリリースされた後は、これらの能力がシームレスに連動できる。たとえば一回の操作で完了する:「西湖のそばのホテルを予約して」「そのホテルまで迎えに行く(タクシーで送って)」「さらに近くで地元らしい杭幇菜(ハンバンツァイ)をおすすめして」。これは典型的な“複数段”のタスクチェーンで、予約、配車、レコメンドの3つの主要システムが関わっている。これまでなら、少なくとも3つのAppを切り替える必要があったが、今では1回の会話で済む。

本質的には、これこそがAIが生産性ツールから生活アシスタントへと踏み出すための重要な飛躍だ。

(編集責任者:郭健东)

     【免責事項】この記事は執筆者本人の見解のみを表し、和讯(Hexun)とは無関係である。和讯サイトは、本記事内の記述、見解、判断について、中立性を保っており、含まれる内容の正確性、信頼性、完全性に関して、明示または暗示を問わずいかなる保証も提供しない。読者の皆様は参照にとどめ、必ずご自身の責任でご判断ください。邮箱:news_center@staff.hexun.com

通報

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン