ウィンドウ期間は1年だけ?「ロブスター」競争の背後にあるAIの暗闘:JD.comが「産業側」解決策を新たに切り開き、追い上げることができるのか?

株式投資は金麒麟アナリストレポートを参考に。権威があり、専門的で、タイムリーかつ包括的。潜在的なテーマチャンスを掘り起こすお手伝いをします!

毎経記者|王郁彪 毎経編集|毕陆名

「ロブスター」が話題沸騰、ロボットがダンスやパンチを披露し、デジタル人ライブコマースが「本物のブランド品」のように盛り上がる中、AI技術の加速的な進化とともに、業界は場面の実現に向けた重要な局面に差し掛かっています。コスト、効率、性能のバランスをどう取るか、産業の実用化の「ラストマイル」をどうつなぐか、これらの課題にはより多くの「解答」が必要です。

3月24日、京東は一部AI研究開発の進展を発表しました。オープンソース大規模モデルJoyAI-LLM Flashの公開、自社の「ロブスター」製品群の展開、そして「自由態デジタル人」などの先行リリースです。

「ロブスター」について、京東グループの技術責任者は《每日経済新聞》の取材に対し、「ロブスター」の拡大効果は今年も続くとし、今年末または来年にはL4レベルのモデルの登場が見込まれると述べました。その時、多くの今想像もつかない応用方法が花開くでしょう。

デジタル人技術の開発において、京東のJoyStreamerは「自由態デジタル人」をリリース。従来のデジタル人よりも自然で動きのあるインタラクションを実現しています。現場での「食レポ」例を見た際、動きや姿勢がより自然で、顔を隠しても高忠実度を保つことができるのを明確に感じました。

バイトダインとアリババは激しいAI競争を繰り広げており、国内の大手テック企業の戦いは、技術の実用化の深さとエコシステムの協調範囲を巡る全面的な競争にほぼ移行しています。京東の「AI解決策」は一線を画し、産業側に焦点を当てており、追い越せるかどうかが注目されています。

「ロブスター」インテリジェンスと背後の「トークン(語素)経済」が、最近のテック界の注目点となっています。

自社の「ロブスター」製品の展開に比べ、京東クラウドはJoyAI大規模モデルを基盤に、オープンソースのOpenClawアーキテクチャを用いて軽量クラウドホストやワンキー展開、一体型端末などの製品を展開しています。

技術責任者は、「多くの人は『ロブスター』を見ているが、実際にはモデルそのものを見ている」と語ります。

2年前、OpenAIは大規模モデルに5つのレベル(段階)を定義しました。第1は会話(Conversation)、第2は推論(Reasoning)、第3はエージェントAI(Agentic AI)で、システム内で自主的に行動し問題を解決する能力を持つ段階です。第4はイノベーション(Innovation)段階で、この段階のシステムは人間の介入を必要とせず、自律的に新しいアイデアを生み出します。最終段階は組織(Organization)で、人類の水準に達し、作業効率を向上させることが可能です。

現在の「ロブスター」と昨年のManus(世界初の汎用AIエージェント)との違いについて、技術責任者は、核心は基盤モデルの能力にあると指摘します。昨年の基盤モデルは第二段階を突破したばかりで、昨年爆発的に話題になったDeepSeekも推論段階にとどまっており、エージェントAIの特性はまだ備えていません。

この技術責任者は補足します。「エージェントを作るには多くのエンジニアリング、戦略、プロセスが必要で、それを最終的に『包む』必要があります。昨年末から今年初めにかけてのClawCodeモデルは、モデルレベルでL3を突破し、ついにエージェントAIの段階に到達しました。」

技術的な方向性について、同責任者は、近い将来、大規模モデルが次のイノベーション段階に進むと考えています。つまり、モデル自体に創作能力が備わるということです。「この創作は単に文章や歌を作るだけではなく、高難度の場面で人間の知恵を十分に発揮させる必要があり、そこにAIが代わることです。今はまだ起きていませんが、1年以内に起こる可能性があります。この技術路線は確定しています」と述べました。

また、AGI(汎用人工知能)がソフトウェアモデルの分野で実現するのは、あと1〜2年の間と見ており、今年の年末には結果が見えるかもしれません。エージェントAIとイノベーションモデルの両方に追いつくことができるか、企業にとっては1年の勝負です。

「ただし、『ロブスター』の拡大効果は今年も続き、L4レベルのモデルが登場すれば、今想像もつかない多彩な応用が花開くでしょう」と同責任者は述べました。

京東のデジタル人JoyStreamerの技術進展を見ると、現在のデジタル人業界の三大技術課題は一つずつ解決されつつあります。音声と映像の同期問題、多モーダル制御の不調、長時間動画の本人性の歪みです。

技術路線の公開に加え、京東は「自由態デジタル人」をいち早くリリース。自然な歩行やポーズの柔軟な調整、カメラ追従やスムーズな出入り、顔の遮蔽場面でも高忠実度を維持できる点が特徴です。

デジタル人技術の向上は、業界の規模化に一歩近づくことを意味しますか?京東の関係者は、最大の課題は商家側の操作負担を減らし、生成に過度に依存しないことだと答えます。例えば、従来30分かかっていた素材を3分に短縮したり、去年導入したリプレイモードでは、過去のライブ素材を使ってデジタル人ライブを生成できるといいます。

また、デジタル人の大規模展開にはエージェント(インテリジェントエージェント)技術も追い風となっています。具体例として、既存のプラットフォームに登録された大量の情報(商品やキャンペーン)をエージェントが連携し、正確かつ高品質な回答を提供し、商家への依存を減らすことで、大規模な展開に適していると述べています。

デジタル人の実用効果について、京東側は、ライブのコンバージョン率が最終的なビジネス指標であるとしつつも、滞在時間やインタラクション回数、潜在的な商品ニーズの反映などの過程指標も重要だと指摘します。

具身知能は昨年のブームから今年も熱気が冷めません。3月以降、多額の資金調達が続き、3月20日には上海証券取引所が宇樹科技の科創板IPO申請を受理。調達額は420億円超と見込まれ、A株の「ヒューマノイドロボット第一株」になる可能性があります。

京東は昨年、具身知能分野で異例の「六連投」を行い、近年もロボット産業計画を何度も発表しています。先日開催された中国発展高層フォーラム2026年年次会議で、京東グループCEOの許冉は、京東が世界最大かつ最も多様なシーンをカバーする具身知能データセンターを構築中であると明らかにしました。

この分野の最大の課題は、実世界のデータ不足によりモデル訓練が不十分となり、産業化に影響を及ぼすことです。許冉は、「今後2年で1,000万時間以上の実世界シーンデータを蓄積し、物流、家庭、都市など五つのシーンをカバーします」と述べました。

進展について、京東の関係者は、データ収集の過程で、10万人以上の社員と外部の最大50万人の業界関係者を動員し、宿遷では10万人超の市民を巻き込み、「人類最大のデータ収集活動」を展開すると明かしました。

このプロジェクトの具体的な実施スケジュールは、今後1年で500万時間の実世界シーン動画を蓄積し、2年以内に1,000万時間超を目指すとともに、ロボット本体のデータも100万時間収集します。

京東の具身知能事業責任者は、「最初はロボットのハード制御やVLA(ビジュアル・ラングエージ)二腕や巧みなハンドの操作に注目していました。人間のように動き、言葉を理解し、思考に沿った反応をすることが求められます。これを『言行一致』と呼びます。現在、市場の多くのロボットやロボドッグを手掛ける企業はこの分野にすでに取り組んでいますが、これは機能や段階の一部にすぎません」と述べました。

さらに、「私たち京東探索研究院のスタッフは、VLN(ビジュアル・ラングエージ・ナビゲーション)の無阻害ナビゲーションも研究しており、それをJoyInsideに統合し、さまざまなロボットやロボドッグと連携させて、より多くの人とロボットのインタラクションを実現しています」と付け加えました。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン