五校联合研究让数字人靠视觉在3D场景自主导航,成功率超最优基线约30个百分点

robot
概要作成中

ME News ニュース、4 月 14 日(UTC+8)、1M AI News の監視によると、北京大学、カーネギーメロン大学、同済大学、カリフォルニア大学ロサンゼルス校、ミシガン大学の共同チームは arXiv に VGHuman を発表しました。これは、デジタル人が視覚的知覚だけで見知らぬ3Dシーン内で自主的に行動する具現化AIフレームワークです。これまでのデジタル人システムは一般的に事前設定されたスクリプトや特権状態情報に依存していましたが、VGHuman の出発点はデジタル人に本当の目を与え、自分で道を見て、計画し、行動させることにあります。 フレームワークは二層に分かれています。World Layer は単眼ビデオから意味付けと衝突メッシュを持つ3Dガウス場景を再構築し、遮蔽感知設計により複雑な屋外環境でも遮蔽された小型物体を識別できるようにしています。Agent Layer はデジタル人に第一視点のRGB-D(カラー+深度)感知を装備し、空間認識ビジュアルヒントと反復推論による計画を生成し、最終的に拡散モデルを用いて全身動作シーケンスに変換し、キャラクターの動きを駆動します。 200のテストシナリオのナビゲーションベンチマークにおいて、シンプルな経路、障害物回避、動的歩行者の3つの難易度レベルで、VGHuman のタスク成功率は NaVILA、NaVid、Uni-NaVid などの最強のベースラインを約30ポイント上回り、衝突率は同等かそれ以下でした。フレームワークはまた、ランニングやジャンプなど多様な運動スタイルや、連続した複数の目標への長距離計画もサポートします。コードとモデルはオープンソース化予定で、GitHubリポジトリも既に作成されています。(出典:BlockBeats)

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし