VGHuman は、北京大学、カーネギーメロン大学、同済大学、UCLA、ミシガン大学の共同チームが arXiv に発表した具現化AIフレームワークであり、視覚を用いて未知の3Dシーンで自主的に行動します。フレームワークは、World Layer（単眼ビデオ再構築と意味情報および衝突メッシュを持つ3Dガウス場、遮蔽を考慮）と Agent Layer（第一視点のRGB-D感知、反復推論による計画生成、拡散モデルを用いた全身動作への変換）に分かれています。200のテストシナリオで、NaVILA などのベースラインより成功率が約30ポイント高く、衝突率も低いか同等です。ジャンプや長距離計画などの動作もサポートし、コードはオープンソース予定で、GitHubにリポジトリが作成されています。

MeNews

2026-05-01 03:10:18

概要作成中

ME News ニュース、4 月 14 日（UTC+8）、1M AI News の監視によると、北京大学、カーネギーメロン大学、同済大学、カリフォルニア大学ロサンゼルス校、ミシガン大学の共同チームは arXiv に VGHuman を発表しました。これは、デジタル人が視覚的知覚だけで見知らぬ3Dシーン内で自主的に行動する具現化AIフレームワークです。これまでのデジタル人システムは一般的に事前設定されたスクリプトや特権状態情報に依存していましたが、VGHuman の出発点はデジタル人に本当の目を与え、自分で道を見て、計画し、行動させることにあります。フレームワークは二層に分かれています。World Layer は単眼ビデオから意味付けと衝突メッシュを持つ3Dガウス場景を再構築し、遮蔽感知設計により複雑な屋外環境でも遮蔽された小型物体を識別できるようにしています。Agent Layer はデジタル人に第一視点のRGB-D（カラー＋深度）感知を装備し、空間認識ビジュアルヒントと反復推論による計画を生成し、最終的に拡散モデルを用いて全身動作シーケンスに変換し、キャラクターの動きを駆動します。 200のテストシナリオのナビゲーションベンチマークにおいて、シンプルな経路、障害物回避、動的歩行者の3つの難易度レベルで、VGHuman のタスク成功率は NaVILA、NaVid、Uni-NaVid などの最強のベースラインを約30ポイント上回り、衝突率は同等かそれ以下でした。フレームワークはまた、ランニングやジャンプなど多様な運動スタイルや、連続した複数の目標への長距離計画もサポートします。コードとモデルはオープンソース化予定で、GitHubリポジトリも既に作成されています。（出典：BlockBeats）

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
リポスト
共有

コメントを追加

コメントなし

人気の話題
もっと見る
#
WCTCTradingKingPK
436.14K 人気度
#
USSeeksStrategicBitcoinReserve
58.68M 人気度
#
IsraelStrikesIranBTCPlunges
37.17K 人気度
#
BitcoinETFOptionLimitQuadruples
977.04K 人気度
#
#FedHoldsRateButDividesDeepen
30.15K 人気度

ピン

サイトマップ

五校联合研究让数字人靠视觉在3D场景自主导航，成功率超最优基线约30个百分点

人気の話題

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

ピン