AIMPACT メッセージ、4 月 14 日(UTC+8)、Netflix リサーチとブルガリア・ソフィア大学 INSAIT が共同開発した VOID(Video Object and Interaction Deletion)、動画から物体を除去し残りのシーンの物理挙動を再シミュレートできる AI フレームワーク。4 月 3 日に Apache 2.0 ライセンスで Hugging Face でオープンソース化され、Netflix リサーチの最初の公開 AI ツールとなった。従来の動画消去ツールは背景の埋め戻しや影や反射の修正に長けているが、物理的に接触している物体(衝突、支え、押し合い)を含むシーンでは不自然になることが多い。VOID のコア能力は物理的因果関係の理解にある:複数のドミノの列の途中の一つを除去しても、その後のドミノは倒れ続けない;プールに飛び込む人を除去しても水面に水しぶきは上がらない;ギターを持つ人を除去すれば、ギターは自然に落ちる。技術パイプラインは三層構造:1. Meta の SAM2 による物体セグメンテーション、Google の Gemini によるシーン意味解析、四値「quadmask」を生成、主体、重複領域、影響範囲、背景をそれぞれマークし、モデルに何を消すべきかだけでなく、何が変化するかも伝える。2. Alibaba の CogVideoX-Fun-V1.5-5b-InP(500百万パラメータの拡散 Transformer)を微調整した第一段階推論により、物理的に合理的な反事実軌跡を生成。3. オプションの第二段階「光流ノイズ安定化」、第一段階の予測運動を用いて時間依存のノイズを初期化し、長い動画中の物体の変形を防止。訓練データは二つの物理シミュレーションセットから生成:約1900組の Kubric 剛体ダイナミクスデータと約4500組の HUMOTO 人体動作キャプチャーデータを、8台の A100 80GB GPU で訓練完了。25人の偏好テストでは、VOID の選択率は64.8%、商用ツール Runway の18.4%を大きくリード。推論には40GB以上のGPUメモリ(A100クラス)が必要。論文はまだピアレビューを通過しておらず、Netflix も制作フローへの組み込みを発表していない。(出典:GithHub)
Netflixオープンソースの動画除去モデルVOID:物体を削除するだけでなく、残りの物体の物理的な動きも再計算できる
AIMPACT メッセージ、4 月 14 日(UTC+8)、Netflix リサーチとブルガリア・ソフィア大学 INSAIT が共同開発した VOID(Video Object and Interaction Deletion)、動画から物体を除去し残りのシーンの物理挙動を再シミュレートできる AI フレームワーク。4 月 3 日に Apache 2.0 ライセンスで Hugging Face でオープンソース化され、Netflix リサーチの最初の公開 AI ツールとなった。
従来の動画消去ツールは背景の埋め戻しや影や反射の修正に長けているが、物理的に接触している物体(衝突、支え、押し合い)を含むシーンでは不自然になることが多い。VOID のコア能力は物理的因果関係の理解にある:複数のドミノの列の途中の一つを除去しても、その後のドミノは倒れ続けない;プールに飛び込む人を除去しても水面に水しぶきは上がらない;ギターを持つ人を除去すれば、ギターは自然に落ちる。
技術パイプラインは三層構造:
Meta の SAM2 による物体セグメンテーション、Google の Gemini によるシーン意味解析、四値「quadmask」を生成、主体、重複領域、影響範囲、背景をそれぞれマークし、モデルに何を消すべきかだけでなく、何が変化するかも伝える。
Alibaba の CogVideoX-Fun-V1.5-5b-InP(500百万パラメータの拡散 Transformer)を微調整した第一段階推論により、物理的に合理的な反事実軌跡を生成。
オプションの第二段階「光流ノイズ安定化」、第一段階の予測運動を用いて時間依存のノイズを初期化し、長い動画中の物体の変形を防止。
訓練データは二つの物理シミュレーションセットから生成:約1900組の Kubric 剛体ダイナミクスデータと約4500組の HUMOTO 人体動作キャプチャーデータを、8台の A100 80GB GPU で訓練完了。25人の偏好テストでは、VOID の選択率は64.8%、商用ツール Runway の18.4%を大きくリード。推論には40GB以上のGPUメモリ(A100クラス)が必要。論文はまだピアレビューを通過しておらず、Netflix も制作フローへの組み込みを発表していない。(出典:GithHub)