VOID は、Netflix 研究所と INSAIT が共同開発した、動画から物体を除去し残りの物理的挙動を再現する AI フレームワークであり、4月にオープンソース化されました。三層の処理フロー：1) SAM2 / Gemini による quadmask の生成、主体、重複領域、影響範囲、背景のラベリング；2) 第一次推論は CogVideoX-Fun-V1.5 の微調整に基づく；3) オプションの光流ノイズによる安定化。訓練には Kubric、HUMOTO データを使用し、8つの A100 GPU を搭載、推論には >40GB 必要。偏好テストでは VOID が 64.8% の精度を示し、Runway より高い。論文は査読されておらず、ソースは GitHub からのものです。

MeNews

2026-04-29 04:25:03

概要作成中

AIMPACT メッセージ、4 月 14 日（UTC+8）、Netflix リサーチとブルガリア・ソフィア大学 INSAIT が共同開発した VOID（Video Object and Interaction Deletion）、動画から物体を除去し残りのシーンの物理挙動を再シミュレートできる AI フレームワーク。4 月 3 日に Apache 2.0 ライセンスで Hugging Face でオープンソース化され、Netflix リサーチの最初の公開 AI ツールとなった。

従来の動画消去ツールは背景の埋め戻しや影や反射の修正に長けているが、物理的に接触している物体（衝突、支え、押し合い）を含むシーンでは不自然になることが多い。VOID のコア能力は物理的因果関係の理解にある：複数のドミノの列の途中の一つを除去しても、その後のドミノは倒れ続けない；プールに飛び込む人を除去しても水面に水しぶきは上がらない；ギターを持つ人を除去すれば、ギターは自然に落ちる。

技術パイプラインは三層構造：

Meta の SAM2 による物体セグメンテーション、Google の Gemini によるシーン意味解析、四値「quadmask」を生成、主体、重複領域、影響範囲、背景をそれぞれマークし、モデルに何を消すべきかだけでなく、何が変化するかも伝える。
Alibaba の CogVideoX-Fun-V1.5-5b-InP（500百万パラメータの拡散 Transformer）を微調整した第一段階推論により、物理的に合理的な反事実軌跡を生成。
オプションの第二段階「光流ノイズ安定化」、第一段階の予測運動を用いて時間依存のノイズを初期化し、長い動画中の物体の変形を防止。

訓練データは二つの物理シミュレーションセットから生成：約1900組の Kubric 剛体ダイナミクスデータと約4500組の HUMOTO 人体動作キャプチャーデータを、8台の A100 80GB GPU で訓練完了。25人の偏好テストでは、VOID の選択率は64.8%、商用ツール Runway の18.4%を大きくリード。推論には40GB以上のGPUメモリ（A100クラス）が必要。論文はまだピアレビューを通過しておらず、Netflix も制作フローへの組み込みを発表していない。（出典：GithHub）

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。