Skywork Matrix-Game 3.0——720p 40FPS のリアルタイム動画生成を実現するメモリ強化型ワールドモデル

2026 年 3 月、Skywork AIはMatrix-Game 3.0を公開した。

これは720p リアルタイム長編動画生成を実現するメモリ強化型インタラクティブワールドモデルだ。

本稿はこのモデルの概要、機能、そして使用方法を解説する。

概要

Matrix-Game 3.0は、オープンソースのメモリ強化型インタラクティブワールドモデルで、720p リアルタイム長編動画生成のために設計されている。

フレームワーク概要

このフレームワークは、3 つのステージをエンドツーエンドのパイプラインに統合している。

1. データエンジン

産業規模の無限データエンジンで、以下を統合している。

Unreal Engine 合成シーン - 高品質な合成データ
大規模自動 AAA ゲーム収集 - 大規模なゲームデータ
実世界動画拡張 - 実世界の動画拡張

これにより、高品質なVideo-Pose-Action-Prompt 四重項を大規模に生成できる。

2. モデルトレーニング

メモリ強化型 Diffusion Transformer（DiT）で、以下を実現している。

エラーバッファ - 予測残差による自己修正
メモリ強化長期一貫性 - カメラ対応メモリによる長期的な時空間的一貫性
アクション条件付き生成 - アクション条件付きの動画生成

3. 推論デプロイ

以下を実現している。

数ステップサンプリング - 高速な生成
INT8 量子化 - 効率的な推論
モデル蒸留 - モデルの軽量化

これにより、5B モデルで 720p@40FPS リアルタイム生成を実現している。

主な機能

機能 1：アップグレードされたデータエンジン

以下を統合している。

Unreal Engine ベースの合成データ - 高品質な合成データ
大規模自動 AAA ゲームデータ - 大規模なゲームデータ
実世界動画拡張 - 実世界の動画拡張

これにより、高品質なVideo-Pose-Action-Prompt データを生成できる。

機能 2：長期メモリと一貫性

以下を実現している。

予測残差 - 予測残差による自己修正
フレーム再注入 - フレーム再注入による自己修正
カメラ対応メモリ - 長期的な時空間的一貫性

機能 3：リアルタイムインタラクティブ性とオープンアクセス

以下を実現している。

多セグメント自己回帰蒸留 - Distribution Matching Distillation（DMD）に基づく
モデル量子化 - INT8 量子化
VAE デコーダ蒸留 - VAE デコーダの蒸留

これにより、5B モデルで 720p@40FPS リアルタイム生成を実現している。

さらに、分単位のシーケンスで安定したメモリ一貫性を維持できる。

機能 4：28B-MoE モデルへのスケールアップ

2×14B モデルへのスケールアップも可能だ。

これにより、以下をさらに向上できる。

生成品質 - より高品質な生成
ダイナミクス - より動的な生成
汎化性 - より良い汎化性能

クイックスタート

インストール

# conda 環境を作成
conda create -n matrix-game-3.0 python=3.12 -y
conda activate matrix-game-3.0

# FlashAttention をインストール
# このプロジェクトは FlashAttention に依存
git clone https://github.com/SkyworkAI/Matrix-Game-3.0.git
cd Matrix-Game-3.0
pip install -r requirements.txt

モデルダウンロード

pip install "huggingface_hub[cli]"
huggingface-cli download Matrix-Game-3.0 --local-dir Matrix-Game-3.0

推論

推論を実行する前に、以下を準備する必要がある。

入力画像
テキストプロンプト

事前トレーニング済みモデルをダウンロードした後、以下のコマンドでランダムアクションでのインタラクティブ動画を生成できる。

torchrun --nproc_per_node=$NUM_GPUS generate.py \
  --size 704*1280 \
  --dit_fsdp \
  --t5_fsdp \
  --ckpt_dir Matrix-Game-3.0 \
  --fa_version 3 \
  --use_int8 \
  --num_iterations 12 \
  --num_inference_steps 3 \
  --image demo_images/000/image.png \
  --prompt "a vintage gas station with a classic car parked under a canopy, set against a desert landscape." \
  --save_name test \
  --seed 42 \
  --compile_vae \
  --lightvae_pruning_rate 0.5 \
  --vae_type mg_lightvae \
  --output_dir ./output

ヒント:

num_iterations は生成したいイテレーション数
総フレーム数は 57 + (num_iterations - 1) * 40 で計算

ベースモデルを使用する場合:

--use_base_model --num_inference_steps 50

独自の入力アクションでインタラクティブ動画を生成する場合:

--interactive

複数 GPU で高速化:

--use_async_vae --async_vae_warmup_iters 1

謝辞

このプロジェクトは、以下の優れたプロジェクトに感謝している。

Diffusers - 優れた拡散モデルフレームワーク
Self-Forcing - 優れた研究
GameFactory - アクション制御モジュールのアイデア
LightX2V - 優れた量子化フレームワーク
Wan2.2 - 強力なベースモデル
lingbot-world - コンテキスト並列フレームワーク

引用

この研究があなたの研究に役立つ場合は、以下のように引用してほしい。

@misc{2026matrix,
  title={Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory},
  author={{Skywork AI Matrix-Game Team}},
  year={2026},
  howpublished={Technical report},
  url={https://github.com/SkyworkAI/Matrix-Game/blob/main/Matrix-Game-3/assets/pdf/report.pdf}
}

結論：リアルタイム動画生成の新時代

Matrix-Game 3.0 は、5B モデルで 720p@40FPS のリアルタイム動画生成を実現するメモリ強化型ワールドモデルだ。

リアルタイム生成 - 720p@40FPS
長期一貫性 - 分単位のシーケンスで安定した一貫性
オープンソース - 誰でも利用可能
スケールアップ可能 - 28B-MoE モデルへの拡張も可能

この技術は、ゲーム開発、映画制作、仮想現実など、様々な分野での応用が期待される。

参考：

引用元・参考リンク

Hugging Face

Skywork/Matrix-Game-3.0

Hugging Face モデルページ

GitHub

Matrix-Game 3.0 GitHub

公式 GitHub リポジトリ

#Skywork #Matrix-Game 3.0 #ワールドモデル #動画生成 #リアルタイム生成 #Diffusion Transformer #AI ゲーム #オープンソース

免責事項 — 掲載情報は執筆時点のものです。料金・機能は変更される場合があります。最新情報は各公式サイトをご確認ください。