概要
本モデルは、テキストの記述に基づいて動画を生成するマルチステージのテキストから動画生成拡散モデルです。
約17億のパラメータを持ち、UNet3D構造を採用しています。
テキストから動画の潜在空間への変換、動画の潜在空間から視覚空間への変換の3つのサブネットワークで構成されます。
現在のところ、英語入力のみをサポートしており、研究目的での利用が想定されています。
AIGCや大規模事前学習に関心のある開発者や研究者が、テキスト説明から動画を生成するタスクに活用できます。
互換性・特徴
- text-to-video
- diffusers
- Python
- GPU必須
- CLI
- 英語のみ
基本情報
| ライセンス | cc-by-nc-4.0 |
| Likes | 658 |
| Downloads | 83,830 |
| Pipeline | text-to-video |
| カテゴリ | 動画生成 |
| アクティビティ | mid |
HuggingFace: https://huggingface.co/ali-vilab/text-to-video-ms-1.7b
