text-to-video-ms-1.7b

概要

本モデルは、テキストの記述に基づいて動画を生成するマルチステージのテキストから動画生成拡散モデルです。

約17億のパラメータを持ち、UNet3D構造を採用しています。

テキストから動画の潜在空間への変換、動画の潜在空間から視覚空間への変換の3つのサブネットワークで構成されます。

現在のところ、英語入力のみをサポートしており、研究目的での利用が想定されています。

AIGCや大規模事前学習に関心のある開発者や研究者が、テキスト説明から動画を生成するタスクに活用できます。

HuggingFace: https://huggingface.co/ali-vilab/text-to-video-ms-1.7b