262 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

text-to-video-ms-1.7b

★ 658 cc-by-nc-4.0 更新: 2023-12-01 GitHubで見る →

概要

本モデルは、テキストの記述に基づいて動画を生成するマルチステージのテキストから動画生成拡散モデルです。

約17億のパラメータを持ち、UNet3D構造を採用しています。

テキストから動画の潜在空間への変換、動画の潜在空間から視覚空間への変換の3つのサブネットワークで構成されます。

現在のところ、英語入力のみをサポートしており、研究目的での利用が想定されています。

AIGCや大規模事前学習に関心のある開発者や研究者が、テキスト説明から動画を生成するタスクに活用できます。

互換性・特徴

  • text-to-video
  • diffusers
  • Python
  • GPU必須
  • CLI
  • 英語のみ

基本情報

ライセンスcc-by-nc-4.0
Likes658
Downloads83,830
Pipelinetext-to-video
カテゴリ動画生成
アクティビティmid

HuggingFace: https://huggingface.co/ali-vilab/text-to-video-ms-1.7b