概要
このプロジェクトは、テキストから画像(T2I)およびテキストから動画(T2V)を生成する、プロダクションレベルかつリサーチグレードのマルチモーダル生成システムです。
VAE、GAN、VQ-VAE、U-Net、DiT、Video DiTなどの最先端の拡散アーキテクチャをゼロから実装しており、DDPM/DDIM/DPM-Solver++サンプラー、分散学習、完全なFID/IS/CLIP評価スイートを提供します。
主な特徴は、正確性、プロダクション対応(混合精度、分散学習)、モジュール性、スケーラビリティ、および拡張性です。
最先端の生成AIシステムを深く理解し、構築・研究したい開発者や研究者に最適です。
互換性・特徴
- Python
- PyTorch
- GPU必須
- CLI
- Text-to-Image
- Text-to-Video
基本情報
| ライセンス | MIT |
| Stars | 5 |
| カテゴリ | 画像生成 |
| アクティビティ | low |
