概要
lucidrains/imagen-pytorchは、Googleが開発した最先端のText-to-Imageニューラルネットワーク「Imagen」のPyTorch実装です。
DALL-E2を凌駕する画像生成能力を誇り、テキストから高品質な画像を生成することを可能にします。
本実装は、大規模な事前学習済みT5モデルからのテキスト埋め込みに条件付けされたカスケード型DDPM(Denoising Diffusion Probabilistic Models)を核としています。
さらに、改善されたclassifier free guidanceのための動的クリッピング、ノイズレベル条件付け、そしてメモリ効率の良いUnetデザインなどの特徴を持ち、CLIPやprior networkを不要とすることで、よりシンプルかつ効果的なアーキテクチャを実現しています。
主にPyTorch環境で最先端のテキスト-画像変換技術を研究・開発したいエンジニアや研究者を想定しています。
互換性・特徴
- PyTorch
- Python
- GPU必須
- CLI
基本情報
| ライセンス | MIT |
| Stars | 8,414 |
| Forks | 800 |
| カテゴリ | 画像生成 |
| アクティビティ | mid |
最新のissue
- 無条件Imagenのトレーニング中に生成されたサンプルがノイズのみを含む (更新: 2026-01-11 / Generated samples contain only noise while training unconditional Imagen)
- 機能リクエスト: FSDP (Fully Sharded Data Parallel) サポートの追加 (更新: 2025-11-03 / Feature Request: Add FSDP (Fully Sharded Data Parallel) Support)
- 初心者向けの改善 (更新: 2025-02-14 / Improvements for beginners)
- DDP使用時のバックワード問題 (更新: 2024-07-26 / Backward problem with using DDP)
最新リリース: 2.1.0 (2024-10-07)
