概要
このツールは、OpenAIのテキストから画像への合成ニューラルネットワーク「DALL-E 2」をPyTorchで再現したものです。
CLIPのテキスト埋め込みから画像埋め込みを予測する拡散事前ネットワークの実装に重点を置いており、テキストから画像を生成する当時の最先端モデルの動作原理を学べます。
研究者や開発者がDALL-E 2のモデル構造を理解し、PyTorch環境で自ら学習・実験を行うことを想定しています。
分散学習にも対応し、Hugging Faceで事前学習済みモデルも利用可能です。
互換性・特徴
- Python
- PyTorch
- GPU必須
- CLI
- 研究用途
基本情報
| ライセンス | MIT |
| Stars | 11,311 |
| Forks | 1,079 |
| カテゴリ | 画像生成 |
| アクティビティ | mid |
最新のissue
- 事前学習済みモデルで通常の画像を生成できません (更新: 2025-01-09 / can not generate normal image with pretrained model)
- train_decoder.pyで事前学習済みCLIPモデルを使用する方法 (更新: 2025-01-08 / how to use pretrained clip model in train_decoder.py)
- 学習用データセットについて (更新: 2025-01-08 / dataset for training???)
- ノイズの多い出力画像 (更新: 2024-12-19 / Noisy output image)
- lossに「Nan」値が含まれています (更新: 2024-10-08 / "Nan" values in loss.)
最新リリース: 1.15.6 (2023-10-19)
