概要
Kandinsky 2.2は、多言語対応のテキストから画像を生成する強力な潜在拡散モデルです。
前バージョンのKandinsky 2.1から大幅に進化し、新しいCLIP-ViT-G画像エンコーダの導入により、生成される画像の審美性とテキスト理解能力が飛躍的に向上しました。
さらに、ControlNetのサポートにより、画像生成プロセスをより精密に制御できるようになり、正確で視覚的に魅力的な画像を生成し、テキストによる画像操作の新たな可能性を切り開きます。
高品質な画像生成や複雑な画像操作を求める開発者や研究者に最適なツールです。
互換性・特徴
- Python
- GPU必須
- Colab対応
- テキスト-画像生成
- ControlNet対応
- 多言語対応
基本情報
| ライセンス | Apache-2.0 |
| Stars | 2,814 |
| Forks | 317 |
| カテゴリ | 画像生成 |
| アクティビティ | mid |
最新のissue
- このプロジェクトは現在活動しておらず、進行が停止しています (更新: 2025-11-05 / Проект мёртв)
- このIssueに関連する技術的な論文またはドキュメントに関する検討 (更新: 2025-02-11 / Paper)
- バージョン2.2のtokenizerがmclipではなくclipとして認識されている問題について (更新: 2025-01-21 / tokenizer for 2.2 is not mclip but clip?)
- FileNotFoundError: [Errno 2] ‘/content/decoder_lora_saves/checkpoint-500/pytorch_model.bin’ が見つかりません (更新: 2024-09-26 / FileNotFoundError: [Errno 2] No such file or directory: ‘/content/decoder_lora_saves/checkpoint-500/pytorch_model.bin’)
