概要
このリポジトリは、革新的な画像トークン化手法「Channel-wise Vector Quantization (CVQ)」とその応用である「Channel-wise Autoregressive (CAR)」モデルを提案しています。
従来のパッチ単位ではなく、チャネル単位で画像をトークン化することで、段階的に視覚的な詳細を予測し、テキストから画像生成において高い効果を発揮します。
CVQは、コードブックの利用率を100%に高め、再構築品質を大幅に向上させます。
想定されるユーザーは、最新の画像生成技術や視覚的自己回帰モデルに関心を持つ研究者や開発者で、特にディープラーニングベースの画像処理プロジェクトに取り組む人々にとって有用です。
PythonとPyTorchで実装されており、CLIを通じてトレーニングや推論が可能です。
互換性・特徴
- Python
- PyTorch
- CLI
- GPU必須
- テキストto画像生成
- 画像処理
基本情報
| ライセンス | MIT |
| Stars | 9 |
| カテゴリ | 画像生成 |
| アクティビティ | low |
最新のissue
- Hugging FaceでのCVQ/CARモデルのリリース (更新: 2026-05-26 / Release CVQ/CAR models on Hugging Face)
- コードはいつ公開されますか? (更新: 2026-05-26 / When the code be available?)
GitHub: https://github.com/songweii/CVQ
