3,702 repos GH 3,587 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

CVQ

★ 9 MIT 更新: 2026-06-01 GitHubで見る →

概要

このリポジトリは、革新的な画像トークン化手法「Channel-wise Vector Quantization (CVQ)」とその応用である「Channel-wise Autoregressive (CAR)」モデルを提案しています。

従来のパッチ単位ではなく、チャネル単位で画像をトークン化することで、段階的に視覚的な詳細を予測し、テキストから画像生成において高い効果を発揮します。

CVQは、コードブックの利用率を100%に高め、再構築品質を大幅に向上させます。

想定されるユーザーは、最新の画像生成技術や視覚的自己回帰モデルに関心を持つ研究者や開発者で、特にディープラーニングベースの画像処理プロジェクトに取り組む人々にとって有用です。

PythonとPyTorchで実装されており、CLIを通じてトレーニングや推論が可能です。

互換性・特徴

  • Python
  • PyTorch
  • CLI
  • GPU必須
  • テキストto画像生成
  • 画像処理

基本情報

ライセンスMIT
Stars9
カテゴリ画像生成
アクティビティlow

最新のissue

GitHub: https://github.com/songweii/CVQ