概要
VARは、拡散モデルの枠を超え、GPTスタイルのアプローチで視覚生成の新たな地平を切り開く最先端の画像生成手法です。
Next-Scale Predictionを通じたスケーラブルな画像生成を特徴とし、NeurIPS 2024で最優秀論文賞を受賞しました。
テキストから画像、さらにはテキストから動画生成へと応用が広がっており、最先端の研究成果として注目されています。
Hugging Faceでモデルの重みが公開されており、Web上のデモプラットフォームで手軽に体験できるほか、Jupyter Notebookを通じてより技術的な詳細に触れることも可能です。
画像生成技術の研究者や開発者、また最先端のAIによるクリエイティブな表現に興味のある一般ユーザーに最適なツールです。
互換性・特徴
- Web UI
- Python
- 画像生成
- 動画生成
- Hugging Face
- 研究開発
基本情報
| ライセンス | MIT |
| Stars | 8,701 |
| Forks | 568 |
| カテゴリ | 画像生成 |
| アクティビティ | mid |
最新のissue
- 🚀 あなたのVARモデルは実は効率的で説明可能な生成分類器である — [ICLR 2026] (更新: 2026-03-21 / 🚀 Your VAR Model is Secretly an Efficient and Explainable Generative Classifier — [ICLR 2026])
- [リソース] Awesome-Visual-Autoregressive-Modeling — VARに基づいた厳選された論文リスト (更新: 2026-03-10 / [Resource] Awesome-Visual-Autoregressive-Modeling — A curated paper list built on VAR)
- 専門家にご教示ください:VAE, vard16_pth使用時のaccmはacc_mean約5%、著者論文の約82.6%と乖離。 (更新: 2026-03-05 / 请教高手:我使用作者的vae、vard16_pth但是跑的结果accm只有acc_mean ≈5%,而作者论文中的是acc_mean ≈ 82.6%)
- 表3の"without CFG" FIDを再現できません(期待値約4.64、結果約12)、"with CFG"は再現可能 (更新: 2026-02-15 / Cannot reproduce "without CFG" FID in Table 3 (expected ~4.64, got ~12), while "with CFG" is reproducible)
- 🌟 SAR (Self-Autoregressive Refinement) の紹介:視覚自己回帰画像生成の堅牢な後学習を可能にする安定した自己ロールアウト (更新: 2026-02-07 / 🌟 Introducing SAR (Self-Autoregressive Refinement): stable self-rollout that unlocks robust post-training for Visual Autoregressive image generation.)
