VHS | AIAI Hub

概要

VHSは、DiTベースの画像生成における推論時の効率的なスケーリング検証フレームワークです。

テキストプロンプトに基づいて生成された複数の候補画像（またはその中間潜在表現）を軽量なマルチモーダル言語モデル（Qwen2.5-0.5B + LLaVA）でスコアリングし、最良の画像を効率的に選択します。

これにより、すべての候補を完全に評価することなく、最適な生成結果を得ることが可能になります。

研究者やテキストから画像への生成効率を向上させたい開発者に特に有用です。

GitHub: https://github.com/aimagelab/VHS