vlm-from-scratch-v4

概要

Mini-LLaVA v4は、8GBのノートPC GPUで動作するように最適化された、CLIP-ViTとQwen2.5-1.5Bを組み合わせたマルチモーダルLLMです。

`LlavaForConditionalGeneration`のような高レベルな統合クラスを使わず、ビジョンエンコーダとLLMを直接接続し、QLoRA 4-bitやgradient checkpointingなどの技術で限られたVRAM環境での学習を実現しています。

VLMの自作や画像とテキストの融合メカニズムを深く理解したい開発者、または消費用GPUでLLaVA-1.5アーキテクチャの限界を探求したい研究者・愛好家がターゲットです。

短い事実型QA、長い記述、推論型QA、さらには韓国語にも対応し、OOD入力拒否機能も備えます。

GitHub: https://github.com/AD-Styles/vlm-from-scratch-v4