概要
このプロジェクトは、CLIP-ViTとQwen2.5をゼロから組み立てて開発されたミニLLaVAモデルの構築過程を記録したポートフォリオです。
単なる最終成果だけでなく、VLM開発における課題(視覚的な幻覚、韓国語でのCatastrophic Forgetting、OOD入力への対応など)に直面し、それを分析し、次の改善ステップを導き出す反復サイクルに焦点を当てています。
Llava-1.5のアーキテクチャを参考に、ProjectorやLoRAを直接実装することで、モデルの内部動作を深く理解できます。
Hugging Face Spacesでデモが公開されており、VLMの仕組みや学習の難しさ、改良の試みに興味のある開発者や研究者に特に推奨されます。
互換性・特徴
- Python
- Hugging Face
- GPU必須
- 研究/学習用途
- Web UI
基本情報
| ライセンス | MIT |
| Stars | 1 |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
