vlm-from-scratch

概要

このプロジェクトは、CLIP-ViTとQwen2.5をゼロから組み立てて開発されたミニLLaVAモデルの構築過程を記録したポートフォリオです。

単なる最終成果だけでなく、VLM開発における課題（視覚的な幻覚、韓国語でのCatastrophic Forgetting、OOD入力への対応など）に直面し、それを分析し、次の改善ステップを導き出す反復サイクルに焦点を当てています。

Llava-1.5のアーキテクチャを参考に、ProjectorやLoRAを直接実装することで、モデルの内部動作を深く理解できます。

Hugging Face Spacesでデモが公開されており、VLMの仕組みや学習の難しさ、改良の試みに興味のある開発者や研究者に特に推奨されます。

GitHub: https://github.com/AD-Styles/vlm-from-scratch