概要
このリポジトリは、週末プロジェクトとしてゼロから構築されたVision-Language Model (VLM) の実装と、そのマルチGPU (FSDP) 環境でのスケーリング研究を詳述しています。
SigLIP-2-baseとQwen2.5-0.5Bをベースに、手動で実装された画像-トークンスプライシングと2層MLPプロジェクターを備えた小型VLMが特徴です。
50KのLLaVA-Pretrainデータで学習され、FSDPを用いた複数GPUでのスケーリング挙動、特にスーパリニアスケーリングの原因と、アクティベーションチェックポインティングによる効率改善が分析されています。
想定ユーザーは、VLMの構築、マルチGPU環境での分散学習(特にFSDPを用いたスケーリング研究)に関心のある研究者や開発者です。
互換性・特徴
- Python
- PyTorch
- FSDP
- GPU必須
- CLI
- HuggingFace Transformers
基本情報
| Stars | 1 |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
GitHub: https://github.com/hectopascal/tinyvlm-implementation
