1,738 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

tinyvlm-implementation

★ 1 更新: 2026-05-10 GitHubで見る →

概要

このリポジトリは、週末プロジェクトとしてゼロから構築されたVision-Language Model (VLM) の実装と、そのマルチGPU (FSDP) 環境でのスケーリング研究を詳述しています。

SigLIP-2-baseとQwen2.5-0.5Bをベースに、手動で実装された画像-トークンスプライシングと2層MLPプロジェクターを備えた小型VLMが特徴です。

50KのLLaVA-Pretrainデータで学習され、FSDPを用いた複数GPUでのスケーリング挙動、特にスーパリニアスケーリングの原因と、アクティベーションチェックポインティングによる効率改善が分析されています。

想定ユーザーは、VLMの構築、マルチGPU環境での分散学習(特にFSDPを用いたスケーリング研究)に関心のある研究者や開発者です。

互換性・特徴

  • Python
  • PyTorch
  • FSDP
  • GPU必須
  • CLI
  • HuggingFace Transformers

基本情報

Stars1
カテゴリマルチモーダル
アクティビティlow

GitHub: https://github.com/hectopascal/tinyvlm-implementation