540 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

vlm-from-scratch

★ 1 MIT 更新: 2026-05-13 GitHubで見る →

概要

このプロジェクトは、CLIP-ViTとQwen2.5をゼロから組み立てて開発されたミニLLaVAモデルの構築過程を記録したポートフォリオです。

単なる最終成果だけでなく、VLM開発における課題(視覚的な幻覚、韓国語でのCatastrophic Forgetting、OOD入力への対応など)に直面し、それを分析し、次の改善ステップを導き出す反復サイクルに焦点を当てています。

Llava-1.5のアーキテクチャを参考に、ProjectorやLoRAを直接実装することで、モデルの内部動作を深く理解できます。

Hugging Face Spacesでデモが公開されており、VLMの仕組みや学習の難しさ、改良の試みに興味のある開発者や研究者に特に推奨されます。

互換性・特徴

  • Python
  • Hugging Face
  • GPU必須
  • 研究/学習用途
  • Web UI

基本情報

ライセンスMIT
Stars1
カテゴリマルチモーダル
アクティビティlow

GitHub: https://github.com/AD-Styles/vlm-from-scratch