3,069 repos GH 2,954 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

MultiModal-from-scratch

★ 1 更新: 2026-06-06 GitHubで見る →

概要

このリポジトリは、PyTorchを使ってマルチモーダル大規模言語モデル(VLM)をゼロから構築するための詳細なステップバイステップガイドです。

Sebastian Raschkaの「Build a Large Language Model from Scratch」に倣い、Vision Transformer (ViT)、CLIP、VLMアーキテクチャ、二段階学習、推論といった主要なコンポーネントを、既成のライブラリに頼らずノートブック内で実装していきます。

各章は自己完結型で、コアアルゴリズムが詳細に解説されているため、ブラックボックスなしでVLMの内部動作を深く理解できます。

Transformer、マルチヘッドアテンション、GPTスタイルの生成に精通した開発者や研究者が、VLMの構築プロセスを実践的に学びたい場合に最適なリソースです。

互換性・特徴

  • Python
  • CLI
  • GPU必須
  • 学習/開発ツール

基本情報

Stars1
カテゴリマルチモーダル
アクティビティlow

GitHub: https://github.com/mayuehit/MultiModal-from-scratch