3,640 repos GH 3,525 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

#VLM (16 repos)

「VLM」タグが付いたリポジトリ

← 全リポジトリ

マルチモーダル

GitHub

minimind-v

MiniMind-Vは、わずか3ドルと2時間で65MパラメータのビジョンマルチモーダルVLMをゼロから訓練できるプロジェクトで…

#Apache 2.0 License #CLI #GPU必須

★ 8.2k ⑂ 897 Apache-2.0 2026-05-19

AIエージェント

GitHub

mobileClaw

MobileClawは、Androidデバイス上でLLMエージェントを動作させるためのオープンソースの実験的なモバイルアプリです…

#Android #Jetpack Compose #Kotlin

★ 402 ⑂ 16 NOASSERTION 2026-06-26

マルチモーダル

GitHub

autoresearch-qwen

autoresearch-qwenは、Qwen3-VL-4B-InstructモデルをDocumentVQAベンチマークで自律的に改善することを目的とした研…

#CLI #GPU必須 #Python

★ 211 ⑂ 33 MIT 2026-06-14

マルチモーダル

GitHub

Awesome-VLM-Streaming-Video

このリポジトリは、Vision-Language Models (VLM) をストリーミングビデオに応用する研究と開発のための、厳選された…

#GitHub #Python #VLM

★ 183 ⑂ 5 2026-06-10

マルチモーダル

GitHub

CourtSI

CourtSIは、スポーツ分野における空間知能を評価するための大規模データセットとベンチマークです。100万以上の質問…

#GPU推奨 #Python #VLM

★ 71 Apache-2.0 2026-03-15

LLM

GitHub

ThinkJEPA

ThinkJEPAは、ビジョン-言語モデル(VLM)とJEPA(Joint Embedding Predictive Architecture)を統合したデュアルパス具…

#CLI #GPU必須 #Hugging Face

★ 42 ⑂ 5 NOASSERTION 2026-04-30

マルチモーダル

GitHub

MOSAIC

MOSAICは、強化学習（RL）、大規模言語モデル（LLM）、視覚言語モデル（VLM）、そして人間の意思決定者といった異な…

#GPU必須 #LLM #Python

★ 24 ⑂ 4 MIT 2026-04-21

3D / NeRF

GitHub

VLM-Instruct-FastGS

VLM-Instruct-FastGSは、3D Gaussian Splatting技術を拡張し、Vision-Language Models (VLM) からのセマンティックガ…

#3D Gaussian Splatting #GPU必須 #Python

★ 15 NOASSERTION 2026-03-05

マルチモーダル

GitHub

WikiSeeker

WikiSeekerは、知識ベースの視覚的質問応答（KB-VQA）のために開発された革新的なマルチモーダルRAGフレームワークで…

#CLI #LLM #Python

★ 15 Apache-2.0 2026-04-18

マルチモーダル

GitHub

cppo

CPPO（Contrastive Perception Policy Optimization）は、視覚言語モデル（VLM）エージェントのファインチューニング…

#Hugging Face #Python #VLM

★ 9 2026-05-28

LLM

GitHub

DAYA

DAYAは、イラスト豊富なドキュメント（プレゼンテーション資料など）に特化した、ドキュメント認識型ハイブリッドア…

#ChromaDB #Docling #Groq

★ 8 Apache-2.0 2026-06-04

マルチモーダル

GitHub

egobabyvlm

本リポジトリは、EgoBabyVLMチャレンジのインフラを提供します。これは、乳幼児の一人称視点ビデオデータ（BabyView …

#Python #PyTorch #VLM

★ 6 NOASSERTION 2026-06-23

マルチモーダル

GitHub

Operator-on-Android

Operatorは、PCに接続することなく、視覚言語モデル（VLM）を使用してAndroidスマートフォンを直接操作できるオンデ…

#AI Agent #Android #Root必須

★ 6 ⑂ 1 MIT 2026-06-17

マルチモーダル

GitHub

roboclaws

Roboclawsは、VLMポリシー、OpenClaw、AIコーディングエージェントによって駆動されるAIロボティクスデモのためのリ…

#AI Robotics #CLI #HTMLレポート

★ 4 ⑂ 2 MIT 2026-06-23

マルチモーダル

GitHub

ORION

ORIONは、低軌道衛星向けの自律型トリアージシステムです。Raspberry Pi 5に最適化されたVision-Language Model (VLM…

#CLI #Edge AI #Linux

★ 2 ⑂ 1 2026-05-19

マルチモーダル

GitHub

tokensieve

tokensieveは、VLM（Vision-Language Model）を用いたVQA（Visual Question Answering）タスクにおいて、推論時の「p…

#CLI #Python #VLM

★ 1 2026-06-10