3,513 repos GH 3,398 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

マルチモーダル (291 repos)

カテゴリ「マルチモーダル」のリポジトリ一覧

← 全カテゴリ

マルチモーダル

GitHub

gemma-gem

Gemma Gemは、Gemma 4 AIモデルをWindows PCのWebブラウザ（Google Chrome）で直接実行できる拡張機能です。このツー…

#Gemma 4 #GPU必須 #Webブラウザ (Chrome)

★ 1 2026-06-10

マルチモーダル

GitHub

mlx-mtp

mlx-mtpは、Apple Silicon上で大規模なVision-Language Models (VLM) を高速かつローカルで実行するために設計された…

#Apple Silicon対応 #CLI #Python

★ 1 Apache-2.0 2026-06-11

マルチモーダル

GitHub

PROSOPO

「Face AI」は、バイアス軽減に重点を置いた最先端の公平な顔認識システムです。顔検出、アライメント、埋め込み抽出…

#CLI #Docker #GPU対応

★ 1 2026-05-22

マルチモーダル

GitHub

residuos_yolov11m_gemma3

このリポジトリは、ブラジルの都市部における不法投棄監視のためのAI活用に関する大学の卒業研究の成果物です。オブ…

#AI/ML #CLI #Gemma

★ 1 2026-06-13

マルチモーダル

GitHub

Prismer

Prismerは、OpenAI Prismのオープンソース代替として開発されたツールで、AIとのスムーズな連携と高度なコンテキスト…

#Linux #macOS #Windows

★ 1 NOASSERTION 2026-06-10

マルチモーダル

GitHub

DeepNumberVision

DeepNumberVisionは、PyTorchとOpenCVで構築された深層学習コンピュータビジョンパイプラインです。ユーザーが描画ま…

#CLI #GPU必須 #OpenCV

★ 1 2026-05-30

マルチモーダル

GitHub

multimodal-clinical-ai

このマルチモーダル臨床AIプロジェクトは、胸部X線画像と臨床ノートを統合し、ViT、BioBERT、時系列エンコーダ、クロ…

#CLI #Docker #GPU必須

★ 1 NOASSERTION 2026-05-20

マルチモーダル

GitHub

FootPrint

FootPrint Analyticsは、サッカーの試合映像をAIで分析するパイプラインシステムです。YOLOv8とByteTrackを用いて選…

#CLI #GPU必須 #OpenCV

★ 1 MIT 2026-05-18

マルチモーダル

GitHub

mllm-persona-evaluation

本ツールは、「都市センチメント認識のためのLLMエージェントにおけるペルソナの妥当性」に関する研究の公式実装です…

#CLI #Jupyter Notebooks #LangGraph

★ 1 CC-BY-4.0 2026-05-26

マルチモーダル

GitHub

fal-ai

fal (fal-ai) は、画像、動画、音声、マルチモーダルな生成AIモデルを超高速で実行できるAPIを提供する生成メディア…

#AI #GPU必須 #Python

★ 1 2026-06-15

マルチモーダル

GitHub

vlm-from-scratch-v4

Mini-LLaVA v4は、8GBのノートPC GPUで動作するように最適化された、CLIP-ViTとQwen2.5-1.5Bを組み合わせたマルチモ…

#CLI #GPU必須 #マルチモーダル

★ 1 MIT 2026-05-19

マルチモーダル

GitHub

miru

Miru（見る）は、マルチモーダルAIモデルの「ブラックボックス」問題を解決するための説明可能性エンジンです。画像…

#CLI #FastAPI #Python

★ 1 2026-06-13

マルチモーダル

GitHub

loop-antigravity

loop-antigravityは、Google Antigravity (agy CLI) とGeminiの1Mトークンコンテキストおよびマルチモーダル推論能力…

#CLI #GCP #Gemini API

★ 1 Apache-2.0 2026-06-14

マルチモーダル

GitHub

zero-shot-video-classifier

このツールは、ビジョン言語基盤モデル（CLIP、SigLIP 2、X-CLIP）を用いたゼロショット動画分類器です。タスク固有…

#Docker #HuggingFace Transformers #Python

★ 1 2026-06-09

マルチモーダル

GitHub

mcp-wechat-server

mcp-wechat-serverは、AIアプリケーションがWindows PC上でWeChatメッセージを送受信できるようにするMCPサーバーで…

#AI Agent #Bun #CLI

★ 1 ⑂ 1 2026-06-02

マルチモーダル

GitHub

tokensieve

tokensieveは、VLM（Vision-Language Model）を用いたVQA（Visual Question Answering）タスクにおいて、推論時の「p…

#CLI #Python #VLM

★ 1 2026-06-10

マルチモーダル

GitHub

vlm-from-scratch

このプロジェクトは、CLIP-ViTとQwen2.5をゼロから組み立てて開発されたミニLLaVAモデルの構築過程を記録したポート…

#GPU必須 #Hugging Face #Python

★ 1 MIT 2026-05-14

マルチモーダル

GitHub

vision-bridge-skill

「vision-bridge-skill」は、多モーダル対応ではないAIモデルに対し、画像、PDF、スクリーンショット、図表などの視…

#AI-to-AI通信 #CLI #OCR

★ 1 2026-06-11

マルチモーダル

GitHub

cerul-app

Cerul Appは、ユーザーが視聴する動画や音声コンテンツをセルフホストで管理し、高度な検索を可能にするオープンソー…

#Desktop App #Local API #macOS / Linux / Windows

★ 1 Apache-2.0 2026-06-13

マルチモーダル

GitHub

longitudinal-health-foundation-model

このリポジトリは、ウェアラブルデバイス、スマートフォン、気候データから得られる自己教師ありマルチモーダル情報…

#CLI #Colab対応 #CPU対応

★ 1 NOASSERTION 2026-05-21

マルチモーダル

GitHub

ControlFoley_test

ControlFoleyは、動画から音声への生成を統合的かつ制御可能に行うフレームワークです。動画、テキスト、参照音声を…

#CLI #GPU必須 #Hugging Face

★ 1 Apache-2.0 2026-04-17

マルチモーダル

GitHub

tinyvlm-implementation

このリポジトリは、週末プロジェクトとしてゼロから構築されたVision-Language Model (VLM) の実装と、そのマルチGPU…

#CLI #FSDP #GPU必須

★ 1 2026-05-10

マルチモーダル

GitHub

MultiModal-from-scratch

このリポジトリは、PyTorchを使ってマルチモーダル大規模言語モデル（VLM）をゼロから構築するための詳細なステップ…

#CLI #GPU必須 #Python

★ 1 2026-06-06

マルチモーダル

GitHub

whatfirst-small

whatfirst · smallは、タスクの優先順位付けを支援する、ローカルで動作する小型のビジョン言語モデル（Qwen2.5-VL-3…

#Docker #Python #Web UI

★ 1 Apache-2.0 2026-06-14