3,369 repos GH 3,254 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

マルチモーダル (280 repos)

カテゴリ「マルチモーダル」のリポジトリ一覧

← 全カテゴリ

マルチモーダル

GitHub

miru

Miru（見る）は、マルチモーダルAIモデルの「ブラックボックス」問題を解決するための説明可能性エンジンです。画像…

#CLI #FastAPI #Python

★ 1 2026-06-01

マルチモーダル

GitHub

Aibys2

Aibys2は、インドネシアに根ざしたAIエコシステム向けの、スクラッチから大規模言語モデル（LLM）を構築・学習するた…

#AI学習 #CLI #LLM開発

★ 1 NOASSERTION 2026-05-24

マルチモーダル

GitHub

Wally-like-Storytelling-Scene-Interactor

この「Wally-like Storytelling Scene Interactor」は、テキストを基に画像を生成し、その画像内の特定の領域をマス…

#AI #GPU必須 #ストーリーテリング

★ 1 2025-08-12

マルチモーダル

GitHub

XAISDK

xAI Swift SDKは、xAIのGrokやImagineなどのAPIとSwift言語で直接対話するためのgRPCベースの高性能ライブラリです。…

#Appleエコシステム #gRPC #Swift

★ 1 Apache-2.0 2026-04-14

マルチモーダル

GitHub

PROSOPO

「Face AI」は、バイアス軽減に重点を置いた最先端の公平な顔認識システムです。顔検出、アライメント、埋め込み抽出…

#CLI #Docker #GPU対応

★ 1 2026-05-22

マルチモーダル

GitHub

vision-bridge

Vision Bridgeは、DeepSeek V4 PROやGPT-4o-textのような純粋なテキストベースのLLMに「視覚能力」を付与するツール…

#CLI #GPU/CPU対応 #LLM連携

★ 1 MIT 2026-05-31

マルチモーダル

GitHub

zero-shot-video-classifier

このツールは、ビジョン言語基盤モデル（CLIP、SigLIP 2、X-CLIP）を用いたゼロショット動画分類器です。タスク固有…

#Docker #HuggingFace Transformers #Python

★ 1 2026-05-07

マルチモーダル

GitHub

MultiModal-from-scratch

このリポジトリは、PyTorchを使ってマルチモーダル大規模言語モデル（VLM）をゼロから構築するための詳細なステップ…

#CLI #GPU必須 #Python

★ 1 2026-06-06

マルチモーダル

GitHub

qwen-visual-training-lab

「Qwen visual training lab」は、Windows環境でAMD GPUとDirectMLを利用し、QwenスタイルのビジュアルLoRA実験の実…

#AMD GPU #CLI #DirectML

★ 1 2026-05-15

マルチモーダル

GitHub

vision-bridge-skill

「vision-bridge-skill」は、多モーダル対応ではないAIモデルに対し、画像、PDF、スクリーンショット、図表などの視…

#AI-to-AI通信 #CLI #OCR

★ 1 2026-06-11

マルチモーダル

GitHub

ReceiptIQ

このツールは、レシートの画像から支出データを自動的に抽出し、その内容について自然言語で質問できる領収書解析AI…

#API利用 #GPU利用 #LLM活用

★ 1 2026-06-03

マルチモーダル

GitHub

gaze

このツールは、AIにPC画面の「目」を与えるPython製アプリケーションです。ローカルで動作し、スクリーンショット、…

#AIプラットフォーム非依存 #CLI #OCR

★ 1 MIT 2026-06-05

マルチモーダル

GitHub

agents-connector

agents-connectorは、Claude Code、Codex、Gemini CLIといったAIエージェント間の連携を可能にするローカルメッセー…

#Claude対応 #CLI #Codex対応

★ 1 MIT 2026-06-09

マルチモーダル

GitHub

esp32-cam-with-gemma

ESP32-CAMオフラインAIビジョンアシスタントは、IoT、コンピュータビジョン、ローカル大規模言語モデルを組み合わせ…

#ESP32-CAM #Flask #IoT

★ 1 MIT 2026-05-31

マルチモーダル

GitHub

cerul-app

Cerul Appは、ユーザーが視聴する動画や音声コンテンツをセルフホストで管理し、高度な検索を可能にするオープンソー…

#Desktop App #Local API #macOS / Linux / Windows

★ 1 Apache-2.0 2026-06-13

マルチモーダル

GitHub

corpus-mill

「corpus-mill」は、ローカルGPUのみで動作するマルチモーダル動画アノテーションパイプラインです。長尺動画（人物…

#CLI #GPU必須 #Python

★ 0 Apache-2.0 2026-05-06