3,369 repos GH 3,254 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新
マルチモーダル (280 repos)
カテゴリ「マルチモーダル」のリポジトリ一覧
← 全カテゴリ
マルチモーダル GitHub miru
Miru(見る)は、マルチモーダルAIモデルの「ブラックボックス」問題を解決するための説明可能性エンジンです。画像…
★ 1 2026-06-01
マルチモーダル GitHub Aibys2
Aibys2は、インドネシアに根ざしたAIエコシステム向けの、スクラッチから大規模言語モデル(LLM)を構築・学習するた…
★ 1 NOASSERTION 2026-05-24
マルチモーダル GitHub Wally-like-Storytelling-Scene-Interactor
この「Wally-like Storytelling Scene Interactor」は、テキストを基に画像を生成し、その画像内の特定の領域をマス…
★ 1 2025-08-12
マルチモーダル GitHub XAISDK
xAI Swift SDKは、xAIのGrokやImagineなどのAPIとSwift言語で直接対話するためのgRPCベースの高性能ライブラリです。…
★ 1 Apache-2.0 2026-04-14
マルチモーダル GitHub PROSOPO
「Face AI」は、バイアス軽減に重点を置いた最先端の公平な顔認識システムです。顔検出、アライメント、埋め込み抽出…
★ 1 2026-05-22
マルチモーダル GitHub vision-bridge
Vision Bridgeは、DeepSeek V4 PROやGPT-4o-textのような純粋なテキストベースのLLMに「視覚能力」を付与するツール…
★ 1 MIT 2026-05-31
マルチモーダル GitHub zero-shot-video-classifier
このツールは、ビジョン言語基盤モデル(CLIP、SigLIP 2、X-CLIP)を用いたゼロショット動画分類器です。タスク固有…
★ 1 2026-05-07
マルチモーダル GitHub MultiModal-from-scratch
このリポジトリは、PyTorchを使ってマルチモーダル大規模言語モデル(VLM)をゼロから構築するための詳細なステップ…
★ 1 2026-06-06
マルチモーダル GitHub qwen-visual-training-lab
「Qwen visual training lab」は、Windows環境でAMD GPUとDirectMLを利用し、QwenスタイルのビジュアルLoRA実験の実…
★ 1 2026-05-15
マルチモーダル GitHub vision-bridge-skill
「vision-bridge-skill」は、多モーダル対応ではないAIモデルに対し、画像、PDF、スクリーンショット、図表などの視…
★ 1 2026-06-11
マルチモーダル GitHub ReceiptIQ
このツールは、レシートの画像から支出データを自動的に抽出し、その内容について自然言語で質問できる領収書解析AI…
★ 1 2026-06-03
マルチモーダル GitHub gaze
このツールは、AIにPC画面の「目」を与えるPython製アプリケーションです。ローカルで動作し、スクリーンショット、…
★ 1 MIT 2026-06-05
マルチモーダル GitHub agents-connector
agents-connectorは、Claude Code、Codex、Gemini CLIといったAIエージェント間の連携を可能にするローカルメッセー…
★ 1 MIT 2026-06-09
マルチモーダル GitHub esp32-cam-with-gemma
ESP32-CAMオフラインAIビジョンアシスタントは、IoT、コンピュータビジョン、ローカル大規模言語モデルを組み合わせ…
★ 1 MIT 2026-05-31
マルチモーダル GitHub cerul-app
Cerul Appは、ユーザーが視聴する動画や音声コンテンツをセルフホストで管理し、高度な検索を可能にするオープンソー…
★ 1 Apache-2.0 2026-06-13
マルチモーダル GitHub corpus-mill
「corpus-mill」は、ローカルGPUのみで動作するマルチモーダル動画アノテーションパイプラインです。長尺動画(人物…
★ 0 Apache-2.0 2026-05-06