3,369 repos GH 3,254 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新
マルチモーダル (280 repos)
カテゴリ「マルチモーダル」のリポジトリ一覧
← 全カテゴリ
マルチモーダル GitHub ai-learning-guides
このプロジェクトは、「AI Learning Guides」と題され、PyTorch、LLM、画像生成、強化学習、ロボティクス、マルチモ…
★ 1 MIT 2026-06-10
マルチモーダル GitHub airline-support-agent
このツールは、架空の航空会社FlightAIのためのマルチモーダルAIカスタマーサポートチャットボット「Airline Support…
★ 1 ⑂ 1 2026-06-12
マルチモーダル GitHub ENOSES
「SEOSIRI ENOSES CORE ARCHITECT」は、物理的な音響波と光学データをリアルタイムのロボットコマンドに変換するマル…
★ 1 MIT 2026-05-17
マルチモーダル GitHub esp32-cam-with-gemma
ESP32-CAMオフラインAIビジョンアシスタントは、IoT、コンピュータビジョン、ローカル大規模言語モデルを組み合わせ…
★ 1 MIT 2026-05-31
マルチモーダル GitHub xhs-note-reader
このツールは、中国のソーシャルメディア「小紅書」の図文ノート(画像とテキスト投稿)を、タイトル、本文、全画像…
★ 1 MIT 2026-05-19
マルチモーダル GitHub PrismRAG
PrismRAGは、PDFドキュメント内のテキストだけでなく、図、チャート、テーブルといった視覚情報からも質問に答えるマ…
★ 1 MIT 2026-06-10
マルチモーダル GitHub vlm-from-scratch
このプロジェクトは、CLIP-ViTとQwen2.5をゼロから組み立てて開発されたミニLLaVAモデルの構築過程を記録したポート…
★ 1 MIT 2026-05-14
マルチモーダル GitHub agents-connector
agents-connectorは、Claude Code、Codex、Gemini CLIといったAIエージェント間の連携を可能にするローカルメッセー…
★ 1 MIT 2026-06-09
マルチモーダル GitHub mm-docqa
Jmiao11/mm-docqaは、図とテキストが混在するPDF(特に論文の図表を含む)の内容に対して質問し、引用元付きの回答を…
★ 1 2026-06-12
マルチモーダル GitHub Qwen-Image-Edit-Object-Manipulator
Qwen-Image-Edit-Object-Manipulatorは、画像内のオブジェクトを簡単かつ高精度に操作できるツールです。ロゴ、アク…
★ 1 ⑂ 1 Apache-2.0 2026-06-10
マルチモーダル GitHub invoice-extractor
この「Invoice Extraction System」は、VLM(Vision Language Models)を活用して、請求書や領収書から構造化された…
★ 1 2026-06-07
マルチモーダル GitHub multimodal-clinical-ai
このマルチモーダル臨床AIプロジェクトは、胸部X線画像と臨床ノートを統合し、ViT、BioBERT、時系列エンコーダ、クロ…
★ 1 NOASSERTION 2026-05-20
マルチモーダル GitHub gemma-gem
Gemma Gemは、Gemma 4 AIモデルをWindows PCのWebブラウザ(Google Chrome)で直接実行できる拡張機能です。このツー…
★ 1 2026-06-10
マルチモーダル GitHub mlx-mtp
mlx-mtpは、Apple Silicon上で大規模なVision-Language Models (VLM) を高速かつローカルで実行するために設計された…
★ 1 Apache-2.0 2026-06-11
マルチモーダル GitHub PROSOPO
「Face AI」は、バイアス軽減に重点を置いた最先端の公平な顔認識システムです。顔検出、アライメント、埋め込み抽出…
★ 1 2026-05-22
マルチモーダル GitHub ControlFoley_test
ControlFoleyは、動画から音声への生成を統合的かつ制御可能に行うフレームワークです。動画、テキスト、参照音声を…
★ 1 Apache-2.0 2026-04-17
マルチモーダル GitHub vlm-from-scratch-v4
Mini-LLaVA v4は、8GBのノートPC GPUで動作するように最適化された、CLIP-ViTとQwen2.5-1.5Bを組み合わせたマルチモ…
★ 1 MIT 2026-05-19
マルチモーダル GitHub Prismer
Prismerは、OpenAI Prismのオープンソース代替として開発されたツールで、AIとのスムーズな連携と高度なコンテキスト…
★ 1 NOASSERTION 2026-06-10
マルチモーダル GitHub DeepNumberVision
DeepNumberVisionは、PyTorchとOpenCVで構築された深層学習コンピュータビジョンパイプラインです。ユーザーが描画ま…
★ 1 2026-05-30
マルチモーダル GitHub tinyvlm-implementation
このリポジトリは、週末プロジェクトとしてゼロから構築されたVision-Language Model (VLM) の実装と、そのマルチGPU…
★ 1 2026-05-10
マルチモーダル GitHub miru
Miru(見る)は、マルチモーダルAIモデルの「ブラックボックス」問題を解決するための説明可能性エンジンです。画像…
★ 1 2026-06-01
マルチモーダル GitHub FootPrint
FootPrint Analyticsは、サッカーの試合映像をAIで分析するパイプラインシステムです。YOLOv8とByteTrackを用いて選…
★ 1 MIT 2026-05-18
マルチモーダル GitHub mllm-persona-evaluation
本ツールは、「都市センチメント認識のためのLLMエージェントにおけるペルソナの妥当性」に関する研究の公式実装です…
★ 1 CC-BY-4.0 2026-05-26
マルチモーダル GitHub zero-shot-video-classifier
このツールは、ビジョン言語基盤モデル(CLIP、SigLIP 2、X-CLIP)を用いたゼロショット動画分類器です。タスク固有…
★ 1 2026-05-07