3,369 repos GH 3,254 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

マルチモーダル (280 repos)

カテゴリ「マルチモーダル」のリポジトリ一覧

← 全カテゴリ

マルチモーダル
GitHub
FootPrint
FootPrint Analyticsは、サッカーの試合映像をAIで分析するパイプラインシステムです。YOLOv8とByteTrackを用いて選…
★ 1 MIT 2026-05-18
マルチモーダル
GitHub
ControlFoley_test
ControlFoleyは、動画から音声への生成を統合的かつ制御可能に行うフレームワークです。動画、テキスト、参照音声を…
★ 1 Apache-2.0 2026-04-17
マルチモーダル
GitHub
Qwen-Image-Edit-Object-Manipulator
Qwen-Image-Edit-Object-Manipulatorは、画像内のオブジェクトを簡単かつ高精度に操作できるツールです。ロゴ、アク…
★ 1 ⑂ 1 Apache-2.0 2026-06-10
マルチモーダル
GitHub
mcp-wechat-server
mcp-wechat-serverは、AIアプリケーションがWindows PC上でWeChatメッセージを送受信できるようにするMCPサーバーで…
★ 1 ⑂ 1 2026-06-02
マルチモーダル
GitHub
Prismer
Prismerは、OpenAI Prismのオープンソース代替として開発されたツールで、AIとのスムーズな連携と高度なコンテキスト…
★ 1 NOASSERTION 2026-06-10
マルチモーダル
GitHub
gemma-gem
Gemma Gemは、Gemma 4 AIモデルをWindows PCのWebブラウザ(Google Chrome)で直接実行できる拡張機能です。このツー…
★ 1 2026-06-10
マルチモーダル
GitHub
tinyvlm-implementation
このリポジトリは、週末プロジェクトとしてゼロから構築されたVision-Language Model (VLM) の実装と、そのマルチGPU…
★ 1 2026-05-10
マルチモーダル
GitHub
invoice-extractor
この「Invoice Extraction System」は、VLM(Vision Language Models)を活用して、請求書や領収書から構造化された…
★ 1 2026-06-07
マルチモーダル
GitHub
ENOSES
「SEOSIRI ENOSES CORE ARCHITECT」は、物理的な音響波と光学データをリアルタイムのロボットコマンドに変換するマル…
★ 1 MIT 2026-05-17
マルチモーダル
GitHub
airline-support-agent
このツールは、架空の航空会社FlightAIのためのマルチモーダルAIカスタマーサポートチャットボット「Airline Support…
★ 1 ⑂ 1 2026-06-12
マルチモーダル
GitHub
obsidian-neural-central
OBSIDIAN Neuralは、音楽制作者向けのリアルタイムAI音楽生成サーバーで、OBSIDIAN Neural VSTプラグインと連携しま…
★ 1 AGPL-3.0 2026-05-29
マルチモーダル
GitHub
DeepNumberVision
DeepNumberVisionは、PyTorchとOpenCVで構築された深層学習コンピュータビジョンパイプラインです。ユーザーが描画ま…
★ 1 2026-05-30
マルチモーダル
GitHub
mm-docqa
Jmiao11/mm-docqaは、図とテキストが混在するPDF(特に論文の図表を含む)の内容に対して質問し、引用元付きの回答を…
★ 1 2026-06-12
マルチモーダル
GitHub
xhs-note-reader
このツールは、中国のソーシャルメディア「小紅書」の図文ノート(画像とテキスト投稿)を、タイトル、本文、全画像…
★ 1 MIT 2026-05-19
マルチモーダル
GitHub
control-sci
ControlMindは、MinerUを活用した科学文書インテリジェンスシステムです。生PDFから直接情報を抽出し、科学論文の理…
★ 1 NOASSERTION 2026-05-30
マルチモーダル
GitHub
local-asset-gen-mcp
このプロジェクトは、テキストから画像、音楽/音声、音声、さらに画像やテキストから3Dモデルを生成できるローカルAI…
★ 1 GPL-3.0 2026-03-28
マルチモーダル
GitHub
mlx-mtp
mlx-mtpは、Apple Silicon上で大規模なVision-Language Models (VLM) を高速かつローカルで実行するために設計された…
★ 1 Apache-2.0 2026-06-11
マルチモーダル
GitHub
molmoweb
molmowebは、自然言語で指示することでウェブブラウザを操作し、様々なタスクを自動で実行するデスクトップアプリケ…
★ 1 Apache-2.0 2026-06-02
マルチモーダル
GitHub
clip-from-scratch
このプロジェクトは、PyTorchでContrastive Language-Image Pre-training (CLIP) をゼロから実装したものです。「同…
★ 1 MIT 2026-05-12
マルチモーダル
GitHub
multimodal-clinical-ai
このマルチモーダル臨床AIプロジェクトは、胸部X線画像と臨床ノートを統合し、ViT、BioBERT、時系列エンコーダ、クロ…
★ 1 NOASSERTION 2026-05-20
マルチモーダル
GitHub
tokensieve
tokensieveは、VLM(Vision-Language Model)を用いたVQA(Visual Question Answering)タスクにおいて、推論時の「p…
★ 1 2026-06-10
マルチモーダル
GitHub
wardrobeAssistant
wardrobeAssistantは、ローカルファーストのAI搭載パーソナルワードローブ管理ツールです。自動的な衣類セグメンテー…
★ 1 2026-05-31
マルチモーダル
GitHub
vlm-from-scratch-v4
Mini-LLaVA v4は、8GBのノートPC GPUで動作するように最適化された、CLIP-ViTとQwen2.5-1.5Bを組み合わせたマルチモ…
★ 1 MIT 2026-05-19
マルチモーダル
GitHub
longitudinal-health-foundation-model
このリポジトリは、ウェアラブルデバイス、スマートフォン、気候データから得られる自己教師ありマルチモーダル情報…
★ 1 NOASSERTION 2026-05-21