3,702 repos GH 3,587 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

マルチモーダル (304 repos)

カテゴリ「マルチモーダル」のリポジトリ一覧

← 全カテゴリ

マルチモーダル
GitHub
rag-multimodal
このプロジェクトは、複雑な表や図を含むPDF文書から情報を抽出するマルチモーダルRAGシステムの実装デモです。マル…
★ 2 MIT 2026-06-07
マルチモーダル
GitHub
xhs-notes-skill
xhs-notes-skillは、中国のソーシャルメディア「小紅書(XHS/RedNote)」向けの画像とテキストコンテンツ作成を支援…
★ 2 MIT 2026-06-18
マルチモーダル
GitHub
MagikaDocumentFromPixel
このツールは、Magikaに触発された軽量な画像品質ゲートで、画像を「シャープ」、「ぼやけ」、「不確実」のいずれか…
★ 2 MIT 2026-04-27
マルチモーダル
GitHub
visualdocqa-kit
VisoRAGは、ローカルGPU環境で動作する、PDF、DOCX、画像ファイルの質問応答や情報抽出に特化したビジョンファースト…
★ 2 MIT 2026-06-08
マルチモーダル
GitHub
Crucible
Crucibleは、ロボットのデモンストレーションデータを評価・キュレーションするための多軸VLM(Vision-Language Mode…
★ 2 MIT 2026-05-10
マルチモーダル
GitHub
ai-annotation-rule-doc-skill
このツールは、AIモデル訓練データのアノテーションルール文書を効率的に作成するためのClaudeスキルです。テキスト…
★ 2 MIT 2026-06-08
マルチモーダル
GitHub
multimodal-rock-classification
このツールは、手持ちの岩石・鉱物の写真から種類を識別するMATLABデスクトップアプリケーションです。畳み込みニュ…
★ 2 2026-06-10
マルチモーダル
GitHub
video-evaluator
「video-evaluator」は、動画ファイルから視覚的証拠を抽出し、コーディングエージェントによる自動レビューや視覚的…
★ 2 MIT 2026-06-16
マルチモーダル
GitHub
Page-agent-UI
Page-agent-UIは、ウェブページの見た目と操作性を向上させるChrome拡張機能です。UI(ユーザーインターフェース)と…
★ 2 MIT 2026-06-16
マルチモーダル
GitHub
awesome-awesome
本リポジトリは、AI研究の各分野を対象に、「awesome list」、サーベイリポジトリ、学会論文リスト、特定モデルのコ…
★ 2 CC0-1.0 2026-06-15
マルチモーダル
GitHub
aiyeah
AIyeahは、AIアプリケーション開発を簡素化するモジュール型AIプラットフォームです。複数のAIツールやプロバイダー…
★ 2 MIT 2026-05-26
マルチモーダル
GitHub
Viz2Speech
Viz2Speechは、インドネシアの視覚障害者のアクセシビリティを向上させるために開発された、画像から音声への変換エ…
★ 2 ⑂ 1 MIT 2026-05-16
マルチモーダル
GitHub
OpenEMMA-UI
OpenEMMA-UIは、Windowsデスクトップ向けに設計された、リアルタイムCARLA環境での自律走行テスト用アプリケーション…
★ 2 Apache-2.0 2026-06-16
マルチモーダル
GitHub
multimodal-clinical-ai
このマルチモーダル臨床AIプロジェクトは、胸部X線画像と臨床ノートを統合し、ViT、BioBERT、時系列エンコーダ、クロ…
★ 1 NOASSERTION 2026-05-20
マルチモーダル
GitHub
blind-vision-mcp
blind-vision-mcpは、テキストベースのLLM(大規模言語モデル)に「視覚」を与えるMCPサーバーです。GPT-4 VisionやC…
★ 1 MIT 2026-06-15
マルチモーダル
GitHub
vlm-from-scratch-v4
Mini-LLaVA v4は、8GBのノートPC GPUで動作するように最適化された、CLIP-ViTとQwen2.5-1.5Bを組み合わせたマルチモ…
★ 1 MIT 2026-05-19
マルチモーダル
GitHub
mcp-wechat-server
mcp-wechat-serverは、AIアプリケーションがWindows PC上でWeChatメッセージを送受信できるようにするMCPサーバーで…
★ 1 ⑂ 1 2026-06-16
マルチモーダル
GitHub
tokensieve
tokensieveは、VLM(Vision-Language Model)を用いたVQA(Visual Question Answering)タスクにおいて、推論時の「p…
★ 1 2026-06-10
マルチモーダル
GitHub
miru
Miru(見る)は、マルチモーダルAIモデルの「ブラックボックス」問題を解決するための説明可能性エンジンです。画像…
★ 1 2026-06-13
マルチモーダル
GitHub
zero-shot-video-classifier
このツールは、ビジョン言語基盤モデル(CLIP、SigLIP 2、X-CLIP)を用いたゼロショット動画分類器です。タスク固有…
★ 1 2026-06-09
マルチモーダル
GitHub
vision-bridge-skill
「vision-bridge-skill」は、多モーダル対応ではないAIモデルに対し、画像、PDF、スクリーンショット、図表などの視…
★ 1 2026-06-11
マルチモーダル
GitHub
cerul-app
Cerul Appは、ユーザーが視聴する動画や音声コンテンツをセルフホストで管理し、高度な検索を可能にするオープンソー…
★ 1 ⑂ 1 NOASSERTION 2026-06-19
マルチモーダル
GitHub
longitudinal-health-foundation-model
このリポジトリは、ウェアラブルデバイス、スマートフォン、気候データから得られる自己教師ありマルチモーダル情報…
★ 1 NOASSERTION 2026-05-21
マルチモーダル
GitHub
whatfirst-small
whatfirst · smallは、タスクの優先順位付けを支援する、ローカルで動作する小型のビジョン言語モデル(Qwen2.5-VL-3…
★ 1 Apache-2.0 2026-06-19