3,513 repos GH 3,398 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

マルチモーダル (291 repos)

カテゴリ「マルチモーダル」のリポジトリ一覧

← 全カテゴリ

マルチモーダル
GitHub
rag-multimodal
このプロジェクトは、複雑な表や図を含むPDF文書から情報を抽出するマルチモーダルRAGシステムの実装デモです。マル…
★ 2 MIT 2026-06-07
マルチモーダル
GitHub
PaintBench
PaintBenchは、生成AIモデルの画像編集能力を決定論的に評価するためのベンチマークツールです。MSペイントのような…
★ 2 MIT 2026-06-02
マルチモーダル
GitHub
visualdocqa-kit
VisoRAGは、ローカルGPU環境で動作する、PDF、DOCX、画像ファイルの質問応答や情報抽出に特化したビジョンファースト…
★ 2 MIT 2026-06-08
マルチモーダル
GitHub
ai-annotation-rule-doc-skill
このツールは、AIモデル訓練データのアノテーションルール文書を効率的に作成するためのClaudeスキルです。テキスト…
★ 2 MIT 2026-06-08
マルチモーダル
GitHub
video-evaluator
「video-evaluator」は、動画ファイルから視覚的証拠を抽出し、コーディングエージェントによる自動レビューや視覚的…
★ 2 MIT 2026-06-10
マルチモーダル
GitHub
multimodal-rock-classification
このツールは、手持ちの岩石・鉱物の写真から種類を識別するMATLABデスクトップアプリケーションです。畳み込みニュ…
★ 2 2026-06-10
マルチモーダル
GitHub
molmoweb
molmowebは、自然言語で指示することでウェブブラウザを操作し、様々なタスクを自動で実行するデスクトップアプリケ…
★ 1 Apache-2.0 2026-06-15
マルチモーダル
GitHub
mempalace-extended
mempalace-extendedは、Windowsユーザー向けに設計されたローカルデータ管理ツールです。ドキュメント、画像、その他…
★ 1 MIT 2026-06-10
マルチモーダル
GitHub
ai-chef-multimodal-assistant
AI Chefは、自宅にある食材からレシピを生成するAI搭載のマルチモーダル料理アシスタントです。テキスト入力または食…
★ 1 2026-06-09
マルチモーダル
GitHub
-deepseek-skills
このツールは、Claude CodeやDeepSeekのようなテキストベースのAIモデルに、画像認識(OCR機能を含む)と音声認識(…
★ 1 2026-06-04
マルチモーダル
GitHub
ai-learning-guides
このプロジェクトは、「AI Learning Guides」と題され、PyTorch、LLM、画像生成、強化学習、ロボティクス、マルチモ…
★ 1 MIT 2026-06-10
マルチモーダル
GitHub
airline-support-agent
このツールは、架空の航空会社FlightAIのためのマルチモーダルAIカスタマーサポートチャットボット「Airline Support…
★ 1 ⑂ 1 2026-06-12
マルチモーダル
GitHub
esp32-cam-with-gemma
ESP32-CAMオフラインAIビジョンアシスタントは、IoT、コンピュータビジョン、ローカル大規模言語モデルを組み合わせ…
★ 1 MIT 2026-05-31
マルチモーダル
GitHub
easycomputewithgemma
このツールは、Apple Silicon搭載MacでGemma 4を完全にローカルで実行し、スマートフォン(iOS/Android)から自然言…
★ 1 2026-05-24
マルチモーダル
GitHub
PrismRAG
PrismRAGは、PDFドキュメント内のテキストだけでなく、図、チャート、テーブルといった視覚情報からも質問に答えるマ…
★ 1 MIT 2026-06-10
マルチモーダル
GitHub
roboclaw-reports
MechMind Chronicleは、AIロボット実験の不透明性を解消し、リッチでレビュー可能なHTMLレポートを生成するオープン…
★ 1 2026-06-15
マルチモーダル
GitHub
uitars-mcp
UI-TARS MCPは、AIエージェントがデスクトップとウェブブラウザを操作するための「目と手」を提供するサーバーツール…
★ 1 Apache-2.0 2026-06-07
マルチモーダル
GitHub
agents-connector
agents-connectorは、Claude Code、Codex、Gemini CLIといったAIエージェント間の連携を可能にするローカルメッセー…
★ 1 MIT 2026-06-09
マルチモーダル
GitHub
mm-docqa
Jmiao11/mm-docqaは、図とテキストが混在するPDF(特に論文の図表を含む)の内容に対して質問し、引用元付きの回答を…
★ 1 2026-06-12
マルチモーダル
GitHub
ENOSES
「SEOSIRI ENOSES CORE ARCHITECT」は、物理的な音響波と光学データをリアルタイムのロボットコマンドに変換するマル…
★ 1 MIT 2026-05-17
マルチモーダル
GitHub
Qwen-Image-Edit-Object-Manipulator
Qwen-Image-Edit-Object-Manipulatorは、画像内のオブジェクトを簡単かつ高精度に操作できるツールです。ロゴ、アク…
★ 1 ⑂ 1 Apache-2.0 2026-06-10
マルチモーダル
GitHub
claude-badpunpc
このツールは、Steamゲーム「これは諧音梗(BadPunPC)」をAnthropicのClaude Sonnet 4.6を使って全自動で攻略するAIソ…
★ 1 MIT 2026-05-03
マルチモーダル
GitHub
xhs-note-reader
このツールは、中国のソーシャルメディア「小紅書」の図文ノート(画像とテキスト投稿)を、タイトル、本文、全画像…
★ 1 MIT 2026-05-19
マルチモーダル
GitHub
invoice-extractor
この「Invoice Extraction System」は、VLM(Vision Language Models)を活用して、請求書や領収書から構造化された…
★ 1 2026-06-07