3,369 repos GH 3,254 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新
マルチモーダル (280 repos)
カテゴリ「マルチモーダル」のリポジトリ一覧
← 全カテゴリ
マルチモーダル GitHub Viz2Speech
Viz2Speechは、インドネシアの視覚障害者のアクセシビリティを向上させるために開発された、画像から音声への変換エ…
★ 2 ⑂ 1 MIT 2026-05-16
マルチモーダル GitHub Crucible
Crucibleは、ロボットのデモンストレーションデータを評価・キュレーションするための多軸VLM(Vision-Language Mode…
★ 2 MIT 2026-05-10
マルチモーダル GitHub mimo-code
MiMo-Codeは、MiMoモデルファミリー専用のネイティブデスクトップコーディングエージェントです。WindowsおよびmacOS…
★ 2 MIT 2026-06-11
マルチモーダル GitHub OpenEMMA-UI
OpenEMMA-UIは、Windowsデスクトップ向けに設計された、リアルタイムCARLA環境での自律走行テスト用アプリケーション…
★ 2 Apache-2.0 2026-06-09
マルチモーダル GitHub TimeMachine
AI Time Machineは、テキスト、画像、音声、Webリンクなど多種多様な個人的な記憶をキャプチャし、マルチモーダルAI…
★ 2 MIT 2026-06-05
マルチモーダル GitHub kmetbench-release
K-MetBenchは、気象学における専門家の推論、地域性、マルチモダリティを詳細に評価するための多次元ベンチマークで…
★ 2 MIT 2026-05-24
マルチモーダル GitHub sentra-rag-failure-modes
このリポジトリは、Googleの最新マルチモーダル埋め込みモデル`gemini-embedding-2`の経験的失敗モードと幾何学的特…
★ 2 MIT 2026-05-08
マルチモーダル GitHub CaptionEvalKit-for-VLMs
CaptionEvalKit-for-VLMsは、VLM(Visual Language Model)向け画像キャプション評価を再現性高く、オールインワンで…
★ 2 BSD-3-Clause-Clear 2026-06-13
マルチモーダル GitHub omni-retrieval
omni-retrievalは、テキスト、画像、音声、動画といった多様なメディアタイプを完全にローカルかつエアギャップ環境…
★ 2 Apache-2.0 2026-06-08
マルチモーダル GitHub ORION
ORIONは、低軌道衛星向けの自律型トリアージシステムです。Raspberry Pi 5に最適化されたVision-Language Model (VLM…
★ 2 ⑂ 1 2026-05-19
マルチモーダル GitHub deep-video-watcher
Deep Video Watcherは、AIを活用したマルチモーダルな動画分析・編集インテリジェンスエンジンです。多数の動画コン…
★ 2 2026-05-12
マルチモーダル GitHub MagikaDocumentFromPixel
このツールは、Magikaに触発された軽量な画像品質ゲートで、画像を「シャープ」、「ぼやけ」、「不確実」のいずれか…
★ 2 MIT 2026-04-27
マルチモーダル GitHub gemma-chat-windows
「gemma-chat-windows」は、Electronアプリを通じてGemma 4モデルを利用し、ローカル環境で動作するプライベートなAI…
★ 2 MIT 2026-06-13
マルチモーダル GitHub swift-lm
Swift LMは、AppleのMLX Swiftを基盤とした大規模言語モデル(LLM)とビジョン言語モデル(VLM)の推論エンジンであ…
★ 2 MIT 2026-05-27
マルチモーダル GitHub alpamayo-trace
この「alpamayo-trace」は、NVIDIA Alpamayo R1(Vision-Language-Actionモデル)とQwen2.5-VL(Vision-Languageモデ…
★ 2 Apache-2.0 2026-05-08
マルチモーダル GitHub rag-multimodal
このプロジェクトは、複雑な表や図を含むPDF文書から情報を抽出するマルチモーダルRAGシステムの実装デモです。マル…
★ 2 MIT 2026-06-07
マルチモーダル GitHub gaze
このツールは、AIにPC画面の「目」を与えるPython製アプリケーションです。ローカルで動作し、スクリーンショット、…
★ 1 MIT 2026-06-05
マルチモーダル GitHub ragonfire
RagOnFireは、Apple Silicon Mac向けに設計された完全ローカルなマルチモーダルRAG(検索拡張生成)システムです。Ol…
★ 1 MIT 2026-05-21
マルチモーダル GitHub vision-bridge
Vision Bridgeは、DeepSeek V4 PROやGPT-4o-textのような純粋なテキストベースのLLMに「視覚能力」を付与するツール…
★ 1 MIT 2026-05-31
マルチモーダル GitHub Qwen3.6-27B-AEON-Ultimate-Uncensored-DFlash
このソフトウェアは、高性能なQwen3.6-27B AIモデルをWindows上でローカル実行するためのツールです。最適化されたハ…
★ 1 Apache-2.0 2026-05-30
マルチモーダル GitHub control-sci
ControlMindは、MinerUを活用した科学文書インテリジェンスシステムです。生PDFから直接情報を抽出し、科学論文の理…
★ 1 NOASSERTION 2026-05-30
マルチモーダル GitHub uitars-mcp
UI-TARS MCPは、AIエージェントがデスクトップとウェブブラウザを操作するための「目と手」を提供するサーバーツール…
★ 1 Apache-2.0 2026-05-28
マルチモーダル GitHub Aibys2
Aibys2は、インドネシアに根ざしたAIエコシステム向けの、スクラッチから大規模言語モデル(LLM)を構築・学習するた…
★ 1 NOASSERTION 2026-05-24
マルチモーダル GitHub qwen-visual-training-lab
「Qwen visual training lab」は、Windows環境でAMD GPUとDirectMLを利用し、QwenスタイルのビジュアルLoRA実験の実…
★ 1 2026-05-15