3,720 repos GH 3,605 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新
マルチモーダル (308 repos)
カテゴリ「マルチモーダル」のリポジトリ一覧
← 全カテゴリ
マルチモーダル GitHub Page-agent-UI
Page-agent-UIは、ウェブページの見た目と操作性を向上させるChrome拡張機能です。UI(ユーザーインターフェース)と…
★ 2 MIT 2026-06-16
マルチモーダル GitHub awesome-awesome
本リポジトリは、AI研究の各分野を対象に、「awesome list」、サーベイリポジトリ、学会論文リスト、特定モデルのコ…
★ 2 CC0-1.0 2026-06-15
マルチモーダル GitHub gemma-chat-windows
「gemma-chat-windows」は、Electronアプリを通じてGemma 4モデルを利用し、ローカル環境で動作するプライベートなAI…
★ 2 MIT 2026-06-13
マルチモーダル GitHub Qwen3.6-27B-AEON-Ultimate-Uncensored-DFlash
このソフトウェアは、高性能なQwen3.6-27B AIモデルをWindows上でローカル実行するためのツールです。最適化されたハ…
★ 2 Apache-2.0 2026-06-14
マルチモーダル GitHub aiyeah
AIyeahは、AIアプリケーション開発を簡素化するモジュール型AIプラットフォームです。複数のAIツールやプロバイダー…
★ 2 MIT 2026-05-26
マルチモーダル GitHub Awesome-TTT-in-Vision
「Awesome-TTT-in-Vision」は、コンピュータビジョン分野におけるTest-Time Training (TTT)に関する厳選された論文と…
★ 2 Apache-2.0 2026-06-13
マルチモーダル GitHub Viz2Speech
Viz2Speechは、インドネシアの視覚障害者のアクセシビリティを向上させるために開発された、画像から音声への変換エ…
★ 2 ⑂ 1 MIT 2026-05-16
マルチモーダル GitHub Prismer
Prismerは、OpenAI Prismのオープンソース代替として開発されたツールで、AIとのスムーズな連携と高度なコンテキスト…
★ 1 NOASSERTION 2026-06-16
マルチモーダル GitHub DeepNumberVision
DeepNumberVisionは、PyTorchとOpenCVで構築された深層学習コンピュータビジョンパイプラインです。ユーザーが描画ま…
★ 1 2026-05-30
マルチモーダル GitHub multimodal-clinical-ai
このマルチモーダル臨床AIプロジェクトは、胸部X線画像と臨床ノートを統合し、ViT、BioBERT、時系列エンコーダ、クロ…
★ 1 NOASSERTION 2026-05-20
マルチモーダル GitHub FootPrint
FootPrint Analyticsは、サッカーの試合映像をAIで分析するパイプラインシステムです。YOLOv8とByteTrackを用いて選…
★ 1 MIT 2026-05-18
マルチモーダル GitHub locate-anything
このツールは、NVIDIA LocateAnything-3Bモデルを基盤とし、画像内のオブジェクトやテキストを容易に検出するための…
★ 1 Apache-2.0 2026-06-16
マルチモーダル GitHub mllm-persona-evaluation
本ツールは、「都市センチメント認識のためのLLMエージェントにおけるペルソナの妥当性」に関する研究の公式実装です…
★ 1 CC-BY-4.0 2026-05-26
マルチモーダル GitHub fal-ai
fal (fal-ai) は、画像、動画、音声、マルチモーダルな生成AIモデルを超高速で実行できるAPIを提供する生成メディア…
★ 1 2026-06-15
マルチモーダル GitHub vlm-from-scratch-v4
Mini-LLaVA v4は、8GBのノートPC GPUで動作するように最適化された、CLIP-ViTとQwen2.5-1.5Bを組み合わせたマルチモ…
★ 1 MIT 2026-05-19
マルチモーダル GitHub miru
Miru(見る)は、マルチモーダルAIモデルの「ブラックボックス」問題を解決するための説明可能性エンジンです。画像…
★ 1 2026-06-13
マルチモーダル GitHub loop-antigravity
loop-antigravityは、Google Antigravity (agy CLI) とGeminiの1Mトークンコンテキストおよびマルチモーダル推論能力…
★ 1 Apache-2.0 2026-06-14
マルチモーダル GitHub zero-shot-video-classifier
このツールは、ビジョン言語基盤モデル(CLIP、SigLIP 2、X-CLIP)を用いたゼロショット動画分類器です。タスク固有…
★ 1 2026-06-09
マルチモーダル GitHub mcp-wechat-server
mcp-wechat-serverは、AIアプリケーションがWindows PC上でWeChatメッセージを送受信できるようにするMCPサーバーで…
★ 1 ⑂ 1 2026-06-16
マルチモーダル GitHub tokensieve
tokensieveは、VLM(Vision-Language Model)を用いたVQA(Visual Question Answering)タスクにおいて、推論時の「p…
★ 1 2026-06-10
マルチモーダル GitHub vlm-from-scratch
このプロジェクトは、CLIP-ViTとQwen2.5をゼロから組み立てて開発されたミニLLaVAモデルの構築過程を記録したポート…
★ 1 MIT 2026-05-14
マルチモーダル GitHub vision-bridge-skill
「vision-bridge-skill」は、多モーダル対応ではないAIモデルに対し、画像、PDF、スクリーンショット、図表などの視…
★ 1 2026-06-11
マルチモーダル GitHub cerul-app
Cerul Appは、ユーザーが視聴する動画や音声コンテンツをセルフホストで管理し、高度な検索を可能にするオープンソー…
★ 1 Apache-2.0 2026-06-13
マルチモーダル GitHub blind-vision-mcp
blind-vision-mcpは、テキストベースのLLM(大規模言語モデル)に「視覚」を与えるMCPサーバーです。GPT-4 VisionやC…
★ 1 MIT 2026-06-15