3,708 repos GH 3,593 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新
マルチモーダル (305 repos)
カテゴリ「マルチモーダル」のリポジトリ一覧
← 全カテゴリ
マルチモーダル GitHub mcp-wechat-server
mcp-wechat-serverは、AIアプリケーションがWindows PC上でWeChatメッセージを送受信できるようにするMCPサーバーで…
★ 1 ⑂ 1 2026-06-16
マルチモーダル GitHub tokensieve
tokensieveは、VLM(Vision-Language Model)を用いたVQA(Visual Question Answering)タスクにおいて、推論時の「p…
★ 1 2026-06-10
マルチモーダル GitHub miru
Miru(見る)は、マルチモーダルAIモデルの「ブラックボックス」問題を解決するための説明可能性エンジンです。画像…
★ 1 2026-06-13
マルチモーダル GitHub zero-shot-video-classifier
このツールは、ビジョン言語基盤モデル(CLIP、SigLIP 2、X-CLIP)を用いたゼロショット動画分類器です。タスク固有…
★ 1 2026-06-09
マルチモーダル GitHub vision-bridge-skill
「vision-bridge-skill」は、多モーダル対応ではないAIモデルに対し、画像、PDF、スクリーンショット、図表などの視…
★ 1 2026-06-11
マルチモーダル GitHub cerul-app
Cerul Appは、ユーザーが視聴する動画や音声コンテンツをセルフホストで管理し、高度な検索を可能にするオープンソー…
★ 1 ⑂ 1 NOASSERTION 2026-06-19
マルチモーダル GitHub longitudinal-health-foundation-model
このリポジトリは、ウェアラブルデバイス、スマートフォン、気候データから得られる自己教師ありマルチモーダル情報…
★ 1 NOASSERTION 2026-05-21
マルチモーダル GitHub whatfirst-small
whatfirst · smallは、タスクの優先順位付けを支援する、ローカルで動作する小型のビジョン言語モデル(Qwen2.5-VL-3…
★ 1 Apache-2.0 2026-06-19
マルチモーダル GitHub vlm-from-scratch
このプロジェクトは、CLIP-ViTとQwen2.5をゼロから組み立てて開発されたミニLLaVAモデルの構築過程を記録したポート…
★ 1 MIT 2026-05-14
マルチモーダル GitHub MultiModal-from-scratch
このリポジトリは、PyTorchを使ってマルチモーダル大規模言語モデル(VLM)をゼロから構築するための詳細なステップ…
★ 1 2026-06-06
マルチモーダル GitHub Open-AutoGLM
AIを活用して電話でのモバイルタスクを自動化するスマートアシスタントフレームワークです。AutoGLMを基盤とし、直感…
★ 1 ⑂ 1 Apache-2.0 2026-06-16
マルチモーダル GitHub wardrobeAssistant
wardrobeAssistantは、ローカルファーストのAI搭載パーソナルワードローブ管理ツールです。自動的な衣類セグメンテー…
★ 1 2026-05-31
マルチモーダル GitHub ReceiptIQ
このツールは、レシートの画像から支出データを自動的に抽出し、その内容について自然言語で質問できる領収書解析AI…
★ 1 2026-06-03
マルチモーダル GitHub gaze
このツールは、AIにPC画面の「目」を与えるPython製アプリケーションです。ローカルで動作し、スクリーンショット、…
★ 1 MIT 2026-06-17
マルチモーダル GitHub pdf2md_skill
「PDF2MD」は、Claude Codeスキルとして提供されるPDFからMarkdownへの変換ツールです。特にカスタムフォント、埋め…
★ 1 MIT 2026-06-07
マルチモーダル GitHub ControlFoley_test
ControlFoleyは、動画から音声への生成を統合的かつ制御可能に行うフレームワークです。動画、テキスト、参照音声を…
★ 1 Apache-2.0 2026-04-17
マルチモーダル GitHub ragonfire
RagOnFireは、Apple Silicon Mac向けに設計された完全ローカルなマルチモーダルRAG(検索拡張生成)システムです。Ol…
★ 1 MIT 2026-05-21
マルチモーダル GitHub radscore
radscoreは、AI生成の放射線レポートを評価するための軽量なPythonツールキットです。BLEU、ROUGE、BERTScoreといっ…
★ 1 NOASSERTION 2026-06-16
マルチモーダル GitHub tinyvlm-implementation
このリポジトリは、週末プロジェクトとしてゼロから構築されたVision-Language Model (VLM) の実装と、そのマルチGPU…
★ 1 2026-05-10
マルチモーダル GitHub vision-bridge
Vision Bridgeは、DeepSeek V4 PROやGPT-4o-textのような純粋なテキストベースのLLMに「視覚能力」を付与するツール…
★ 1 NOASSERTION 2026-06-12
マルチモーダル GitHub control-sci
ControlMindは、MinerUを活用した科学文書インテリジェンスシステムです。生PDFから直接情報を抽出し、科学論文の理…
★ 1 NOASSERTION 2026-05-30
マルチモーダル GitHub -deepseek-skills
このツールは、Claude CodeやDeepSeekのようなテキストベースのAIモデルに、画像認識(OCR機能を含む)と音声認識(…
★ 1 2026-06-04
マルチモーダル GitHub Aibys2
Aibys2は、インドネシアに根ざしたAIエコシステム向けの、スクラッチから大規模言語モデル(LLM)を構築・学習するた…
★ 1 NOASSERTION 2026-05-24
マルチモーダル GitHub qwen-visual-training-lab
「Qwen visual training lab」は、Windows環境でAMD GPUとDirectMLを利用し、QwenスタイルのビジュアルLoRA実験の実…
★ 1 2026-05-15