1,738 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新
マルチモーダル (159 repos)
カテゴリ「マルチモーダル」のリポジトリ一覧
← 全カテゴリ
マルチモーダル
GitHub VLM-wiki
VLM Wikiは、Karpathy LLM Wikiの概念に基づいた、マルチモーダル対応の個人知識ベースです。画像、動画、音声、テキ…
★ 9 MIT 2026-05-04
マルチモーダル
GitHub modalformer-lowlight
このプロジェクト「modalformer-lowlight」は、低照度環境で撮影された画像のノイズ、色の歪み、細部喪失を改善する…
★ 8 ⑂ 2 MIT 2026-05-01
マルチモーダル GitHub Awesome-Efficient-dLLMs
このリポジトリは、「効率的な拡散言語モデル (Efficient Diffusion Language Models)」に関する厳選された優れた論…
★ 8 NOASSERTION 2026-04-24
マルチモーダル GitHub GalamseyWatch
このツールは、Sentinel-2衛星画像から違法な小規模金採掘(ガラッセイ)を検出するエージェント型地球観測システム…
★ 8 ⑂ 2 MIT 2026-05-05
マルチモーダル GitHub Multimodal-Edge-Node
Multimodal-Edge-Nodeは、実験的なノードベースの視覚的推論とマルチモーダル推論キャンバスです。ユーザーはカスタ…
★ 5 Apache-2.0 2026-05-01
マルチモーダル GitHub LiteRTLM-Swift-SDK
LiteRTLM Swift SDKは、GoogleのLiteRT-LM(オンデバイス推論エンジン)の非公式Swift SDKです。このツールはGemma 4…
★ 4 ⑂ 1 MIT 2026-05-02
マルチモーダル
GitHub OmniMemo
OmniMemoは、MiMo V2.5 全スタックモデルを基盤とした多モーダル会議インテリジェントエージェントです。最大の特長…
★ 3 MIT 2026-05-21
マルチモーダル GitHub robot-episode-curator
Robot Episode Curatorは、LeRobotデータセット内の外れ値エピソードを効率的に特定し、診断するためのツールです。R…
★ 3 Apache-2.0 2026-05-05
マルチモーダル
GitHub SmolVLM2-Edge-Vision-Agent
SmolVLM2-2.2Bを搭載したエッジ展開可能なビジョンエージェントで、CPUのみのハードウェア(16GB RAM)で動作します…
★ 3 2026-04-27
マルチモーダル GitHub paper-viewer-local-llm
「論文ビューア with Local LLM」は、研究会や学会で発表内容を素早く理解し、質疑応答の準備を支援するWebアプリで…
★ 3 MIT 2026-05-17
マルチモーダル
GitHub roboclaws
Roboclawsは、VLMポリシー、OpenClaw、AIコーディングエージェントによって駆動されるAIロボティクスデモのためのリ…
★ 3 MIT 2026-05-22
マルチモーダル GitHub Viz2Speech
Viz2Speechは、インドネシアの視覚障害者のアクセシビリティを向上させるために開発された、画像から音声への変換エ…
★ 2 ⑂ 1 MIT 2026-05-16
マルチモーダル
GitHub kmetbench-release
K-MetBenchは、気象学分野におけるAIモデルの専門家推論、局所性、およびマルチモダリティを詳細に評価するための多…
★ 2 MIT 2026-05-19
マルチモーダル GitHub MagikaDocumentFromPixel
このツールは、Magikaに触発された軽量な画像品質ゲートで、画像を「シャープ」、「ぼやけ」、「不確実」のいずれか…
★ 2 MIT 2026-04-27
マルチモーダル GitHub goodq4all
GoodQ4Allは、ローカルファーストのマルチモーダル記憶システムで、長期間のビデオ、オーディオ、テキストからの情報…
★ 2 MIT 2026-05-18
マルチモーダル
GitHub Crucible
Crucibleは、ロボットのデモンストレーションデータを評価・キュレーションするための多軸VLM(Vision-Language Mode…
★ 2 MIT 2026-05-10
マルチモーダル
GitHub DGX_Spark_Unsloth_Lossless_Speedup
本プロジェクトは、NVIDIA DGX Spark上でQwen3.5 (0.8B~27B) モデルのLoRAおよびFull Fine-Tuningを劇的に高速化す…
★ 2 MIT 2026-05-18
マルチモーダル GitHub corpus-mill
「corpus-mill」は、ローカルGPUのみで動作するマルチモーダル動画アノテーションパイプラインです。長尺動画(人物…
★ 1 Apache-2.0 2026-05-06
マルチモーダル
GitHub PROSOPO
PROSOPOは、公平性とバイアス軽減に重点を置いた包括的な顔認識パイプラインです。最先端の顔検出・認識モデルと高度…
★ 1 2026-05-21
マルチモーダル GitHub vlm-from-scratch-v4
Mini-LLaVA v4は、8GBのノートPC GPUで動作するように最適化された、CLIP-ViTとQwen2.5-1.5Bを組み合わせたマルチモ…
★ 1 MIT 2026-05-19
マルチモーダル
GitHub obsidian-neural-central
OBSIDIAN Neuralは、音楽制作者向けのリアルタイムAI音楽生成サーバーで、OBSIDIAN Neural VSTプラグインと連携しま…
★ 1 AGPL-3.0 2026-05-04
マルチモーダル
GitHub miru
Miru(見る)は、画像やドキュメントに対する質問に対し、モデルがどのように「見ている」かを視覚的に追跡するマル…
★ 1 2026-05-19
マルチモーダル
GitHub zero-shot-video-classifier
このツールは、ビジョン言語基盤モデル(CLIP、SigLIP 2、X-CLIP)を用いたゼロショット動画分類器です。タスク固有…
★ 1 2026-05-07
マルチモーダル
GitHub local-asset-gen-mcp
このプロジェクトは、テキストから画像、音楽/音声、音声、さらに画像やテキストから3Dモデルを生成できるローカルAI…
★ 1 GPL-3.0 2026-03-28