1,738 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

マルチモーダル (159 repos)

カテゴリ「マルチモーダル」のリポジトリ一覧

← 全カテゴリ

マルチモーダル
GitHub
OmniMemo
OmniMemoは、MiMo V2.5 全スタックモデルを基盤とした多モーダル会議インテリジェントエージェントです。最大の特長…
★ 3 MIT 2026-05-21
マルチモーダル
GitHub
robot-episode-curator
Robot Episode Curatorは、LeRobotデータセット内の外れ値エピソードを効率的に特定し、診断するためのツールです。R…
★ 3 Apache-2.0 2026-05-05
マルチモーダル
GitHub
SmolVLM2-Edge-Vision-Agent
SmolVLM2-2.2Bを搭載したエッジ展開可能なビジョンエージェントで、CPUのみのハードウェア(16GB RAM)で動作します…
★ 3 2026-04-27
マルチモーダル
GitHub
paper-viewer-local-llm
「論文ビューア with Local LLM」は、研究会や学会で発表内容を素早く理解し、質疑応答の準備を支援するWebアプリで…
★ 3 MIT 2026-05-17
マルチモーダル
GitHub
Viz2Speech
Viz2Speechは、インドネシアの視覚障害者のアクセシビリティを向上させるために開発された、画像から音声への変換エ…
★ 2 ⑂ 1 MIT 2026-05-16
マルチモーダル
GitHub
kmetbench-release
K-MetBenchは、気象学分野におけるAIモデルの専門家推論、局所性、およびマルチモダリティを詳細に評価するための多…
★ 2 MIT 2026-05-19
マルチモーダル
GitHub
MagikaDocumentFromPixel
このツールは、Magikaに触発された軽量な画像品質ゲートで、画像を「シャープ」、「ぼやけ」、「不確実」のいずれか…
★ 2 MIT 2026-04-27
マルチモーダル
GitHub
Crucible
Crucibleは、ロボットのデモンストレーションデータを評価・キュレーションするための多軸VLM(Vision-Language Mode…
★ 2 MIT 2026-05-10
マルチモーダル
GitHub
goodq4all
GoodQ4Allは、ローカルファーストのマルチモーダル記憶システムで、長期間のビデオ、オーディオ、テキストからの情報…
★ 2 MIT 2026-05-18
マルチモーダル
GitHub
DGX_Spark_Unsloth_Lossless_Speedup
本プロジェクトは、NVIDIA DGX Spark上でQwen3.5 (0.8B~27B) モデルのLoRAおよびFull Fine-Tuningを劇的に高速化す…
★ 2 MIT 2026-05-18
マルチモーダル
GitHub
doubao2api
doubao2apiは、中国のDoubao(豆包)APIをリバースエンジニアリングし、OpenAI互換のRESTサービスとして提供するツー…
★ 1 Apache-2.0 2026-05-22
マルチモーダル
GitHub
vlm-from-scratch-v4
Mini-LLaVA v4は、8GBのノートPC GPUで動作するように最適化された、CLIP-ViTとQwen2.5-1.5Bを組み合わせたマルチモ…
★ 1 MIT 2026-05-19
マルチモーダル
GitHub
gemma-chat-windows
「gemma-chat-windows」は、Electronアプリを通じてGemma 4モデルを利用し、ローカル環境で動作するプライベートなAI…
★ 1 MIT 2026-05-14
マルチモーダル
GitHub
miru
Miru(見る)は、画像やドキュメントに対する質問に対し、モデルがどのように「見ている」かを視覚的に追跡するマル…
★ 1 2026-05-19
マルチモーダル
GitHub
XAISDK
xAI Swift SDKは、xAIのGrokやImagineなどのAPIとSwift言語で直接対話するためのgRPCベースの高性能ライブラリです。…
★ 1 Apache-2.0 2026-04-14
マルチモーダル
GitHub
PROSOPO
PROSOPOは、公平性とバイアス軽減に重点を置いた包括的な顔認識パイプラインです。最先端の顔検出・認識モデルと高度…
★ 1 2026-05-21
マルチモーダル
GitHub
zero-shot-video-classifier
このツールは、ビジョン言語基盤モデル(CLIP、SigLIP 2、X-CLIP)を用いたゼロショット動画分類器です。タスク固有…
★ 1 2026-05-07
マルチモーダル
GitHub
swift-lm
Swift LMは、AppleのMLX Swiftを基盤とした大規模言語モデル(LLM)とビジョン言語モデル(VLM)の推論エンジンであ…
★ 1 MIT 2026-05-14
マルチモーダル
GitHub
Qwen3.6-27B-AEON-Ultimate-Uncensored-DFlash
このソフトウェアは、高性能なQwen3.6-27B AIモデルをWindows上でローカル実行するためのツールです。最適化されたハ…
★ 1 Apache-2.0 2026-05-15
マルチモーダル
GitHub
multimodal-music-genre-classifier
このツールは、GTZANデータセットを用いた音楽ジャンル分類のためのマルチモーダルCNNモデルを提供します。メルスペ…
★ 1 MIT 2026-05-13
マルチモーダル
GitHub
uitars-mcp
UI-TARS MCPは、AIエージェントがデスクトップとウェブブラウザを操作するための「目と手」を提供するサーバーツール…
★ 1 Apache-2.0 2026-05-14
マルチモーダル
GitHub
claude-badpunpc
このツールは、Steamゲーム「これは諧音梗(BadPunPC)」をAnthropicのClaude Sonnet 4.6を使って全自動で攻略するAIソ…
★ 1 MIT 2026-05-03
マルチモーダル
GitHub
vlm-from-scratch
このプロジェクトは、CLIP-ViTとQwen2.5をゼロから組み立てて開発されたミニLLaVAモデルの構築過程を記録したポート…
★ 1 MIT 2026-05-13
マルチモーダル
GitHub
k1-vlm-navigation
NaVILA → K1は、視覚言語モデル(VLM)であるNaVILAを活用し、Booster K1ヒューマノイドロボットを自然言語のナビゲ…
★ 1 2026-05-15