1,761 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

マルチモーダル (158 repos)

カテゴリ「マルチモーダル」のリポジトリ一覧

← 全カテゴリ

マルチモーダル
GitHub
uitars-mcp
UI-TARS MCPは、AIエージェントがデスクトップとウェブブラウザを操作するための「目と手」を提供するサーバーツール…
★ 1 Apache-2.0 2026-05-14
マルチモーダル
GitHub
claude-badpunpc
このツールは、Steamゲーム「これは諧音梗(BadPunPC)」をAnthropicのClaude Sonnet 4.6を使って全自動で攻略するAIソ…
★ 1 MIT 2026-05-03
マルチモーダル
GitHub
multimodal-music-genre-classifier
このツールは、GTZANデータセットを用いた音楽ジャンル分類のためのマルチモーダルCNNモデルを提供します。メルスペ…
★ 1 MIT 2026-05-13
マルチモーダル
GitHub
k1-vlm-navigation
NaVILA → K1は、視覚言語モデル(VLM)であるNaVILAを活用し、Booster K1ヒューマノイドロボットを自然言語のナビゲ…
★ 1 2026-05-15
マルチモーダル
GitHub
control-sci
ControlMindは、MinerUを活用した科学文書インテリジェンスシステムです。生PDFから直接情報を抽出し、科学論文の理…
★ 1 NOASSERTION 2026-05-22
マルチモーダル
GitHub
vlm-from-scratch
このプロジェクトは、CLIP-ViTとQwen2.5をゼロから組み立てて開発されたミニLLaVAモデルの構築過程を記録したポート…
★ 1 MIT 2026-05-13
マルチモーダル
GitHub
ENOSES
「SEOSIRI ENOSES CORE ARCHITECT」は、物理的な音響波と光学データをリアルタイムのロボットコマンドに変換するマル…
★ 1 MIT 2026-05-17
マルチモーダル
GitHub
ControlFoley_test
ControlFoleyは、動画から音声への生成を統合的かつ制御可能に行うフレームワークです。動画、テキスト、参照音声を…
★ 1 Apache-2.0 2026-04-17
マルチモーダル
GitHub
xhs-note-reader
このツールは、中国のソーシャルメディア「小紅書」の図文ノート(画像とテキスト投稿)を、タイトル、本文、全画像…
★ 1 MIT 2026-05-19
マルチモーダル
GitHub
molmoweb
molmowebは、自然言語で指示することでウェブブラウザを操作し、様々なタスクを自動で実行するデスクトップアプリケ…
★ 1 Apache-2.0 2026-05-23
マルチモーダル
GitHub
doubao2api
doubao2apiは、中国のDoubao(豆包)APIをリバースエンジニアリングし、OpenAI互換のRESTサービスとして提供するツー…
★ 1 Apache-2.0 2026-05-22
マルチモーダル
GitHub
tinyvlm-implementation
このリポジトリは、週末プロジェクトとしてゼロから構築されたVision-Language Model (VLM) の実装と、そのマルチGPU…
★ 1 2026-05-10
マルチモーダル
GitHub
multimodal-clinical-ai
「Multimodal Clinical AI」は、胸部X線画像、臨床メモ、バイタルサインデータを統合的に分析し、14種類のCheXpert分…
★ 1 NOASSERTION 2026-05-20
マルチモーダル
GitHub
corpus-mill
「corpus-mill」は、ローカルGPUのみで動作するマルチモーダル動画アノテーションパイプラインです。長尺動画(人物…
★ 1 Apache-2.0 2026-05-06
マルチモーダル
GitHub
PROSOPO
PROSOPOは、公平性とバイアス軽減に重点を置いた包括的な顔認識パイプラインです。最先端の顔検出・認識モデルと高度…
★ 1 2026-05-21
マルチモーダル
GitHub
vlm-from-scratch-v4
Mini-LLaVA v4は、8GBのノートPC GPUで動作するように最適化された、CLIP-ViTとQwen2.5-1.5Bを組み合わせたマルチモ…
★ 1 MIT 2026-05-19
マルチモーダル
GitHub
obsidian-neural-central
OBSIDIAN Neuralは、音楽制作者向けのリアルタイムAI音楽生成サーバーで、OBSIDIAN Neural VSTプラグインと連携しま…
★ 1 AGPL-3.0 2026-05-04
マルチモーダル
GitHub
miru
Miru(見る)は、画像やドキュメントに対する質問に対し、モデルがどのように「見ている」かを視覚的に追跡するマル…
★ 1 2026-05-19