3,616 repos GH 3,501 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

マルチモーダル (298 repos)

カテゴリ「マルチモーダル」のリポジトリ一覧

← 全カテゴリ

マルチモーダル

GitHub

Awesome-AVI

JavisVerse/Awesome-AVIは、「大規模基盤モデルにおけるオーディオ・ビジュアル・インテリジェンス（AVI）」に関する…

★ 80 ⑂ 1 2026-05-08

マルチモーダル

MOSS-Audio-8B-Thinking

MOSS-Audio-8B-Thinkingは、音声・環境音・音楽を横断的に理解できるオープンソースの音声理解モデルです。文字起こ…

#CLI #GPU推奨 #Hugging Face対応

❤ 78 ↓ 17.0k apache-2.0 2026-06-11

マルチモーダル

GitHub

LabVLA

LabVLAは、Qwen3-VL-4B-Instructビジョン言語モデルを、DiTフローマッチングアクションエキスパートと独自のπ0.5レシ…

#CLI #GPU必須 #Python

★ 77 ⑂ 4 MIT 2026-06-22

マルチモーダル

GitHub

doubao2api

このプロジェクト「doubao2api」は、Doubao（豆包）クライアントAPIをリバースエンジニアリングしたもので、AIエージ…

#CLI #Docker #OpenAI互換

★ 76 ⑂ 26 Apache-2.0 2026-05-24

マルチモーダル

MOSS-Audio-4B-Instruct

MOSS-Audio-4B-Instructは、音声・環境音・音楽を統合的に理解し、テキストで応答するオープンソースの音声理解モデ…

#CLI #GPU推奨 #Gradio

❤ 73 ↓ 66.4k apache-2.0 2026-04-14

マルチモーダル

GitHub

HY-Embodied-0.5-X

HY-Embodied-0.5-Xは、Tencent Robotics XとHY Vision Teamが共同開発した、リアルワールドエージェント向けの拡張さ…

#Edge Deployment #Embodied AI #Foundation Model

★ 62 ⑂ 4 NOASSERTION 2026-05-14

マルチモーダル

MOSS-VL-Base-0408

MOSS-VL-Base-0408は、OpenMOSS系の画像・動画理解向けマルチモーダル基盤モデルです。4段階の事前学習のみで構築さ…

#CLI #GPU必須

❤ 61 ↓ 755 apache-2.0 2026-04-23

マルチモーダル

GitHub

GEditBench_v2

GEditBench v2は、汎用画像編集モデルの性能を人間が調整した基準で評価するための包括的なベンチマークです。1,200…

#AI/ML #CLI #GPU必須

★ 59 ⑂ 1 2026-06-18

マルチモーダル

audio-flamingo-next-hf

Audio Flamingo Nextは、音声・環境音・音楽をまとめて理解できるNVIDIAの大規模音声言語モデルです。音声Q&A、文字…

#CLI #GPU推奨 #Python

❤ 56 ↓ 7.8k other 2026-05-13

マルチモーダル

GitHub

OmniVideo-100K

「OmniVideo-100K」は、音声・視覚推論能力の向上を目指す大規模データセットと、そのための自動データ合成エンジン…

#CLI #Linux #MLLM

★ 55 ⑂ 2 Apache-2.0 2026-06-19

マルチモーダル

MOSS-Audio-8B-Instruct

MOSS-Audio-8B-Instructは、音声・環境音・音楽をまとめて理解できるオープンソースの音声理解モデルです。音声認識…

#CLI #Gradio #SGLang

❤ 47 ↓ 16.1k apache-2.0 2026-06-11

マルチモーダル

GitHub

ScreenClaw

ScreenClaw（睇虾）は、AIアプリケーションとデスクトップソフトウェアを連携させるためのローカル実行型ミドルウェ…

#AI Agent対応 #CLI #HTTP API

★ 45 ⑂ 10 MIT 2026-06-23

マルチモーダル

GitHub

rs-paper-hub

RS-Paper-Hubは、arXivからリモートセンシングおよび地球観測関連の論文を自動的に収集、整理、分類、タスクタグ付け…

#arXiv連携 #CLI #GitHub Actions

★ 44 ⑂ 7 2026-07-07

マルチモーダル

GitHub

tianji-ai-agent

tianji-ai-agentは、Spring AIエージェント工学のプロジェクトであり、オンラインコースの顧客サービスシナリオに特…

#Java #RAG #Spring AI

★ 44 ⑂ 2 MIT 2026-06-29

マルチモーダル

GitHub

VisualClaw

VisualClawは、物理世界向けのリアルタイムでパーソナライズされたエージェントを構築するための自己進化型マルチモ…

#API Gateway #CLI #LLM Agent

★ 44 ⑂ 3 MIT 2026-06-16

マルチモーダル

GitHub

PatentRadar

PatentRadarは、特許公開番号を入力するだけで、弁護士やエンジニアが直接レビュー可能なクレームチャート報告書を自…

#CLI #LLM対応 #Python

★ 41 ⑂ 7 2026-06-11

マルチモーダル

GitHub

ARIS-Movie-Director

ARIS-Movie-Directorは、曖昧なストーリーの指示から、AIエージェントが生成と監査を行い、イメージベースのムービー…

#Agentic #AI #CLI

★ 40 ⑂ 2 MIT 2026-06-26

マルチモーダル

GitHub

OmniAgent

OmniAgentは、動画コンテンツを効率的に理解するための革新的なオムニモーダルAIエージェントです。従来のモデルとは…

#CLI #Hugging Face #Python

★ 39 ⑂ 3 Apache-2.0 2026-07-03

マルチモーダル

GitHub

Media-AI

このリポジトリは、2025年から2026年にかけてのAIメディア生成ツールの決定版マスターリストです。画像、動画、音声…

#API連携 #Web UI #クリエイティブツール連携

★ 38 ⑂ 7 2026-06-24

マルチモーダル

GitHub

VL-Calibration

VL-Calibrationは、大規模視覚言語モデル（LVLMs）の推論における信頼性キャリブレーションを向上させるためのフレー…

#CLI #GPU必須 #Python

★ 37 Apache-2.0 2026-04-13

マルチモーダル

MOSS-Audio-4B-Thinking

MOSS-Audio-4B-Thinkingは、音声・環境音・音楽をまとめて理解し、文字起こし、話者や感情の分析、音の状況把握、要…

#CLI #GPU推奨 #Gradio

❤ 33 ↓ 15.4k apache-2.0 2026-04-14

マルチモーダル

GitHub

Uni-ViGU

Uni-ViGUは、拡散モデルを基盤としたビデオジェネレータを通じて、ビデオの生成と理解を統一する革新的なフレームワ…

#CLI #Diffusionモデル #GPU必須

★ 33 ⑂ 1 Apache-2.0 2026-04-15

マルチモーダル

GitHub

CanvasChat

CanvasChatは、Google GeminiのCanvasプレビューモードに特化した、Gemini 3 Flashモデルを無料で大量に利用できるチ…

#Gemini #React #TailwindCSS

★ 30 ⑂ 7 MIT 2026-05-22

マルチモーダル

GitHub

SSM

このリポジリは、顔の動作単位（AU）と顔の表情（FE）の双方向学習を可能にするStructured Semantic Mapping（SSM）…

#GPU必須 #Python #機械学習

★ 28 2026-04-17