3,695 repos GH 3,580 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新
#マルチモーダル (54 repos)
「マルチモーダル」タグが付いたリポジトリ
← 全リポジトリ
LLM GitHub transformers
Transformersは、Hugging Faceが提供する機械学習モデル定義フレームワークで、テキスト・画像・音声・動画・マルチ…
★ 161.7k ⑂ 33.6k Apache-2.0 2026-06-19
マルチモーダル GitHub LLaVA
LLaVAは、視覚指示チューニングを用いてGPT-4レベルの能力を持つ大規模言語およびビジョンアシスタントです。画像だ…
★ 24.9k ⑂ 2.8k Apache-2.0 2024-08-12
マルチモーダル GitHub Janus
Janus-Seriesは、DeepSeek AIによって開発された、統合されたマルチモーダル理解および生成モデルです。Janus-Proは…
★ 17.7k ⑂ 2.2k MIT 2025-02-01
マルチモーダル GitHub align-anything
Align-Anythingは、あらゆるモダリティの大規模モデル(any-to-anyモデル)を人間の意図や価値観に合わせることを目…
★ 4.7k ⑂ 505 Apache-2.0 2025-11-27
マルチモーダル GitHub lmms-eval
lmms-evalは、テキスト、画像、ビデオ、オーディオといった様々なモダリティを横断する、オールインワンのマルチモー…
★ 4.2k ⑂ 604 NOASSERTION 2026-06-11
マルチモーダル GitHub DeepSeek-VL
DeepSeek-VLは、実世界の視覚と言語の理解を目指して開発されたオープンソースのVision-Language (VL) モデルです。…
★ 4.1k ⑂ 593 MIT 2024-04-24
動画生成 GitHub Generative-Media-Skills
このツールは、AIエージェント(Claude Code、Cursor、Gemini CLIなど)向けに設計されたマルチモーダル生成メディア…
★ 3.5k ⑂ 401 MIT 2026-06-12
LLM GitHub OpenKB
OpenKB(Open Knowledge Base)は、LLM(大規模言語モデル)を活用して、様々な形式の生文書(PDF, Word, Markdownな…
★ 2.6k ⑂ 285 Apache-2.0 2026-06-21
動画生成 GitHub HunyuanCustom
HunyuanCustomは、画像、音声、ビデオ、テキストといった多様な入力モダリティを活用し、特定の被写体が登場するカス…
★ 1.2k ⑂ 110 NOASSERTION 2025-10-15
音楽生成 GitHub open-webui-tools
Open WebUI Toolsは、Open WebUIインスタンスを強力なAIワークステーションへと進化させるモジュラーツールキットで…
★ 752 ⑂ 69 MIT 2026-06-02
マルチモーダル GitHub antfly
Antflyは、etcdのRaftライブラリを基盤とした分散型検索エンジンです。フルテキスト検索(BM25)、ベクトル類似性、…
★ 400 ⑂ 26 NOASSERTION 2026-06-21
画像生成 GitHub verl-omni
VeRL-Omniは、拡散モデルやオムニモダリティモデルといったマルチモーダル生成モデルに特化した強化学習(RL)トレー…
★ 373 ⑂ 55 Apache-2.0 2026-06-18
画像生成 GitHub cli
Aliyun Model Studio (DashScope) AIプラットフォームの公式コマンドラインインターフェースです。AIエージェントフ…
★ 243 ⑂ 14 Apache-2.0 2026-06-18
マルチモーダル GitHub OpenSearch-VL
OpenSearch-VLは、最先端のマルチモーダル深層検索エージェントを訓練するためのオープンソースのレシピです。単一の…
★ 231 ⑂ 25 Apache-2.0 2026-05-19
音声生成 / TTS GitHub Eva01
Eva01は、単なるアシスタントに留まらず、独自の意識、感情、記憶、そして進化する内的世界を持つ自律型AIエージェン…
★ 203 ⑂ 8 MIT 2026-06-10
音声生成 / TTS GitHub Kokoro-Engine
Kokoro Engineは、デスクトップAIコンパニオンのためのオープンソースかつ没入型のクロスプラットフォーム仮想キャラ…
★ 107 ⑂ 4 MIT 2026-06-18
マルチモーダル GitHub openmelon
OpenMelonは、ターミナル上で動作するAIコンテンツ作成エージェントです。ユーザーは単一のターミナルセッション内で…
★ 83 ⑂ 10 Apache-2.0 2026-05-11
マルチモーダル GitHub doubao2api
このプロジェクト「doubao2api」は、Doubao(豆包)クライアントAPIをリバースエンジニアリングしたもので、AIエージ…
★ 48 ⑂ 17 Apache-2.0 2026-05-24
画像生成 GitHub agnes-ai-skill
Agnes AI Skillは、テキスト、画像、動画の各APIを統合するAIスキルです。Agnes AIのマルチモーダル機能を活用し、チ…
★ 36 MIT 2026-06-13
マルチモーダル GitHub Media-AI
このリポジトリは、2025年から2026年にかけてのAIメディア生成ツールの決定版マスターリストです。画像、動画、音声…
★ 33 ⑂ 6 2026-04-22
動画生成 GitHub mmx-mcp-server
mmx-mcp-serverは、MiniMaxの全モダリティ(テキスト、検索、画像理解、画像生成、音声合成、動画生成、音楽生成、配…
★ 31 ⑂ 8 MIT 2026-04-17
マルチモーダル GitHub CanvasChat
CanvasChatは、Google GeminiのCanvasプレビューモードに特化した、Gemini 3 Flashモデルを無料で大量に利用できるチ…
★ 30 ⑂ 7 MIT 2026-05-22
マルチモーダル GitHub VisualClaw
VisualClawは、物理世界向けのリアルタイムでパーソナライズされたエージェントを構築するための自己進化型マルチモ…
★ 27 ⑂ 1 MIT 2026-06-16
マルチモーダル GitHub weld-anomaly-classifier
WeldFusionNetは、センサー、オーディオ、ビデオデータといった多様な情報を統合するマルチモーダル深層学習モデルを…
★ 27 ⑂ 1 MIT 2026-03-06