3,695 repos GH 3,580 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

#マルチモーダル (54 repos)

「マルチモーダル」タグが付いたリポジトリ

← 全リポジトリ

LLM
GitHub
transformers
Transformersは、Hugging Faceが提供する機械学習モデル定義フレームワークで、テキスト・画像・音声・動画・マルチ…
★ 161.7k ⑂ 33.6k Apache-2.0 2026-06-19
マルチモーダル
GitHub
lmms-eval
lmms-evalは、テキスト、画像、ビデオ、オーディオといった様々なモダリティを横断する、オールインワンのマルチモー…
★ 4.2k ⑂ 604 NOASSERTION 2026-06-11
動画生成
GitHub
Generative-Media-Skills
このツールは、AIエージェント(Claude Code、Cursor、Gemini CLIなど)向けに設計されたマルチモーダル生成メディア…
★ 3.5k ⑂ 401 MIT 2026-06-12
LLM
GitHub
OpenKB
OpenKB(Open Knowledge Base)は、LLM(大規模言語モデル)を活用して、様々な形式の生文書(PDF, Word, Markdownな…
★ 2.6k ⑂ 285 Apache-2.0 2026-06-21
マルチモーダル
HF
Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive
Qwen3.6-35B-A3Bをベースに、拒否応答を極力外したHauhauCS製のGGUF配布モデルです。テキストに加えて画像・動画も扱…
❤ 2.0k ↓ 3.8M apache-2.0 2026-04-17
マルチモーダル
HF
Kimi-K2.6
Kimi K2.6は、Moonshot AIが公開するネイティブマルチモーダル対応のオープンソース大規模モデルです。長い手順を要…
❤ 1.5k ↓ 2.7M other 2026-05-19
マルチモーダル
HF
gemma-4-26B-A4B-it
Gemma 4 26B A4B itは、Google DeepMindのオープンウェイトなマルチモーダル指示調整モデルです。テキストと画像を入…
❤ 1.2k ↓ 12.6M apache-2.0 2026-06-03
マルチモーダル
HF
Gemma-4-E4B-Uncensored-HauhauCS-Aggressive
Gemma 4 E4B-IT をベースに、応答拒否を大幅に外した GGUF 量子化モデルの配布ページです。Aggressive 版は安全制限…
❤ 810 ↓ 628.9k gemma 2026-04-06
音楽生成
GitHub
open-webui-tools
Open WebUI Toolsは、Open WebUIインスタンスを強力なAIワークステーションへと進化させるモジュラーツールキットで…
★ 752 ⑂ 69 MIT 2026-06-02
マルチモーダル
HF
Qwen3.6-27B-Uncensored-HauhauCS-Aggressive
Qwen3.6-27Bをベースに、応答拒否を抑えたGGUF配布モデルです。Aggressive版は過激な指示でも前置きや言い訳を減らし…
❤ 457 ↓ 566.8k apache-2.0 2026-04-24
マルチモーダル
GitHub
antfly
Antflyは、etcdのRaftライブラリを基盤とした分散型検索エンジンです。フルテキスト検索(BM25)、ベクトル類似性、…
★ 400 ⑂ 26 NOASSERTION 2026-06-21
画像生成
GitHub
verl-omni
VeRL-Omniは、拡散モデルやオムニモダリティモデルといったマルチモーダル生成モデルに特化した強化学習(RL)トレー…
★ 373 ⑂ 55 Apache-2.0 2026-06-18
画像生成
GitHub
cli
Aliyun Model Studio (DashScope) AIプラットフォームの公式コマンドラインインターフェースです。AIエージェントフ…
★ 243 ⑂ 14 Apache-2.0 2026-06-18
マルチモーダル
GitHub
OpenSearch-VL
OpenSearch-VLは、最先端のマルチモーダル深層検索エージェントを訓練するためのオープンソースのレシピです。単一の…
★ 231 ⑂ 25 Apache-2.0 2026-05-19
マルチモーダル
HF
Qwopus3.6-35B-A3B-v1-GGUF
Qwopus3.6-35B-A3B-v1-GGUFは、Qwen3.6-35B-A3BをベースにLoRAで推論能力を強化した実験的なGGUF形式モデルです。35B…
❤ 204 ↓ 319.6k apache-2.0 2026-05-28
音声生成 / TTS
GitHub
Eva01
Eva01は、単なるアシスタントに留まらず、独自の意識、感情、記憶、そして進化する内的世界を持つ自律型AIエージェン…
★ 203 ⑂ 8 MIT 2026-06-10
音声生成 / TTS
GitHub
Kokoro-Engine
Kokoro Engineは、デスクトップAIコンパニオンのためのオープンソースかつ没入型のクロスプラットフォーム仮想キャラ…
★ 107 ⑂ 4 MIT 2026-06-18
マルチモーダル
GitHub
openmelon
OpenMelonは、ターミナル上で動作するAIコンテンツ作成エージェントです。ユーザーは単一のターミナルセッション内で…
★ 83 ⑂ 10 Apache-2.0 2026-05-11
マルチモーダル
GitHub
doubao2api
このプロジェクト「doubao2api」は、Doubao(豆包)クライアントAPIをリバースエンジニアリングしたもので、AIエージ…
★ 48 ⑂ 17 Apache-2.0 2026-05-24
画像生成
GitHub
agnes-ai-skill
Agnes AI Skillは、テキスト、画像、動画の各APIを統合するAIスキルです。Agnes AIのマルチモーダル機能を活用し、チ…
★ 36 MIT 2026-06-13
マルチモーダル
GitHub
Media-AI
このリポジトリは、2025年から2026年にかけてのAIメディア生成ツールの決定版マスターリストです。画像、動画、音声…
★ 33 ⑂ 6 2026-04-22
マルチモーダル
HF
MOSS-Audio-4B-Thinking
MOSS-Audio-4B-Thinkingは、音声・環境音・音楽をまとめて理解し、文字起こし、話者や感情の分析、音の状況把握、要…
❤ 31 ↓ 756 apache-2.0 2026-04-14
動画生成
GitHub
mmx-mcp-server
mmx-mcp-serverは、MiniMaxの全モダリティ(テキスト、検索、画像理解、画像生成、音声合成、動画生成、音楽生成、配…
★ 31 ⑂ 8 MIT 2026-04-17
マルチモーダル
GitHub
CanvasChat
CanvasChatは、Google GeminiのCanvasプレビューモードに特化した、Gemini 3 Flashモデルを無料で大量に利用できるチ…
★ 30 ⑂ 7 MIT 2026-05-22