3,695 repos GH 3,580 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

#マルチモーダル (54 repos)

「マルチモーダル」タグが付いたリポジトリ

← 全リポジトリ

LLM
GitHub
transformers
Transformersは、Hugging Faceが提供する機械学習モデル定義フレームワークで、テキスト・画像・音声・動画・マルチ…
★ 161.7k ⑂ 33.6k Apache-2.0 2026-06-19
マルチモーダル
GitHub
LLaVA
LLaVAは、視覚指示チューニングを用いてGPT-4レベルの能力を持つ大規模言語およびビジョンアシスタントです。画像だ…
★ 24.9k ⑂ 2.8k Apache-2.0 2024-08-12
マルチモーダル
GitHub
Janus
Janus-Seriesは、DeepSeek AIによって開発された、統合されたマルチモーダル理解および生成モデルです。Janus-Proは…
★ 17.7k ⑂ 2.2k MIT 2025-02-01
マルチモーダル
GitHub
align-anything
Align-Anythingは、あらゆるモダリティの大規模モデル(any-to-anyモデル)を人間の意図や価値観に合わせることを目…
★ 4.7k ⑂ 505 Apache-2.0 2025-11-27
マルチモーダル
GitHub
lmms-eval
lmms-evalは、テキスト、画像、ビデオ、オーディオといった様々なモダリティを横断する、オールインワンのマルチモー…
★ 4.2k ⑂ 604 NOASSERTION 2026-06-11
マルチモーダル
GitHub
DeepSeek-VL
DeepSeek-VLは、実世界の視覚と言語の理解を目指して開発されたオープンソースのVision-Language (VL) モデルです。…
★ 4.1k ⑂ 593 MIT 2024-04-24
動画生成
GitHub
Generative-Media-Skills
このツールは、AIエージェント(Claude Code、Cursor、Gemini CLIなど)向けに設計されたマルチモーダル生成メディア…
★ 3.5k ⑂ 401 MIT 2026-06-12
LLM
GitHub
OpenKB
OpenKB(Open Knowledge Base)は、LLM(大規模言語モデル)を活用して、様々な形式の生文書(PDF, Word, Markdownな…
★ 2.6k ⑂ 285 Apache-2.0 2026-06-21
マルチモーダル
HF
Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive
Qwen3.6-35B-A3Bをベースに、拒否応答を極力外したHauhauCS製のGGUF配布モデルです。テキストに加えて画像・動画も扱…
❤ 2.0k ↓ 3.8M apache-2.0 2026-04-17
マルチモーダル
HF
Kimi-K2.6
Kimi K2.6は、Moonshot AIが公開するネイティブマルチモーダル対応のオープンソース大規模モデルです。長い手順を要…
❤ 1.5k ↓ 2.7M other 2026-05-19
動画生成
GitHub
HunyuanCustom
HunyuanCustomは、画像、音声、ビデオ、テキストといった多様な入力モダリティを活用し、特定の被写体が登場するカス…
★ 1.2k ⑂ 110 NOASSERTION 2025-10-15
マルチモーダル
HF
gemma-4-26B-A4B-it
Gemma 4 26B A4B itは、Google DeepMindのオープンウェイトなマルチモーダル指示調整モデルです。テキストと画像を入…
❤ 1.2k ↓ 12.6M apache-2.0 2026-06-03
マルチモーダル
HF
Gemma-4-E4B-Uncensored-HauhauCS-Aggressive
Gemma 4 E4B-IT をベースに、応答拒否を大幅に外した GGUF 量子化モデルの配布ページです。Aggressive 版は安全制限…
❤ 810 ↓ 628.9k gemma 2026-04-06
音楽生成
GitHub
open-webui-tools
Open WebUI Toolsは、Open WebUIインスタンスを強力なAIワークステーションへと進化させるモジュラーツールキットで…
★ 752 ⑂ 69 MIT 2026-06-02
マルチモーダル
HF
Qwen3.6-27B-Uncensored-HauhauCS-Aggressive
Qwen3.6-27Bをベースに、応答拒否を抑えたGGUF配布モデルです。Aggressive版は過激な指示でも前置きや言い訳を減らし…
❤ 457 ↓ 566.8k apache-2.0 2026-04-24
マルチモーダル
GitHub
antfly
Antflyは、etcdのRaftライブラリを基盤とした分散型検索エンジンです。フルテキスト検索(BM25)、ベクトル類似性、…
★ 400 ⑂ 26 NOASSERTION 2026-06-21
画像生成
GitHub
verl-omni
VeRL-Omniは、拡散モデルやオムニモダリティモデルといったマルチモーダル生成モデルに特化した強化学習(RL)トレー…
★ 373 ⑂ 55 Apache-2.0 2026-06-18
画像生成
GitHub
cli
Aliyun Model Studio (DashScope) AIプラットフォームの公式コマンドラインインターフェースです。AIエージェントフ…
★ 243 ⑂ 14 Apache-2.0 2026-06-18
マルチモーダル
GitHub
OpenSearch-VL
OpenSearch-VLは、最先端のマルチモーダル深層検索エージェントを訓練するためのオープンソースのレシピです。単一の…
★ 231 ⑂ 25 Apache-2.0 2026-05-19
マルチモーダル
HF
Qwopus3.6-35B-A3B-v1-GGUF
Qwopus3.6-35B-A3B-v1-GGUFは、Qwen3.6-35B-A3BをベースにLoRAで推論能力を強化した実験的なGGUF形式モデルです。35B…
❤ 204 ↓ 319.6k apache-2.0 2026-05-28
音声生成 / TTS
GitHub
Eva01
Eva01は、単なるアシスタントに留まらず、独自の意識、感情、記憶、そして進化する内的世界を持つ自律型AIエージェン…
★ 203 ⑂ 8 MIT 2026-06-10
音声生成 / TTS
GitHub
Kokoro-Engine
Kokoro Engineは、デスクトップAIコンパニオンのためのオープンソースかつ没入型のクロスプラットフォーム仮想キャラ…
★ 107 ⑂ 4 MIT 2026-06-18
マルチモーダル
HF
ultravox-v0_5-llama-3_2-1b
Ultravoxは、Llama 3.2 1B InstructとWhisper large v3 turboを組み合わせた音声対応マルチモーダルLLMです。音声と…
❤ 85 ↓ 1.1M mit 2026-03-11
マルチモーダル
GitHub
openmelon
OpenMelonは、ターミナル上で動作するAIコンテンツ作成エージェントです。ユーザーは単一のターミナルセッション内で…
★ 83 ⑂ 10 Apache-2.0 2026-05-11