1,738 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

マルチモーダル (159 repos)

カテゴリ「マルチモーダル」のリポジトリ一覧

← 全カテゴリ

マルチモーダル
HF
Qwen2-Audio-7B-GGUF
Qwen2-Audio-7B-GGUFは、Nexa-SDK上でローカル実行できる音声・テキスト対応のマルチモーダルAIモデルです。ASRを別…
❤ 171 ↓ 3.2k apache-2.0 2024-11-25
マルチモーダル
HF
Qwen2-Audio-7B
Qwen2-Audio-7Bは、音声を入力として受け取り、内容理解や音声指示に基づく応答を行える大規模音声言語モデルです。…
❤ 170 ↓ 9.2k apache-2.0 2024-11-20
マルチモーダル
GitHub
Graph-CAD
Graph-CADは、自然言語の指示から実行可能なBlender用CADコードを自動生成するための、グラフ媒介型Text-to-CADフレ…
★ 167 ⑂ 12 2026-03-30
マルチモーダル
GitHub
Awesome-VLM-Streaming-Video
このリポジトリは、Vision-Language Models (VLM) をストリーミングビデオに応用する研究と開発のための、厳選された…
★ 156 ⑂ 4 2026-05-12
マルチモーダル
GitHub
cerul
Cerulは、AIエージェント向けの動画検索レイヤーであり、音声だけでなく、スライド、グラフ、デモ、画面上のテキスト…
★ 136 ⑂ 6 Apache-2.0 2026-05-18
マルチモーダル
HF
Qwen3.5-9B-DeepSeek-V4-Flash-GGUF
Qwen3.5-9Bをベースに、DeepSeek-V4由来の高品質な推論データで蒸留した軽量推論モデルのREADMEです。多段階の論理展…
❤ 131 ↓ 178.2k apache-2.0 2026-05-02
マルチモーダル
HF
Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF
このREADMEは、Qwen 3.6 27Bをベースに検閲緩和と追加ファインチューニングを施し、さらにGGUF量子化版を多数用意し…
❤ 131 ↓ 197.1k apache-2.0 2026-04-30
マルチモーダル
GitHub
GEMS
GEMSは、エージェントネイティブなマルチモーダル生成のための先進的なフレームワークです。記憶とスキルを活用し、K…
★ 127 ⑂ 10 2026-04-01
マルチモーダル
HF
LLaVA-Video-7B-Qwen2
LLaVA-Video-7B-Qwen2は、動画理解に特化した7B規模のマルチモーダルモデルです。画像・複数画像・動画を扱えますが…
❤ 126 ↓ 28.2k apache-2.0 2024-10-25
マルチモーダル
HF
LLaVA-NeXT-Video-7B-hf
LLaVA-NeXT-Video-7B-hfは、画像と動画を一緒に理解して対話できるオープンソースのマルチモーダル生成モデルです。T…
❤ 123 ↓ 143.5k llama2 2025-11-11
ComfyUI
GitHub
ComfyUI-Ollama-Describer
ComfyUI-Ollama-Describerは、ComfyUIの拡張機能で、Ollamaの多様なLLMモデル(Gemma、Llava、Llama2/3、Mistralなど…
★ 116 ⑂ 23 MIT 2026-03-19
マルチモーダル
HF
Qwopus3.6-35B-A3B-v1-GGUF
Qwopus3.6-35B-A3B-v1-GGUFは、Qwen3.6-35B-A3BをベースにLoRAで推論能力を強化した実験的なGGUF形式モデルです。35B…
❤ 111 ↓ 67.2k apache-2.0 2026-05-07
マルチモーダル
HF
music-flamingo-2601-hf
Music Flamingoは、音楽や楽曲の理解に特化したNVIDIAの大規模音声言語モデルです。曲調、テンポ、キー、楽器構成、…
❤ 99 ↓ 106.8k other 2026-04-09
マルチモーダル
HF
tipsv2-b14
TIPSv2 B/14は、画像とテキストを同じ埋め込み空間で扱えるGoogle系の視覚言語モデルです。画像全体の特徴量だけでな…
❤ 97 ↓ 12.6k apache-2.0 2026-04-14
マルチモーダル
HF
music-flamingo-hf
Music Flamingoは、楽曲やインストゥルメンタル音源を対象に、ジャンル・テンポ・キー・楽器構成・雰囲気・歌詞や文…
❤ 95 ↓ 9.6k other 2026-04-04
マルチモーダル
HF
Falcon-OCR
Falcon OCRは、画像から文書テキストを抽出する300Mパラメータ級の軽量OCR向けビジョン言語モデルです。通常の文字起…
❤ 94 ↓ 19.9k apache-2.0 2026-04-01
マルチモーダル
HF
MOSS-VL-Instruct-0408
MOSS-VL-Instruct-0408は、OpenMOSS系の視覚言語モデルを教師あり微調整したマルチモーダル推論用チェックポイントで…
❤ 93 ↓ 3.4k apache-2.0 2026-04-22
マルチモーダル
GitHub
facio
Facioは、長期間のワークフローにおいて人間が介入できる、セキュアで追跡可能なプロアクティブAIエージェントです。…
★ 93 ⑂ 1 AGPL-3.0 2026-05-12
マルチモーダル
GitHub
ICLR2026-Guide-CN
本ツールは、ICLR 2026の全5,352論文を大規模言語モデル(LLM)が分析し、その内容を「研究動機」「解決問題」「主要…
★ 92 ⑂ 6 2026-04-29
マルチモーダル
GitHub
35gateway
「35Gateway」は、35m.aiが開発・運営するソース利用可能なAIゲートウェイです。テキスト、画像、動画、音声、音楽と…
★ 87 ⑂ 1 NOASSERTION 2026-04-15
マルチモーダル
GitHub
Awesome-Embodied-AI-Safety
このリポジトリは、Embodied AI(身体を持つAI)の安全性に関する包括的な調査と、その分野で初の統一的な安全フレー…
★ 83 NOASSERTION 2026-05-15
マルチモーダル
GitHub
openmelon
OpenMelonは、ターミナルで動作するコンテンツ作成エージェントランタイムです。再現性のあるマルチモーダルコンテン…
★ 79 ⑂ 8 Apache-2.0 2026-05-11
マルチモーダル
HF
ultravox-v0_5-llama-3_2-1b
Ultravoxは、Llama 3.2 1B InstructとWhisper large v3 turboを組み合わせた音声対応マルチモーダルLLMです。音声と…
❤ 77 ↓ 848.3k mit 2026-03-11
マルチモーダル
GitHub
guardian-sdk
Ethicore Engine™ — Guardian SDKは、Python製のLLMおよびエージェントアプリケーション向けの、リアルタイム脅威検…
★ 71 ⑂ 10 NOASSERTION 2026-05-22