3,613 repos GH 3,498 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

マルチモーダル (298 repos)

カテゴリ「マルチモーダル」のリポジトリ一覧

← 全カテゴリ

マルチモーダル

Qwen3.5-9B-DeepSeek-V4-Flash-GGUF

Qwen3.5-9Bをベースに、DeepSeek-V4由来の高品質な推論データで蒸留した軽量推論モデルのREADMEです。多段階の論理展…

#GGUF #エージェント向け #ローカル推論

❤ 258 ↓ 167.2k apache-2.0 2026-07-04

マルチモーダル

nemotron-ocr-v2

Nemotron OCR v2は、複雑な実写画像や文書画像から文字を高精度かつ高速に抽出する、NVIDIAの商用利用可能な多言語OC…

#GPU必須 #Linux #NVIDIA GPU対応

❤ 223 ↓ 13.2k other 2026-05-22

マルチモーダル

Qwopus3.6-35B-A3B-v1-GGUF

Qwopus3.6-35B-A3B-v1-GGUFは、Qwen3.6-35B-A3BをベースにLoRAで推論能力を強化した実験的なGGUF形式モデルです。35B…

#GGUF #GPU必須 #ツール呼び出し対応

❤ 214 ↓ 97.7k apache-2.0 2026-05-28

マルチモーダル

audio-flamingo-3-hf

Audio Flamingo 3は、音声・環境音・音楽を横断して理解し、文字起こし、音の内容把握、推論、対話まで行えるオープ…

#CLI #GPU推奨 #研究用途限定

❤ 187 ↓ 270.3k other 2026-04-13

マルチモーダル

Qwen2-Audio-7B

Qwen2-Audio-7Bは、音声を入力として受け取り、内容理解や音声指示に基づく応答を行える大規模音声言語モデルです。…

#CLI #GPU推奨 #Hugging Face Transformers

❤ 172 ↓ 10.7k apache-2.0 2024-11-20

マルチモーダル

Qwen2-Audio-7B-GGUF

Qwen2-Audio-7B-GGUFは、Nexa-SDK上でローカル実行できる音声・テキスト対応のマルチモーダルAIモデルです。ASRを別…

#CLI #GGUF #Web UI

❤ 171 ↓ 2.7k apache-2.0 2024-11-25

マルチモーダル

LLaVA-Video-7B-Qwen2

LLaVA-Video-7B-Qwen2は、動画理解に特化した7B規模のマルチモーダルモデルです。画像・複数画像・動画を扱えますが…

#CLI #GPU必須

❤ 127 ↓ 13.4k apache-2.0 2024-10-25

マルチモーダル

LLaVA-NeXT-Video-7B-hf

LLaVA-NeXT-Video-7B-hfは、画像と動画を一緒に理解して対話できるオープンソースのマルチモーダル生成モデルです。T…

#CLI #GPU必須 #動画理解

❤ 126 ↓ 174.5k llama2 2025-11-11

マルチモーダル

Falcon-OCR

Falcon OCRは、3億パラメータを持つ早期結合型ビジョン・言語モデルで、文書のOCR（光学文字認識）に特化しています…

#CLI #GPU推奨 #文書解析

❤ 119 ↓ 5.1k apache-2.0 2026-07-03

マルチモーダル

tipsv2-b14

TIPSv2 B/14は、画像とテキストを同じ埋め込み空間で扱えるGoogle系の視覚言語モデルです。画像全体の特徴量だけでな…

#CLI #GPU推論対応

❤ 114 ↓ 20.5k apache-2.0 2026-06-27

マルチモーダル

music-flamingo-2601-hf

Music Flamingoは、音楽や楽曲の理解に特化したNVIDIAの大規模音声言語モデルです。曲調、テンポ、キー、楽器構成、…

#CLI #GPU推奨 #Python

❤ 106 ↓ 188.8k other 2026-04-09

マルチモーダル

music-flamingo-hf

Music Flamingoは、楽曲やインストゥルメンタル音源を対象に、ジャンル・テンポ・キー・楽器構成・雰囲気・歌詞や文…

#CLI #GPU推奨 #Python

❤ 99 ↓ 18.1k other 2026-04-04

マルチモーダル

MOSS-VL-Instruct-0408

MOSS-VL-Instruct-0408は、OpenMOSS系の視覚言語モデルを教師あり微調整したマルチモーダル推論用チェックポイントで…

#CLI #GPU必須 #動画対応

❤ 97 ↓ 373 apache-2.0 2026-04-22

マルチモーダル

ultravox-v0_5-llama-3_2-1b

Ultravoxは、Llama 3.2 1B InstructとWhisper large v3 turboを組み合わせた音声対応マルチモーダルLLMです。音声と…

#MITライセンス #Python #マルチモーダル

❤ 88 ↓ 1.2M mit 2026-03-11

マルチモーダル

MOSS-Audio-8B-Thinking

MOSS-Audio-8B-Thinkingは、音声・環境音・音楽を横断的に理解できるオープンソースの音声理解モデルです。文字起こ…

#CLI #GPU推奨 #Hugging Face対応

❤ 78 ↓ 17.0k apache-2.0 2026-06-11

マルチモーダル

MOSS-Audio-4B-Instruct

MOSS-Audio-4B-Instructは、音声・環境音・音楽を統合的に理解し、テキストで応答するオープンソースの音声理解モデ…

#CLI #GPU推奨 #Gradio

❤ 73 ↓ 66.4k apache-2.0 2026-04-14

マルチモーダル

MOSS-VL-Base-0408

MOSS-VL-Base-0408は、OpenMOSS系の画像・動画理解向けマルチモーダル基盤モデルです。4段階の事前学習のみで構築さ…

#CLI #GPU必須

❤ 61 ↓ 755 apache-2.0 2026-04-23

マルチモーダル

acestep-transcriber

ACE-Step Transcriberは、ACE-Step v1.5の学習データ注釈に使われる多言語音声転写モデルです。話し声だけでなく歌声…

#CLI #Python #transformers

❤ 59 ↓ 11.2k mit 2026-02-03

マルチモーダル

audio-flamingo-next-hf

Audio Flamingo Nextは、音声・環境音・音楽をまとめて理解できるNVIDIAの大規模音声言語モデルです。音声Q&A、文字…

#CLI #GPU推奨 #Python

❤ 56 ↓ 7.8k other 2026-05-13

マルチモーダル

MOSS-Audio-8B-Instruct

MOSS-Audio-8B-Instructは、音声・環境音・音楽をまとめて理解できるオープンソースの音声理解モデルです。音声認識…

#CLI #Gradio #SGLang

❤ 47 ↓ 16.1k apache-2.0 2026-06-11

マルチモーダル

music-flamingo-think-2601-hf

Music Flamingo Thinkは、音楽や楽曲音声を入力として詳細な説明や質疑応答を行えるNVIDIAの音声言語モデルです。ジ…

#CLI #GPU必須 #Python

❤ 41 ↓ 666 other 2026-04-07

マルチモーダル

ultravox-v0_5-llama-3_1-8b

Ultravoxは、Llama 3.1 8B InstructとWhisper large v3 turboを組み合わせた音声入力対応のマルチモーダルLLMです。…

#GPU推奨 #Python #Transformers対応

❤ 37 ↓ 730 mit 2025-05-06

マルチモーダル

MOSS-Audio-4B-Thinking

MOSS-Audio-4B-Thinkingは、音声・環境音・音楽をまとめて理解し、文字起こし、話者や感情の分析、音の状況把握、要…

#CLI #GPU推奨 #Gradio

❤ 33 ↓ 15.4k apache-2.0 2026-04-14

マルチモーダル

sam3-litetext-s0

SAM3-LiteTextは、最先端の画像セグメンテーションモデルSAM3の軽量版です。重いSAM3のテキストエンコーダーをMobile…

#GPU推奨 #mask-generation #Vision-Language

❤ 19 ↓ 4.8k apache-2.0 2026-05-08