マルチモーダル HF Qwen2-Audio-7B-GGUF
Qwen2-Audio-7B-GGUFは、Nexa-SDK上でローカル実行できる音声・テキスト対応のマルチモーダルAIモデルです。ASRを別…
❤ 171 ↓ 3.2k apache-2.0 2024-11-25
マルチモーダル
HF Qwen2-Audio-7B
Qwen2-Audio-7Bは、音声を入力として受け取り、内容理解や音声指示に基づく応答を行える大規模音声言語モデルです。…
❤ 170 ↓ 9.2k apache-2.0 2024-11-20
マルチモーダル HF Qwen3.5-9B-DeepSeek-V4-Flash-GGUF
Qwen3.5-9Bをベースに、DeepSeek-V4由来の高品質な推論データで蒸留した軽量推論モデルのREADMEです。多段階の論理展…
❤ 131 ↓ 178.2k apache-2.0 2026-05-02
マルチモーダル HF Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF
このREADMEは、Qwen 3.6 27Bをベースに検閲緩和と追加ファインチューニングを施し、さらにGGUF量子化版を多数用意し…
❤ 131 ↓ 197.1k apache-2.0 2026-04-30
マルチモーダル
HF LLaVA-Video-7B-Qwen2
LLaVA-Video-7B-Qwen2は、動画理解に特化した7B規模のマルチモーダルモデルです。画像・複数画像・動画を扱えますが…
❤ 126 ↓ 28.2k apache-2.0 2024-10-25
マルチモーダル HF LLaVA-NeXT-Video-7B-hf
LLaVA-NeXT-Video-7B-hfは、画像と動画を一緒に理解して対話できるオープンソースのマルチモーダル生成モデルです。T…
❤ 123 ↓ 143.5k llama2 2025-11-11
マルチモーダル HF Qwopus3.6-35B-A3B-v1-GGUF
Qwopus3.6-35B-A3B-v1-GGUFは、Qwen3.6-35B-A3BをベースにLoRAで推論能力を強化した実験的なGGUF形式モデルです。35B…
❤ 111 ↓ 67.2k apache-2.0 2026-05-07
マルチモーダル HF music-flamingo-2601-hf
Music Flamingoは、音楽や楽曲の理解に特化したNVIDIAの大規模音声言語モデルです。曲調、テンポ、キー、楽器構成、…
❤ 99 ↓ 106.8k other 2026-04-09
マルチモーダル
HF tipsv2-b14
TIPSv2 B/14は、画像とテキストを同じ埋め込み空間で扱えるGoogle系の視覚言語モデルです。画像全体の特徴量だけでな…
❤ 97 ↓ 12.6k apache-2.0 2026-04-14
マルチモーダル HF music-flamingo-hf
Music Flamingoは、楽曲やインストゥルメンタル音源を対象に、ジャンル・テンポ・キー・楽器構成・雰囲気・歌詞や文…
❤ 95 ↓ 9.6k other 2026-04-04
マルチモーダル HF Falcon-OCR
Falcon OCRは、画像から文書テキストを抽出する300Mパラメータ級の軽量OCR向けビジョン言語モデルです。通常の文字起…
❤ 94 ↓ 19.9k apache-2.0 2026-04-01
マルチモーダル HF MOSS-VL-Instruct-0408
MOSS-VL-Instruct-0408は、OpenMOSS系の視覚言語モデルを教師あり微調整したマルチモーダル推論用チェックポイントで…
❤ 93 ↓ 3.4k apache-2.0 2026-04-22
マルチモーダル
HF ultravox-v0_5-llama-3_2-1b
Ultravoxは、Llama 3.2 1B InstructとWhisper large v3 turboを組み合わせた音声対応マルチモーダルLLMです。音声と…
❤ 77 ↓ 848.3k mit 2026-03-11
マルチモーダル HF Qwen3.6-40B-Claude-4.6-Opus-Deckard-Heretic-Uncensored-Thinking-NEO-CODE-Di-IMatrix-MAX-GGUF
このREADMEは、Qwen 3.6系をベースに40Bへ拡張し、Deckard系データセットやClaude 4.6 Opus由来データで多段階調整し…
❤ 65 ↓ 107.1k apache-2.0 2026-05-02
マルチモーダル HF MOSS-Audio-8B-Thinking
MOSS-Audio-8B-Thinkingは、音声・環境音・音楽を横断的に理解できるオープンソースの音声理解モデルです。文字起こ…
❤ 61 ↓ 42.6k apache-2.0 2026-04-14
マルチモーダル HF MOSS-VL-Base-0408
MOSS-VL-Base-0408は、OpenMOSS系の画像・動画理解向けマルチモーダル基盤モデルです。4段階の事前学習のみで構築さ…
❤ 60 ↓ 366 apache-2.0 2026-04-23
マルチモーダル
HF acestep-transcriber
ACE-Step Transcriberは、ACE-Step v1.5の学習データ注釈に使われる多言語音声転写モデルです。話し声だけでなく歌声…
❤ 56 ↓ 10.8k mit 2026-02-03
マルチモーダル HF MOSS-Audio-4B-Instruct
MOSS-Audio-4B-Instructは、音声・環境音・音楽を統合的に理解し、テキストで応答するオープンソースの音声理解モデ…
❤ 52 ↓ 8.3k apache-2.0 2026-04-14
マルチモーダル HF audio-flamingo-next-hf
Audio Flamingo Nextは、音声・環境音・音楽をまとめて理解できるNVIDIAの大規模音声言語モデルです。音声Q&A、文字…
❤ 48 ↓ 7.8k other 2026-04-15
マルチモーダル HF music-flamingo-think-2601-hf
Music Flamingo Thinkは、音楽や楽曲音声を入力として詳細な説明や質疑応答を行えるNVIDIAの音声言語モデルです。ジ…
❤ 41 ↓ 2.1k other 2026-04-07
マルチモーダル HF MOSS-Audio-8B-Instruct
MOSS-Audio-8B-Instructは、音声・環境音・音楽をまとめて理解できるオープンソースの音声理解モデルです。音声認識…
❤ 38 ↓ 1.8k apache-2.0 2026-04-14
マルチモーダル
HF ultravox-v0_5-llama-3_1-8b
Ultravoxは、Llama 3.1 8B InstructとWhisper large v3 turboを組み合わせた音声入力対応のマルチモーダルLLMです。…
❤ 37 ↓ 23.1k mit 2025-05-06
マルチモーダル HF MOSS-Audio-4B-Thinking
MOSS-Audio-4B-Thinkingは、音声・環境音・音楽をまとめて理解し、文字起こし、話者や感情の分析、音の状況把握、要…
❤ 28 ↓ 923 apache-2.0 2026-04-14
マルチモーダル
HF sam3-litetext-s0
SAM3-LiteTextは、視覚言語セグメンテーションモデルSAM3の重いテキストエンコーダを、知識蒸留で最適化した軽量なMo…
❤ 17 ↓ 6.0k apache-2.0 2026-05-08