3,640 repos GH 3,525 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

#音声入力対応 (9 repos)

「音声入力対応」タグが付いたリポジトリ

マルチモーダル

Qwen2-Audio-7B-Instruct

Qwen2-Audio-7B-Instructは、音声入力を受けて会話や解析を行えるQwen系の音声対応大規模言語モデルです。テキストな…

❤ 540 ↓ 673.6k apache-2.0 2025-01-12

マルチモーダル

Voxtral-Small-24B-2507

Voxtral Small 1.0（24B）は、Mistral Small 3系をベースに音声入力機能を強化した大規模音声理解モデルです。音声の…

❤ 501 ↓ 105.6k apache-2.0 2025-12-20

マルチモーダル

Qwen2-Audio-7B

Qwen2-Audio-7Bは、音声を入力として受け取り、内容理解や音声指示に基づく応答を行える大規模音声言語モデルです。…

❤ 172 ↓ 5.0k apache-2.0 2024-11-20

マルチモーダル

Qwen2-Audio-7B-GGUF

Qwen2-Audio-7B-GGUFは、Nexa-SDK上でローカル実行できる音声・テキスト対応のマルチモーダルAIモデルです。ASRを別…

❤ 171 ↓ 2.7k apache-2.0 2024-11-25

マルチモーダル

music-flamingo-2601-hf

Music Flamingoは、音楽や楽曲の理解に特化したNVIDIAの大規模音声言語モデルです。曲調、テンポ、キー、楽器構成、…

❤ 105 ↓ 188.9k other 2026-04-09

マルチモーダル

music-flamingo-hf

Music Flamingoは、楽曲やインストゥルメンタル音源を対象に、ジャンル・テンポ・キー・楽器構成・雰囲気・歌詞や文…

❤ 99 ↓ 16.8k other 2026-04-04

マルチモーダル

ultravox-v0_5-llama-3_2-1b

Ultravoxは、Llama 3.2 1B InstructとWhisper large v3 turboを組み合わせた音声対応マルチモーダルLLMです。音声と…

❤ 88 ↓ 1.1M mit 2026-03-11

マルチモーダル

music-flamingo-think-2601-hf

Music Flamingo Thinkは、音楽や楽曲音声を入力として詳細な説明や質疑応答を行えるNVIDIAの音声言語モデルです。ジ…

❤ 41 ↓ 533 other 2026-04-07