1,807 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

マルチモーダル (162 repos)

カテゴリ「マルチモーダル」のリポジトリ一覧

← 全カテゴリ

マルチモーダル

ultravox-v0_5-llama-3_2-1b

Ultravoxは、Llama 3.2 1B InstructとWhisper large v3 turboを組み合わせた音声対応マルチモーダルLLMです。音声と…

#MITライセンス #Python #マルチモーダル

❤ 79 ↓ 1.0M mit 2026-03-11

マルチモーダル

MOSS-Audio-8B-Thinking

MOSS-Audio-8B-Thinkingは、音声・環境音・音楽を横断的に理解できるオープンソースの音声理解モデルです。文字起こ…

#CLI #GPU推奨 #Hugging Face対応

❤ 65 ↓ 42.4k apache-2.0 2026-04-14

マルチモーダル

MOSS-VL-Base-0408

MOSS-VL-Base-0408は、OpenMOSS系の画像・動画理解向けマルチモーダル基盤モデルです。4段階の事前学習のみで構築さ…

#CLI #GPU必須

❤ 60 ↓ 295 apache-2.0 2026-04-23

マルチモーダル

MOSS-Audio-4B-Instruct

MOSS-Audio-4B-Instructは、音声・環境音・音楽を統合的に理解し、テキストで応答するオープンソースの音声理解モデ…

#CLI #GPU推奨 #Gradio

❤ 54 ↓ 31.5k apache-2.0 2026-04-14

マルチモーダル

audio-flamingo-next-hf

Audio Flamingo Nextは、音声・環境音・音楽をまとめて理解できるNVIDIAの大規模音声言語モデルです。音声Q&A、文字…

#CLI #GPU推奨 #Python

❤ 53 ↓ 7.8k other 2026-05-13

マルチモーダル

music-flamingo-think-2601-hf

Music Flamingo Thinkは、音楽や楽曲音声を入力として詳細な説明や質疑応答を行えるNVIDIAの音声言語モデルです。ジ…

#CLI #GPU必須 #Python

❤ 41 ↓ 769 other 2026-04-07

マルチモーダル

MOSS-Audio-8B-Instruct

MOSS-Audio-8B-Instructは、音声・環境音・音楽をまとめて理解できるオープンソースの音声理解モデルです。音声認識…

#CLI #Gradio #SGLang

❤ 39 ↓ 1.7k apache-2.0 2026-04-14

マルチモーダル

MOSS-Audio-4B-Thinking

MOSS-Audio-4B-Thinkingは、音声・環境音・音楽をまとめて理解し、文字起こし、話者や感情の分析、音の状況把握、要…

#CLI #GPU推奨 #Gradio

❤ 29 ↓ 1.8k apache-2.0 2026-04-14

マルチモーダル

sam3-litetext-s0

SAM3-LiteTextは、視覚言語セグメンテーションモデルSAM3の重いテキストエンコーダを、知識蒸留で最適化した軽量なMo…

#GPU推奨 #mask-generation #Vision-Language

❤ 17 ↓ 5.9k apache-2.0 2026-05-08

マルチモーダル

moss-video-preview-base

MOSS-Video-Preview-Baseは、動画と言語をネイティブに統合して扱うクロスアテンション型の事前学習ベースモデルです…

#GPU推奨

❤ 12 ↓ 21 apache-2.0 2026-03-22

マルチモーダル

AURA

AURAは、映像ストリームを継続的に理解し、音声対話を通じてリアルタイム支援を行うマルチモーダル動画理解システム…

#リアルタイム #音声対話

❤ 12 ↓ 347 apache-2.0 2026-04-07