1,738 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

マルチモーダル (159 repos)

カテゴリ「マルチモーダル」のリポジトリ一覧

← 全カテゴリ

マルチモーダル
HF
Qwen3.6-40B-Claude-4.6-Opus-Deckard-Heretic-Uncensored-Thinking-NEO-CODE-Di-IMatrix-MAX-GGUF
このREADMEは、Qwen 3.6系をベースに40Bへ拡張し、Deckard系データセットやClaude 4.6 Opus由来データで多段階調整し…
❤ 65 ↓ 107.1k apache-2.0 2026-05-02
マルチモーダル
HF
MOSS-Audio-8B-Thinking
MOSS-Audio-8B-Thinkingは、音声・環境音・音楽を横断的に理解できるオープンソースの音声理解モデルです。文字起こ…
❤ 61 ↓ 42.6k apache-2.0 2026-04-14
マルチモーダル
HF
MOSS-VL-Base-0408
MOSS-VL-Base-0408は、OpenMOSS系の画像・動画理解向けマルチモーダル基盤モデルです。4段階の事前学習のみで構築さ…
❤ 60 ↓ 366 apache-2.0 2026-04-23
マルチモーダル
HF
MOSS-Audio-4B-Instruct
MOSS-Audio-4B-Instructは、音声・環境音・音楽を統合的に理解し、テキストで応答するオープンソースの音声理解モデ…
❤ 52 ↓ 8.3k apache-2.0 2026-04-14
マルチモーダル
HF
audio-flamingo-next-hf
Audio Flamingo Nextは、音声・環境音・音楽をまとめて理解できるNVIDIAの大規模音声言語モデルです。音声Q&A、文字…
❤ 48 ↓ 7.8k other 2026-04-15
マルチモーダル
HF
music-flamingo-think-2601-hf
Music Flamingo Thinkは、音楽や楽曲音声を入力として詳細な説明や質疑応答を行えるNVIDIAの音声言語モデルです。ジ…
❤ 41 ↓ 2.1k other 2026-04-07
マルチモーダル
HF
MOSS-Audio-8B-Instruct
MOSS-Audio-8B-Instructは、音声・環境音・音楽をまとめて理解できるオープンソースの音声理解モデルです。音声認識…
❤ 38 ↓ 1.8k apache-2.0 2026-04-14
マルチモーダル
HF
MOSS-Audio-4B-Thinking
MOSS-Audio-4B-Thinkingは、音声・環境音・音楽をまとめて理解し、文字起こし、話者や感情の分析、音の状況把握、要…
❤ 28 ↓ 923 apache-2.0 2026-04-14
マルチモーダル
HF
sam3-litetext-s0
SAM3-LiteTextは、視覚言語セグメンテーションモデルSAM3の重いテキストエンコーダを、知識蒸留で最適化した軽量なMo…
❤ 17 ↓ 6.0k apache-2.0 2026-05-08
マルチモーダル
HF
moss-video-preview-base
MOSS-Video-Preview-Baseは、動画と言語をネイティブに統合して扱うクロスアテンション型の事前学習ベースモデルです…
❤ 12 ↓ 91 apache-2.0 2026-03-22
マルチモーダル
HF
AURA
AURAは、映像ストリームを継続的に理解し、音声対話を通じてリアルタイム支援を行うマルチモーダル動画理解システム…
❤ 12 ↓ 633 apache-2.0 2026-04-07
マルチモーダル
HF
MolmoPoint-Vid-4B
MolmoPoint-Vid-4Bは、Allen Institute for AIが公開した動画向けのオープンな視覚言語モデルで、映像内の対象物を座…
❤ 9 ↓ 279 apache-2.0 2026-03-30