1,738 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

マルチモーダル (159 repos)

カテゴリ「マルチモーダル」のリポジトリ一覧

← 全カテゴリ

マルチモーダル
HF
MOSS-VL-Instruct-0408
MOSS-VL-Instruct-0408は、OpenMOSS系の視覚言語モデルを教師あり微調整したマルチモーダル推論用チェックポイントで…
❤ 93 ↓ 3.4k apache-2.0 2026-04-22
マルチモーダル
GitHub
ICLR2026-Guide-CN
本ツールは、ICLR 2026の全5,352論文を大規模言語モデル(LLM)が分析し、その内容を「研究動機」「解決問題」「主要…
★ 92 ⑂ 6 2026-04-29
マルチモーダル
GitHub
35gateway
「35Gateway」は、35m.aiが開発・運営するソース利用可能なAIゲートウェイです。テキスト、画像、動画、音声、音楽と…
★ 87 ⑂ 1 NOASSERTION 2026-04-15
マルチモーダル
GitHub
Awesome-Embodied-AI-Safety
このリポジトリは、Embodied AI(身体を持つAI)の安全性に関する包括的な調査と、その分野で初の統一的な安全フレー…
★ 83 NOASSERTION 2026-05-15
マルチモーダル
GitHub
openmelon
OpenMelonは、ターミナルで動作するコンテンツ作成エージェントランタイムです。再現性のあるマルチモーダルコンテン…
★ 79 ⑂ 8 Apache-2.0 2026-05-11
マルチモーダル
HF
ultravox-v0_5-llama-3_2-1b
Ultravoxは、Llama 3.2 1B InstructとWhisper large v3 turboを組み合わせた音声対応マルチモーダルLLMです。音声と…
❤ 77 ↓ 848.3k mit 2026-03-11
マルチモーダル
GitHub
guardian-sdk
Ethicore Engine™ — Guardian SDKは、Python製のLLMおよびエージェントアプリケーション向けの、リアルタイム脅威検…
★ 71 ⑂ 10 NOASSERTION 2026-05-22
マルチモーダル
GitHub
Multimodal-Recommendation-Library
MRLibは、マルチモーダル推薦システムの研究開発に特化したオープンソースライブラリです。画像、テキスト、音声など…
★ 69 ⑂ 6 MIT 2026-05-08
マルチモーダル
GitHub
CourtSI
CourtSIは、スポーツ分野における空間知能を評価するための大規模データセットとベンチマークです。100万以上の質問…
★ 69 Apache-2.0 2026-03-15
マルチモーダル
HF
Qwen3.6-40B-Claude-4.6-Opus-Deckard-Heretic-Uncensored-Thinking-NEO-CODE-Di-IMatrix-MAX-GGUF
このREADMEは、Qwen 3.6系をベースに40Bへ拡張し、Deckard系データセットやClaude 4.6 Opus由来データで多段階調整し…
❤ 65 ↓ 107.1k apache-2.0 2026-05-02
マルチモーダル
HF
MOSS-Audio-8B-Thinking
MOSS-Audio-8B-Thinkingは、音声・環境音・音楽を横断的に理解できるオープンソースの音声理解モデルです。文字起こ…
❤ 61 ↓ 42.6k apache-2.0 2026-04-14
マルチモーダル
HF
MOSS-VL-Base-0408
MOSS-VL-Base-0408は、OpenMOSS系の画像・動画理解向けマルチモーダル基盤モデルです。4段階の事前学習のみで構築さ…
❤ 60 ↓ 366 apache-2.0 2026-04-23
マルチモーダル
GitHub
shadow
ShadowはmacOS向けの高度なパーソナルAIエンジンです。画面、音声、キー入力、クリップボードなど、コンピューター上…
★ 60 ⑂ 3 MIT 2026-03-16
マルチモーダル
GitHub
WeiClaw
WeChat(微信)をあらゆるAIエージェントのインターフェースとして機能させるオープンソースツールです。`npx`コマン…
★ 58 ⑂ 6 MIT 2026-03-24
マルチモーダル
GitHub
GEditBench_v2
GEditBench v2は、汎用画像編集モデルの性能を人間が調整した基準で評価するための包括的なベンチマークです。1,200…
★ 53 ⑂ 1 2026-04-01
マルチモーダル
HF
MOSS-Audio-4B-Instruct
MOSS-Audio-4B-Instructは、音声・環境音・音楽を統合的に理解し、テキストで応答するオープンソースの音声理解モデ…
❤ 52 ↓ 8.3k apache-2.0 2026-04-14
マルチモーダル
GitHub
Awesome-AVI
JavisVerse/Awesome-AVIは、「大規模基盤モデルにおけるオーディオ・ビジュアル・インテリジェンス(AVI)」に関する…
★ 51 2026-05-08
マルチモーダル
GitHub
GameVerse
GameVerseは、動画ベースの反射学習を通じてVision-Language Models (VLMs) がゲームプレイを学習できるかを検証する…
★ 49 MIT 2026-03-26
マルチモーダル
HF
audio-flamingo-next-hf
Audio Flamingo Nextは、音声・環境音・音楽をまとめて理解できるNVIDIAの大規模音声言語モデルです。音声Q&A、文字…
❤ 48 ↓ 7.8k other 2026-04-15
マルチモーダル
GitHub
awesome-modality-missing-learning
このリポジトリは、モダリティ欠落学習(Modality Missing Learning, MML)および不完全マルチモーダル学習に関する…
★ 44 ⑂ 2 MIT 2026-05-12
マルチモーダル
GitHub
neo-unify
このリポジトリは、SenseNovaの「Neo-Unify」に触発された、エンコーダフリーの統合マルチモーダルモデルの実験的な…
★ 42 ⑂ 1 2026-03-08
マルチモーダル
GitHub
HY-Embodied-0.5-X
HY-Embodied-0.5-Xは、Tencent Robotics XとHY Vision Teamが共同開発した、リアルワールドエージェント向けの拡張さ…
★ 41 ⑂ 3 NOASSERTION 2026-05-14
マルチモーダル
HF
music-flamingo-think-2601-hf
Music Flamingo Thinkは、音楽や楽曲音声を入力として詳細な説明や質疑応答を行えるNVIDIAの音声言語モデルです。ジ…
❤ 41 ↓ 2.1k other 2026-04-07
マルチモーダル
GitHub
ScreenClaw
ScreenClaw(睇虾)は、AIアプリケーションとデスクトップソフトウェアを連携させるためのローカル実行型ミドルウェ…
★ 39 ⑂ 11 MIT 2026-05-04