1,738 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新
マルチモーダル (159 repos)
カテゴリ「マルチモーダル」のリポジトリ一覧
← 全カテゴリ
マルチモーダル GitHub Thinking-with-Visual-Primitives
「Thinking with Visual Primitives」は、Multimodal Large Language Models (MLLM) が抱える「Reference Gap」を解…
★ 38 ⑂ 38 MIT 2026-05-01
マルチモーダル HF MOSS-Audio-8B-Instruct
MOSS-Audio-8B-Instructは、音声・環境音・音楽をまとめて理解できるオープンソースの音声理解モデルです。音声認識…
❤ 38 ↓ 1.8k apache-2.0 2026-04-14
マルチモーダル GitHub rs-paper-hub
RS-Paper-Hubは、arXivからリモートセンシングおよび地球観測関連の論文を自動的に収集、整理、分類、タスクタグ付け…
★ 38 ⑂ 6 2026-05-15
マルチモーダル GitHub synthvision
SynthVisionは、医療画像VQA(Visual Question Answering)データセットの生成と、それを用いたVLM(Vision Language…
★ 32 ⑂ 5 2026-03-23
マルチモーダル HF MOSS-Audio-4B-Thinking
MOSS-Audio-4B-Thinkingは、音声・環境音・音楽をまとめて理解し、文字起こし、話者や感情の分析、音の状況把握、要…
❤ 28 ↓ 923 apache-2.0 2026-04-14
マルチモーダル GitHub SSM
このリポジリは、顔の動作単位(AU)と顔の表情(FE)の双方向学習を可能にするStructured Semantic Mapping(SSM)…
★ 27 2026-04-17
マルチモーダル
GitHub Qwen-Lens-Studio
Qwen Lens Studioは、単一のQwenビジョン言語モデルを搭載したマルチモーダルAIスタジオです。視覚的推論、多言語画…
★ 25 ⑂ 6 2026-04-23
マルチモーダル GitHub MOSAIC
MOSAICは、強化学習(RL)、大規模言語モデル(LLM)、視覚言語モデル(VLM)、そして人間の意思決定者といった異な…
★ 24 ⑂ 4 MIT 2026-04-21
マルチモーダル
GitHub cognitive-companion
「Cognitive Companion」は、多世代同居家庭の高齢者介護を支援する、プライバシーを最優先したオンプレミスAIシステ…
★ 19 ⑂ 10 AGPL-3.0 2026-05-21
マルチモーダル
GitHub VL-Calibration
VL-Calibrationは、大規模視覚言語モデル(LVLMs)の推論における信頼性キャリブレーションを向上させるためのフレー…
★ 19 Apache-2.0 2026-04-13
マルチモーダル
HF sam3-litetext-s0
SAM3-LiteTextは、視覚言語セグメンテーションモデルSAM3の重いテキストエンコーダを、知識蒸留で最適化した軽量なMo…
❤ 17 ↓ 6.0k apache-2.0 2026-05-08
マルチモーダル
GitHub sattxt
SATtxtは、衛星画像を解析するための最先端のビジョン・言語基盤モデルです。DINOv3のビジョンエンコーダとLLM2Vecの…
★ 16 2026-03-21
マルチモーダル GitHub WikiSeeker
WikiSeekerは、知識ベースの視覚的質問応答(KB-VQA)のために開発された革新的なマルチモーダルRAGフレームワークで…
★ 14 Apache-2.0 2026-04-18
マルチモーダル GitHub Qwen3-VL-Video-Grounding
Qwen3-VL-Video-Groundingは、Qwen3-VL多モーダル画像言語モデルを活用したGradioベースのWebアプリケーションです。…
★ 14 ⑂ 3 Apache-2.0 2026-02-28
マルチモーダル GitHub braviadev
このリポジトリは、修士号を持つコンピュータサイエンスの専門家であり、フルスタックエンジニア、そして博士課程の…
★ 13 2026-04-25
マルチモーダル GitHub WebDroid-Agent
WebDroid Agentは、ブラウザベースのAndroidスマートフォンエージェント実験プロジェクトです。WebUSB/WebADBを介し…
★ 13 ⑂ 4 MIT 2026-05-22
マルチモーダル HF moss-video-preview-base
MOSS-Video-Preview-Baseは、動画と言語をネイティブに統合して扱うクロスアテンション型の事前学習ベースモデルです…
❤ 12 ↓ 91 apache-2.0 2026-03-22
マルチモーダル
HF AURA
AURAは、映像ストリームを継続的に理解し、音声対話を通じてリアルタイム支援を行うマルチモーダル動画理解システム…
❤ 12 ↓ 633 apache-2.0 2026-04-07
マルチモーダル GitHub Ka1zen
Ka1zenは、Apple Silicon搭載Mac専用のローカルAIチャットアプリケーションです。AppleのMLXフレームワークを活用し…
★ 10 NOASSERTION 2026-05-13
マルチモーダル
GitHub Lumen
Lumenは、チャット、ビジョンQA、テキストから画像生成、画像から画像生成、長文会話圧縮、画像共有、Telegramボット…
★ 10 NOASSERTION 2026-05-15
マルチモーダル
GitHub agent-notch
macOSのMシリーズMacBookのノッチ部分に常駐するAIエージェントです。ユーザーは音声で指示を出し、Claude Sonnetが…
★ 10 2026-05-17
マルチモーダル
GitHub genblaze
Genblazeは、生成AIによるビデオ、画像、オーディオのメディアパイプラインを構築・オーケストレーションするためのP…
★ 10 MIT 2026-05-11
マルチモーダル
HF MolmoPoint-Vid-4B
MolmoPoint-Vid-4Bは、Allen Institute for AIが公開した動画向けのオープンな視覚言語モデルで、映像内の対象物を座…
❤ 9 ↓ 279 apache-2.0 2026-03-30
マルチモーダル GitHub JibarOS
JibarOSは、Android 16をベースにAIをプラットフォームの基盤機能として統合したOSのフォークです。テキスト補完や画…
★ 9 Apache-2.0 2026-05-06