3,695 repos GH 3,580 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新
#マルチモーダル (54 repos)
「マルチモーダル」タグが付いたリポジトリ
← 全リポジトリ
マルチモーダル GitHub doubao2api
このプロジェクト「doubao2api」は、Doubao(豆包)クライアントAPIをリバースエンジニアリングしたもので、AIエージ…
★ 48 ⑂ 17 Apache-2.0 2026-05-24
マルチモーダル HF ultravox-v0_5-llama-3_1-8b
Ultravoxは、Llama 3.1 8B InstructとWhisper large v3 turboを組み合わせた音声入力対応のマルチモーダルLLMです。…
❤ 37 ↓ 921 mit 2025-05-06
画像生成 GitHub agnes-ai-skill
Agnes AI Skillは、テキスト、画像、動画の各APIを統合するAIスキルです。Agnes AIのマルチモーダル機能を活用し、チ…
★ 36 MIT 2026-06-13
マルチモーダル GitHub Media-AI
このリポジトリは、2025年から2026年にかけてのAIメディア生成ツールの決定版マスターリストです。画像、動画、音声…
★ 33 ⑂ 6 2026-04-22
マルチモーダル HF MOSS-Audio-4B-Thinking
MOSS-Audio-4B-Thinkingは、音声・環境音・音楽をまとめて理解し、文字起こし、話者や感情の分析、音の状況把握、要…
❤ 31 ↓ 756 apache-2.0 2026-04-14
動画生成 GitHub mmx-mcp-server
mmx-mcp-serverは、MiniMaxの全モダリティ(テキスト、検索、画像理解、画像生成、音声合成、動画生成、音楽生成、配…
★ 31 ⑂ 8 MIT 2026-04-17
マルチモーダル GitHub CanvasChat
CanvasChatは、Google GeminiのCanvasプレビューモードに特化した、Gemini 3 Flashモデルを無料で大量に利用できるチ…
★ 30 ⑂ 7 MIT 2026-05-22
マルチモーダル GitHub VisualClaw
VisualClawは、物理世界向けのリアルタイムでパーソナライズされたエージェントを構築するための自己進化型マルチモ…
★ 27 ⑂ 1 MIT 2026-06-16
マルチモーダル GitHub weld-anomaly-classifier
WeldFusionNetは、センサー、オーディオ、ビデオデータといった多様な情報を統合するマルチモーダル深層学習モデルを…
★ 27 ⑂ 1 MIT 2026-03-06
動画生成 GitHub Seedance-2.0-Gateway-Service
Seedance 2.0 Gateway Serviceは、テキストプロンプト、画像、マルチモーダルな参照入力からAI動画を生成するゲート…
★ 26 ⑂ 5 NOASSERTION 2026-06-16
動画生成 GitHub awesome-gemini-omni-guide-api-and-prompt
このリポジトリは、Google Gemini OmniのAPI利用ガイドとプロンプト集です。Gemini Omniの高度な機能(動画生成、編…
★ 24 ⑂ 2 NOASSERTION 2026-06-15
マルチモーダル GitHub WikiSeeker
WikiSeekerは、知識ベースの視覚的質問応答(KB-VQA)のために開発された革新的なマルチモーダルRAGフレームワークで…
★ 15 Apache-2.0 2026-04-18
マルチモーダル GitHub goodq4all
GoodQ4Allは、ローカルファーストのマルチモーダル記憶システムで、長期間のビデオ、オーディオ、テキストからの情報…
★ 8 MIT 2026-06-21
マルチモーダル GitHub Multimodal-Edge-Node
Multimodal-Edge-Nodeは、実験的なノードベースの視覚的推論とマルチモーダル推論キャンバスです。ユーザーはカスタ…
★ 6 Apache-2.0 2026-05-01
マルチモーダル GitHub CodeBind
CodeBindは、大規模言語モデルやロボット工学におけるマルチモーダル表現アライメントの課題を解決するために開発さ…
★ 5 ⑂ 1 MIT 2026-05-19
ASR / 音声認識 GitHub DialoStack
DialoStackは、ROS 2ロボットが目標指向の音声会話を行えるようにするフレームワークです。ユーザーから構造化データ…
★ 4 MIT 2026-06-04
マルチモーダル GitHub LiteRTLM-Swift-SDK
LiteRTLM Swift SDKは、GoogleのLiteRT-LM(オンデバイス推論エンジン)の非公式Swift SDKです。このツールはGemma 4…
★ 4 ⑂ 2 MIT 2026-05-02
マルチモーダル GitHub mimo-code
MiMo-Codeは、MiMoモデルファミリー専用のネイティブデスクトップコーディングエージェントです。WindowsおよびmacOS…
★ 3 MIT 2026-06-15
マルチモーダル GitHub kaggle-llm-server
このツールはKaggleのGPU上で動作するマルチモーダルLLMサーバーで、テキストと画像の処理が可能です。無料のKaggle …
★ 3 ⑂ 4 2026-05-24
マルチモーダル GitHub langchain-content-normalizer
langchain-content-normalizerは、LangChain、MCPツール、Anthropicコンテンツブロック、およびマルチモーダルチャッ…
★ 3 MIT 2026-06-03
マルチモーダル GitHub ai-annotation-rule-doc-skill
このツールは、AIモデル訓練データのアノテーションルール文書を効率的に作成するためのClaudeスキルです。テキスト…
★ 2 MIT 2026-06-08
マルチモーダル GitHub Tri-Sentinel-XAI
Tri-Sentinel XAIは、フィッシングURL、スパムテキスト、AI生成ディープフェイク画像を検出するマルチモーダルな説明…
★ 1 MIT 2026-06-13
画像生成 GitHub Lumina-AI
Lumina AIは、高度なマルチモーダルAIバーチャルコンパニオン兼アシスタントです。Gradioインターフェース上で動作し…
★ 1 MIT 2026-06-22
LLM GitHub visually-guided-subtitle-translation
このリポジトリは、EAMT 2026の論文「Towards Visually-Guided Movie Subtitle Translation for Indic Languages」で…
★ 1 Apache-2.0 2026-05-20