LLM GitHub transformers
Transformersは、Hugging Faceが提供する機械学習モデル定義フレームワークで、テキスト・画像・音声・動画・マルチ…
★ 161.7k ⑂ 33.6k Apache-2.0 2026-06-19
マルチモーダル GitHub lmms-eval
lmms-evalは、テキスト、画像、ビデオ、オーディオといった様々なモダリティを横断する、オールインワンのマルチモー…
★ 4.2k ⑂ 604 NOASSERTION 2026-06-11
動画生成 GitHub Generative-Media-Skills
このツールは、AIエージェント(Claude Code、Cursor、Gemini CLIなど)向けに設計されたマルチモーダル生成メディア…
★ 3.5k ⑂ 401 MIT 2026-06-12
LLM GitHub OpenKB
OpenKB(Open Knowledge Base)は、LLM(大規模言語モデル)を活用して、様々な形式の生文書(PDF, Word, Markdownな…
★ 2.6k ⑂ 285 Apache-2.0 2026-06-21
音楽生成 GitHub open-webui-tools
Open WebUI Toolsは、Open WebUIインスタンスを強力なAIワークステーションへと進化させるモジュラーツールキットで…
★ 752 ⑂ 69 MIT 2026-06-02
マルチモーダル GitHub antfly
Antflyは、etcdのRaftライブラリを基盤とした分散型検索エンジンです。フルテキスト検索(BM25)、ベクトル類似性、…
★ 400 ⑂ 26 NOASSERTION 2026-06-21
画像生成 GitHub verl-omni
VeRL-Omniは、拡散モデルやオムニモダリティモデルといったマルチモーダル生成モデルに特化した強化学習(RL)トレー…
★ 373 ⑂ 55 Apache-2.0 2026-06-18
画像生成 GitHub cli
Aliyun Model Studio (DashScope) AIプラットフォームの公式コマンドラインインターフェースです。AIエージェントフ…
★ 243 ⑂ 14 Apache-2.0 2026-06-18
マルチモーダル GitHub OpenSearch-VL
OpenSearch-VLは、最先端のマルチモーダル深層検索エージェントを訓練するためのオープンソースのレシピです。単一の…
★ 231 ⑂ 25 Apache-2.0 2026-05-19
音声生成 / TTS GitHub Eva01
Eva01は、単なるアシスタントに留まらず、独自の意識、感情、記憶、そして進化する内的世界を持つ自律型AIエージェン…
★ 203 ⑂ 8 MIT 2026-06-10
音声生成 / TTS GitHub Kokoro-Engine
Kokoro Engineは、デスクトップAIコンパニオンのためのオープンソースかつ没入型のクロスプラットフォーム仮想キャラ…
★ 107 ⑂ 4 MIT 2026-06-18
マルチモーダル GitHub openmelon
OpenMelonは、ターミナル上で動作するAIコンテンツ作成エージェントです。ユーザーは単一のターミナルセッション内で…
★ 83 ⑂ 10 Apache-2.0 2026-05-11
マルチモーダル GitHub doubao2api
このプロジェクト「doubao2api」は、Doubao(豆包)クライアントAPIをリバースエンジニアリングしたもので、AIエージ…
★ 48 ⑂ 17 Apache-2.0 2026-05-24
画像生成 GitHub agnes-ai-skill
Agnes AI Skillは、テキスト、画像、動画の各APIを統合するAIスキルです。Agnes AIのマルチモーダル機能を活用し、チ…
★ 36 MIT 2026-06-13
マルチモーダル GitHub Media-AI
このリポジトリは、2025年から2026年にかけてのAIメディア生成ツールの決定版マスターリストです。画像、動画、音声…
★ 33 ⑂ 6 2026-04-22
動画生成 GitHub mmx-mcp-server
mmx-mcp-serverは、MiniMaxの全モダリティ(テキスト、検索、画像理解、画像生成、音声合成、動画生成、音楽生成、配…
★ 31 ⑂ 8 MIT 2026-04-17
マルチモーダル GitHub CanvasChat
CanvasChatは、Google GeminiのCanvasプレビューモードに特化した、Gemini 3 Flashモデルを無料で大量に利用できるチ…
★ 30 ⑂ 7 MIT 2026-05-22
マルチモーダル GitHub VisualClaw
VisualClawは、物理世界向けのリアルタイムでパーソナライズされたエージェントを構築するための自己進化型マルチモ…
★ 27 ⑂ 1 MIT 2026-06-16
動画生成 GitHub Seedance-2.0-Gateway-Service
Seedance 2.0 Gateway Serviceは、テキストプロンプト、画像、マルチモーダルな参照入力からAI動画を生成するゲート…
★ 26 ⑂ 5 NOASSERTION 2026-06-16
動画生成 GitHub awesome-gemini-omni-guide-api-and-prompt
このリポジトリは、Google Gemini OmniのAPI利用ガイドとプロンプト集です。Gemini Omniの高度な機能(動画生成、編…
★ 24 ⑂ 2 NOASSERTION 2026-06-15
マルチモーダル GitHub WikiSeeker
WikiSeekerは、知識ベースの視覚的質問応答(KB-VQA)のために開発された革新的なマルチモーダルRAGフレームワークで…
★ 15 Apache-2.0 2026-04-18
マルチモーダル GitHub goodq4all
GoodQ4Allは、ローカルファーストのマルチモーダル記憶システムで、長期間のビデオ、オーディオ、テキストからの情報…
★ 8 MIT 2026-06-21
マルチモーダル GitHub Multimodal-Edge-Node
Multimodal-Edge-Nodeは、実験的なノードベースの視覚的推論とマルチモーダル推論キャンバスです。ユーザーはカスタ…
★ 6 Apache-2.0 2026-05-01
マルチモーダル GitHub CodeBind
CodeBindは、大規模言語モデルやロボット工学におけるマルチモーダル表現アライメントの課題を解決するために開発さ…
★ 5 ⑂ 1 MIT 2026-05-19