1,768 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

マルチモーダル (158 repos)

カテゴリ「マルチモーダル」のリポジトリ一覧

← 全カテゴリ

マルチモーダル
GitHub
antfly
Antflyは、etcdのRaftライブラリを基盤とした分散型検索エンジンです。フルテキスト検索(BM25)、ベクトル類似性、…
★ 357 ⑂ 25 NOASSERTION 2026-05-14
マルチモーダル
GitHub
Awesome-Multimodal-Modeling
このリポジトリは、マルチモーダルモデリングに関する包括的な調査と厳選されたリストです。伝統的なマルチモーダル…
★ 327 ⑂ 17 2026-05-09
マルチモーダル
HF
sam3.1
SAM 3.1は、Metaの画像・動画向けプロンプト可能セグメンテーション基盤モデルSAM 3の改良版チェックポイントです。…
❤ 285 ↓ 313.2k other 2026-03-27
マルチモーダル
GitHub
WindsurfPoolAPI
このツールは、Windsurf AIプラットフォーム向けのエンタープライズ級マルチアカウントプールプロキシ「WindsurfPool…
★ 240 ⑂ 58 MIT 2026-04-26
マルチモーダル
GitHub
awesome-agentic-world-modeling
「Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond」という論文に付随するリポジトリで、Agen…
★ 226 ⑂ 6 MIT 2026-05-11
マルチモーダル
HF
Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF
このREADMEは、Qwen 3.6 27Bをベースに検閲緩和と追加ファインチューニングを施し、さらにGGUF量子化版を多数用意し…
❤ 220 ↓ 468.8k apache-2.0 2026-05-14
マルチモーダル
GitHub
autoresearch-qwen
autoresearch-qwenは、Qwen3-VL-4B-InstructモデルをDocumentVQAベンチマークで自律的に改善することを目的とした研…
★ 210 ⑂ 33 MIT 2026-05-23
マルチモーダル
GitHub
knowledgeops-agent
「KnowledgeOps Agent」は、Spring AIを基盤としたエンタープライズ向けのマルチエージェントAIプラットフォームです…
★ 208 ⑂ 11 MIT 2026-05-12
画像生成
GitHub
DISCO
DISCOは、タンパク質配列と3次元構造を同時に設計できる拡散ベースのマルチモーダル生成モデルです。小分子リガンド…
★ 190 ⑂ 21 Apache-2.0 2026-05-13
マルチモーダル
HF
nemotron-ocr-v2
Nemotron OCR v2は、複雑な実写画像や文書画像から文字を高精度かつ高速に抽出する、NVIDIAの商用利用可能な多言語OC…
❤ 188 ↓ 5.0k other 2026-05-22
マルチモーダル
HF
audio-flamingo-3-hf
Audio Flamingo 3は、音声・環境音・音楽を横断して理解し、文字起こし、音の内容把握、推論、対話まで行えるオープ…
❤ 185 ↓ 172.1k other 2026-04-13
マルチモーダル
GitHub
OpenSearch-VL
OpenSearch-VLは、最先端のマルチモーダル深層検索エージェントを訓練するためのオープンソースのレシピです。単一の…
★ 175 ⑂ 14 Apache-2.0 2026-05-13
マルチモーダル
HF
Qwen3.5-9B-DeepSeek-V4-Flash-GGUF
Qwen3.5-9Bをベースに、DeepSeek-V4由来の高品質な推論データで蒸留した軽量推論モデルのREADMEです。多段階の論理展…
❤ 173 ↓ 440.1k apache-2.0 2026-05-02
マルチモーダル
GitHub
Graph-CAD
Graph-CADは、自然言語の指示から実行可能なBlender用CADコードを自動生成するための、グラフ媒介型Text-to-CADフレ…
★ 167 ⑂ 12 2026-03-30
マルチモーダル
GitHub
Awesome-VLM-Streaming-Video
このリポジトリは、Vision-Language Models (VLM) をストリーミングビデオに応用する研究と開発のための、厳選された…
★ 159 ⑂ 4 2026-05-12
マルチモーダル
GitHub
Thinking-with-Visual-Primitives
「Thinking with Visual Primitives」は、Multimodal Large Language Models (MLLM) が抱える「Reference Gap」を解…
★ 152 ⑂ 50 MIT 2026-05-22
マルチモーダル
HF
Qwopus3.6-35B-A3B-v1-GGUF
Qwopus3.6-35B-A3B-v1-GGUFは、Qwen3.6-35B-A3BをベースにLoRAで推論能力を強化した実験的なGGUF形式モデルです。35B…
❤ 152 ↓ 283.5k apache-2.0 2026-05-19
マルチモーダル
HF
Qwen3.6-40B-Claude-4.6-Opus-Deckard-Heretic-Uncensored-Thinking-NEO-CODE-Di-IMatrix-MAX-GGUF
このREADMEは、Qwen 3.6系をベースに40Bへ拡張し、Deckard系データセットやClaude 4.6 Opus由来データで多段階調整し…
❤ 142 ↓ 373.9k apache-2.0 2026-05-15
マルチモーダル
GitHub
cerul
Cerulは、AIエージェント向けの動画検索レイヤーであり、音声だけでなく、スライド、グラフ、デモ、画面上のテキスト…
★ 136 ⑂ 6 Apache-2.0 2026-05-18
マルチモーダル
GitHub
GEMS
GEMSは、エージェントネイティブなマルチモーダル生成のための先進的なフレームワークです。記憶とスキルを活用し、K…
★ 127 ⑂ 10 2026-04-01
ComfyUI
GitHub
ComfyUI-Ollama-Describer
ComfyUI-Ollama-Describerは、ComfyUIの拡張機能で、Ollamaの多様なLLMモデル(Gemma、Llava、Llama2/3、Mistralなど…
★ 117 ⑂ 23 MIT 2026-03-19
マルチモーダル
GitHub
ICLR2026-Guide-CN
本ツールは、ICLR 2026の全5,352論文を大規模言語モデル(LLM)が分析し、その内容を「研究動機」「解決問題」「主要…
★ 104 ⑂ 7 2026-04-29
マルチモーダル
HF
Falcon-OCR
Falcon OCRは、画像から文書テキストを抽出する300Mパラメータ級の軽量OCR向けビジョン言語モデルです。通常の文字起…
❤ 102 ↓ 10.5k apache-2.0 2026-05-13
マルチモーダル
HF
tipsv2-b14
TIPSv2 B/14は、画像とテキストを同じ埋め込み空間で扱えるGoogle系の視覚言語モデルです。画像全体の特徴量だけでな…
❤ 101 ↓ 15.5k apache-2.0 2026-04-14