3,616 repos GH 3,501 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

マルチモーダル (298 repos)

カテゴリ「マルチモーダル」のリポジトリ一覧

← 全カテゴリ

マルチモーダル

Qwopus3.6-35B-A3B-v1-GGUF

Qwopus3.6-35B-A3B-v1-GGUFは、Qwen3.6-35B-A3BをベースにLoRAで推論能力を強化した実験的なGGUF形式モデルです。35B…

#GGUF #GPU必須 #ツール呼び出し対応

❤ 214 ↓ 97.7k apache-2.0 2026-05-28

マルチモーダル

GitHub

autoresearch-qwen

autoresearch-qwenは、Qwen3-VL-4B-InstructモデルをDocumentVQAベンチマークで自律的に改善することを目的とした研…

#CLI #GPU必須 #Python

★ 211 ⑂ 33 MIT 2026-06-14

画像生成

GitHub

DISCO

DISCOは、タンパク質配列と3次元構造を同時に設計できる拡散ベースのマルチモーダル生成モデルです。小分子リガンド…

#CLI #CUDA対応 #GPU推奨

★ 205 ⑂ 23 Apache-2.0 2026-05-13

マルチモーダル

GitHub

Awesome-VLM-Streaming-Video

このリポジトリは、Vision-Language Models (VLM) をストリーミングビデオに応用する研究と開発のための、厳選された…

#GitHub #Python #VLM

★ 187 ⑂ 5 2026-06-10

マルチモーダル

audio-flamingo-3-hf

Audio Flamingo 3は、音声・環境音・音楽を横断して理解し、文字起こし、音の内容把握、推論、対話まで行えるオープ…

#CLI #GPU推奨 #研究用途限定

❤ 187 ↓ 270.3k other 2026-04-13

マルチモーダル

Qwen2-Audio-7B

Qwen2-Audio-7Bは、音声を入力として受け取り、内容理解や音声指示に基づく応答を行える大規模音声言語モデルです。…

#CLI #GPU推奨 #Hugging Face Transformers

❤ 172 ↓ 10.7k apache-2.0 2024-11-20

マルチモーダル

Qwen2-Audio-7B-GGUF

Qwen2-Audio-7B-GGUFは、Nexa-SDK上でローカル実行できる音声・テキスト対応のマルチモーダルAIモデルです。ASRを別…

#CLI #GGUF #Web UI

❤ 171 ↓ 2.7k apache-2.0 2024-11-25

マルチモーダル

GitHub

ScreenMind

ScreenMindは、PCの画面活動をAIでキャプチャ、分析し、検索可能なプライベートAIメモリを構築するツールです。Gemma…

#AI #GPU必須 #Python

★ 161 ⑂ 9 MIT 2026-06-29

マルチモーダル

GitHub

Multimodal-Recommendation-Library

MRLibは、マルチモーダル推薦システムの研究開発に特化したオープンソースライブラリです。画像、テキスト、音声など…

#CLI #GPU必須 #Python

★ 157 ⑂ 14 MIT 2026-05-08

マルチモーダル

GitHub

EI-Beginner

このリポジトリは、OpenMOSS研究室が提供する具身知能および人型ロボット知能の入門実践チュートリアルです。ロボッ…

#LLM/VLM対応 #Python #シミュレーション

★ 156 ⑂ 7 2026-05-27

マルチモーダル

GitHub

cerul

Cerulは、AIエージェント向けの動画検索レイヤーであり、音声だけでなく、スライド、グラフ、デモ、画面上のテキスト…

#AIエージェント連携 #API #CLI

★ 148 ⑂ 8 Apache-2.0 2026-07-07

マルチモーダル

GitHub

ICLR2026-Guide-CN

本ツールは、ICLR 2026の全5,352論文を大規模言語モデル（LLM）が分析し、その内容を「研究動機」「解決問題」「主要…

#CLI #GitHub #LLM活用

★ 141 ⑂ 7 2026-04-29

マルチモーダル

GitHub

GEMS

GEMSは、エージェントネイティブなマルチモーダル生成のための先進的なフレームワークです。記憶とスキルを活用し、K…

#Agent-based #CLI #GPU必須

★ 137 ⑂ 10 2026-04-01

マルチモーダル

GitHub

count-anything

Count Anythingは、テキストクエリに基づいて画像内のあらゆるオブジェクトを数えることができる汎用モデルです。自…

#CLI #GPU必須 #Hugging Face

★ 134 ⑂ 7 Apache-2.0 2026-07-02

マルチモーダル

GitHub

Graph-CAD

Graph-CADは、自然言語の指示から実行可能なBlender用CADコードを自動生成するための、グラフ媒介型Text-to-CADフレ…

#AI/ML #Blender #CAD

★ 134 ⑂ 12 2026-03-30

マルチモーダル

LLaVA-Video-7B-Qwen2

LLaVA-Video-7B-Qwen2は、動画理解に特化した7B規模のマルチモーダルモデルです。画像・複数画像・動画を扱えますが…

#CLI #GPU必須

❤ 127 ↓ 13.4k apache-2.0 2024-10-25

マルチモーダル

LLaVA-NeXT-Video-7B-hf

LLaVA-NeXT-Video-7B-hfは、画像と動画を一緒に理解して対話できるオープンソースのマルチモーダル生成モデルです。T…

#CLI #GPU必須 #動画理解

❤ 126 ↓ 174.5k llama2 2025-11-11

ComfyUI

GitHub

ComfyUI-Ollama-Describer

ComfyUI-Ollama-Describerは、ComfyUIの拡張機能で、Ollamaの多様なLLMモデル（Gemma、Llava、Llama2/3、Mistralなど…

#ComfyUI対応 #GPU推奨 #LLM

★ 121 ⑂ 23 MIT 2026-03-19

マルチモーダル

Falcon-OCR

Falcon OCRは、3億パラメータを持つ早期結合型ビジョン・言語モデルで、文書のOCR（光学文字認識）に特化しています…

#CLI #GPU推奨 #文書解析

❤ 119 ↓ 5.1k apache-2.0 2026-07-03

マルチモーダル

tipsv2-b14

TIPSv2 B/14は、画像とテキストを同じ埋め込み空間で扱えるGoogle系の視覚言語モデルです。画像全体の特徴量だけでな…

#CLI #GPU推論対応

❤ 114 ↓ 20.5k apache-2.0 2026-06-27

マルチモーダル

GitHub

guardian-sdk

Ethicore Engine™ — Guardian SDKは、Python製のLLMおよびエージェントアプリケーション向けの、リアルタイム脅威検…

#AIセキュリティ #LLM #Python

★ 109 ⑂ 11 NOASSERTION 2026-06-28

マルチモーダル

music-flamingo-2601-hf

Music Flamingoは、音楽や楽曲の理解に特化したNVIDIAの大規模音声言語モデルです。曲調、テンポ、キー、楽器構成、…

#CLI #GPU推奨 #Python

❤ 106 ↓ 188.8k other 2026-04-09

マルチモーダル

GitHub

Awesome-Embodied-AI-Safety

このリポジトリは、Embodied AI（身体を持つAI）の安全性に関する包括的な調査と、その分野で初の統一的な安全フレー…

#AI安全性 #Embodied AI #サーベイ論文

★ 103 ⑂ 4 NOASSERTION 2026-06-23

マルチモーダル

GitHub

WebDroid-Agent

WebDroid Agentは、ブラウザベースのAndroidスマートフォンエージェント実験プロジェクトです。WebUSB/WebADBを介し…

#Android ADB #OpenAI互換API #TypeScript

★ 103 ⑂ 21 MIT 2026-05-28