252 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

マルチモーダル (33 repos)

カテゴリ「マルチモーダル」のリポジトリ一覧

マルチモーダル

gemma-4-31B-it

Gemma 4 31B itは、Google DeepMindのオープンウェイトな命令調整済みマルチモーダルモデルです。テキストと画像を入…

#GPU推奨

❤ 2.6k ↓ 8.7M apache-2.0 2026-05-07

マルチモーダル

clip-vit-large-patch14

CLIPのViT-L/14版を提供する研究向け画像・テキスト理解モデルです。画像と自然言語の対応を同一空間で学習し、事前…

#Vision Transformer #ゼロショット分類 #英語前提

❤ 2.0k ↓ 27.4M 2023-09-15

マルチモーダル

sam3

SAM 3は、画像と動画に対してプロンプト可能なセグメンテーションを行う統合基盤モデルです。短いテキスト、点、ボッ…

#CLI #GPU推奨

❤ 2.0k ↓ 3.1M other 2025-11-20

マルチモーダル

GLM-OCR

GLM-OCRは、複雑な文書を高精度に読み取り・解析できるマルチモーダルOCRモデルです。数式、表、情報抽出まで対応し…

#CLI #OCR

❤ 1.7k ↓ 8.2M mit 2026-04-14

マルチモーダル

Qwen3.6-35B-A3B

Qwen3.6-35B-A3Bは、Hugging Face Transformers形式で提供されるオープンウェイトの大規模マルチモーダル生成モデル…

#Hugging Face Transformers #コーディング支援 #長文コンテキスト

❤ 1.7k ↓ 3.4M apache-2.0 2026-04-24

マルチモーダル

Gemma-4-31B-JANG_4M-CRACK

Gemma 4 31BベースのMLX向けマルチモーダル言語モデルで、画像入力を含む対話やコード生成、一般用途のアシスタント…

#Apple Silicon Mac #GPU必須

❤ 1.5k ↓ 156.1k gemma 2026-04-25

マルチモーダル

Qwen3.6-27B

Qwen3.6-27Bは、Hugging Face Transformers形式で提供されるオープンウェイトの大規模マルチモーダルモデルです。画…

#CLI #GPU必須 #SGLang対応

❤ 1.2k ↓ 2.0M apache-2.0 2026-04-24

マルチモーダル

clip-vit-base-patch32

openai/clip-vit-base-patch32は、画像とテキストを同じ埋め込み空間で比較し、任意のラベル文との類似度からゼロシ…

#GPU推奨 #Vision #Zero-shot classification

❤ 932 ↓ 21.6M 2024-02-29

マルチモーダル

vit-gpt2-image-captioning

`nlpconnect/vit-gpt2-image-captioning` は、画像を入力すると英語の説明文を自動生成できる画像キャプション生成モ…

#CLI #GPU対応 #画像キャプション生成

❤ 929 ↓ 264.3k apache-2.0 2023-02-27

マルチモーダル

blip-image-captioning-base

SalesforceのBLIP画像キャプション生成モデルのベース版で、COCOデータセットで学習された画像説明向けの事前学習モ…

#CLI #CPU対応 #GPU対応

❤ 852 ↓ 2.4M bsd-3-clause 2025-02-03

マルチモーダル

siglip-so400m-patch14-384

SigLIP So400m Patch14 384は、Googleの画像と言語を結び付けるマルチモーダルモデルで、ゼロショット画像分類や画像…

#Image-text retrieval

❤ 674 ↓ 2.1M apache-2.0 2024-09-26

マルチモーダル

Qwen3.6-27B-GGUF

Qwen3.6-27B-GGUFは、Qwen3.6-27Bをもとにしたオープンウェイトの大規模言語・視覚対応モデルで、コード生成、リポジ…

#GGUF #GPU必須 #OpenAI互換API

❤ 622 ↓ 1.3M apache-2.0 2026-04-22

マルチモーダル

table-transformer-detection

Table Transformer（Table Detection向け）は、PubTables-1Mで学習されたDETR系の表検出モデルで、請求書や論文PDFな…

#CLI #表検出

❤ 418 ↓ 3.4M mit 2023-09-06

マルチモーダル

BiomedCLIP-PubMedBERT_256-vit_base_patch16_224

BiomedCLIP-PubMedBERT_256-vit_base_patch16_224は、PubMed Central由来の1500万件の医用画像とキャプション対で事…

#CLI #GPU推奨 #Hugging Face

❤ 403 ↓ 883.3k mit 2025-01-14

マルチモーダル

sam3.1

SAM 3.1は、Metaの画像・動画向けプロンプト可能セグメンテーション基盤モデルSAM 3の改良版チェックポイントです。…

#GPU必須 #セグメンテーション

❤ 239 ↓ 227.3k other 2026-03-27

マルチモーダル

audio-flamingo-3-hf

Audio Flamingo 3は、音声・環境音・音楽を横断して理解し、文字起こし、音の内容把握、推論、対話まで行えるオープ…

#CLI #GPU推奨 #研究用途限定

❤ 183 ↓ 188.7k other 2026-04-13

マルチモーダル

nemotron-ocr-v2

Nemotron OCR v2は、複雑な実写画像や文書画像から文字を高精度かつ高速に抽出する、NVIDIAの商用利用可能な多言語OC…

#GPU必須 #Linux #NVIDIA GPU対応

❤ 176 ↓ 2.5k other 2026-04-28

マルチモーダル

GitHub

DISCO

DISCOは、タンパク質配列と3次元構造を同時に設計できる拡散ベースのマルチモーダル生成モデルです。小分子リガンド…

#CLI #CUDA対応 #GPU推奨

★ 165 ⑂ 19 Apache-2.0 2026-04-09

マルチモーダル

LLaVA-Video-7B-Qwen2

LLaVA-Video-7B-Qwen2は、動画理解に特化した7B規模のマルチモーダルモデルです。画像・複数画像・動画を扱えますが…

#CLI #GPU必須

❤ 126 ↓ 28.8k apache-2.0 2024-10-25

マルチモーダル

LLaVA-NeXT-Video-7B-hf

LLaVA-NeXT-Video-7B-hfは、画像と動画を一緒に理解して対話できるオープンソースのマルチモーダル生成モデルです。T…

#CLI #GPU必須 #動画理解

❤ 123 ↓ 140.8k llama2 2025-11-11

マルチモーダル

GitHub

ComfyUI-Ollama-Describer

ComfyUI-Ollama-Describerは、ComfyUIの拡張機能で、Ollamaの多様なLLMモデル（Gemma、Llava、Llama2/3、Mistralなど…

#ComfyUI対応 #GPU推奨 #LLM

★ 116 ⑂ 23 MIT 2026-03-19

マルチモーダル

tipsv2-b14

TIPSv2 B/14は、画像とテキストを同じ埋め込み空間で扱えるGoogle系の視覚言語モデルです。画像全体の特徴量だけでな…

#CLI #GPU推論対応

❤ 95 ↓ 12.1k apache-2.0 2026-04-14

マルチモーダル

Falcon-OCR

Falcon OCRは、画像から文書テキストを抽出する300Mパラメータ級の軽量OCR向けビジョン言語モデルです。通常の文字起…

#CLI #GPU推奨 #文書解析

❤ 93 ↓ 20.9k apache-2.0 2026-04-01

マルチモーダル

MOSS-VL-Instruct-0408

MOSS-VL-Instruct-0408は、OpenMOSS系の視覚言語モデルを教師あり微調整したマルチモーダル推論用チェックポイントで…

#CLI #GPU必須 #動画対応

❤ 93 ↓ 3.3k apache-2.0 2026-04-22