3,616 repos GH 3,501 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

マルチモーダル (298 repos)

カテゴリ「マルチモーダル」のリポジトリ一覧

← 全カテゴリ

マルチモーダル

gemma-4-31B-it

Gemma 4 31B itは、Google DeepMindのオープンウェイトな命令調整済みマルチモーダルモデルです。テキストと画像を入…

#GPU推奨

❤ 3.1k ↓ 11.4M apache-2.0 2026-06-03

マルチモーダル

Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive

Qwen3.6-35B-A3Bをベースに、拒否応答を極力外したHauhauCS製のGGUF配布モデルです。テキストに加えて画像・動画も扱…

#CLI #GGUF #GPU推奨

❤ 2.5k ↓ 2.9M apache-2.0 2026-04-17

マルチモーダル

sam3

SAM 3は、画像と動画に対してプロンプト可能なセグメンテーションを行う統合基盤モデルです。短いテキスト、点、ボッ…

#CLI #GPU推奨

❤ 2.4k ↓ 1.7M other 2025-11-20

マルチモーダル

Qwen3.6-35B-A3B

Qwen3.6-35B-A3Bは、Hugging Face Transformers形式で提供されるオープンウェイトの大規模マルチモーダル生成モデル…

#Hugging Face Transformers #コーディング支援 #長文コンテキスト

❤ 2.3k ↓ 5.9M apache-2.0 2026-04-24

マルチモーダル

clip-vit-large-patch14

OpenAIが開発したCLIPモデルは、画像とテキストの関連性を学習し、未知の画像分類タスクに対してゼロショットで高い…

#Vision Transformer #ゼロショット分類 #英語前提

❤ 2.0k ↓ 12.4M 2023-09-15

マルチモーダル

GLM-OCR

GLM-OCRは、複雑な文書を高精度に読み取り・解析できるマルチモーダルOCRモデルです。数式、表、情報抽出まで対応し…

#CLI #OCR

❤ 1.9k ↓ 3.1M mit 2026-05-19

マルチモーダル

Qwen3.6-27B

Qwen3.6-27Bは、Hugging Face Transformers形式で提供されるオープンウェイトの大規模マルチモーダルモデルです。画…

#CLI #GPU必須 #SGLang対応

❤ 1.9k ↓ 4.9M apache-2.0 2026-04-24

マルチモーダル

Gemma-4-31B-JANG_4M-CRACK

Gemma 4 31BベースのMLX向けマルチモーダル言語モデルで、画像入力を含む対話やコード生成、一般用途のアシスタント…

#Apple Silicon Mac #GPU必須

❤ 1.7k ↓ 36.6k gemma 2026-04-25

マルチモーダル

Kimi-K2.6

Kimi K2.6は、Moonshot AIが公開するネイティブマルチモーダル対応のオープンソース大規模モデルです。長い手順を要…

#Python #Transformers対応 #エージェント用途

❤ 1.5k ↓ 2.0M other 2026-05-19

マルチモーダル

Qwen3.6-35B-A3B-GGUF

Qwen3.6-35B-A3B-GGUFは、Unslothが提供するQwen3.6系の量子化モデル配布で、コーディング支援やツール呼び出し、画…

#CLI #GGUF #SGLang対応

❤ 1.3k ↓ 847.7k apache-2.0 2026-04-20

マルチモーダル

gemma-4-26B-A4B-it

Gemma 4 26B A4B itは、Google DeepMindのオープンウェイトなマルチモーダル指示調整モデルです。テキストと画像を入…

#GPU推奨 #Python #Transformers対応

❤ 1.2k ↓ 13.9M apache-2.0 2026-06-03

マルチモーダル

clip-vit-base-patch32

openai/clip-vit-base-patch32は、画像とテキストを同じ埋め込み空間で比較し、任意のラベル文との類似度からゼロシ…

#GPU推奨 #Vision #Zero-shot classification

❤ 969 ↓ 22.3M 2024-02-29

マルチモーダル

vit-gpt2-image-captioning

`nlpconnect/vit-gpt2-image-captioning` は、画像を入力すると英語の説明文を自動生成できる画像キャプション生成モ…

#CLI #GPU対応 #画像キャプション生成

❤ 931 ↓ 63.9k apache-2.0 2023-02-27

マルチモーダル

Gemma-4-E4B-Uncensored-HauhauCS-Aggressive

Gemma 4 E4B-IT をベースに、応答拒否を大幅に外した GGUF 量子化モデルの配布ページです。Aggressive 版は安全制限…

#GGUF #GPU推奨 #llama.cpp対応

❤ 871 ↓ 508.0k gemma 2026-04-06

マルチモーダル

blip-image-captioning-base

SalesforceのBLIP画像キャプション生成モデルのベース版で、COCOデータセットで学習された画像説明向けの事前学習モ…

#CLI #CPU対応 #GPU対応

❤ 865 ↓ 1.7M bsd-3-clause 2025-02-03

マルチモーダル

Qwen3.6-27B-GGUF

Qwen3.6-27B-GGUFは、Qwen3.6-27Bをもとにしたオープンウェイトの大規模言語・視覚対応モデルで、コード生成、リポジ…

#GGUF #GPU必須 #OpenAI互換API

❤ 845 ↓ 580.7k apache-2.0 2026-04-22

マルチモーダル

siglip-so400m-patch14-384

SigLIP (shape-optimized model) は、WebLiデータセットで384x384の解像度で事前学習された多モーダルモデルです。従…

#Image-text retrieval

❤ 680 ↓ 1.7M apache-2.0 2024-09-26

マルチモーダル

Qwen2-Audio-7B-Instruct

Qwen2-Audio-7B-Instructは、音声入力を受けて会話や解析を行えるQwen系の音声対応大規模言語モデルです。テキストな…

#GPU推奨 #Python #バッチ推論対応

❤ 545 ↓ 570.5k apache-2.0 2025-01-12

マルチモーダル

Qwen3.6-40B-Claude-4.6-Opus-Deckard-Heretic-Uncensored-Thinking-NEO-CODE-Di-IMatrix-MAX-GGUF

このREADMEは、Qwen 3.6系をベースに40Bへ拡張し、Deckard系データセットやClaude 4.6 Opus由来データで多段階調整し…

#GGUF #Hugging Face #コーディング向け

❤ 538 ↓ 446.6k apache-2.0 2026-06-11

マルチモーダル

Qwen3.6-27B-Uncensored-HauhauCS-Aggressive

Qwen3.6-27Bをベースに、応答拒否を抑えたGGUF配布モデルです。Aggressive版は過激な指示でも前置きや言い訳を減らし…

#GGUF #GPU推奨 #llama.cpp対応

❤ 490 ↓ 456.5k apache-2.0 2026-04-24

マルチモーダル

table-transformer-detection

Table Transformer（Table Detection向け）は、PubTables-1Mで学習されたDETR系の表検出モデルで、請求書や論文PDFな…

#CLI #表検出

❤ 428 ↓ 1.5M mit 2023-09-06

マルチモーダル

BiomedCLIP-PubMedBERT_256-vit_base_patch16_224

BiomedCLIP-PubMedBERT_256-vit_base_patch16_224は、PubMed Central由来の1500万件の医用画像とキャプション対で事…

#CLI #GPU推奨 #Hugging Face

❤ 414 ↓ 616.7k mit 2025-01-14

マルチモーダル

sam3.1

SAM 3.1は、Metaの画像・動画向け統合基盤モデルで、プロンプト指定可能なセグメンテーションを提供します。テキスト…

#GPU必須 #セグメンテーション

❤ 404 ↓ 78.0k other 2026-03-27

マルチモーダル

Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF

このREADMEは、Qwen 3.6 27Bをベースに検閲緩和と追加ファインチューニングを施し、さらにGGUF量子化版を多数用意し…

#GGUF #Vision対応 #ローカル推論

❤ 379 ↓ 220.2k apache-2.0 2026-06-11