3,640 repos GH 3,525 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

#GPU必須 (833 repos)

「GPU必須」タグが付いたリポジトリ

← 全リポジトリ

マルチモーダル

Voxtral-Small-24B-2507

Voxtral Small 1.0（24B）は、Mistral Small 3系をベースに音声入力機能を強化した大規模音声理解モデルです。音声の…

#GPU必須 #音声入力対応

❤ 501 ↓ 105.6k apache-2.0 2025-12-20

動画生成

LTX-2.3-GGUF

unsloth/LTX-2.3-GGUFは、LightricksのLTX-2.3をGGUF量子化し、ComfyUI上でローカル実行しやすくした音声付き動画生…

#CLI #ComfyUI対応 #GGUF

❤ 478 ↓ 300.6k other 2026-04-20

画像生成

Z-Anime

Z-Animeは、AlibabaのZ-Image Baseを土台にしたアニメ画像生成向けのフルファインチューニングモデル群です。LoRAマ…

#ComfyUI対応 #Diffusers #GGUF

❤ 461 ↓ 1.9k apache-2.0 2026-04-27

画像生成

Flux2-Klein-9B-Consistency

Flux2-Klein-9B-Consistencyは、black-forest-labs/FLUX.2-klein-9B向けのLoRAで、追加のキーワードなしでもキャラク…

#Diffusers #GPU必須

❤ 436 ↓ 36.3k apache-2.0 2026-04-19

3D / NeRF

HY-Motion-1.0

「HY-Motion 1.0」は、Tencentが開発した、テキストプロンプトから3Dヒューマンモーションを生成するための最先端モ…

#CLI #GPU必須 #Linux対応

❤ 418 ↓ 483 other 2025-12-31

動画生成

LTX2.3-10Eros

10 Erosは、LTX系のimage-to-video向けに調整されたモデル／チェックポイントで、ComfyUIワークフローや専用ノードと…

#ComfyUI対応 #GPU必須 #チェックポイント配布

❤ 416 ↓ 250.9k 2026-06-18

マルチモーダル

sam3.1

SAM 3.1は、Metaの画像・動画向け統合基盤モデルで、プロンプト指定可能なセグメンテーションを提供します。テキスト…

#GPU必須 #セグメンテーション

❤ 388 ↓ 116.5k other 2026-03-27

マルチモーダル

nemotron-ocr-v2

Nemotron OCR v2は、複雑な実写画像や文書画像から文字を高精度かつ高速に抽出する、NVIDIAの商用利用可能な多言語OC…

#GPU必須 #Linux #NVIDIA GPU対応

❤ 212 ↓ 14.2k other 2026-05-22

マルチモーダル

Qwopus3.6-35B-A3B-v1-GGUF

Qwopus3.6-35B-A3B-v1-GGUFは、Qwen3.6-35B-A3BをベースにLoRAで推論能力を強化した実験的なGGUF形式モデルです。35B…

#GGUF #GPU必須 #ツール呼び出し対応

❤ 210 ↓ 215.4k apache-2.0 2026-05-28

画像生成

Flux2-Klein-9B-True-V2

Flux2-Klein-9B-True-V2は、FLUX.2-Klein-9Bをベースにしたテキスト画像生成向けの追加学習モデルです。V1からさらに…

#ComfyUI対応 #GPU必須 #テキスト画像生成

❤ 159 ↓ 110.8k other 2026-04-16

画像生成

FLUX.2-klein-base-4B

FLUX.2 [klein] 4B Baseは、Black Forest Labsが開発した最速の画像モデルファミリーの一つです。生成と編集を統合し…

#ComfyUI対応 #GPU必須 #Python

❤ 146 ↓ 139.9k apache-2.0 2026-02-24

動画生成

Wan2.2-TI2V-5B-Diffusers

Wan2.2は、テキストや画像から高品質な動画を生成する先進的な大規模動画生成モデルです。MoEアーキテクチャにより効…

#CLI #ComfyUI対応 #Diffusers

❤ 144 ↓ 107.3k apache-2.0 2025-08-09

動画生成

Wan2.2-T2V-A14B-Diffusers

Wan2.2は、テキストや画像から高品質なビデオを生成する先進的な大規模ビデオ生成モデルです。MoEアーキテクチャを採…

#ComfyUI対応 #GPU必須 #Image-to-Video

❤ 139 ↓ 107.4k apache-2.0 2025-08-09

動画生成

Wan2.1-T2V-1.3B-Diffusers

Wan2.1は、最先端のビデオ生成技術を提供するオープンな大規模ビデオ基盤モデルスイートです。テキストからビデオ、…

#CLI #GPU必須 #Image-to-Video

❤ 127 ↓ 162.2k apache-2.0 2025-04-04

マルチモーダル

LLaVA-Video-7B-Qwen2

LLaVA-Video-7B-Qwen2は、動画理解に特化した7B規模のマルチモーダルモデルです。画像・複数画像・動画を扱えますが…

#CLI #GPU必須

❤ 127 ↓ 19.0k apache-2.0 2024-10-25

マルチモーダル

LLaVA-NeXT-Video-7B-hf

LLaVA-NeXT-Video-7B-hfは、画像と動画を一緒に理解して対話できるオープンソースのマルチモーダル生成モデルです。T…

#CLI #GPU必須 #動画理解

❤ 125 ↓ 160.0k llama2 2025-11-11

動画生成

Matrix-Game-3.0

Matrix-Game 3.0は、画像とテキストを入力に、長時間の一貫性を保った720pインタラクティブ動画をリアルタイム生成で…

#CLI #GPU必須 #Hugging Faceモデル

❤ 123 ↓ 255 apache-2.0 2026-04-28

動画生成

Motif-Video-2B

Motif-Video 2BはMotif Technologiesが開発した、テキストや画像から動画を生成する低予算の拡散トランスフォーマー…

#ComfyUI対応 #Diffusers #GGUF

❤ 112 ↓ 251 apache-2.0 2026-05-15

マルチモーダル

MOSS-VL-Instruct-0408

MOSS-VL-Instruct-0408は、OpenMOSS系の視覚言語モデルを教師あり微調整したマルチモーダル推論用チェックポイントで…

#CLI #GPU必須 #動画対応

❤ 97 ↓ 331 apache-2.0 2026-04-22

画像生成

PixelSmile

PixelSmileは、既存の顔画像に対して笑顔・喜びなどの表情を細かく編集するための画像生成・編集モデルです。Qwen-Im…

#CLI #ComfyUI対応 #GPU必須

❤ 90 ↓ 747 apache-2.0 2026-05-08

動画生成

LTX-2.3-22b-AV-LoRA-talking-head

LTX-Video 2.3 22B向けの音声付きLoRAで、参照画像からキャラクター固有の話者性を保ったトーキングヘッド動画を生成…

#ComfyUI対応 #GPU必須 #画像から動画生成

❤ 68 ↓ 4.8k openrail 2026-03-24

マルチモーダル

MOSS-VL-Base-0408

MOSS-VL-Base-0408は、OpenMOSS系の画像・動画理解向けマルチモーダル基盤モデルです。4段階の事前学習のみで構築さ…

#CLI #GPU必須

❤ 61 ↓ 1.3k apache-2.0 2026-04-23

画像生成

Qwen-Image-Layered-GGUF

unsloth/Qwen-Image-Layered-GGUFは、Qwen-Image-LayeredをGGUF形式で量子化した画像分解モデルです。入力画像を複数…

#Apache 2.0 #GGUF #GPU必須

❤ 57 ↓ 4.9k apache-2.0 2026-01-09

マルチモーダル

music-flamingo-think-2601-hf

Music Flamingo Thinkは、音楽や楽曲音声を入力として詳細な説明や質疑応答を行えるNVIDIAの音声言語モデルです。ジ…

#CLI #GPU必須 #Python

❤ 41 ↓ 533 other 2026-04-07