3,640 repos GH 3,525 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

#GPU推奨 (101 repos)

「GPU推奨」タグが付いたリポジトリ

← 全リポジトリ

画像生成

ddpm-cifar10-32

google/ddpm-cifar10-32は、CIFAR-10向けに学習済みのDDPM画像生成モデルです。Hugging Face Diffusersの`DDPMPipeli…

#CLI #Diffusers #GPU推奨

❤ 85 ↓ 23.0k apache-2.0 2023-08-03

マルチモーダル

MOSS-Audio-8B-Thinking

MOSS-Audio-8B-Thinkingは、音声・環境音・音楽を横断的に理解できるオープンソースの音声理解モデルです。文字起こ…

#CLI #GPU推奨 #Hugging Face対応

❤ 76 ↓ 5.2k apache-2.0 2026-06-11

ASR / 音声認識

wav2vec2-large-xlsr-53-russian

このリポジトリは、Jonatas Grosman氏が開発したロシア語音声認識用のWav2Vec2-large-xlsr-53モデルを提供します。Hu…

#CLI #GPU推奨 #Hugging Face Transformers

❤ 75 ↓ 3.2M apache-2.0 2022-12-14

ComfyUI

GitHub

comfyui_sam3

ComfyUI向けのSAM3カスタムノード集で、自然言語のテキスト指示から画像内の対象物を高精度に切り抜き・マスク生成で…

#ComfyUI対応 #GPU推奨 #HuggingFaceモデル

★ 74 ⑂ 10 MIT 2026-01-01

マルチモーダル

MOSS-Audio-4B-Instruct

MOSS-Audio-4B-Instructは、音声・環境音・音楽を統合的に理解し、テキストで応答するオープンソースの音声理解モデ…

#CLI #GPU推奨 #Gradio

❤ 73 ↓ 17.1k apache-2.0 2026-04-14

音楽生成

GitHub

tadpole-studio

Tadpole Studioは、AIによる音楽生成をローカル環境で完結できる多機能な音楽スタジオです。テキストからの音楽生成…

#AI音楽生成 #GPU推奨 #Python

★ 71 ⑂ 10 MIT 2026-03-05

マルチモーダル

GitHub

CourtSI

CourtSIは、スポーツ分野における空間知能を評価するための大規模データセットとベンチマークです。100万以上の質問…

#GPU推奨 #Python #VLM

★ 71 Apache-2.0 2026-03-15

ComfyUI

GitHub

Endless-Nodes

Endless-Nodesは、Stable Diffusion用UI「ComfyUI」のカスタムノード集です。標準ノードでは物足りないと感じるユー…

#ComfyUI対応 #GPU推奨

★ 69 ⑂ 13 GPL-3.0 2025-07-25

動画生成

GitHub

open-director

OpenDirectorは、一行のアイデアから音声、BGM、絵コンテ付きの完成されたビデオを生成するオープンソースのAIビデオ…

#AI活用 #Docker対応 #GPU推奨

★ 61 ⑂ 12 LGPL-3.0 2026-05-29

画像生成

GitHub

MirrorMetrics

MirrorMetricsは、Stable DiffusionのFace LoRA（ファインチューニングモデル）の評価に特化した科学的ベンチマーキ…

#CLI #GPU推奨 #Python

★ 58 ⑂ 8 MIT 2026-02-21

マルチモーダル

audio-flamingo-next-hf

Audio Flamingo Nextは、音声・環境音・音楽をまとめて理解できるNVIDIAの大規模音声言語モデルです。音声Q&A、文字…

#CLI #GPU推奨 #Python

❤ 56 ↓ 8.0k other 2026-05-13

ComfyUI

GitHub

ComfyUI-ParallelAnything

ComfyUI向けのカスタムノード集で、複数GPUやCPUに同一モデルを複製して同時実行し、バッチ推論を高速化できます。通…

#ComfyUI対応 #GPU推奨 #Windows/Linux/macOS

★ 56 ⑂ 6 2026-02-24

ComfyUI

GitHub

ComfyUI-StableAudioX

ComfyUI上でAudioXモデルを使い、テキストや動画を入力として高品質な音声・音楽を生成できる拡張機能です。テキスト…

#ComfyUI対応 #GPU推奨 #Python

★ 53 ⑂ 9 NOASSERTION 2025-06-24

ComfyUI

GitHub

ComfyUI-LightVAE

ComfyUI-LightVAEは、ComfyUI上でLightX2V系の動画向けVAEを扱うためのカスタムノード集です。LightVAEとLightTAEに…

#ComfyUI対応 #GPU推奨 #Hugging Faceモデル対応

★ 52 ⑂ 9 Apache-2.0 2025-11-03

マルチモーダル

GitHub

GameVerse

GameVerseは、動画ベースの反射学習を通じてVision-Language Models (VLMs) がゲームプレイを学習できるかを検証する…

#CLI #GPU推奨 #LLM連携

★ 50 MIT 2026-03-26

音声生成 / TTS

GitHub

Higgs_v3-TTS-ComfyUI

このツールは、ComfyUI用のノード集であり、bosonai/higgs-audio-v3-tts-4bモデルを活用して、多言語（100言語対応）…

#ComfyUI対応 #GPU推奨 #Hugging Face

★ 43 ⑂ 8 MIT 2026-06-20

ComfyUI

GitHub

ComfyUI-Grounding

ComfyUI-Groundingは、ComfyUI上でテキスト指定による物体検出・領域マスク生成・SAM2セグメンテーションをまとめて…

#ComfyUI対応 #GPU推奨 #Python

★ 41 ⑂ 3 MIT 2026-06-22

ComfyUI

GitHub

GF_nodes

このツールは、ComfyUI用のカスタムノード「RMBG-2.0 Background Removal Node」です。briaai/RMBG-2.0モデルとBEN2:…

#ComfyUI対応 #GPU推奨 #Python

★ 40 ⑂ 1 MIT 2025-04-19

マルチモーダル

ultravox-v0_5-llama-3_1-8b

Ultravoxは、Llama 3.1 8B InstructとWhisper large v3 turboを組み合わせた音声入力対応のマルチモーダルLLMです。…

#GPU推奨 #Python #Transformers対応

❤ 37 ↓ 903 mit 2025-05-06

マルチモーダル

MOSS-Audio-4B-Thinking

MOSS-Audio-4B-Thinkingは、音声・環境音・音楽をまとめて理解し、文字起こし、話者や感情の分析、音の状況把握、要…

#CLI #GPU推奨 #Gradio

❤ 33 ↓ 4.0k apache-2.0 2026-04-14

ComfyUI

GitHub

ComfyUI-Janus_pro_vision

ComfyUI上でDeepSeek AIのJanus-Pro-7Bを使えるようにするカスタムノード拡張です。1枚または2枚の画像を入力し、詳…

#ComfyUI対応 #GPU推奨 #Python

★ 31 ⑂ 1 MIT 2025-03-20

ComfyUI

GitHub

ComfyUI-TranslateGemma

このツールは、Googleのオープンソース翻訳モデル「TranslateGemma」をComfyUIに統合するノードです。Gemma 3をベー…

#ComfyUI対応 #GPU推奨 #Hugging Face

★ 29 ⑂ 3 MIT 2026-06-13

3D / NeRF

GitHub

gaussian-splatting-studio

「3DGS Studio」は、ブラウザ上で動作する軽量な3D Gaussian Splatting（3DGS）作業環境です。ローカルの3DGSモデル…

#GPU推奨 #MP4出力 #Python

★ 21 ⑂ 1 MIT 2026-04-26

マルチモーダル

sam3-litetext-s0

SAM3-LiteTextは、最先端の画像セグメンテーションモデルSAM3の軽量版です。重いSAM3のテキストエンコーダーをMobile…

#GPU推奨 #mask-generation #Vision-Language

❤ 19 ↓ 6.0k apache-2.0 2026-05-08