3,640 repos GH 3,525 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新
#GPU推奨 (101 repos)
「GPU推奨」タグが付いたリポジトリ
← 全リポジトリ
画像生成 HF ddpm-cifar10-32
google/ddpm-cifar10-32は、CIFAR-10向けに学習済みのDDPM画像生成モデルです。Hugging Face Diffusersの`DDPMPipeli…
❤ 85 ↓ 23.0k apache-2.0 2023-08-03
マルチモーダル HF MOSS-Audio-8B-Thinking
MOSS-Audio-8B-Thinkingは、音声・環境音・音楽を横断的に理解できるオープンソースの音声理解モデルです。文字起こ…
❤ 76 ↓ 5.2k apache-2.0 2026-06-11
ASR / 音声認識 HF wav2vec2-large-xlsr-53-russian
このリポジトリは、Jonatas Grosman氏が開発したロシア語音声認識用のWav2Vec2-large-xlsr-53モデルを提供します。Hu…
❤ 75 ↓ 3.2M apache-2.0 2022-12-14
ComfyUI GitHub comfyui_sam3
ComfyUI向けのSAM3カスタムノード集で、自然言語のテキスト指示から画像内の対象物を高精度に切り抜き・マスク生成で…
★ 74 ⑂ 10 MIT 2026-01-01
マルチモーダル HF MOSS-Audio-4B-Instruct
MOSS-Audio-4B-Instructは、音声・環境音・音楽を統合的に理解し、テキストで応答するオープンソースの音声理解モデ…
❤ 73 ↓ 17.1k apache-2.0 2026-04-14
音楽生成 GitHub tadpole-studio
Tadpole Studioは、AIによる音楽生成をローカル環境で完結できる多機能な音楽スタジオです。テキストからの音楽生成…
★ 71 ⑂ 10 MIT 2026-03-05
マルチモーダル GitHub CourtSI
CourtSIは、スポーツ分野における空間知能を評価するための大規模データセットとベンチマークです。100万以上の質問…
★ 71 Apache-2.0 2026-03-15
ComfyUI GitHub Endless-Nodes
Endless-Nodesは、Stable Diffusion用UI「ComfyUI」のカスタムノード集です。標準ノードでは物足りないと感じるユー…
★ 69 ⑂ 13 GPL-3.0 2025-07-25
動画生成 GitHub open-director
OpenDirectorは、一行のアイデアから音声、BGM、絵コンテ付きの完成されたビデオを生成するオープンソースのAIビデオ…
★ 61 ⑂ 12 LGPL-3.0 2026-05-29
画像生成 GitHub MirrorMetrics
MirrorMetricsは、Stable DiffusionのFace LoRA(ファインチューニングモデル)の評価に特化した科学的ベンチマーキ…
★ 58 ⑂ 8 MIT 2026-02-21
マルチモーダル HF audio-flamingo-next-hf
Audio Flamingo Nextは、音声・環境音・音楽をまとめて理解できるNVIDIAの大規模音声言語モデルです。音声Q&A、文字…
❤ 56 ↓ 8.0k other 2026-05-13
ComfyUI GitHub ComfyUI-ParallelAnything
ComfyUI向けのカスタムノード集で、複数GPUやCPUに同一モデルを複製して同時実行し、バッチ推論を高速化できます。通…
★ 56 ⑂ 6 2026-02-24
ComfyUI GitHub ComfyUI-StableAudioX
ComfyUI上でAudioXモデルを使い、テキストや動画を入力として高品質な音声・音楽を生成できる拡張機能です。テキスト…
★ 53 ⑂ 9 NOASSERTION 2025-06-24
ComfyUI GitHub ComfyUI-LightVAE
ComfyUI-LightVAEは、ComfyUI上でLightX2V系の動画向けVAEを扱うためのカスタムノード集です。LightVAEとLightTAEに…
★ 52 ⑂ 9 Apache-2.0 2025-11-03
マルチモーダル GitHub GameVerse
GameVerseは、動画ベースの反射学習を通じてVision-Language Models (VLMs) がゲームプレイを学習できるかを検証する…
★ 50 MIT 2026-03-26
音声生成 / TTS GitHub Higgs_v3-TTS-ComfyUI
このツールは、ComfyUI用のノード集であり、bosonai/higgs-audio-v3-tts-4bモデルを活用して、多言語(100言語対応)…
★ 43 ⑂ 8 MIT 2026-06-20
ComfyUI GitHub ComfyUI-Grounding
ComfyUI-Groundingは、ComfyUI上でテキスト指定による物体検出・領域マスク生成・SAM2セグメンテーションをまとめて…
★ 41 ⑂ 3 MIT 2026-06-22
ComfyUI GitHub GF_nodes
このツールは、ComfyUI用のカスタムノード「RMBG-2.0 Background Removal Node」です。briaai/RMBG-2.0モデルとBEN2:…
★ 40 ⑂ 1 MIT 2025-04-19
マルチモーダル HF ultravox-v0_5-llama-3_1-8b
Ultravoxは、Llama 3.1 8B InstructとWhisper large v3 turboを組み合わせた音声入力対応のマルチモーダルLLMです。…
❤ 37 ↓ 903 mit 2025-05-06
マルチモーダル HF MOSS-Audio-4B-Thinking
MOSS-Audio-4B-Thinkingは、音声・環境音・音楽をまとめて理解し、文字起こし、話者や感情の分析、音の状況把握、要…
❤ 33 ↓ 4.0k apache-2.0 2026-04-14
ComfyUI GitHub ComfyUI-Janus_pro_vision
ComfyUI上でDeepSeek AIのJanus-Pro-7Bを使えるようにするカスタムノード拡張です。1枚または2枚の画像を入力し、詳…
★ 31 ⑂ 1 MIT 2025-03-20
ComfyUI GitHub ComfyUI-TranslateGemma
このツールは、Googleのオープンソース翻訳モデル「TranslateGemma」をComfyUIに統合するノードです。Gemma 3をベー…
★ 29 ⑂ 3 MIT 2026-06-13
3D / NeRF GitHub gaussian-splatting-studio
「3DGS Studio」は、ブラウザ上で動作する軽量な3D Gaussian Splatting(3DGS)作業環境です。ローカルの3DGSモデル…
★ 21 ⑂ 1 MIT 2026-04-26
マルチモーダル HF sam3-litetext-s0
SAM3-LiteTextは、最先端の画像セグメンテーションモデルSAM3の軽量版です。重いSAM3のテキストエンコーダーをMobile…
❤ 19 ↓ 6.0k apache-2.0 2026-05-08