画像生成 GitHub PaddleGAN
PaddleGANは、開発者向けに高性能な敵対的生成ネットワーク(GAN)の古典的および最先端の実装を提供するフレームワ…
★ 8.0k ⑂ 1.2k Apache-2.0 2024-07-03
3D / NeRF GitHub LiveTalking
LiveTalkingは、リアルタイムでインタラクティブなストリーミングデジタルヒューマンを作成・操作するためのツールで…
★ 8.0k ⑂ 1.3k Apache-2.0 2026-06-20
ComfyUI GitHub fast-stable-diffusion
TheLastBen/fast-stable-diffusionは、Google Colab上でStable Diffusion環境を迅速に構築・実行するためのノートブ…
★ 7.9k ⑂ 1.4k MIT 2025-11-29
画像生成 GitHub MochiDiffusion
Mochi Diffusionは、Apple Silicon搭載Mac向けに最適化されたStable DiffusionおよびFLUX.2 Kleinのネイティブアプリ…
★ 7.9k ⑂ 363 GPL-3.0 2026-06-21
音声生成 / TTS GitHub vits
VITSは、エンドツーエンドのテキスト読み上げ(Text-to-Speech, TTS)システムであり、条件付き変分オートエンコーダ…
★ 7.9k ⑂ 1.4k MIT 2023-12-06
画像生成 HF stable-diffusion-xl-base-1.0
このモデルはStability AIが開発した、テキストプロンプトから画像を生成・修正する拡散ベースの画像生成AI「Stable …
❤ 7.9k ↓ 1.3M openrail++ 2023-10-30
画像生成 GitHub Dreambooth-Stable-Diffusion
本リポジトリは、GoogleのDreamboothのアイデアをStable Diffusionに実装したものです。従来のTextual Inversionが単…
★ 7.7k ⑂ 799 MIT 2022-12-08
ComfyUI GitHub ComfyUI-Workflows-ZHO
「ComfyUI Workflows ZHO」は、人気のAI画像生成インターフェースであるComfyUI向けの、多岐にわたるワークフローを…
★ 7.6k ⑂ 699 GPL-3.0 2024-12-20
画像生成 GitHub lora
このツールは、拡散モデル(特にStable Diffusion)を効率的にファインチューニングするためのLow-rank adaptation (…
★ 7.5k ⑂ 493 Apache-2.0 2024-03-22
画像生成 GitHub mmagic
MMagic (OpenMMLab Multimodal Advanced, Generative, and Intelligent Creation Toolbox)は、テキストから画像生成…
★ 7.4k ⑂ 1.1k Apache-2.0 2024-08-06
ComfyUI GitHub Auto-Photoshop-StableDiffusion-Plugin
このツールは、Automatic1111 Stable Diffusionの機能をAdobe Photoshop内で直接利用できるプラグインです。ユーザー…
★ 7.3k ⑂ 532 MIT 2024-04-22
画像生成 GitHub StyleTTS2
StyleTTS 2は、テキストから人間レベルの自然な音声を合成する最新のText-to-Speech(TTS)モデルです。スタイル拡散…
★ 6.3k ⑂ 690 MIT 2024-08-10
ASR / 音声認識 HF whisper-large-v3
Whisper large-v3は、OpenAIが開発した最先端の自動音声認識(ASR)および音声翻訳モデルです。500万時間以上の学習…
❤ 5.9k ↓ 5.7M apache-2.0 2024-08-12
画像生成 GitHub LatentSync
LatentSyncは、音声入力に基づいて動画のリップシンクを生成する、エンドツーエンドの革新的な手法です。既存のピク…
★ 5.8k ⑂ 952 Apache-2.0 2025-06-20
画像生成 GitHub DALLE-pytorch
このリポジトリは、OpenAIのDALL-E(テキストから画像を生成するTransformerモデル)をPyTorchで実装・再現したもの…
★ 5.6k ⑂ 643 MIT 2024-02-17
画像生成 GitHub SUPIR
SUPIR(Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration In the Wild)…
★ 5.6k ⑂ 469 NOASSERTION 2025-05-12
マルチモーダル GitHub vllm-omni
vLLM-Omniは、既存のvLLMを拡張し、オムニモダリティモデルの効率的かつ低コストな推論と提供を可能にするフレームワ…
★ 5.3k ⑂ 1.2k Apache-2.0 2026-06-29
3D / NeRF GitHub gsplat
gsplatは、3D Gaussian Splatting技術のCUDA高速化ラスタライゼーションを実現するオープンソースライブラリで、Pyth…
★ 5.3k ⑂ 884 Apache-2.0 2026-06-23
ASR / 音声認識 GitHub wenet
WeNetは、「Production First and Production Ready」を掲げるエンドツーエンド音声認識ツールキットです。最先端の…
★ 5.2k ⑂ 1.2k Apache-2.0 2026-06-15
3D / NeRF GitHub kaolin
NVIDIA Kaolinは、3D深層学習研究を加速するために設計されたPyTorchライブラリです。GPUに最適化された操作群を提供…
★ 5.1k ⑂ 624 Apache-2.0 2026-06-18
画像生成 GitHub transformerlab-app
Transformer Labは、AI研究者向けに設計されたオープンソースの機械学習プラットフォームです。モデルの訓練、評価、…
★ 5.1k ⑂ 535 AGPL-3.0 2026-06-25
マルチモーダル GitHub mlx-vlm
MLX-VLMは、Apple Silicon Mac上でMLXを利用してVision Language Models(VLM)および音声・動画対応のOmni Modelsの…
★ 5.1k ⑂ 645 MIT 2026-06-24
マルチモーダル GitHub PixelRAG
PixelRAGは、ウェブページ、PDF、画像をスクリーンショットとして視覚的にレンダリングし、ビジョン言語モデルで埋め…
★ 5.0k ⑂ 387 Apache-2.0 2026-06-24
画像生成 GitHub multidiffusion-upscaler-for-automatic1111
「Tiled Diffusion & VAE extension for sd-webui」は、Automatic1111のStable Diffusion Web UI向けの拡張機能です…
★ 5.0k ⑂ 347 NOASSERTION 2024-08-07