動画生成 GitHub Causal-Forcing
「Causal Forcing」およびその改良版「Causal Forcing++」は、因果ODEや因果Consistency Distillationを活用し、高品…
★ 803 ⑂ 46 Apache-2.0 2026-06-17
LLM GitHub OPD
このツールは、大規模言語モデル(LLM)のオンポリシー蒸留(OPD)のメカニズムとダイナミクスを系統的に調査する研…
★ 736 ⑂ 47 2026-06-29
動画生成 GitHub SparkVSR
SparkVSRは、インタラクティブな動画超解像(VSR)フレームワークです。ユーザーが任意の画像超解像(ISR)モデルで…
★ 678 ⑂ 73 Apache-2.0 2026-06-23
LLM GitHub can-i-finetune-this
canifinetuneは、コンシューマー向けNVIDIA GPU(12-24GB)で大規模言語モデル(LLM)のファインチューニングを検討…
★ 649 ⑂ 92 MIT 2026-06-10
画像生成 GitHub nano-world-model
「Nano World Model」は、拡散強制(diffusion-forcing)に基づくビデオワールドモデルのトレーニングに特化した、シ…
★ 643 ⑂ 33 MIT 2026-06-15
3D / NeRF GitHub Scal3R
Scal3Rは、CVPR 2026のHighlight論文として発表された、大規模な3D再構築のためのスケーラブルなテスト時学習手法で…
★ 494 ⑂ 37 NOASSERTION 2026-05-11
動画生成 GitHub Google-Colab_Notebooks
このリポジトリは、様々なAIプロジェクトのためのGoogle Colabノートブック集です。特に、ビジュアルプログラミング…
★ 483 ⑂ 167 2026-06-20
動画生成 HF LTX-2.3-GGUF
unsloth/LTX-2.3-GGUFは、LightricksのLTX-2.3をGGUF量子化し、ComfyUI上でローカル実行しやすくした音声付き動画生…
❤ 478 ↓ 300.6k other 2026-04-20
画像生成 GitHub PixelSmile
PixelSmileは、顔の表情を連続的に制御しながら、微調整された編集を可能にするツールです。既存の顔の同一性を強く…
★ 478 ⑂ 22 Apache-2.0 2026-04-22
画像生成 HF Z-Anime
Z-Animeは、AlibabaのZ-Image Baseを土台にしたアニメ画像生成向けのフルファインチューニングモデル群です。LoRAマ…
❤ 461 ↓ 1.9k apache-2.0 2026-04-27
音声生成 / TTS GitHub Confucius4-TTS
Confucius4-TTSは、LLMと音声エンコーダをベースにした、多言語・異言語対応のゼロショット音声合成エンジンです。「…
★ 448 ⑂ 45 NOASSERTION 2026-06-17
LLM GitHub orthrus
Orthrusは、大規模言語モデル(LLM)の推論を高速化するためのデュアルアーキテクチャフレームワークです。自己回帰…
★ 446 ⑂ 19 MIT 2026-05-18
画像生成 GitHub Bonsai-Image-Demo
Bonsai Image Demoは、Apple Silicon (macOS) またはNVIDIA GPU (Linux/Windows) を利用して、ローカルで画像を生成…
★ 444 ⑂ 58 Apache-2.0 2026-06-14
画像生成 HF Flux2-Klein-9B-Consistency
Flux2-Klein-9B-Consistencyは、black-forest-labs/FLUX.2-klein-9B向けのLoRAで、追加のキーワードなしでもキャラク…
❤ 436 ↓ 36.3k apache-2.0 2026-04-19
ComfyUI GitHub ComfyUI-OmniVoice-TTS
ComfyUI-OmniVoice-TTSは、画像生成AIのComfyUI向けに開発された、ゼロショット多言語テキスト読み上げ(TTS)ノード…
★ 434 ⑂ 56 Apache-2.0 2026-06-11
画像生成 GitHub verl-omni
VeRL-Omniは、拡散モデルやオムニモダリティモデルといったマルチモーダル生成モデルに特化した強化学習(RL)トレー…
★ 431 ⑂ 63 Apache-2.0 2026-06-26
LLM GitHub KVarN
KVarNは、LLMのKVキャッシュ量子化をvLLM環境で実現するネイティブバックエンドです。特に、エージェントや長文コン…
★ 419 ⑂ 27 Apache-2.0 2026-06-22
マルチモーダル GitHub VEGA-3D
VEGA-3Dは、「Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding」の公式実装…
★ 418 ⑂ 23 Apache-2.0 2026-06-18
動画生成 HF LTX2.3-10Eros
10 Erosは、LTX系のimage-to-video向けに調整されたモデル/チェックポイントで、ComfyUIワークフローや専用ノードと…
❤ 416 ↓ 250.9k 2026-06-18
動画生成 GitHub OmniShow
OmniShowは、ByteDanceが開発した人間とオブジェクトのインタラクションビデオ生成(HOIVG)のための統合モデルです…
★ 416 ⑂ 23 Apache-2.0 2026-05-19
3D / NeRF GitHub MasterSelects
MasterSelectsは、ブラウザ上で動作するローカルファーストのメディアエディターで、ビデオ、オーディオ、ベクターア…
★ 414 ⑂ 52 MIT 2026-06-25
動画生成 GitHub World-R1
World-R1は、テキストからビデオを生成する際に、3Dの幾何学的制約を強化学習で強化する新しいフレームワークです。…
★ 400 ⑂ 15 MIT 2026-06-03
画像生成 GitHub FluxRT
FluxRTは、FLUX.2-klein-4Bモデルを搭載し、消費者向けGPUに最適化されたリアルタイムストリーム編集パイプラインで…
★ 397 ⑂ 56 Unlicense 2026-06-13
ASR / 音声認識 GitHub LiveTranslate
LiveTranslateは、Windows向けのリアルタイム音声翻訳ツールです。システムオーディオとマイク入力をキャプチャし、A…
★ 392 ⑂ 36 MIT 2026-06-20