動画生成 GitHub Google-Colab_Notebooks
このリポジトリは、様々なAIプロジェクトのためのGoogle Colabノートブック集です。特に、ビジュアルプログラミング…
★ 483 ⑂ 167 2026-06-20
画像生成 GitHub PixelSmile
PixelSmileは、顔の表情を連続的に制御しながら、微調整された編集を可能にするツールです。既存の顔の同一性を強く…
★ 478 ⑂ 22 Apache-2.0 2026-04-22
音声生成 / TTS GitHub Confucius4-TTS
Confucius4-TTSは、LLMと音声エンコーダをベースにした、多言語・異言語対応のゼロショット音声合成エンジンです。「…
★ 448 ⑂ 45 NOASSERTION 2026-06-17
LLM GitHub orthrus
Orthrusは、大規模言語モデル(LLM)の推論を高速化するためのデュアルアーキテクチャフレームワークです。自己回帰…
★ 446 ⑂ 19 MIT 2026-05-18
画像生成 GitHub Bonsai-Image-Demo
Bonsai Image Demoは、Apple Silicon (macOS) またはNVIDIA GPU (Linux/Windows) を利用して、ローカルで画像を生成…
★ 444 ⑂ 58 Apache-2.0 2026-06-14
ComfyUI GitHub ComfyUI-OmniVoice-TTS
ComfyUI-OmniVoice-TTSは、画像生成AIのComfyUI向けに開発された、ゼロショット多言語テキスト読み上げ(TTS)ノード…
★ 434 ⑂ 56 Apache-2.0 2026-06-11
画像生成 GitHub verl-omni
VeRL-Omniは、拡散モデルやオムニモダリティモデルといったマルチモーダル生成モデルに特化した強化学習(RL)トレー…
★ 431 ⑂ 63 Apache-2.0 2026-06-26
LLM GitHub KVarN
KVarNは、LLMのKVキャッシュ量子化をvLLM環境で実現するネイティブバックエンドです。特に、エージェントや長文コン…
★ 419 ⑂ 27 Apache-2.0 2026-06-22
マルチモーダル GitHub VEGA-3D
VEGA-3Dは、「Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding」の公式実装…
★ 418 ⑂ 23 Apache-2.0 2026-06-18
動画生成 GitHub OmniShow
OmniShowは、ByteDanceが開発した人間とオブジェクトのインタラクションビデオ生成(HOIVG)のための統合モデルです…
★ 416 ⑂ 23 Apache-2.0 2026-05-19
3D / NeRF GitHub MasterSelects
MasterSelectsは、ブラウザ上で動作するローカルファーストのメディアエディターで、ビデオ、オーディオ、ベクターア…
★ 414 ⑂ 52 MIT 2026-06-25
動画生成 GitHub World-R1
World-R1は、テキストからビデオを生成する際に、3Dの幾何学的制約を強化学習で強化する新しいフレームワークです。…
★ 400 ⑂ 15 MIT 2026-06-03
画像生成 GitHub FluxRT
FluxRTは、FLUX.2-klein-4Bモデルを搭載し、消費者向けGPUに最適化されたリアルタイムストリーム編集パイプラインで…
★ 397 ⑂ 56 Unlicense 2026-06-13
ASR / 音声認識 GitHub LiveTranslate
LiveTranslateは、Windows向けのリアルタイム音声翻訳ツールです。システムオーディオとマイク入力をキャプチャし、A…
★ 392 ⑂ 36 MIT 2026-06-20
動画生成 GitHub awesome-seedance-2-guide
Seedance 2.0は、画像、動画、音声、テキストの4つのモダリティを同時に入力として受け付け、自然言語で詳細な効果を…
★ 389 ⑂ 46 NOASSERTION 2026-06-15
AIエージェント GitHub late-cli
Late CLIは、AI開発チームの作業を効率的にオーケストレーションするためのCLIツールです。エフェメラルなサブエージ…
★ 365 ⑂ 37 NOASSERTION 2026-06-25
LLM GitHub tessera
Tesseraは、大規模なLLM(教師モデル)を小型のLLM(生徒モデル)に蒸留し、その生徒モデルを効率的に提供することを…
★ 359 ⑂ 4 NOASSERTION 2026-06-05
3D / NeRF GitHub sam-body4d
SAM-Body4Dは、動画からトレーニング不要で一時的に一貫性のある堅牢な4D人体メッシュを復元するツールです。SAM-3、…
★ 351 ⑂ 33 MIT 2026-05-11
3D / NeRF GitHub OmniVGGT-official
OmniVGGTは、空間認識のための最先端の基盤モデルです。本ツールは、深度、カメラ内部パラメータ、ポーズといった任…
★ 339 ⑂ 28 MIT 2026-05-21
画像生成 GitHub RefAlign
RefAlignは、参照画像をもとに動画を生成するReference-to-Video向けのPyTorch実装です。学習時にDiTの参照分岐特徴…
★ 321 ⑂ 20 NOASSERTION 2026-06-19
LLM GitHub NexusRAG
NexusRAGは、ベクトル検索、ナレッジグラフ、クロスエンコーダー再ランキングを統合した高度なハイブリッドRAGシステ…
★ 321 ⑂ 65 2026-04-20
画像生成 GitHub Hallo-Live
Hallo-Liveは、テキスト入力からリアルタイムでアバターのビデオと音声を生成する先進的なフレームワークです。因果…
★ 310 ⑂ 50 MIT 2026-06-24
LLM GitHub TurboOCR
TurboOCRは、C++、CUDA、TensorRT技術を活用した高速GPU OCRサーバーです。FUNSDデータセットで270 img/s、疎な画像…
★ 301 ⑂ 36 MIT 2026-06-11
動画生成 GitHub Kiwi-Edit
Kiwi-Editは、自然言語の指示と参照画像を活用した多機能な動画編集を可能にする、完全にオープンソースのフレームワ…
★ 295 ⑂ 24 MIT 2026-05-13