動画生成 GitHub Awesome-Video-Diffusion
「Awesome Video Diffusion」は、動画生成、編集、復元、理解、NeRFなど、動画関連の多岐にわたるタスクに対応する最…
★ 5.7k ⑂ 365 2026-06-16
画像生成 GitHub DALLE-pytorch
このリポジトリは、OpenAIのDALL-E(テキストから画像を生成するTransformerモデル)をPyTorchで実装・再現したもの…
★ 5.6k ⑂ 643 MIT 2024-02-17
画像生成 GitHub SUPIR
SUPIR(Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration In the Wild)…
★ 5.6k ⑂ 469 NOASSERTION 2025-05-12
ASR / 音声認識 GitHub whisper-diarization
このツールは、OpenAI Whisperの自動音声認識(ASR)機能と高度な話者分離(Speaker Diarization)技術を統合したパ…
★ 5.6k ⑂ 502 BSD-2-Clause 2026-02-23
AIエージェント GitHub semble
Sembleは、AIエージェント向けに設計された高速かつ正確なコード検索ライブラリです。`grep+read`と比較して約98%も…
★ 5.4k ⑂ 232 MIT 2026-06-24
LLM GitHub awesome-free-llm-apis
このリポジトリは、永続的な無料利用枠を提供する大規模言語モデル(LLM)APIの厳選されたリストを提供します。コス…
★ 5.4k ⑂ 511 CC0-1.0 2026-06-16
マルチモーダル GitHub vllm-omni
vLLM-Omniは、既存のvLLMを拡張し、オムニモダリティモデルの効率的かつ低コストな推論と提供を可能にするフレームワ…
★ 5.3k ⑂ 1.2k Apache-2.0 2026-06-29
画像生成 GitHub RedInk
RedInkは、Xiaohongshu(小紅書)向けの画像とテキストを生成する統合ツールです。「一文、一画像」のコンセプトで、…
★ 5.3k ⑂ 1.0k NOASSERTION 2026-03-17
3D / NeRF GitHub gsplat
gsplatは、3D Gaussian Splatting技術のCUDA高速化ラスタライゼーションを実現するオープンソースライブラリで、Pyth…
★ 5.3k ⑂ 884 Apache-2.0 2026-06-23
LLM GitHub whichllm
「whichllm」は、ユーザーのコンピューターハードウェア(GPU/CPU/RAM)を自動検出し、その環境で最も性能を発揮する…
★ 5.2k ⑂ 279 MIT 2026-06-24
ASR / 音声認識 GitHub wenet
WeNetは、「Production First and Production Ready」を掲げるエンドツーエンド音声認識ツールキットです。最先端の…
★ 5.2k ⑂ 1.2k Apache-2.0 2026-06-15
3D / NeRF GitHub kaolin
NVIDIA Kaolinは、3D深層学習研究を加速するために設計されたPyTorchライブラリです。GPUに最適化された操作群を提供…
★ 5.1k ⑂ 624 Apache-2.0 2026-06-18
画像生成 GitHub transformerlab-app
Transformer Labは、AI研究者向けに設計されたオープンソースの機械学習プラットフォームです。モデルの訓練、評価、…
★ 5.1k ⑂ 535 AGPL-3.0 2026-06-25
マルチモーダル GitHub mlx-vlm
MLX-VLMは、Apple Silicon Mac上でMLXを利用してVision Language Models(VLM)および音声・動画対応のOmni Modelsの…
★ 5.1k ⑂ 645 MIT 2026-06-24
動画生成 GitHub VideoCrafter
VideoCrafter2は、データ制約を克服し高品質な動画を生成するためのオープンソースの動画生成および編集ツールボック…
★ 5.1k ⑂ 412 NOASSERTION 2026-01-09
AIエージェント GitHub omnigent
Omnigentは、Claude Code、Codex、Pi、およびユーザーが作成したカスタムエージェントを含む、あらゆるAIエージェン…
★ 5.1k ⑂ 622 Apache-2.0 2026-06-27
マルチモーダル GitHub PixelRAG
PixelRAGは、ウェブページ、PDF、画像をスクリーンショットとして視覚的にレンダリングし、ビジョン言語モデルで埋め…
★ 5.0k ⑂ 387 Apache-2.0 2026-06-24
画像生成 GitHub multidiffusion-upscaler-for-automatic1111
「Tiled Diffusion & VAE extension for sd-webui」は、Automatic1111のStable Diffusion Web UI向けの拡張機能です…
★ 5.0k ⑂ 347 NOASSERTION 2024-08-07
画像生成 GitHub DragGAN
OpenGVLab/DragGANは、「Drag Your GAN」の非公式実装で、GAN(敵対的生成ネットワーク)で生成された画像をインタラ…
★ 5.0k ⑂ 477 2023-07-17
LLM GitHub opensquilla
OpenSquillaは、トークン効率を最大化するマイクロカーネルAIエージェントです。限られた予算で高い知能密度と優れた…
★ 4.9k ⑂ 360 Apache-2.0 2026-06-27
ASR / 音声認識 GitHub speech-to-speech
Speech To Speechは、オープンソースモデルを活用してローカルで高度な音声エージェントを構築するためのプロジェク…
★ 4.9k ⑂ 584 Apache-2.0 2026-06-26
画像生成 HF Z-Image-Turbo
Z-Imageは、60億パラメータを持つ高効率な画像生成モデルファミリーです。特にZ-Image-Turboは、わずか8NFEsでサブ秒…
❤ 4.9k ↓ 891.8k apache-2.0 2026-01-30
ASR / 音声認識 GitHub whisper-jax
Whisper JAXは、OpenAIのWhisperモデルをJAXで実装したもので、特にTPUでの実行時にOpenAIのPyTorch版と比較して最大…
★ 4.7k ⑂ 414 Apache-2.0 2024-04-03
マルチモーダル GitHub align-anything
Align-Anythingは、あらゆるモダリティの大規模モデル(any-to-anyモデル)を人間の意図や価値観に合わせることを目…
★ 4.7k ⑂ 505 Apache-2.0 2025-11-27