ASR / 音声認識 GitHub cactus
Cactusは、モバイルデバイスやウェアラブル向けに設計された低遅延AIエンジンです。ARM CPU上での高速かつ高精度な推…
★ 5.4k ⑂ 432 NOASSERTION 2026-06-26
マルチモーダル GitHub vllm-omni
vLLM-Omniは、既存のvLLMを拡張し、オムニモダリティモデルの効率的かつ低コストな推論と提供を可能にするフレームワ…
★ 5.3k ⑂ 1.2k Apache-2.0 2026-06-29
画像生成 GitHub RedInk
RedInkは、Xiaohongshu(小紅書)向けの画像とテキストを生成する統合ツールです。「一文、一画像」のコンセプトで、…
★ 5.3k ⑂ 1.0k NOASSERTION 2026-03-17
ComfyUI GitHub ComfyUI-Copilot
ComfyUI-Copilotは、ComfyUI上で動作するAI搭載のインテリジェントアシスタントです。ワークフローの構築、デバッグ…
★ 5.3k ⑂ 344 MIT 2026-04-07
3D / NeRF GitHub gsplat
gsplatは、3D Gaussian Splatting技術のCUDA高速化ラスタライゼーションを実現するオープンソースライブラリで、Pyth…
★ 5.3k ⑂ 884 Apache-2.0 2026-06-23
LLM GitHub whichllm
「whichllm」は、ユーザーのコンピューターハードウェア(GPU/CPU/RAM)を自動検出し、その環境で最も性能を発揮する…
★ 5.2k ⑂ 279 MIT 2026-06-24
ASR / 音声認識 GitHub wenet
WeNetは、「Production First and Production Ready」を掲げるエンドツーエンド音声認識ツールキットです。最先端の…
★ 5.2k ⑂ 1.2k Apache-2.0 2026-06-15
3D / NeRF GitHub kaolin
NVIDIA Kaolinは、3D深層学習研究を加速するために設計されたPyTorchライブラリです。GPUに最適化された操作群を提供…
★ 5.1k ⑂ 624 Apache-2.0 2026-06-18
画像生成 GitHub transformerlab-app
Transformer Labは、AI研究者向けに設計されたオープンソースの機械学習プラットフォームです。モデルの訓練、評価、…
★ 5.1k ⑂ 535 AGPL-3.0 2026-06-25
マルチモーダル GitHub mlx-vlm
MLX-VLMは、Apple Silicon Mac上でMLXを利用してVision Language Models(VLM)および音声・動画対応のOmni Modelsの…
★ 5.1k ⑂ 645 MIT 2026-06-24
動画生成 GitHub VideoCrafter
VideoCrafter2は、データ制約を克服し高品質な動画を生成するためのオープンソースの動画生成および編集ツールボック…
★ 5.1k ⑂ 412 NOASSERTION 2026-01-09
AIエージェント GitHub omnigent
Omnigentは、Claude Code、Codex、Pi、およびユーザーが作成したカスタムエージェントを含む、あらゆるAIエージェン…
★ 5.1k ⑂ 622 Apache-2.0 2026-06-27
マルチモーダル GitHub PixelRAG
PixelRAGは、ウェブページ、PDF、画像をスクリーンショットとして視覚的にレンダリングし、ビジョン言語モデルで埋め…
★ 5.0k ⑂ 387 Apache-2.0 2026-06-24
画像生成 GitHub multidiffusion-upscaler-for-automatic1111
「Tiled Diffusion & VAE extension for sd-webui」は、Automatic1111のStable Diffusion Web UI向けの拡張機能です…
★ 5.0k ⑂ 347 NOASSERTION 2024-08-07
画像生成 GitHub DragGAN
OpenGVLab/DragGANは、「Drag Your GAN」の非公式実装で、GAN(敵対的生成ネットワーク)で生成された画像をインタラ…
★ 5.0k ⑂ 477 2023-07-17
LLM GitHub opensquilla
OpenSquillaは、トークン効率を最大化するマイクロカーネルAIエージェントです。限られた予算で高い知能密度と優れた…
★ 4.9k ⑂ 360 Apache-2.0 2026-06-27
ASR / 音声認識 GitHub speech-to-speech
Speech To Speechは、オープンソースモデルを活用してローカルで高度な音声エージェントを構築するためのプロジェク…
★ 4.9k ⑂ 584 Apache-2.0 2026-06-26
画像生成 HF Z-Image-Turbo
Z-Imageは、60億パラメータを持つ高効率な画像生成モデルファミリーです。特にZ-Image-Turboは、わずか8NFEsでサブ秒…
❤ 4.9k ↓ 891.8k apache-2.0 2026-01-30
3D / NeRF GitHub brush
Brushは、Gaussian splattingを活用した3D再構築エンジンです。macOS、Windows、Linux、Android、Webブラウザなど、…
★ 4.8k ⑂ 273 Apache-2.0 2026-06-24
ASR / 音声認識 GitHub whisper-jax
Whisper JAXは、OpenAIのWhisperモデルをJAXで実装したもので、特にTPUでの実行時にOpenAIのPyTorch版と比較して最大…
★ 4.7k ⑂ 414 Apache-2.0 2024-04-03
マルチモーダル GitHub align-anything
Align-Anythingは、あらゆるモダリティの大規模モデル(any-to-anyモデル)を人間の意図や価値観に合わせることを目…
★ 4.7k ⑂ 505 Apache-2.0 2025-11-27
3D / NeRF GitHub neuralangelo
「Neuralangelo」は、CVPR 2023で発表された高精度なニューラル表面再構成のための公式実装ツールです。既存の動画か…
★ 4.6k ⑂ 403 NOASSERTION 2024-04-14
動画生成 GitHub echomimic_v2
EchoMimicV2は、Ant Groupが開発した、印象的で簡素化された半身の人間アニメーションを生成するための研究プロジェ…
★ 4.6k ⑂ 541 Apache-2.0 2026-02-23
画像生成 GitHub PyTorch-Tutorial-2nd
「PyTorch実用教程(第二版)」は、PyTorchの基礎から応用、実運用までを網羅した包括的なチュートリアルです。深度…
★ 4.6k ⑂ 484 2025-01-27