ASR / 音声認識 GitHub whisper-diarization
このツールは、OpenAI Whisperの自動音声認識(ASR)機能と高度な話者分離(Speaker Diarization)技術を統合したパ…
★ 5.6k ⑂ 502 BSD-2-Clause 2026-02-23
AIエージェント GitHub semble
Sembleは、AIエージェント向けに設計された高速かつ正確なコード検索ライブラリです。`grep+read`と比較して約98%も…
★ 5.4k ⑂ 232 MIT 2026-06-24
LLM GitHub awesome-free-llm-apis
このリポジトリは、永続的な無料利用枠を提供する大規模言語モデル(LLM)APIの厳選されたリストを提供します。コス…
★ 5.4k ⑂ 511 CC0-1.0 2026-06-16
マルチモーダル GitHub vllm-omni
vLLM-Omniは、既存のvLLMを拡張し、オムニモダリティモデルの効率的かつ低コストな推論と提供を可能にするフレームワ…
★ 5.3k ⑂ 1.2k Apache-2.0 2026-06-29
画像生成 GitHub RedInk
RedInkは、Xiaohongshu(小紅書)向けの画像とテキストを生成する統合ツールです。「一文、一画像」のコンセプトで、…
★ 5.3k ⑂ 1.0k NOASSERTION 2026-03-17
3D / NeRF GitHub gsplat
gsplatは、3D Gaussian Splatting技術のCUDA高速化ラスタライゼーションを実現するオープンソースライブラリで、Pyth…
★ 5.3k ⑂ 884 Apache-2.0 2026-06-23
LLM GitHub whichllm
「whichllm」は、ユーザーのコンピューターハードウェア(GPU/CPU/RAM)を自動検出し、その環境で最も性能を発揮する…
★ 5.2k ⑂ 279 MIT 2026-06-24
ASR / 音声認識 GitHub wenet
WeNetは、「Production First and Production Ready」を掲げるエンドツーエンド音声認識ツールキットです。最先端の…
★ 5.2k ⑂ 1.2k Apache-2.0 2026-06-15
3D / NeRF GitHub kaolin
NVIDIA Kaolinは、3D深層学習研究を加速するために設計されたPyTorchライブラリです。GPUに最適化された操作群を提供…
★ 5.1k ⑂ 624 Apache-2.0 2026-06-18
画像生成 GitHub transformerlab-app
Transformer Labは、AI研究者向けに設計されたオープンソースの機械学習プラットフォームです。モデルの訓練、評価、…
★ 5.1k ⑂ 535 AGPL-3.0 2026-06-25
マルチモーダル GitHub mlx-vlm
MLX-VLMは、Apple Silicon Mac上でMLXを利用してVision Language Models(VLM)および音声・動画対応のOmni Modelsの…
★ 5.1k ⑂ 645 MIT 2026-06-24
動画生成 GitHub VideoCrafter
VideoCrafter2は、データ制約を克服し高品質な動画を生成するためのオープンソースの動画生成および編集ツールボック…
★ 5.1k ⑂ 412 NOASSERTION 2026-01-09
AIエージェント GitHub omnigent
Omnigentは、Claude Code、Codex、Pi、およびユーザーが作成したカスタムエージェントを含む、あらゆるAIエージェン…
★ 5.1k ⑂ 622 Apache-2.0 2026-06-27
マルチモーダル GitHub PixelRAG
PixelRAGは、ウェブページ、PDF、画像をスクリーンショットとして視覚的にレンダリングし、ビジョン言語モデルで埋め…
★ 5.0k ⑂ 387 Apache-2.0 2026-06-24
画像生成 GitHub multidiffusion-upscaler-for-automatic1111
「Tiled Diffusion & VAE extension for sd-webui」は、Automatic1111のStable Diffusion Web UI向けの拡張機能です…
★ 5.0k ⑂ 347 NOASSERTION 2024-08-07
画像生成 GitHub DragGAN
OpenGVLab/DragGANは、「Drag Your GAN」の非公式実装で、GAN(敵対的生成ネットワーク)で生成された画像をインタラ…
★ 5.0k ⑂ 477 2023-07-17
LLM GitHub opensquilla
OpenSquillaは、トークン効率を最大化するマイクロカーネルAIエージェントです。限られた予算で高い知能密度と優れた…
★ 4.9k ⑂ 360 Apache-2.0 2026-06-27
ASR / 音声認識 GitHub speech-to-speech
Speech To Speechは、オープンソースモデルを活用してローカルで高度な音声エージェントを構築するためのプロジェク…
★ 4.9k ⑂ 584 Apache-2.0 2026-06-26
ASR / 音声認識 GitHub whisper-jax
Whisper JAXは、OpenAIのWhisperモデルをJAXで実装したもので、特にTPUでの実行時にOpenAIのPyTorch版と比較して最大…
★ 4.7k ⑂ 414 Apache-2.0 2024-04-03
マルチモーダル GitHub align-anything
Align-Anythingは、あらゆるモダリティの大規模モデル(any-to-anyモデル)を人間の意図や価値観に合わせることを目…
★ 4.7k ⑂ 505 Apache-2.0 2025-11-27
3D / NeRF GitHub neuralangelo
「Neuralangelo」は、CVPR 2023で発表された高精度なニューラル表面再構成のための公式実装ツールです。既存の動画か…
★ 4.6k ⑂ 403 NOASSERTION 2024-04-14
動画生成 GitHub echomimic_v2
EchoMimicV2は、Ant Groupが開発した、印象的で簡素化された半身の人間アニメーションを生成するための研究プロジェ…
★ 4.6k ⑂ 541 Apache-2.0 2026-02-23
画像生成 GitHub PyTorch-Tutorial-2nd
「PyTorch実用教程(第二版)」は、PyTorchの基礎から応用、実運用までを網羅した包括的なチュートリアルです。深度…
★ 4.6k ⑂ 484 2025-01-27
動画生成 GitHub HunyuanVideo-1.5
HunyuanVideo-1.5は、わずか8.3Bのパラメーターでトップクラスの品質を提供する軽量な動画生成モデルです。コンシュ…
★ 4.5k ⑂ 229 NOASSERTION 2026-04-10