画像生成 GitHub stable-diffusion.cpp
stable-diffusion.cppは、Diffusionモデル(SD、Flux、Wanなど)の推論を純粋なC/C++で実行するための超軽量ライブラ…
★ 6.4k ⑂ 679 MIT 2026-06-26
画像生成 GitHub StyleTTS2
StyleTTS 2は、テキストから人間レベルの自然な音声を合成する最新のText-to-Speech(TTS)モデルです。スタイル拡散…
★ 6.3k ⑂ 690 MIT 2024-08-10
ASR / 音声認識 GitHub argmax-oss-swift
Argmax Open-Source SDK Swiftは、Apple Siliconデバイス上で動作する高性能なオープンソースAI推論フレームワーク群…
★ 6.2k ⑂ 577 MIT 2026-06-25
ASR / 音声認識 GitHub PaddleX
PaddleX 3.0は、飛桨(PaddlePaddle)フレームワークを基盤とした低コード開発ツールです。200以上の開箱即用な事前…
★ 6.2k ⑂ 1.2k Apache-2.0 2026-06-25
画像生成 GitHub Awesome-Prompt-Engineering
このリポジトリは、プロンプトエンジニアリングとコンテキストエンジニアリングに関する厳選されたリソース集です。…
★ 6.1k ⑂ 710 Apache-2.0 2026-06-23
LLM GitHub atomic-agents
Atomic Agentsは、AIパイプラインとアプリケーションを構築するための軽量でモジュール式のフレームワークです。LEGO…
★ 6.0k ⑂ 514 MIT 2026-06-20
LLM GitHub apfel
apfelは、Macに標準搭載されているApple FoundationModelsを活用し、完全にオフラインで動作するAIツールです。CLI、…
★ 5.9k ⑂ 225 MIT 2026-06-26
ASR / 音声認識 GitHub FunClip
FunClipは、オープンソースで高精度かつ使いやすい動画クリッピングツールです。Alibaba TONGYIのFunASR Paraformer…
★ 5.9k ⑂ 705 MIT 2026-06-25
画像生成 GitHub DALLE-pytorch
このリポジトリは、OpenAIのDALL-E(テキストから画像を生成するTransformerモデル)をPyTorchで実装・再現したもの…
★ 5.6k ⑂ 643 MIT 2024-02-17
画像生成 GitHub SUPIR
SUPIR(Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration In the Wild)…
★ 5.6k ⑂ 469 NOASSERTION 2025-05-12
ASR / 音声認識 GitHub whisper-diarization
このツールは、OpenAI Whisperの自動音声認識(ASR)機能と高度な話者分離(Speaker Diarization)技術を統合したパ…
★ 5.6k ⑂ 502 BSD-2-Clause 2026-02-23
AIエージェント GitHub semble
Sembleは、AIエージェント向けに設計された高速かつ正確なコード検索ライブラリです。`grep+read`と比較して約98%も…
★ 5.4k ⑂ 232 MIT 2026-06-24
ASR / 音声認識 GitHub cactus
Cactusは、モバイルデバイスやウェアラブル向けに設計された低遅延AIエンジンです。ARM CPU上での高速かつ高精度な推…
★ 5.4k ⑂ 432 NOASSERTION 2026-06-26
マルチモーダル GitHub vllm-omni
vLLM-Omniは、既存のvLLMを拡張し、オムニモダリティモデルの効率的かつ低コストな推論と提供を可能にするフレームワ…
★ 5.3k ⑂ 1.2k Apache-2.0 2026-06-29
3D / NeRF GitHub gsplat
gsplatは、3D Gaussian Splatting技術のCUDA高速化ラスタライゼーションを実現するオープンソースライブラリで、Pyth…
★ 5.3k ⑂ 884 Apache-2.0 2026-06-23
LLM GitHub whichllm
「whichllm」は、ユーザーのコンピューターハードウェア(GPU/CPU/RAM)を自動検出し、その環境で最も性能を発揮する…
★ 5.2k ⑂ 279 MIT 2026-06-24
ASR / 音声認識 GitHub wenet
WeNetは、「Production First and Production Ready」を掲げるエンドツーエンド音声認識ツールキットです。最先端の…
★ 5.2k ⑂ 1.2k Apache-2.0 2026-06-15
マルチモーダル GitHub mlx-vlm
MLX-VLMは、Apple Silicon Mac上でMLXを利用してVision Language Models(VLM)および音声・動画対応のOmni Modelsの…
★ 5.1k ⑂ 645 MIT 2026-06-24
AIエージェント GitHub omnigent
Omnigentは、Claude Code、Codex、Pi、およびユーザーが作成したカスタムエージェントを含む、あらゆるAIエージェン…
★ 5.1k ⑂ 622 Apache-2.0 2026-06-27
マルチモーダル GitHub PixelRAG
PixelRAGは、ウェブページ、PDF、画像をスクリーンショットとして視覚的にレンダリングし、ビジョン言語モデルで埋め…
★ 5.0k ⑂ 387 Apache-2.0 2026-06-24
画像生成 GitHub DragGAN
OpenGVLab/DragGANは、「Drag Your GAN」の非公式実装で、GAN(敵対的生成ネットワーク)で生成された画像をインタラ…
★ 5.0k ⑂ 477 2023-07-17
LLM GitHub opensquilla
OpenSquillaは、トークン効率を最大化するマイクロカーネルAIエージェントです。限られた予算で高い知能密度と優れた…
★ 4.9k ⑂ 360 Apache-2.0 2026-06-27
ASR / 音声認識 GitHub speech-to-speech
Speech To Speechは、オープンソースモデルを活用してローカルで高度な音声エージェントを構築するためのプロジェク…
★ 4.9k ⑂ 584 Apache-2.0 2026-06-26
3D / NeRF GitHub brush
Brushは、Gaussian splattingを活用した3D再構築エンジンです。macOS、Windows、Linux、Android、Webブラウザなど、…
★ 4.8k ⑂ 273 Apache-2.0 2026-06-24