LLM GitHub PaddleOCR
PaddleOCRは、PDFや画像ドキュメントを構造化されたデータ(JSON/Markdown)に変換し、大規模言語モデル(LLM)で活…
★ 84.1k ⑂ 10.9k Apache-2.0 2026-06-26
ASR / 音声認識 GitHub whisper.cpp
whisper.cppは、OpenAIの高性能な音声認識モデルWhisperをC/C++で軽量に実装したライブラリです。依存関係を最小限に…
★ 51.1k ⑂ 5.7k MIT 2026-06-26
ASR / 音声認識 GitHub faster-whisper
「SYSTRAN/faster-whisper」は、OpenAIのWhisperモデルをCTranslate2で再実装した高速音声転写ツールです。オリジナ…
★ 23.9k ⑂ 2.0k MIT 2025-11-19
画像生成 GitHub openvino
OpenVINO™は、ディープラーニングモデルの最適化とデプロイメントを目的としたオープンソースのソフトウェアツールキ…
★ 10.4k ⑂ 3.3k Apache-2.0 2026-06-23
画像生成 GitHub nexa-sdk
NexaSDKは、AIモデルをデバイス上で最小限のエネルギーで高速かつスマートに実行するための高性能ローカル推論フレー…
★ 8.1k ⑂ 1.0k Apache-2.0 2026-06-25
音声生成 / TTS GitHub MeloTTS
MeloTTSは、MITとMyShell.aiによって開発された、高品質な多言語テキスト読み上げライブラリです。英語(複数アクセ…
★ 7.5k ⑂ 1.1k MIT 2024-12-24
ASR / 音声認識 GitHub silero-models
Silero Modelsは、事前学習済みのテキスト読み上げ(TTS)モデルを開発者向けに提供するライブラリです。このツール…
★ 6.0k ⑂ 366 NOASSERTION 2026-06-04
LLM GitHub whichllm
「whichllm」は、ユーザーのコンピューターハードウェア(GPU/CPU/RAM)を自動検出し、その環境で最も性能を発揮する…
★ 5.2k ⑂ 279 MIT 2026-06-24
LLM GitHub how-to-train-your-gpt
このリポジリは、ChatGPTなどに使われている大規模言語モデル(LLM)をゼロから構築、学習、実行する方法を学ぶため…
★ 2.3k ⑂ 303 MIT 2026-06-23
音楽生成 GitHub awesome-ai-voice
このリポジトリは、オープンソースのText-to-Speech(TTS)、音声クローン、音楽生成モデルを厳選してまとめたリスト…
★ 356 ⑂ 51 MIT 2026-04-17
ASR / 音声認識 GitHub yapsnap
yapsnapは、あらゆる動画URLや音声ファイルをプレーンテキストに高速で文字起こしできるコマンドラインツールです。G…
★ 279 ⑂ 11 Apache-2.0 2026-06-15
ComfyUI GitHub ComfyUI-Flowty-CRM
ComfyUI-Flowty-CRMは、単一画像から高品質な3Dモデルを生成するCRM(Convolutional Reconstruction Models)をComfy…
★ 156 ⑂ 9 NOASSERTION 2024-06-14
音声生成 / TTS GitHub cosyvoice.cpp
CosyVoice.cppは、CosyVoice3のPython推論パイプラインをC/C++およびGGMLに非公式に移植したプロジェクトです。これ…
★ 34 ⑂ 9 MIT 2026-06-21
ComfyUI GitHub ComfyUI-KittenTTS
ComfyUI-KittenTTSは、超軽量なKittenTTSテキスト読み上げモデルをComfyUIワークフローに統合するためのカスタムノー…
★ 10 ⑂ 3 Apache-2.0 2026-03-04
マルチモーダル GitHub goodq4all
GoodQ4Allは、ローカルファーストのマルチモーダル記憶システムで、長期間のビデオ、オーディオ、テキストからの情報…
★ 9 MIT 2026-06-26
音声生成 / TTS GitHub pocket-tts-deno
「Pocket TTS — Deno Server Design」は、Pocket TTSをDenoサーバーとして動作させるプロジェクトです。WASM ONNXビ…
★ 7 ⑂ 2 Apache-2.0 2026-03-12
画像生成 GitHub gosd
「gosd」は、Go言語で直接Stable Diffusionモデルの推論を可能にする高性能なライブラリです。stable-diffusion.cpp…
★ 7 MIT 2026-06-06
マルチモーダル GitHub glm-ocr-rs
saravananravi08/glm-ocrは、GLM-OCRビジョン言語モデルを搭載した純粋なRust製OCR推論エンジンです。PythonやPyTorc…
★ 5 2026-03-04
音声生成 / TTS GitHub bithuman-sdk-public
bitHuman SDKは、音声入力からリアルタイム(25FPS)でリップシンクされたアニメーション顔を生成する開発キットです…
★ 4 Apache-2.0 2026-06-16
音声生成 / TTS GitHub Stable-Audio-Insight
Stable Audio Insightは、Stability AIの「Stable Audio Open 1.0」を基盤としたWindows向けのローカルオーディオ生…
★ 3 NOASSERTION 2026-04-30
音声生成 / TTS GitHub SpeechifyPDF
SpeechifyPDFは、PDFドキュメントを自然で高品質な音声に変換し、読み上げてくれるアプリケーションです。通勤中やマ…
★ 3 MIT 2026-06-05
音声生成 / TTS GitHub ghosttone-ai
GhostTone AIは、CPUで動作する無料のオープンソース音声クローンシステムです。わずか6〜10秒の音声サンプルから、…
★ 3 MIT 2026-05-15
マルチモーダル GitHub MagikaDocumentFromPixel
このツールは、Magikaに触発された軽量な画像品質ゲートで、画像を「シャープ」、「ぼやけ」、「不確実」のいずれか…
★ 2 MIT 2026-04-27
マルチモーダル GitHub longitudinal-health-foundation-model
このリポジトリは、ウェアラブルデバイス、スマートフォン、気候データから得られる自己教師ありマルチモーダル情報…
★ 1 NOASSERTION 2026-05-21