概要
Docker上で動作する、OpenAI互換の自己ホスト型音声サーバーです。
Whisperを含む7種類の自動音声認識(ASR)バックエンドと、Kokoro、Qwen3-TTSによる音声クローニング対応の2種類のテキスト読み上げ(TTS)エンジンを統合しています。
既存のOpenAIクライアントを指すだけで、音声認識、テキスト読み上げ、音声クローニングを簡単に利用できます。
ホットモデルスワップやMCPサーバー内蔵により、LLMツール連携も可能。
CPUとCUDAの両方に対応したイメージが提供されており、開発者や、高機能な音声処理環境をDockerで手軽に構築したいユーザーに最適です。
互換性・特徴
- Docker
- OpenAI互換API
- ASR
- TTS
- 音声クローニング
- CPU/GPU対応
基本情報
| ライセンス | WTFPL |
| Stars | 4 |
| Forks | 2 |
| カテゴリ | ASR / 音声認識 |
| アクティビティ | low |
最新リリース: v0.9.0 (2026-06-09)
