docker-talkies

概要

Docker上で動作する、OpenAI互換の自己ホスト型音声サーバーです。

Whisperを含む7種類の自動音声認識（ASR）バックエンドと、Kokoro、Qwen3-TTSによる音声クローニング対応の2種類のテキスト読み上げ（TTS）エンジンを統合しています。

既存のOpenAIクライアントを指すだけで、音声認識、テキスト読み上げ、音声クローニングを簡単に利用できます。

ホットモデルスワップやMCPサーバー内蔵により、LLMツール連携も可能。

CPUとCUDAの両方に対応したイメージが提供されており、開発者や、高機能な音声処理環境をDockerで手軽に構築したいユーザーに最適です。

最新リリース: v0.9.0 (2026-06-09)

GitHub: https://github.com/psyb0t/docker-talkies