macos-speech-server

概要

macos-speech-serverは、macOS上で動作するローカルな音声認識（STT）および音声合成（TTS）サーバーです。

OpenAI互換のHTTP APIとHome AssistantのWyomingプロトコルをサポートしており、プライベートかつ高速な処理を実現します。

Apple SiliconのNeural EngineをFluidAudio経由で活用するため、クラウドサービスへのデータ送信やAPIキーは不要で、すべての処理がデバイス内で完結します。

一度モデルをダウンロードすれば、起動時に読み込まれ、同一ネットワーク内の他のデバイスからも利用可能です。

これにより、家庭内の音声処理を1台のMacでまかなうことができます。

開発者、Home Assistantユーザー、プライバシーを重視するmacOSユーザーに最適です。