speech-mcp

概要

Speech-MCPは、身体化エージェントやヒューマノイド向けに設計された多機能な音声ゲートウェイです。

Alibaba FunASRによる高速でコスト効率の高いローカル音声認識（STT）、Gemini Liveのリアルタイム音声チャット、Gemini 3.1 Flashのテキスト読み上げ（TTS）、Hume AI Octave、ElevenLabsの音声クローン技術を統合しています。

ウェイクワード検出、RAG（検索拡張生成）などの高度な機能を備え、MCPサーバーとモダンなReactウェブアプリで構成されています。

これにより、ハンズフリーコマンド、騒がしい環境での利用、そしてクラウド課金なしでの大規模なエージェントフリートやロボットへの展開を可能にし、開発者がAIエージェントの音声インタラクションを最適化するのを支援します。

最新リリース: v0.3.0 (2026-02-27)

GitHub: https://github.com/sandraschi/speech-mcp