概要
Speech-MCPは、身体化エージェントやヒューマノイド向けに設計された多機能な音声ゲートウェイです。
Alibaba FunASRによる高速でコスト効率の高いローカル音声認識(STT)、Gemini Liveのリアルタイム音声チャット、Gemini 3.1 Flashのテキスト読み上げ(TTS)、Hume AI Octave、ElevenLabsの音声クローン技術を統合しています。
ウェイクワード検出、RAG(検索拡張生成)などの高度な機能を備え、MCPサーバーとモダンなReactウェブアプリで構成されています。
これにより、ハンズフリーコマンド、騒がしい環境での利用、そしてクラウド課金なしでの大規模なエージェントフリートやロボットへの展開を可能にし、開発者がAIエージェントの音声インタラクションを最適化するのを支援します。
互換性・特徴
- Python
- Web UI
- GPU必須
- CLI
- リアルタイム処理
- 音声認識・合成
基本情報
| Stars | 1 |
| Forks | 1 |
| カテゴリ | 音声生成 / TTS |
| アクティビティ | low |
最新リリース: v0.3.0 (2026-02-27)
