3,722 repos GH 3,607 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

speech-mcp

★ 1 ⑂ 1 更新: 2026-06-07 GitHubで見る →

概要

Speech-MCPは、身体化エージェントやヒューマノイド向けに設計された多機能な音声ゲートウェイです。

Alibaba FunASRによる高速でコスト効率の高いローカル音声認識(STT)、Gemini Liveのリアルタイム音声チャット、Gemini 3.1 Flashのテキスト読み上げ(TTS)、Hume AI Octave、ElevenLabsの音声クローン技術を統合しています。

ウェイクワード検出、RAG(検索拡張生成)などの高度な機能を備え、MCPサーバーとモダンなReactウェブアプリで構成されています。

これにより、ハンズフリーコマンド、騒がしい環境での利用、そしてクラウド課金なしでの大規模なエージェントフリートやロボットへの展開を可能にし、開発者がAIエージェントの音声インタラクションを最適化するのを支援します。

互換性・特徴

  • Python
  • Web UI
  • GPU必須
  • CLI
  • リアルタイム処理
  • 音声認識・合成

基本情報

Stars1
Forks1
カテゴリ音声生成 / TTS
アクティビティlow

最新リリース: v0.3.0 (2026-02-27)

GitHub: https://github.com/sandraschi/speech-mcp