3,695 repos GH 3,580 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

speech-to-speech

★ 4.9k ⑂ 584 Apache-2.0 更新: 2026-06-18 GitHubで見る →

概要

Speech To Speechは、オープンソースモデルを活用してローカルで高度な音声エージェントを構築するためのプロジェクトです。

音声認識(STT)、言語モデル(LLM)、音声合成(TTS)などのモジュールをカスケード接続したパイプラインを提供し、Hugging Face Transformersライブラリ経由で多数のモデルを利用できます。

リアルタイム処理、サーバー/クライアント、WebSocketなど多様な運用アプローチをサポートし、特にApple Silicon搭載デバイス向けに最適化されたモデル実装も強調されています。

開発者は、高いモジュール性と柔軟性をもって、カスタムの音声エージェントをCLIやPythonから構築・実行できます。

互換性・特徴

  • Python
  • CLI
  • リアルタイム処理
  • サーバー/クライアント
  • Apple Silicon最適化
  • オープンソースモデル

基本情報

ライセンスApache-2.0
Stars4,892
Forks584
カテゴリASR / 音声認識
アクティビティhigh

最新のissue

最新リリース: v0.2.10 (2026-06-11)

GitHub: https://github.com/huggingface/speech-to-speech