3,695 repos GH 3,580 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

ASR / 音声認識

speech-to-speech

★ 4.9k ⑂ 584 Apache-2.0 更新: 2026-06-18 GitHubで見る →

#Apple Silicon最適化 #CLI #Python #オープンソースモデル #サーバー/クライアント #リアルタイム処理

概要

Speech To Speechは、オープンソースモデルを活用してローカルで高度な音声エージェントを構築するためのプロジェクトです。

音声認識（STT）、言語モデル（LLM）、音声合成（TTS）などのモジュールをカスケード接続したパイプラインを提供し、Hugging Face Transformersライブラリ経由で多数のモデルを利用できます。

リアルタイム処理、サーバー/クライアント、WebSocketなど多様な運用アプローチをサポートし、特にApple Silicon搭載デバイス向けに最適化されたモデル実装も強調されています。

開発者は、高いモジュール性と柔軟性をもって、カスタムの音声エージェントをCLIやPythonから構築・実行できます。

互換性・特徴

Python
CLI
リアルタイム処理
サーバー/クライアント
Apple Silicon最適化
オープンソースモデル

基本情報

ライセンス	Apache-2.0
Stars	4,892
Forks	584
カテゴリ	ASR / 音声認識
アクティビティ	high

最新のissue

アイデア：LLMの応答時間が長い場合に短い文章を追加 (更新: 2026-06-12 / Idea: add short sentences when LLM responses are taking too long)

最新リリース: v0.2.10 (2026-06-11)

GitHub: https://github.com/huggingface/speech-to-speech

← 全リポジトリ一覧へ