概要
doubao-speechは、Volcengine Doubaoのseed-tts-2.0とbigmodel音声APIに対応したPythonクライアントおよびCLIツールです。
テキストから高品質な音声を合成する機能(TTS)と、音声からテキストへ変換する機能(ASR/STT)を双方向ストリーミングで提供します。
特に、感情制御可能な中国語音声や、ITN・句読点付きのストリーミングASRが特徴です。
既存のツールがカバーしていなかったVolcengineのモダンな音声スタックの両方向を統一されたインターフェースで提供し、開発者が容易に音声機能をアプリケーションやエージェントフレームワーク(Hermes Agent、Dify、LangChainなど)に組み込むことを想定しています。
互換性・特徴
- Python
- CLI
- TTS
- STT
- 中国語対応
- ストリーミング
基本情報
| ライセンス | MIT |
| Stars | 3 |
| カテゴリ | 音声生成 / TTS |
| アクティビティ | low |
