doubao-speech

概要

doubao-speechは、Volcengine Doubaoのseed-tts-2.0とbigmodel音声APIに対応したPythonクライアントおよびCLIツールです。

テキストから高品質な音声を合成する機能（TTS）と、音声からテキストへ変換する機能（ASR/STT）を双方向ストリーミングで提供します。

特に、感情制御可能な中国語音声や、ITN・句読点付きのストリーミングASRが特徴です。

既存のツールがカバーしていなかったVolcengineのモダンな音声スタックの両方向を統一されたインターフェースで提供し、開発者が容易に音声機能をアプリケーションやエージェントフレームワーク（Hermes Agent、Dify、LangChainなど）に組み込むことを想定しています。

GitHub: https://github.com/Hypnus-Yuan/doubao-speech