3,359 repos GH 3,244 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

doubao-speech

★ 3 MIT 更新: 2026-06-07 GitHubで見る →

概要

doubao-speechは、Volcengine Doubaoのseed-tts-2.0とbigmodel音声APIに対応したPythonクライアントおよびCLIツールです。

テキストから高品質な音声を合成する機能(TTS)と、音声からテキストへ変換する機能(ASR/STT)を双方向ストリーミングで提供します。

特に、感情制御可能な中国語音声や、ITN・句読点付きのストリーミングASRが特徴です。

既存のツールがカバーしていなかったVolcengineのモダンな音声スタックの両方向を統一されたインターフェースで提供し、開発者が容易に音声機能をアプリケーションやエージェントフレームワーク(Hermes Agent、Dify、LangChainなど)に組み込むことを想定しています。

互換性・特徴

  • Python
  • CLI
  • TTS
  • STT
  • 中国語対応
  • ストリーミング

基本情報

ライセンスMIT
Stars3
カテゴリ音声生成 / TTS
アクティビティlow

GitHub: https://github.com/Hypnus-Yuan/doubao-speech