strands-omnivoice

概要

strands-omnivoiceは、Strands Agents向けの多言語ゼロショットTTSツールキットです。

600以上の言語に対応し、わずか3〜10秒の参照オーディオから音声をクローンしたり、話者の属性（例：女性、イギリスアクセント、ささやき声）を記述して音声をデザインしたりできます。

特徴としては、Whisperモデルによる組み込みASR、バッチ合成、および[laughter]やピンインなどのインラインタグのサポートがあります。

また、Apple Silicon、CUDA、CPUなど複数のデバイスに自動対応します。

Strands Agentsを使用して、多言語対応の高品質な音声合成機能を必要とする開発者やユーザーに最適です。

最新リリース: strands-omnivoice v0.1.0 (2026-05-16)

GitHub: https://github.com/cagataycali/strands-omnivoice