概要
Sirenは、生のビデオ/オーディオアセットからファインチューニングされた音声合成(TTS)モデルを作成するための、エンドツーエンドの音声クローンフレームワークです。
音声データセットの準備を自動化し(音声活動検出、ソース分離、SAM AudioとWhisperによる文字起こし)、HuggingFace対応のデータセットとカスタム音声TTSモデルのトレーニングパイプラインを提供します。
主要モジュールとして、データセットビルダー、Google ColabのGPUでOrpheus TTSをファインチューニングするモデルトレーナー、そしてストリーミングTTSサービスを提供するSiren APIが含まれます。
このツールは、独自の音声でTTSモデルを構築したい開発者や研究者を想定しています。
互換性・特徴
- Python
- CLI
- GPU必須
- 音声合成
- 音声クローン
- HuggingFace
基本情報
| Stars | 2 |
| カテゴリ | TTS / 音声 |
| アクティビティ | low |
