Project-Siren

概要

Sirenは、生のビデオ/オーディオアセットからファインチューニングされた音声合成（TTS）モデルを作成するための、エンドツーエンドの音声クローンフレームワークです。

音声データセットの準備を自動化し（音声活動検出、ソース分離、SAM AudioとWhisperによる文字起こし）、HuggingFace対応のデータセットとカスタム音声TTSモデルのトレーニングパイプラインを提供します。

主要モジュールとして、データセットビルダー、Google ColabのGPUでOrpheus TTSをファインチューニングするモデルトレーナー、そしてストリーミングTTSサービスを提供するSiren APIが含まれます。

このツールは、独自の音声でTTSモデルを構築したい開発者や研究者を想定しています。

GitHub: https://github.com/dimiz51/Project-Siren