supertonic_embeddings_trainer

概要

Supertonic Embeddings Trainerは、SupertonicTTS向けのローカルボイスクローニングパイプラインです。

WAVファイルをアップロードして声のスタイル埋め込みを学習し、その声で音声を合成できます。

クラウドAPIは不要で、Supertonic v2とv3の両方をサポートしています。

WavLM Layer 3 MSEまたはECAPA-guidedの2つの損失モード、トレーニングの中断・再開、自動音声マッチング、リアルタイムの進捗表示などの機能を備えています。

Gradio UIを通じて直感的に操作可能で、SupertonicTTSを使って声のクローンを作成したい開発者や研究者、またはローカルでの音声合成を重視するユーザーに適しています。

GitHub: https://github.com/Saganaki22/supertonic_embeddings_trainer