1,738 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

Project-Siren

★ 2 更新: 2026-05-04 GitHubで見る →

概要

Sirenは、生のビデオ/オーディオアセットからファインチューニングされた音声合成(TTS)モデルを作成するための、エンドツーエンドの音声クローンフレームワークです。

音声データセットの準備を自動化し(音声活動検出、ソース分離、SAM AudioとWhisperによる文字起こし)、HuggingFace対応のデータセットとカスタム音声TTSモデルのトレーニングパイプラインを提供します。

主要モジュールとして、データセットビルダー、Google ColabのGPUでOrpheus TTSをファインチューニングするモデルトレーナー、そしてストリーミングTTSサービスを提供するSiren APIが含まれます。

このツールは、独自の音声でTTSモデルを構築したい開発者や研究者を想定しています。

互換性・特徴

  • Python
  • CLI
  • GPU必須
  • 音声合成
  • 音声クローン
  • HuggingFace

基本情報

Stars2
カテゴリTTS / 音声
アクティビティlow

GitHub: https://github.com/dimiz51/Project-Siren