概要
Sireneは、自己ホスト型で複数のバックエンドをサポートするテキスト読み上げ(TTS)プラットフォームです。
現代的なウェブUIを提供し、Kokoro, Qwen3-TTS, F5-TTS, Piper, CosyVoice, OpenAudio, Chatterboxなど様々なTTSエンジンを統合して利用できます。
ゼロショット音声クローン機能により、独自の音声を簡単に作成・管理できます。
また、Whisperモデルによる音声認識(Transcription)も可能です。
Dockerイメージとして提供され、セルフホストで手軽に導入できるため、高品質なTTS環境を柔軟に構築したい開発者やコンテンツクリエイターに最適です。
日本語を含む多言語に対応しています。
互換性・特徴
- Self-hosted
- Web UI
- Docker
- Python
- TTS
- 音声クローン
- 多言語対応
基本情報
| ライセンス | MIT |
| Stars | 9 |
| Forks | 1 |
| カテゴリ | TTS / 音声 |
| アクティビティ | low |
最新のissue
- feat: PWAを介したモバイルサポート機能の実装 (更新: 2026-03-22 / feat: mobile support via PWA)
- feat: OpenAudioバックエンドをFish Speech S2-Proへアップグレードする機能 (更新: 2026-03-20 / feat: upgrade OpenAudio backend to Fish Speech S2-Pro)
- プログレッシブオーディオ再生 (クライアントサイドでのストリーミング) (更新: 2026-03-13 / Progressive audio playback (client-side streaming))
- Prometheusを用いたメトリクス収集とシステム監視機能 (更新: 2026-03-13 / Prometheus metrics and monitoring)
最新リリース: v0.0.2 (2026-05-15)
