概要
Amphionは、音声、音楽、スピーチ生成のためのオープンソースツールキットです。
再現可能な研究を支援し、音声生成分野の初心者研究者やエンジニアがモデルをより深く理解できるように、クラシックモデルの視覚化機能を提供しています。
テキストからスピーチ(TTS)、歌声合成(SVS)、音声変換(VC)、アクセント変換(AC)、歌声変換(SVC)、テキストからオーディオ(TTA)など、多様な生成タスクをサポートし、高品質な音声生成のためのボコーダーや評価指標も含まれています。
互換性・特徴
- Python
- HuggingFace
- CLI
- GPU必須
- 学術研究
- 音声生成
基本情報
| ライセンス | MIT |
| Stars | 9,801 |
| Forks | 812 |
| カテゴリ | 音楽・音声生成 |
| アクティビティ | mid |
最新のissue
- [Help]: Colab-WARNING:phonemizer:全行の100%で単語数不一致 (更新: 2026-05-12 / [Help]: Colab-WARNING:phonemizer:words count mismatch on 100.0% of the lines)
- [Help]: Metis SE 長尺音声におけるチャンク間の不整合 / 60秒以上のファイルで品質低下 (更新: 2026-05-08 / [Help]: Metis SE long-form inconsistency across chunks / degraded quality on 60s+ files)
- [Feature]: Emiliaダイアライゼーションモデルをpyannote/speaker-diarization-community-1に更新 (更新: 2026-04-17 / [Feature]: Update Emilia diarization model to pyannote/speaker-diarization-community-1)
- オーディオ生成パイプライン向けの無料スタジオボーカルデータ (更新: 2026-04-16 / Free studio vocal data for audio generation pipelines)
最新リリース: v0.1.1-alpha (2024-02-23)