Amphion

概要

Amphionは、音声、音楽、スピーチ生成のためのオープンソースツールキットです。

再現可能な研究を支援し、音声生成分野の初心者研究者やエンジニアがモデルをより深く理解できるように、クラシックモデルの視覚化機能を提供しています。

テキストからスピーチ（TTS）、歌声合成（SVS）、音声変換（VC）、アクセント変換（AC）、歌声変換（SVC）、テキストからオーディオ（TTA）など、多様な生成タスクをサポートし、高品質な音声生成のためのボコーダーや評価指標も含まれています。

[Help]: Colab-WARNING:phonemizer:全行の100%で単語数不一致 (更新: 2026-05-12 / [Help]: Colab-WARNING:phonemizer:words count mismatch on 100.0% of the lines)
[Help]: Metis SE 長尺音声におけるチャンク間の不整合 / 60秒以上のファイルで品質低下 (更新: 2026-05-08 / [Help]: Metis SE long-form inconsistency across chunks / degraded quality on 60s+ files)
[Feature]: Emiliaダイアライゼーションモデルをpyannote/speaker-diarization-community-1に更新 (更新: 2026-04-17 / [Feature]: Update Emilia diarization model to pyannote/speaker-diarization-community-1)
オーディオ生成パイプライン向けの無料スタジオボーカルデータ (更新: 2026-04-16 / Free studio vocal data for audio generation pipelines)

最新リリース: v0.1.1-alpha (2024-02-23)

GitHub: https://github.com/open-mmlab/Amphion