VoxFlashTTS

概要

VoxFlash-TTSは、リアルタイム推論に特化した業界最速の音声クローンシステムです。

ゼロショット学習により、事前学習なしで中国語と英語の音声クローニングを可能にします。

このツールは、コンシューマー向けGPUでも動作し、エッジデバイスへのデプロイを念頭に設計されている点が大きな特徴です。

24kHzの音声を9Hzの潜在表現に大幅に圧縮することで、従来のシステムと比較して圧倒的な計算量削減を実現し、ミリ秒レベルの高速な音声生成を可能にします。

低VRAM消費と簡単なDockerデプロイも魅力で、リアルタイムで高品質な音声合成やクローニングを求める開発者や、リソースが限られた環境での利用を想定しています。

GitHub: https://github.com/VoxFlash/VoxFlashTTS