voice-to-text

概要

CogNativeは、既存の声をクローンし、その声で別の言語の音声を生成できる翻訳音声合成ツールです。

GUIとCLIの両方を提供し、テキスト入力または音声ファイルからスピーチを合成する機能を持っています。

Python 3.7が必須で、PyTorch（GPUまたはCPU）、ffmpeg、Google Cloudの認証情報を利用します。

主に音声クローン技術に興味を持つ開発者や研究者、多言語の音声コンテンツを作成したいユーザーに適しています。

GitHub: https://github.com/crystal70916/voice-to-text