655 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

voice-to-text

★ 3 更新: 2026-05-13 GitHubで見る →

概要

CogNativeは、既存の声をクローンし、その声で別の言語の音声を生成できる翻訳音声合成ツールです。

GUIとCLIの両方を提供し、テキスト入力または音声ファイルからスピーチを合成する機能を持っています。

Python 3.7が必須で、PyTorch(GPUまたはCPU)、ffmpeg、Google Cloudの認証情報を利用します。

主に音声クローン技術に興味を持つ開発者や研究者、多言語の音声コンテンツを作成したいユーザーに適しています。

互換性・特徴

  • Python
  • GPU対応
  • CLI
  • GUI
  • Google Cloud
  • ffmpeg

基本情報

Stars3
カテゴリTTS / 音声
アクティビティlow

GitHub: https://github.com/crystal70916/voice-to-text