1,738 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

VoxCPM

★ 19.0k ⑂ 2,259 Apache-2.0 更新: 2026-05-11 GitHubで見る →

概要

VoxCPM2は、OpenBMBが開発した、テキストを直接音声に変換するトークナイザーフリーの画期的なTTSシステムです。

エンドツーエンドの拡散自己回帰アーキテクチャを採用し、人間のような自然で表現豊かな音声を生成します。

2Bパラメータと200万時間以上の多言語データで学習されており、30言語に対応。

自然言語による音声デザイン、参照音声からの高精度な音声クローニング(感情やスタイルを制御可能)、48kHzのスタジオ品質オーディオ出力といった高度な機能を持ちます。

リアルタイムストリーミングも可能で、完全にオープンソースかつ商用利用可能です。

高品質な多言語音声合成やクリエイティブな音声デザイン、声のクローニングを求める開発者や研究者に最適なツールです。

互換性・特徴

  • 多言語対応
  • GPU必須
  • Python
  • Web UI
  • オープンソース
  • リアルタイム

基本情報

ライセンスApache-2.0
Stars18,971
Forks2,259
カテゴリTTS / 音声
アクティビティhigh

最新のissue

最新リリース: v2.0.3: fine-tuning validation, runtime stability, and streaming improvements (2026-05-11)

GitHub: https://github.com/OpenBMB/VoxCPM