概要
Voiceboxは、ElevenLabsやWisprFlowの機能を統合した、オープンソースのAI音声スタジオです。
数秒の音声サンプルから声をクローンし、7種類のTTSエンジンと23言語(日本語を含む)で音声を生成できます。
ローカル環境で動作するため、高度なプライバシー保護が特徴です。
グローバルホットキーを用いたディクテーション機能や、AIエージェントとの音声対話も可能で、音声入出力の全スタックを提供します。
開発者や、プライバシーを重視しつつAIとの豊かな音声体験を求めるユーザーに最適です。
互換性・特徴
- AI
- 音声合成
- 音声クローン
- ローカル実行
- 日本語対応
- API
- デスクトップアプリ
- GPU推奨
基本情報
| ライセンス | MIT |
| Stars | 25,263 |
| Forks | 3,058 |
| カテゴリ | ASR / 音声認識 |
| アクティビティ | high |
最新のissue
- MCP生成プロセスで時々自動再生が発生する事象 (更新: 2026-05-11 / MCP Generation occasionally auto-plays)
- 機能しない。エラーの原因を究明できません (更新: 2026-05-11 / Does not work; cannot figure out error)
- GPU (更新: 2026-05-11)
- CUDAインストール後、サーバーがオフライン状態になった (更新: 2026-05-11 / 安装CUDA后就出了服务器离线装态)
最新リリース: v0.5.0 (2026-04-25)
