概要
Voiceboxは、ElevenLabsやWisprFlowの機能を統合した、オープンソースのAI音声スタジオです。
数秒の音声サンプルから声をクローンし、7種類のTTSエンジンと23言語(日本語を含む)で音声を生成できます。
ローカル環境で動作するため、高度なプライバシー保護が特徴です。
グローバルホットキーを用いたディクテーション機能や、AIエージェントとの音声対話も可能で、音声入出力の全スタックを提供します。
開発者や、プライバシーを重視しつつAIとの豊かな音声体験を求めるユーザーに最適です。
互換性・特徴
- AI
- 音声合成
- 音声クローン
- ローカル実行
- 日本語対応
- API
- デスクトップアプリ
- GPU推奨
基本情報
| ライセンス | MIT |
| Stars | 35,168 |
| Forks | 4,227 |
| カテゴリ | ASR / 音声認識 |
| アクティビティ | high |
最新のissue
- Feature request: open engine provider/plugin interface for community TTS models (更新: 2026-06-28)
- Server Startup Failed (更新: 2026-06-28)
- Slow Qwen3-TTS 1.7B inference on RTX 4050 (Windows v0.5.0) (更新: 2026-06-27)
- Tauri panics on Wayland with NVIDIA GPU (tao event loop panic) (更新: 2026-06-27)
最新リリース: v0.5.0 (2026-04-25)
