3,640 repos GH 3,525 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

ASR / 音声認識

voicebox

★ 35.2k ⑂ 4,227 MIT 更新: 2026-06-28 GitHubで見る →

#AI #API #GPU推奨 #デスクトップアプリ #ローカル実行 #日本語対応 #音声クローン #音声合成

概要

Voiceboxは、ElevenLabsやWisprFlowの機能を統合した、オープンソースのAI音声スタジオです。

数秒の音声サンプルから声をクローンし、7種類のTTSエンジンと23言語（日本語を含む）で音声を生成できます。

ローカル環境で動作するため、高度なプライバシー保護が特徴です。

グローバルホットキーを用いたディクテーション機能や、AIエージェントとの音声対話も可能で、音声入出力の全スタックを提供します。

開発者や、プライバシーを重視しつつAIとの豊かな音声体験を求めるユーザーに最適です。

互換性・特徴

AI
音声合成
音声クローン
ローカル実行
日本語対応
API
デスクトップアプリ
GPU推奨

基本情報

ライセンス	MIT
Stars	35,168
Forks	4,227
カテゴリ	ASR / 音声認識
アクティビティ	high

最新のissue

Feature request: open engine provider/plugin interface for community TTS models (更新: 2026-06-28)
Server Startup Failed (更新: 2026-06-28)
Slow Qwen3-TTS 1.7B inference on RTX 4050 (Windows v0.5.0) (更新: 2026-06-27)
Tauri panics on Wayland with NVIDIA GPU (tao event loop panic) (更新: 2026-06-27)

最新リリース: v0.5.0 (2026-04-25)

GitHub: https://github.com/jamiepine/voicebox

← 全リポジトリ一覧へ