概要
「Kesha Voice Kit」は、ローカル環境で動作する高速な音声処理CLIツールです。
LLMエージェントや既存のツールに音声機能(テキスト読み上げ・音声認識)を付与することを目的としています。
Apple SiliconではWhisperの最大約19倍高速な25言語対応の音声認識と、9言語対応の音声合成、音声活動検出、言語検出機能を一つのCLIで提供します。
約20MBの単一バイナリとして動作するRust製で、Pythonやffmpegへの依存がありません。
macOS、Linux、Windowsに対応しており、自身のツールやAIエージェントに高度な音声入出力機能を手軽に統合したい開発者に最適です。
互換性・特徴
- CLI
- 多言語対応
- macOS対応
- Windows対応
- Linux対応
- LLMエージェント連携
基本情報
| ライセンス | MIT |
| Stars | 51 |
| Forks | 7 |
| カテゴリ | ASR / 音声認識 |
| アクティビティ | low |
最新のissue
- 音声合成:多言語Kokoro(hi/ja/zh)ネイティブスクリプト入力でノイズ — G2Pはラテン語のみ対応 (更新: 2026-06-01 / TTS: multilingual FluidAudio Kokoro (hi/ja/zh) emits noise for native-script input — G2P only handles Latin)
- macOSでのRaycast統合 (更新: 2026-05-29 / Raycast integration on macOS)
- エピック:製品の改善(ベンチマーク、バックアップ、リリーススモークテスト) (更新: 2026-05-25 / Epic: product polish (benchmark, backup, release smoke))
- Epic: サーブモードとオブザーバビリティ (更新: 2026-05-25 / Epic: serve mode + observability)
最新リリース: v1.24.3 (2026-06-13)
