3,695 repos GH 3,580 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

ASR / 音声認識

kesha-voice-kit

★ 51 ⑂ 7 MIT 更新: 2026-06-14 GitHubで見る →

#CLI #Linux対応 #LLMエージェント連携 #macOS対応 #Windows対応 #多言語対応

概要

「Kesha Voice Kit」は、ローカル環境で動作する高速な音声処理CLIツールです。

LLMエージェントや既存のツールに音声機能（テキスト読み上げ・音声認識）を付与することを目的としています。

Apple SiliconではWhisperの最大約19倍高速な25言語対応の音声認識と、9言語対応の音声合成、音声活動検出、言語検出機能を一つのCLIで提供します。

約20MBの単一バイナリとして動作するRust製で、Pythonやffmpegへの依存がありません。

macOS、Linux、Windowsに対応しており、自身のツールやAIエージェントに高度な音声入出力機能を手軽に統合したい開発者に最適です。

互換性・特徴

CLI
多言語対応
macOS対応
Windows対応
Linux対応
LLMエージェント連携

基本情報

ライセンス	MIT
Stars	51
Forks	7
カテゴリ	ASR / 音声認識
アクティビティ	low

最新のissue

音声合成：多言語Kokoro（hi/ja/zh）ネイティブスクリプト入力でノイズ — G2Pはラテン語のみ対応 (更新: 2026-06-01 / TTS: multilingual FluidAudio Kokoro (hi/ja/zh) emits noise for native-script input — G2P only handles Latin)
macOSでのRaycast統合 (更新: 2026-05-29 / Raycast integration on macOS)
エピック：製品の改善（ベンチマーク、バックアップ、リリーススモークテスト） (更新: 2026-05-25 / Epic: product polish (benchmark, backup, release smoke))
Epic: サーブモードとオブザーバビリティ (更新: 2026-05-25 / Epic: serve mode + observability)

最新リリース: v1.24.3 (2026-06-13)

GitHub: https://github.com/drakulavich/kesha-voice-kit

← 全リポジトリ一覧へ