vocalis

概要

Zencia Vocalisは、Microsoft VibeVoiceを基盤とした、オンデバイスで動作する会話型音声AIです。

ユーザーがAIと音声で自然に会話し、AIがリアルタイムに近い速度で音声応答を返すことを可能にします。

ローカルGPU上で動作し、クラウドTTSを使用しないため、プライバシーと低遅延を実現。

会話のターンにかかる時間を約40%削減し、最初の音声はわずか0.5秒で再生されます。

音声認識、LLMによる推論、テキスト読み上げが統合されており、Google GeminiやOpenAI、Hugging Faceのローカルモデルなど、多様なLLMをプラグイン可能。

多言語対応も進められており、AIとのスムーズな音声インタラクションを求める開発者や研究者に最適なツールです。

GitHub: https://github.com/tartendu/vocalis