概要
このプロジェクトは、Whisperによる音声認識(STT)、MiMo LLM、F5-TTSによる音声合成(TTS)を組み合わせた、カスタマイズ可能な音声を持つローカル音声アシスタントの構築を提案しています。
複雑なフレームワークを避け、シンプルなパイプラインで構成されることを特徴とし、まずは非リアルタイムでの基本的な対話フロー(録音→認識→LLM→読み上げ→再生)の実現を目指します。
その後、自動VAD、ストリーミングLLM、割り込み処理などの高度な機能を追加していく段階的な開発アプローチを推奨。
Python 3.11を基盤とし、依存ライブラリを最小限に抑えることで、メンテナンス性と拡張性を高める設計思想が強調されています。
想定ユーザーは、独自の音声アシスタントをシンプルかつ効率的に開発したいエンジニアやDIY愛好家です。
互換性・特徴
- Python
- CLI
- GPU必須
- ローカル実行
- 音声認識
- 音声合成
- LLM連携
基本情報
| Stars | 1 |
| カテゴリ | 音声生成 / TTS |
| アクティビティ | low |
