概要
VoiceRAG Agentは、FastAPIを基盤としたローカル優先の音声対音声RAGアシスタントです。
ユーザーは自身のドキュメント(PDF、DOCX、TXT、CSVなど)に対して、テキスト入力または音声で質問し、システムはQdrantから関連情報を取得し、音声またはテキストで応答を生成します。
Ollamaによるローカル埋め込みとモデル利用、Groqによるクラウドベースの音声認識(Whisper STT)やチャット、そしてKokoro ONNXによる音声合成が主な特徴です。
ブラウザUIを提供し、セルフホスト型で運用可能なため、データプライバシーを重視し、自身の環境で高度なRAGシステムを構築したい開発者や個人ユーザーに適しています。
互換性・特徴
- Python
- Web UI
- ローカル実行
- 音声認識
- 音声合成
- RAG
基本情報
| ライセンス | MIT |
| Stars | 2 |
| カテゴリ | LLM |
| アクティビティ | low |
