概要
このツールは、Claude CodeやDeepSeekのようなテキストベースのAIモデルに、画像認識(OCR機能を含む)と音声認識(音声からテキストへの変換、会議録音)の機能を追加するものです。
Ollamaのビジョンモデルとfaster-whisperの音声認識モデルをローカルで利用するため、クラウドサービスは一切不要で、完全にオフラインで動作します。
プライバシーを重視し、ローカル環境でマルチモーダルなAI機能を実現したい開発者や研究者に最適です。
画像解析、OCR、音声の文字起こし、会議の要約など、幅広い用途に対応します。
互換性・特徴
- Python
- CLI
- GPU必須
- ローカル実行
- 日本語対応
- AI Skills 套装
基本情報
| Stars | 1 |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
