概要
このツールは、TypeScriptで書かれたマルチモーダルAIエージェントで、画像、音声、テキストを組み合わせて処理できます。
OpenAI GPT-4o、Anthropic Claude、Google Geminiといった主要なマルチモーダルチャットモデルをVercel AI SDK経由で利用し、音声認識にはOpenAI Whisper、ローカル画像解析にはOllama(LLaVA)をサポートしています。
画像分析、音声の文字起こし、複数のモダリティを組み合わせた処理、回答のストリーミング、そしてHTTP APIを通じた利用が可能です。
特に、異なるモダリティの情報を統合して高度なAI処理を行いたい開発者や、手軽にAIエージェントを構築したいユーザーに適しています。
互換性・特徴
- TypeScript
- Node.js
- マルチモーダルAI
- REST API
- ストリーミング
- Docker
基本情報
| Stars | 12 |
| Forks | 1 |
| カテゴリ | ASR / 音声認識 |
| アクティビティ | low |
