multi-modal-agent-ts

概要

このツールは、TypeScriptで書かれたマルチモーダルAIエージェントで、画像、音声、テキストを組み合わせて処理できます。

OpenAI GPT-4o、Anthropic Claude、Google Geminiといった主要なマルチモーダルチャットモデルをVercel AI SDK経由で利用し、音声認識にはOpenAI Whisper、ローカル画像解析にはOllama（LLaVA）をサポートしています。

画像分析、音声の文字起こし、複数のモダリティを組み合わせた処理、回答のストリーミング、そしてHTTP APIを通じた利用が可能です。

特に、異なるモダリティの情報を統合して高度なAI処理を行いたい開発者や、手軽にAIエージェントを構築したいユーザーに適しています。

GitHub: https://github.com/laoposkj/multi-modal-agent-ts