3,117 repos GH 3,002 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

multi-modal-agent-ts

★ 12 ⑂ 1 更新: 2026-04-17 GitHubで見る →

概要

このツールは、TypeScriptで書かれたマルチモーダルAIエージェントで、画像、音声、テキストを組み合わせて処理できます。

OpenAI GPT-4o、Anthropic Claude、Google Geminiといった主要なマルチモーダルチャットモデルをVercel AI SDK経由で利用し、音声認識にはOpenAI Whisper、ローカル画像解析にはOllama(LLaVA)をサポートしています。

画像分析、音声の文字起こし、複数のモダリティを組み合わせた処理、回答のストリーミング、そしてHTTP APIを通じた利用が可能です。

特に、異なるモダリティの情報を統合して高度なAI処理を行いたい開発者や、手軽にAIエージェントを構築したいユーザーに適しています。

互換性・特徴

  • TypeScript
  • Node.js
  • マルチモーダルAI
  • REST API
  • ストリーミング
  • Docker

基本情報

Stars12
Forks1
カテゴリASR / 音声認識
アクティビティlow

GitHub: https://github.com/laoposkj/multi-modal-agent-ts