1,738 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

Multimodal-Edge-Node

★ 5 Apache-2.0 更新: 2026-05-01 GitHubで見る →

概要

Multimodal-Edge-Nodeは、実験的なノードベースの視覚的推論とマルチモーダル推論キャンバスです。

ユーザーはカスタマイズされたWebインターフェースを通じて、画像入力、10種類の先進的な視覚言語モデルの選択、タスクパラメーター(クエリ、キャプション、ポイント、検出など)を視覚的に接続し、リアルタイムのストリーミング出力を確認できます。

「Grounding Visualiser」ノードにより、モデルからのJSON座標出力を解析し、バウンディングボックスやポイントマーカーを画像に直接レンダリングします。

CUDA対応GPU上で動作し、空間的グラウンディング、光学文字認識、指示追従能力をテストするための強力なインタラクティブサンドボックスとして機能します。

開発者や研究者が最先端のVLMを視覚的に探索・テストするのに適しています。

互換性・特徴

  • Web UI
  • GPU必須
  • Python
  • ノードベース
  • マルチモーダル
  • リアルタイム

基本情報

ライセンスApache-2.0
Stars5
カテゴリマルチモーダル
アクティビティlow

GitHub: https://github.com/PRITHIVSAKTHIUR/Multimodal-Edge-Node