Multimodal-Edge-Node

概要

Multimodal-Edge-Nodeは、実験的なノードベースの視覚的推論とマルチモーダル推論キャンバスです。

ユーザーはカスタマイズされたWebインターフェースを通じて、画像入力、10種類の先進的な視覚言語モデルの選択、タスクパラメーター（クエリ、キャプション、ポイント、検出など）を視覚的に接続し、リアルタイムのストリーミング出力を確認できます。

「Grounding Visualiser」ノードにより、モデルからのJSON座標出力を解析し、バウンディングボックスやポイントマーカーを画像に直接レンダリングします。

CUDA対応GPU上で動作し、空間的グラウンディング、光学文字認識、指示追従能力をテストするための強力なインタラクティブサンドボックスとして機能します。

開発者や研究者が最先端のVLMを視覚的に探索・テストするのに適しています。

GitHub: https://github.com/PRITHIVSAKTHIUR/Multimodal-Edge-Node