概要
AURAは、映像ストリームを継続的に理解し、音声対話を通じてリアルタイム支援を行うマルチモーダル動画理解システムです。
Qwen3-VL-8B-Instructをベースに、常時入力される映像を解析しながらユーザーと対話できる点が特徴で、監視、現場支援、ライブ解析、対話型アシスタント用途に向いています。
研究者や開発者が、リアルタイム動画理解と音声インタラクションを組み合わせたAIシステムを実装・検証するためのプロジェクトです。
互換性・特徴
- Python
- Transformers
- 動画理解
- 音声対話
- マルチモーダル
- リアルタイム
基本情報
| ライセンス | apache-2.0 |
| Likes | 12 |
| Downloads | 659 |
| Pipeline | video-text-to-text |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
HuggingFace: https://huggingface.co/aurateam/AURA