概要
「OmniVideo-100K」は、音声・視覚推論能力の向上を目指す大規模データセットと、そのための自動データ合成エンジンを提供します。
既存のビデオキャプションQAにおける課題(モダリティバイアス、時間的ミスアライメントなど)を解決するため、生のビデオを構造化されたスクリプトに変換し、そこから複雑なQAペアを生成する独自の二段階メカニズムを特徴とします。
具体的には、エンティティアンカー型ビデオスクリプト作成と手がかりガイド型QA生成を通じて、長期的な時間的スパンと深いクロスモーダル依存関係を持つデータを生み出します。
本プロジェクトは、OmniVideo-100Kデータセットと人間が検証したOmniVideo-Testセットを提供し、大規模マルチモーダルモデル(MLLMs)のトレーニングと評価を行う研究者や開発者が、より高度なオーディオ・ビジュアル推論システムを構築することを支援します。
Linux環境とPython 3.12+が推奨されます。
互換性・特徴
- データセット
- Python
- CLI
- Linux
- オーディオ・ビジュアル
- MLLM
基本情報
| ライセンス | Apache-2.0 |
| Stars | 47 |
| Forks | 2 |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
最新のissue
- Entity-Anchored Video Script开源 (更新: 2026-06-19)
- 推荐补充相关引用文章 (更新: 2026-06-17)
