3,695 repos GH 3,580 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

OmniVideo-100K

★ 47 ⑂ 2 Apache-2.0 更新: 2026-06-19 GitHubで見る →

概要

「OmniVideo-100K」は、音声・視覚推論能力の向上を目指す大規模データセットと、そのための自動データ合成エンジンを提供します。

既存のビデオキャプションQAにおける課題(モダリティバイアス、時間的ミスアライメントなど)を解決するため、生のビデオを構造化されたスクリプトに変換し、そこから複雑なQAペアを生成する独自の二段階メカニズムを特徴とします。

具体的には、エンティティアンカー型ビデオスクリプト作成と手がかりガイド型QA生成を通じて、長期的な時間的スパンと深いクロスモーダル依存関係を持つデータを生み出します。

本プロジェクトは、OmniVideo-100Kデータセットと人間が検証したOmniVideo-Testセットを提供し、大規模マルチモーダルモデル(MLLMs)のトレーニングと評価を行う研究者や開発者が、より高度なオーディオ・ビジュアル推論システムを構築することを支援します。

Linux環境とPython 3.12+が推奨されます。

互換性・特徴

  • データセット
  • Python
  • CLI
  • Linux
  • オーディオ・ビジュアル
  • MLLM

基本情報

ライセンスApache-2.0
Stars47
Forks2
カテゴリマルチモーダル
アクティビティlow

最新のissue

GitHub: https://github.com/MiG-NJU/OmniVideo-100K