3,695 repos GH 3,580 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

マルチモーダル

OmniVideo-100K

★ 47 ⑂ 2 Apache-2.0 更新: 2026-06-19 GitHubで見る →

#CLI #Linux #MLLM #Python #オーディオ・ビジュアル #データセット

概要

「OmniVideo-100K」は、音声・視覚推論能力の向上を目指す大規模データセットと、そのための自動データ合成エンジンを提供します。

既存のビデオキャプションQAにおける課題（モダリティバイアス、時間的ミスアライメントなど）を解決するため、生のビデオを構造化されたスクリプトに変換し、そこから複雑なQAペアを生成する独自の二段階メカニズムを特徴とします。

具体的には、エンティティアンカー型ビデオスクリプト作成と手がかりガイド型QA生成を通じて、長期的な時間的スパンと深いクロスモーダル依存関係を持つデータを生み出します。

本プロジェクトは、OmniVideo-100Kデータセットと人間が検証したOmniVideo-Testセットを提供し、大規模マルチモーダルモデル（MLLMs）のトレーニングと評価を行う研究者や開発者が、より高度なオーディオ・ビジュアル推論システムを構築することを支援します。

Linux環境とPython 3.12+が推奨されます。

互換性・特徴

データセット
Python
CLI
Linux
オーディオ・ビジュアル
MLLM

基本情報

ライセンス	Apache-2.0
Stars	47
Forks	2
カテゴリ	マルチモーダル
アクティビティ	low

最新のissue

Entity-Anchored Video Script开源 (更新: 2026-06-19)
推荐补充相关引用文章 (更新: 2026-06-17)

GitHub: https://github.com/MiG-NJU/OmniVideo-100K

← 全リポジトリ一覧へ