3,134 repos GH 3,019 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

multimodal-docs-public

★ 1 更新: 2026-06-09 GitHubで見る →

概要

M-LongDocは、EMNLP 2025で採択されたマルチモーダル超長文ドキュメント理解のための挑戦的なベンチマークと、検索対応チューニングフレームワークを提供するリポジトリです。

平均200ページを超える、テキスト、図、表が混在する実世界のドキュメント(学術論文、財務報告書、製品マニュアルなど)に対し、オープンエンドで詳細な回答を生成するモデルの能力を評価します。

既存モデルが図表ベースの質問や無関係な情報に苦戦する中、提案されるチューニングフレームワークは関連情報を活用しつつ不要なコンテンツを無視することで、モデル性能を向上させます。

大規模マルチモーダルモデルの研究者や開発者、特に長文読解能力の評価・改善に関心のあるユーザーに適しています。

互換性・特徴

  • Python
  • GPU必須
  • データセット
  • 研究プロジェクト

基本情報

Stars1
カテゴリマルチモーダル
アクティビティlow

GitHub: https://github.com/kenchan0226/multimodal-docs-public