概要
M-LongDocは、EMNLP 2025で採択されたマルチモーダル超長文ドキュメント理解のための挑戦的なベンチマークと、検索対応チューニングフレームワークを提供するリポジトリです。
平均200ページを超える、テキスト、図、表が混在する実世界のドキュメント(学術論文、財務報告書、製品マニュアルなど)に対し、オープンエンドで詳細な回答を生成するモデルの能力を評価します。
既存モデルが図表ベースの質問や無関係な情報に苦戦する中、提案されるチューニングフレームワークは関連情報を活用しつつ不要なコンテンツを無視することで、モデル性能を向上させます。
大規模マルチモーダルモデルの研究者や開発者、特に長文読解能力の評価・改善に関心のあるユーザーに適しています。
互換性・特徴
- Python
- GPU必須
- データセット
- 研究プロジェクト
基本情報
| Stars | 1 |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
GitHub: https://github.com/kenchan0226/multimodal-docs-public
