visually-guided-subtitle-translation

概要

このリポジトリは、EAMT 2026の論文「Towards Visually-Guided Movie Subtitle Translation for Indic Languages」で発表された、視覚情報を用いた映画字幕の翻訳システムです。

英語の映画字幕をベンガル語、ヒンディー語などの低リソースなインド系5言語へ、動画フレームから抽出した視覚的文脈を利用して翻訳します。

FastVLMによる視覚記述抽出、2種類の視覚情報要約方法、Qwen-2.5-7B-Instructによるゼロショット翻訳、そして翻訳精度の低いセグメントのみに視覚情報を適用する「選択的グラウンディング」が特徴です。

これにより、効率的に翻訳品質（COMETスコア）を向上させます。

機械翻訳の研究者、特にマルチモーダル学習や低リソース言語の翻訳に関心のある開発者や研究者が想定ユーザーです。

GitHub: https://github.com/Tarunc224/visually-guided-subtitle-translation