概要
このリポジトリは、EAMT 2026の論文「Towards Visually-Guided Movie Subtitle Translation for Indic Languages」で発表された、視覚情報を用いた映画字幕の翻訳システムです。
英語の映画字幕をベンガル語、ヒンディー語などの低リソースなインド系5言語へ、動画フレームから抽出した視覚的文脈を利用して翻訳します。
FastVLMによる視覚記述抽出、2種類の視覚情報要約方法、Qwen-2.5-7B-Instructによるゼロショット翻訳、そして翻訳精度の低いセグメントのみに視覚情報を適用する「選択的グラウンディング」が特徴です。
これにより、効率的に翻訳品質(COMETスコア)を向上させます。
機械翻訳の研究者、特にマルチモーダル学習や低リソース言語の翻訳に関心のある開発者や研究者が想定ユーザーです。
互換性・特徴
- Python
- GPU必須
- CLI
- PyTorch
- 機械翻訳
- マルチモーダル
基本情報
| ライセンス | Apache-2.0 |
| Stars | 1 |
| カテゴリ | LLM |
| アクティビティ | low |
GitHub: https://github.com/Tarunc224/visually-guided-subtitle-translation
