3,702 repos GH 3,587 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

visually-guided-subtitle-translation

★ 1 Apache-2.0 更新: 2026-05-20 GitHubで見る →

概要

このリポジトリは、EAMT 2026の論文「Towards Visually-Guided Movie Subtitle Translation for Indic Languages」で発表された、視覚情報を用いた映画字幕の翻訳システムです。

英語の映画字幕をベンガル語、ヒンディー語などの低リソースなインド系5言語へ、動画フレームから抽出した視覚的文脈を利用して翻訳します。

FastVLMによる視覚記述抽出、2種類の視覚情報要約方法、Qwen-2.5-7B-Instructによるゼロショット翻訳、そして翻訳精度の低いセグメントのみに視覚情報を適用する「選択的グラウンディング」が特徴です。

これにより、効率的に翻訳品質(COMETスコア)を向上させます。

機械翻訳の研究者、特にマルチモーダル学習や低リソース言語の翻訳に関心のある開発者や研究者が想定ユーザーです。

互換性・特徴

  • Python
  • GPU必須
  • CLI
  • PyTorch
  • 機械翻訳
  • マルチモーダル

基本情報

ライセンスApache-2.0
Stars1
カテゴリLLM
アクティビティlow

GitHub: https://github.com/Tarunc224/visually-guided-subtitle-translation