tokensieve

概要

tokensieveは、VLM（Vision-Language Model）を用いたVQA（Visual Question Answering）タスクにおいて、推論時の「prefill」処理を効率化するツールです。

ByteDanceのTokenflowモデルを基盤としつつ、独自のポリシー学習を通じて、画像と質問から最も重要な視覚的トークンを賢く選択することで、不要な情報処理を削減し、VLMの応答生成を高速化します。

このツールの主な特徴は、質問に基づいて視覚的証拠の重要度を評価し、最適な情報サブセットを選び出す点にあります。

VLMのパフォーマンス向上やコスト削減を目指す研究者や開発者に最適です。

GitHub: https://github.com/plugyawn/tokensieve