概要
tokensieveは、VLM(Vision-Language Model)を用いたVQA(Visual Question Answering)タスクにおいて、推論時の「prefill」処理を効率化するツールです。
ByteDanceのTokenflowモデルを基盤としつつ、独自のポリシー学習を通じて、画像と質問から最も重要な視覚的トークンを賢く選択することで、不要な情報処理を削減し、VLMの応答生成を高速化します。
このツールの主な特徴は、質問に基づいて視覚的証拠の重要度を評価し、最適な情報サブセットを選び出す点にあります。
VLMのパフォーマンス向上やコスト削減を目指す研究者や開発者に最適です。
互換性・特徴
- VLM
- VQA
- 機械学習
- Python
- CLI
基本情報
| Stars | 1 |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
