概要
SAM3-LiteTextは、最先端の画像セグメンテーションモデルSAM3の軽量版です。
重いSAM3のテキストエンコーダーをMobileCLIPベースのコンパクトなものに置き換えることで、テキストエンコーダーのパラメータ数を最大88%削減しつつ、元のSAM3と同等のセグメンテーション性能を維持します。
これにより、限られた計算リソースで、プロンプト駆動型のビジョン・言語セグメンテーション(画像とテキストを用いたオブジェクトの検出・分離)を実現したい開発者や研究者に最適です。
PythonのHugging Face Transformersライブラリを通じて簡単に利用でき、画像とテキストプロンプトによる柔軟なセグメンテーションが可能です。
互換性・特徴
- Python
- Hugging Face Transformers
- 画像セグメンテーション
- Vision-Languageモデル
- GPU推奨
基本情報
| ライセンス | apache-2.0 |
| Likes | 19 |
| Downloads | 5,985 |
| Pipeline | mask-generation |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
HuggingFace: https://huggingface.co/yonigozlan/sam3-litetext-s0
