sam3-litetext-s0

概要

SAM3-LiteTextは、最先端の画像セグメンテーションモデルSAM3の軽量版です。

重いSAM3のテキストエンコーダーをMobileCLIPベースのコンパクトなものに置き換えることで、テキストエンコーダーのパラメータ数を最大88%削減しつつ、元のSAM3と同等のセグメンテーション性能を維持します。

これにより、限られた計算リソースで、プロンプト駆動型のビジョン・言語セグメンテーション（画像とテキストを用いたオブジェクトの検出・分離）を実現したい開発者や研究者に最適です。

PythonのHugging Face Transformersライブラリを通じて簡単に利用でき、画像とテキストプロンプトによる柔軟なセグメンテーションが可能です。

HuggingFace: https://huggingface.co/yonigozlan/sam3-litetext-s0