マルチモーダル HF tipsv2-b14TIPSv2 B/14は、画像とテキストを同じ埋め込み空間で扱えるGoogle系の視覚言語モデルです。画像全体の特徴量だけでな… #CLI #GPU推論対応 ❤ 95 ↓ 12.1k apache-2.0 2026-04-14