
Googleは、テキストと画像に加えて動画、音声、文書も単一の埋め込み空間で扱える「Gemini Embedding 2」を公開しました。
Gemini APIとVertex AIでパブリックプレビューとして提供が始まっています。
Gemini Embedding 2の主な特徴
Gemini Embedding 2は、100以上の言語に対応し、複数モダリティの意味的な近さを一つの表現空間に写像できる点が特徴です。
対応入力としては、テキスト、画像、動画、音声、PDF文書が案内されました。
画像とテキストのような混在入力にも対応し、検索や分類、RAGのための前処理を単純化できると説明されています。
出力次元と利用例
標準の3072次元に加え、1536や768などへ縮小できるMatryoshka Representation Learningも引き続き採用されています。
これにより、性能とストレージコストのバランスを用途に応じて調整可能。
Googleは法務分野の情報探索などを例に挙げ、画像や動画を含む検索精度の改善につながると紹介しました。
Gemini Embedding 2に対するSNSの反応
SNSでは、複数モダリティを一つの埋め込みモデルで扱える点を高く評価し、既存の検索や分類基盤を置き換えたいという声が見られました。
一方で、価格改定やテキスト埋め込み単体での品質差、音声とテキストの横断検索の実用性を慎重に見極めたいという反応も。
公開ペースの速さに驚く声もあり、競合各社への影響を意識したコメントも目立っています。
参考リンク:

