FLUX.2 [klein] 9B-KV公開、複数参照画像の編集を最大2.5倍高速化

ComfyUI

2026.03.13

Black Forest Labsは、画像生成モデル「FLUX.2 [klein] 9B-KV」を公開しました。

複数の参照画像を使う編集処理で、計算の重複を減らして高速化する派生モデルです。

FLUX.2 [klein] 9B-KVの概要

Hugging Faceのモデルカードによると、新モデルはFLUX.2 [klein] 9BにKVキャッシュ機構を加えた最適化版です。

最初のデノイジング段階で参照画像のキーとバリューをキャッシュし、後続ステップでは同じ計算を繰り返さない構成だと説明されています。

これにより、複数参照画像を用いる編集タスクでは推論速度が最大2.5倍向上するとされています。

モデルは9Bのflow modelと8BのQwen3 text embedderで構成され、4ステップ推論向けに蒸留済みです。

用途としては、同じ参照画像を使い回すバリエーション生成や、対話的な編集アプリケーションが想定されています。

Black Forest Labsは、このモデルがテキスト生成用ではなく、事実情報の提供にも向かないと明記しました。

出力テキストの正確性には限界があり、プロンプト追従や生成品質には偏りや失敗の可能性があるという位置付けです。

ライセンスは非商用利用向けで、API経由ではBFL APIからも利用できると案内されています。

ハードウェア要件としては約29GBのVRAMを必要とし、NVIDIA RTX 5090以上を想定した記述があります。

Redditでは、複数参照画像の編集が大きく高速化する点を歓迎する声が目立ちました。

通常版のKlein 9Bより数十秒単位で短縮できたという報告もあり、キャラクター一貫性の用途で期待する意見が出ています。

一方で、公開直後はComfyUIのKV Cacheノード周辺でOOMや停止が起きたという指摘も相次ぎました。

ワークフロー修正後に改善したという報告があるものの、VRAM消費が大きい、単一画像編集では利点が薄いといった慎重な見方もあります。

そのため、モデル自体の高速化効果への評価と、実運用でのメモリ要件や周辺実装への不安が併存している状況です。

参考リンク：