
LightricksがHugging FaceでLTX-2.3-nvfp4を公開しました。
これはLTX-2.3のNVFP4版として案内されており、音声と映像を同時に扱う生成モデルの派生チェックポイントです。
モデルカードでは、ベースモデル由来の情報を中心に仕様がまとめられています。
LTX-2.3-nvfp4の概要
LTX-2.3は、単一モデルで同期した映像と音声を生成するDiTベースの音声映像基盤モデルです。
今回公開されたnvfp4版は、22Bの開発向けモデルをNVFP4で提供する位置付けで、精度改善のためにQuantization Aware Distillationを用いたと説明されています。
Hugging Face上では、API Playgroundへの導線に加え、ローカル実行やComfyUI連携の案内も掲載されています。
利用方法と実行条件
ローカル実行では、LTX-2のコードベースとltx-pipelinesを使う形が案内されています。
ComfyUIでは、組み込みのLTXVideoノードや公式ドキュメントを参照する構成です。
一般的な注意点として、幅と高さは32の倍数、フレーム数は8の倍数に1を足した値に合わせる必要があります。
モデルカードでは、DiffusersでのLTX-2.3対応は今後の予定とも記載されています。
SNSでの注目点
SNSでは、Blackwell世代のGPUでメモリ効率や速度面の恩恵が期待できるという前向きな反応が見られました。
一方で、対応が十分でない環境では高精度へ展開されてしまい、想定どおりの高速化が得られないのではないかという指摘も出ています。
VRAM要件や実際の画質、ComfyUI側の対応状況を確認したいという声もあり、実運用面の検証が今後の焦点になりそうです。
参考リンク:


