14B動画生成モデル「Helios」公開、H100で19.5FPSのリアルタイム性能を実現

北京大学のYuanGroupを中心とした研究チームは、140億パラメータ（14B）規模の動画生成モデル「Helios」の公式実装をGitHub上で公開しました。

このモデルは、単一のH100 GPUにおいて毎秒19.5フレーム（FPS）という驚異的な推論速度を実現しており、長時間の動画生成における新たなマイルストーンとなることが期待されています。

14Bモデルで実現するリアルタイムな長時間動画生成「Helios」の革新性
3段階の学習パイプラインとモデルのバリエーション
動画生成モデルHeliosに対するSNSの反応
エコシステムとの連携と今後の展望

14Bモデルで実現するリアルタイムな長時間動画生成「Helios」の革新性

Heliosは、従来の長時間動画生成で課題となっていた「品質の劣化（ドリフト）」を防ぐための自己強制（Self-forcing）やキーフレームサンプリングといった一般的な戦略に頼ることなく、高い一貫性を維持した分単位の動画生成を可能にしています。

公式リポジトリの解説によると、本モデルはKVキャッシュやスパース・アテンション、量子化といった標準的な加速技術を用いずに、単一のH100 GPUで19.5 FPS、Ascend NPUでも約10 FPSという高いパフォーマンスを発揮。

研究チームは、画像拡散モデル並みのバッチサイズでの学習を可能にする最適化を導入しており、80GBのGPUメモリ内に最大4つの14Bモデルを収容できるほどのメモリ効率を実現していると述べています。

3段階の学習パイプラインとモデルのバリエーション

Heliosの性能を支えるのは、技術報告書で詳述されている3段階のプログレッシブ・パイプラインです。各段階に応じて、用途の異なる3つのモデルが提供されています。

Helios-Base：最高品質を追求した基本モデル。テキスト、画像、動画の各入力に対応。
Helios-Mid：蒸留過程の中間チェックポイントであり、計算量を削減するピラミッド型予測手法が導入。
Helios-Distilled：最高効率を誇る蒸留済みモデル。サンプリングステップを大幅に削減し、CFG（分類器フリーガイダンス）を不要にしながら、33フレーム単位の自己回帰的な生成を行う。

動画生成モデルHeliosに対するSNSの反応

海外掲示板のRedditを中心に、この新しいモデルの性能と実用性について活発な議論が交わされています。主な反応は以下の通りです。

肯定的な意見・期待：
- 加速技術なしでこの速度が出せるのであれば、消費者向けのグラフィックボード（RTX 4090など）でも10 FPS程度の動作が期待できるのではないかという楽観的な声が上がっています。
- 公開されたデモ動画、特にSUVの走行シーンについて、ディテールや物理演算の正確さ、独創的なカメラアングルが高く評価されています。
- 対話型ビデオやライブストリーミングへの応用など、新たなクリエイティブの可能性に興奮を示すユーザーが見受けられます。

慎重・否定的な意見：

「リアルタイム」という表現がH100などのハイエンドGPUを基準としている点について、細部をよく読むべきだという注意喚起がなされています。
速度を重視するモデルは、通常の推論モデルと比較して品質が犠牲になる傾向があるため、実際の出力クオリティを確認するまでは判断を保留するという慎重な立場も存在します。
「ComfyUI」などの主要なツールへの対応時期を気にするユーザーや、Wan 2.1ベースであることによる既存モデルとの差異を問う声も出ています。

エコシステムとの連携と今後の展望

Heliosは公開初日から、HuggingFaceのDiffusers、vLLM-Omni、SGLang-Diffusionといった主要な推論フレームワークへの対応を表明しています。これにより、開発者は既存のインフラを利用して迅速にHeliosを試用することが可能です。

技術報告書によれば、本モデルはWan 2.1 T2V 14Bをベースに初期化され、独自の履歴注入（History Injection）やメモリパッチ化技術によって自己回帰型の生成器へと変換されています。今後、コミュニティによる最適化が進むことで、より身近なハードウェアでの動作や応用事例の拡大が期待されます。

参考リンク：