
開発者Ferran Duarri氏が、Linux向けGPUメモリ拡張機構「Nvidia GreenBoost」をオープンソースで公開しました。
GPUのVRAMを超える領域をシステムRAMやNVMeへ透過的に逃がし、推論ソフト側を改修せずに大きなモデルを動かすことを狙った仕組みです。
Nvidia GreenBoostの仕組み
GreenBoostは独立したLinuxカーネルモジュールとCUDAユーザースペースのshimで構成されます。
大きなCUDAメモリ確保要求を横取りし、DDR4メモリをDMA-BUF経由でGPUから参照できる外部メモリとして扱う設計です。
公開説明では、RTX 5070の12GB VRAM環境で31.8GBのモデルを扱うために開発したとされています。
メモリ階層はVRAM、DDR4プール、NVMeスワップの3段構成です。
公式NVIDIAドライバを置き換えるものではなく、CUDAのメモリアロケーション層で動作すると明記されました。
公開された性能目安と制約
作者はPCIe 4.0接続がボトルネックになるため、VRAMを超えた状態では速度低下が起きると説明しています。
glm-4.7-flash:q8_0を用いた例では、量子化やKVキャッシュ圧縮を併用するほど速度改善が見込める構成でした。
動作確認はUbuntu 26.04、Linuxカーネル6.19、NVIDIA driver 580系、Blackwell世代GPUを中心に行われています。
Ada LovelaceやAmpereでも動作見込みは示されていますが、未検証とされています。
Redditで出た反応
Redditでは、VRAM不足でクラッシュしていた推論ワークロードを汎用的に救える可能性があるとして歓迎する声が上がりました。
ComfyUIや各種LLM推論ソフトでも応用できそうだという期待も出ています。
その一方で、既存のCPUオフロードとの差や、カーネル層で行うことで本当に有利になるのかを見極めたいという慎重な反応もありました。
DDR4表記の限定性や、実運用での速度低下を気にする投稿も目立ちます。
参考リンク:


