vllm | AIAI Hub

概要

vLLMは、大規模言語モデル (LLM) の高速かつ効率的な推論とサービングを可能にするPythonライブラリです。

最先端のスループットを実現し、PagedAttentionによるメモリ効率の良い管理、継続的なバッチ処理、多様な量子化、最適化されたカーネル群を特徴とします。

Hugging Faceの200以上のモデルアーキテクチャにシームレスに対応し、OpenAI互換APIサーバーも提供します。

NVIDIA、AMD、x86/ARM/PowerPC CPUといった幅広いハードウェアをサポートし、LLMの運用コスト削減とパフォーマンス向上を目指す開発者や研究者に最適なツールです。

分散推論やストリーミング出力もサポートしています。

最新リリース: v0.23.0 (2026-06-12)

GitHub: https://github.com/vllm-project/vllm