概要
vLLMは、大規模言語モデル (LLM) の高速かつ効率的な推論とサービングを可能にするPythonライブラリです。
最先端のスループットを実現し、PagedAttentionによるメモリ効率の良い管理、継続的なバッチ処理、多様な量子化、最適化されたカーネル群を特徴とします。
Hugging Faceの200以上のモデルアーキテクチャにシームレスに対応し、OpenAI互換APIサーバーも提供します。
NVIDIA、AMD、x86/ARM/PowerPC CPUといった幅広いハードウェアをサポートし、LLMの運用コスト削減とパフォーマンス向上を目指す開発者や研究者に最適なツールです。
分散推論やストリーミング出力もサポートしています。
互換性・特徴
- Python
- CLI
- GPU必須
- OpenAI互換API
- Hugging Face対応
- 分散推論
基本情報
| ライセンス | Apache-2.0 |
| Stars | 82,826 |
| Forks | 18,042 |
| カテゴリ | LLM |
| アクティビティ | high |
最新リリース: v0.23.0 (2026-06-12)
