openvino-gpu-llm-server

概要

このプロジェクトは、Intel統合GPU（特にUHD 620以降）に最適化された、OpenAI互換のLLM推論APIサーバーです。

OpenVINO GenAIバックエンドとoneAPI Level Zeroドライバーを活用し、専用VRAMなしで最大12B+パラメータの大規模コーディングモデルをローカルで実行可能にします。

4GBのメモリ制限を回避し、共有システムメモリ全体を活用できるのが特徴です。

また、ブロックベースのコード生成に最適化されたDiffusion Text Modelsもサポートしています。

これにより、低スペックGPUを持つ開発者や研究者が、高性能なローカルAIアシスタンスを享受できます。

GitHub: https://github.com/naranor/openvino-gpu-llm-server