mlx-serve

概要

mlx-serveは、Apple Silicon搭載Mac (M1+以降) 向けのローカル推論サーバーです。

このツールは、AppleのネイティブMLXフレームワークを活用し、LLM、画像認識、埋め込み、TTS、STTといった多様なMLXモデルをオンデマンドでホットスワップします。

メモリを効率的に使用するため、常に1つのモデルのみをロードし、非アクティブ時には自動でアンロードします。

OpenAI互換のAPIを提供するため、既存のOpenAI SDKやLiteLLMなどと簡単に統合できます。

CLI操作に対応し、YAML設定でモデル管理が可能で、開発者や研究者がApple Silicon上で高性能かつ柔軟なローカルAI推論環境を構築するのに最適です。

最新リリース: v0.1.0 (2026-03-31)

GitHub: https://github.com/raspoli/mlx-serve