mlx-mtp

概要

mlx-mtpは、Apple Silicon上で大規模なVision-Language Models (VLM) を高速かつローカルで実行するために設計された、モジュラーな量子化および推論ライブラリです。

視覚情報を保持しつつ、8ビットaffine (oQ) やMXFP4などの複数の量子化形式をサポートし、大幅なメモリ削減と推論速度の向上を実現します。

特に、モデル自身のMTP (Multi-Token Prediction) ヘッドを活用するネイティブなスペキュラティブデコーディングにより、最大1.62倍の高速化を達成します。

また、DFlashブロック拡散やこれらを組み合わせたハイブリッドデコーディングも提供します。

Apple Silicon搭載デバイスでVLMのローカル実行を最適化したい開発者や研究者、特にQwen3.5/3.6ファミリーのVLM利用者に最適です。

GitHub: https://github.com/junainfinity/mlx-mtp