概要
mlx-mtpは、Apple Silicon上で大規模なVision-Language Models (VLM) を高速かつローカルで実行するために設計された、モジュラーな量子化および推論ライブラリです。
視覚情報を保持しつつ、8ビットaffine (oQ) やMXFP4などの複数の量子化形式をサポートし、大幅なメモリ削減と推論速度の向上を実現します。
特に、モデル自身のMTP (Multi-Token Prediction) ヘッドを活用するネイティブなスペキュラティブデコーディングにより、最大1.62倍の高速化を達成します。
また、DFlashブロック拡散やこれらを組み合わせたハイブリッドデコーディングも提供します。
Apple Silicon搭載デバイスでVLMのローカル実行を最適化したい開発者や研究者、特にQwen3.5/3.6ファミリーのVLM利用者に最適です。
互換性・特徴
- Apple Silicon対応
- VLM対応
- 量子化
- 推論
- Python
- CLI
基本情報
| ライセンス | Apache-2.0 |
| Stars | 1 |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
