概要
このリポジトリは、SenseNovaの「Neo-Unify」に触発された、エンコーダフリーの統合マルチモーダルモデルの実験的な実装です。
Mixture-of-Transformers (MoT) アーキテクチャを基盤とし、MLXとApple Silicon上で動作します。
目的は、単一のトランスフォーマーバックボーンで画像認識(分類)と画像生成(フローマッチング)を統合できるかを探求することです。
合成された16×16の画像データセットを使用し、トイレベルでの動作検証を行っています。
マルチモーダルAIの研究者や、Apple Silicon環境での機械学習に関心のある開発者向けのプロジェクトです。
互換性・特徴
- MLX対応
- Apple Silicon対応
- GPU必須
- Python
- マルチモーダルAI
- 画像認識
- 画像生成
基本情報
| Stars | 42 |
| Forks | 1 |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
