概要
MiniMind-Vは、わずか3ドルと2時間で65MパラメータのビジョンマルチモーダルVLMをゼロから訓練できるプロジェクトです。
GPT3の約1/2600という超小型サイズで、個人のGPUでも高速な推論や訓練を可能にします。
VLMの極めてシンプルな構造、データセットのクリーニング、事前学習、SFTといった全過程のコードが含まれており、視覚言語モデル入門者にも最適なガイドとなります。
手軽にAIの創造性を体験したい開発者や研究者に特に推奨されます。
互換性・特徴
- Python
- GPU必須
- CLI
- Apache 2.0 License
- VLM
- Hugging Face
基本情報
| ライセンス | Apache-2.0 |
| Stars | 7,957 |
| Forks | 866 |
| カテゴリ | マルチモーダル |
| アクティビティ | high |
最新のissue
- V4認識技術をゼロから学べるシリーズ追加の検討 (更新: 2026-05-02 / 可能增加V4识别的从0系列)
- ONNXエクスポート機能の実現可能性と実装について (更新: 2026-04-23 / 导出ONNX)
- OCR認識機能をシステムへ統合するための具体的な方法 (更新: 2026-04-10 / 请问如何集成OCR识别的能力呢?)
最新リリース: MiniMind-V Docs (2025-10-21)
