概要
DeepSeek-VLは、実世界の視覚と言語の理解を目指して開発されたオープンソースのVision-Language (VL) モデルです。
このモデルは、論理図、ウェブページ、数式認識、科学文献、自然画像、エンボディードインテリジェンスといった複雑なシナリオを含む、汎用的なマルチモーダル理解能力を特徴としています。
研究者や開発者が、多岐にわたる情報を処理するマルチモーダルアプリケーションを構築する際に役立ちます。
7Bと1.3Bのモデルサイズがあり、それぞれベースモデルとチャットモデルのバリアントが提供されています。
互換性・特徴
- Python
- Hugging Face対応
- マルチモーダル
- オープンソース
- GPU必須
基本情報
| ライセンス | MIT |
| Stars | 4,129 |
| Forks | 593 |
| カテゴリ | マルチモーダル |
| アクティビティ | mid |
最新のissue
- ValueError: チェックポイントのモデルタイプ`multi_modality`がTransformersで認識されない。チェックポイントの問題か、Transformersのバージョンが古い可能性。 (更新: 2026-03-18 / ValueError: The checkpoint you are trying to load has model type `multi_modality` but Transformers does not recognize this architecture. This could be because of an issue with the checkpoint, or because your version of Transformers is out of date.)
- DeepSeek-VL (更新: 2025-12-05)
- ドキュメント: ライブデモが壊れています。 (更新: 2025-11-16 / Documentation: Live demo is broken)
