3,695 repos GH 3,580 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

マルチモーダル

DeepSeek-VL

★ 4.1k ⑂ 593 MIT 更新: 2024-04-24 GitHubで見る →

#GPU必須 #Hugging Face対応 #Python #オープンソース #マルチモーダル

概要

DeepSeek-VLは、実世界の視覚と言語の理解を目指して開発されたオープンソースのVision-Language (VL) モデルです。

このモデルは、論理図、ウェブページ、数式認識、科学文献、自然画像、エンボディードインテリジェンスといった複雑なシナリオを含む、汎用的なマルチモーダル理解能力を特徴としています。

研究者や開発者が、多岐にわたる情報を処理するマルチモーダルアプリケーションを構築する際に役立ちます。

7Bと1.3Bのモデルサイズがあり、それぞれベースモデルとチャットモデルのバリアントが提供されています。

互換性・特徴

Python
Hugging Face対応
マルチモーダル
オープンソース
GPU必須

基本情報

ライセンス	MIT
Stars	4,129
Forks	593
カテゴリ	マルチモーダル
アクティビティ	mid

最新のissue

ValueError: チェックポイントのモデルタイプ`multi_modality`がTransformersで認識されない。チェックポイントの問題か、Transformersのバージョンが古い可能性。 (更新: 2026-03-18 / ValueError: The checkpoint you are trying to load has model type `multi_modality` but Transformers does not recognize this architecture. This could be because of an issue with the checkpoint, or because your version of Transformers is out of date.)
DeepSeek-VL (更新: 2025-12-05)
ドキュメント: ライブデモが壊れています。 (更新: 2025-11-16 / Documentation: Live demo is broken)

GitHub: https://github.com/deepseek-ai/DeepSeek-VL

← 全リポジトリ一覧へ