3,695 repos GH 3,580 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

DeepSeek-VL

★ 4.1k ⑂ 593 MIT 更新: 2024-04-24 GitHubで見る →

概要

DeepSeek-VLは、実世界の視覚と言語の理解を目指して開発されたオープンソースのVision-Language (VL) モデルです。

このモデルは、論理図、ウェブページ、数式認識、科学文献、自然画像、エンボディードインテリジェンスといった複雑なシナリオを含む、汎用的なマルチモーダル理解能力を特徴としています。

研究者や開発者が、多岐にわたる情報を処理するマルチモーダルアプリケーションを構築する際に役立ちます。

7Bと1.3Bのモデルサイズがあり、それぞれベースモデルとチャットモデルのバリアントが提供されています。

互換性・特徴

  • Python
  • Hugging Face対応
  • マルチモーダル
  • オープンソース
  • GPU必須

基本情報

ライセンスMIT
Stars4,129
Forks593
カテゴリマルチモーダル
アクティビティmid

最新のissue

GitHub: https://github.com/deepseek-ai/DeepSeek-VL