概要
Qwen-VLは、Alibaba Cloudが開発した大規模ビジョン言語モデル「通义千问-VL」の公式リポジトリです。
Qwen-VL-PlusおよびQwen-VL-Maxは、画像関連の推論能力と詳細認識能力が大幅に強化され、100万ピクセルを超える高解像度画像や極端なアスペクト比にも対応します。
特に、テキスト指向のタスクにおいて高い性能を発揮し、中国語の質問応答やテキスト理解ではGPT-4VやGeminiを凌駕します。
Hugging FaceやModelScope、Web、API、モバイルアプリを通じて利用可能で、AIアプリケーション開発者やマルチモーダルAIの研究者、特に中国語圏のユーザーに適しています。
互換性・特徴
- Web UI
- API対応
- モバイルアプリ
- Hugging Face対応
- ModelScope対応
- 日本語対応
基本情報
| ライセンス | NOASSERTION |
| Stars | 6,654 |
| Forks | 489 |
| カテゴリ | マルチモーダル |
| アクティビティ | mid |
