1,644 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

synthvision

★ 32 ⑂ 5 更新: 2026-03-23 GitHubで見る →

概要

SynthVisionは、医療画像VQA(Visual Question Answering)データセットの生成と、それを用いたVLM(Vision Language Model)のファインチューニングを行うためのPython製パイプラインです。

Qwen 3.5やKimi K2.5といったフロンティアVLMで119K枚の医療画像をアノテーションし、93%の高い合意率でクロスバリデーションされた110Kの訓練レコードを生成します。

これにより、2〜30億パラメータの小型VLMの性能を大幅に向上させ、特にQwen3.5-2Bモデルでは平均正解率が15.0%向上しました。

医療AI研究者やVLM開発者が、高品質な医療VQAデータセットを構築し、効率的にモデルをファインチューニングすることを想定しています。

Hugging Face Hubとの連携により、生成されたデータセットやファインチューニング済みモデルも公開されており、再利用が容易です。

互換性・特徴

  • Python
  • CLI
  • GPU必須
  • Hugging Face
  • 医療AI
  • データセット生成

基本情報

Stars32
Forks5
カテゴリマルチモーダル
アクティビティlow

GitHub: https://github.com/openmed-labs/synthvision