655 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

clip-from-scratch

★ 1 MIT 更新: 2026-05-12 GitHubで見る →

概要

このプロジェクトは、PyTorchでContrastive Language-Image Pre-training (CLIP) をゼロから実装したものです。

「同じ意味を持つ画像とテキストを同じ埋め込み空間にマッピングする」というCLIPの核心概念を、InfoNCE損失関数を使ってコードで学ぶことを目的としています。

ResNet-20を画像エンコーダに、4層のTransformerエンコーダをテキストエンコーダに利用し、既存のfrom-scratchプロジェクトのコンポーネントを再利用している点が特徴です。

CIFAR-10データセットと合成キャプションを用いて学習を行い、学習していないテンプレートでも64.6%のzero-shot分類精度を達成しています。

これにより、モデルが単にキャプションを記憶するのではなく、意味を学習していることが示されています。

本ツールは、CLIPの内部動作やマルチモーダルモデルの実装に興味がある開発者や研究者に特に適しています。

互換性・特徴

  • Python
  • PyTorch
  • GPU必須
  • CLI

基本情報

ライセンスMIT
Stars1
カテゴリマルチモーダル
アクティビティlow

GitHub: https://github.com/AD-Styles/clip-from-scratch