3,702 repos GH 3,587 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

Multi-Modal-105

★ 5 MIT 更新: 2026-06-06 GitHubで見る →

概要

このプロジェクトは、テキストから画像(T2I)およびテキストから動画(T2V)を生成する、プロダクションレベルかつリサーチグレードのマルチモーダル生成システムです。

VAE、GAN、VQ-VAE、U-Net、DiT、Video DiTなどの最先端の拡散アーキテクチャをゼロから実装しており、DDPM/DDIM/DPM-Solver++サンプラー、分散学習、完全なFID/IS/CLIP評価スイートを提供します。

主な特徴は、正確性、プロダクション対応(混合精度、分散学習)、モジュール性、スケーラビリティ、および拡張性です。

最先端の生成AIシステムを深く理解し、構築・研究したい開発者や研究者に最適です。

互換性・特徴

  • Python
  • PyTorch
  • GPU必須
  • CLI
  • Text-to-Image
  • Text-to-Video

基本情報

ライセンスMIT
Stars5
カテゴリ画像生成
アクティビティlow

GitHub: https://github.com/AdilShamim8/Multi-Modal-105