Multi-Modal-105

概要

このプロジェクトは、テキストから画像（T2I）およびテキストから動画（T2V）を生成する、プロダクションレベルかつリサーチグレードのマルチモーダル生成システムです。

VAE、GAN、VQ-VAE、U-Net、DiT、Video DiTなどの最先端の拡散アーキテクチャをゼロから実装しており、DDPM/DDIM/DPM-Solver++サンプラー、分散学習、完全なFID/IS/CLIP評価スイートを提供します。

主な特徴は、正確性、プロダクション対応（混合精度、分散学習）、モジュール性、スケーラビリティ、および拡張性です。

最先端の生成AIシステムを深く理解し、構築・研究したい開発者や研究者に最適です。

GitHub: https://github.com/AdilShamim8/Multi-Modal-105