540 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

multimodal-music-genre-classifier

★ 1 MIT 更新: 2026-05-13 GitHubで見る →

概要

このツールは、GTZANデータセットを用いた音楽ジャンル分類のためのマルチモーダルCNNモデルを提供します。

メルスペクトログラム、STFTスペクトログラム、クロマグラムの3つの音響モダリティと、MFCCsなどの表形式MIR特徴を融合することで、単一モダリティのベースラインを大きく上回る81.11%の最高精度を達成しました。

ImageNetで事前学習されたResNet-18バックボーンを共有する3段階のモデルアーキテクチャが特徴です。

音楽ジャンル分類の精度向上を目指す研究者や開発者、特にPyTorchとGPU環境を利用するユーザーに適しています。

訓練済みモデルのチェックポイントや生成されたスペクトログラムなどはHugging Faceで公開されており、容易に再現可能です。

互換性・特徴

  • Python
  • PyTorch
  • GPU必須
  • Jupyter Notebook
  • CLI

基本情報

ライセンスMIT
Stars1
カテゴリマルチモーダル
アクティビティlow

GitHub: https://github.com/tristantanjh/multimodal-music-genre-classifier