multimodal-music-genre-classifier

概要

このツールは、GTZANデータセットを用いた音楽ジャンル分類のためのマルチモーダルCNNモデルを提供します。

メルスペクトログラム、STFTスペクトログラム、クロマグラムの3つの音響モダリティと、MFCCsなどの表形式MIR特徴を融合することで、単一モダリティのベースラインを大きく上回る81.11%の最高精度を達成しました。

ImageNetで事前学習されたResNet-18バックボーンを共有する3段階のモデルアーキテクチャが特徴です。

音楽ジャンル分類の精度向上を目指す研究者や開発者、特にPyTorchとGPU環境を利用するユーザーに適しています。

訓練済みモデルのチェックポイントや生成されたスペクトログラムなどはHugging Faceで公開されており、容易に再現可能です。

GitHub: https://github.com/tristantanjh/multimodal-music-genre-classifier