speech-emotion-recognition-transfer-learning

概要

このプロジェクトは、音声感情認識（SER）におけるテキストのみ（RoBERTa）、音声のみ（wav2vec2/WavLM/HuBERT）、およびマルチモーダル融合の転移学習アプローチを比較研究するものです。

RAVDESS、MELD、IEMOCAPといった主要なデータセットを使用し、PyTorch Lightning、HuggingFaceのTransformersライブラリを活用してモデルを構築しています。

また、Gradioを使ったデモも提供されており、研究者や開発者が容易に結果を検証できます。

特に、南アジアのインド・アーリア語における音声感情認識の課題にも焦点を当てており、これらの言語における転移学習の振る舞いや失敗モードを詳細に分析したい研究者や、最先端の音声感情認識モデルに関心のある機械学習エンジニアに最適なツールです。

最新リリース: v2.0.0 — Cross-Lingual Indo-Aryan SER (failure-modes audit) (2026-06-16)

GitHub: https://github.com/ShahnawazKakarh/speech-emotion-recognition-transfer-learning