3,729 repos GH 3,614 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

speech-emotion-recognition-transfer-learning

★ 1 MIT 更新: 2026-06-16 GitHubで見る →

概要

このプロジェクトは、音声感情認識(SER)におけるテキストのみ(RoBERTa)、音声のみ(wav2vec2/WavLM/HuBERT)、およびマルチモーダル融合の転移学習アプローチを比較研究するものです。

RAVDESS、MELD、IEMOCAPといった主要なデータセットを使用し、PyTorch Lightning、HuggingFaceのTransformersライブラリを活用してモデルを構築しています。

また、Gradioを使ったデモも提供されており、研究者や開発者が容易に結果を検証できます。

特に、南アジアのインド・アーリア語における音声感情認識の課題にも焦点を当てており、これらの言語における転移学習の振る舞いや失敗モードを詳細に分析したい研究者や、最先端の音声感情認識モデルに関心のある機械学習エンジニアに最適なツールです。

互換性・特徴

  • Python
  • PyTorch
  • HuggingFace
  • Gradio
  • 転移学習
  • 音声認識

基本情報

ライセンスMIT
Stars1
カテゴリASR / 音声認識
アクティビティlow

最新リリース: v2.0.0 — Cross-Lingual Indo-Aryan SER (failure-modes audit) (2026-06-16)

GitHub: https://github.com/ShahnawazKakarh/speech-emotion-recognition-transfer-learning