Speech Emotion Recognition via CNN-Transformer and Multidimensional Attention Mechanism

📖 Introduction

This repository implements a Speech Emotion Recognition (SER) system using a hybrid CNN-Transformer architecture enhanced with a Multidimensional Attention Mechanism.

🧠 Model Architecture

1. Overall Framework

🛠️ Installation

Clone the repository and create the conda environment:

git clone https://github.com/SCNU-RISLAB/CTMAM.git
cd CTMAM_SER_master

conda create -n CTMAM python=3.10
conda activate CTMAM
conda install pytorch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2 cudatoolkit=10.2 -c pytorch
pip install -r requirements.txt

📂 Data Process

IEMOCAP Dataset

python process_IEMPCAP.py

python process_Emodb.py

🚀 Training

IEMOCAP Dataset

python train_IEMOCAP.py

python process_Emodb.py

📜 Citation

If you use this work in your research, please cite:

bibtex

@article{tang2025speech,

title = {Speech emotion recognition via cnn-transformer and multidimensional attention mechanism},

author = {Tang, Xiaoyu and Huang, Jiazheng and Lin, Yixin and Dang, Ting and Cheng, Jintao},

journal = {Speech Communication},

pages = {103242},

year = {2025},

publisher = {Elsevier}

}

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
.gitignore		.gitignore
CTMAM.png		CTMAM.png
README.md		README.md
data_loader.py		data_loader.py
handleIEMOCAP.py		handleIEMOCAP.py
lct.py		lct.py
models.py		models.py
path.py		path.py
process_Emodb.py		process_Emodb.py
process_IEMOCAP.py		process_IEMOCAP.py
requirements.txt		requirements.txt
spec_augment_pytorch.py		spec_augment_pytorch.py
train_Emodb.py		train_Emodb.py
train_IEMOCAP.py		train_IEMOCAP.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Speech Emotion Recognition via CNN-Transformer and Multidimensional Attention Mechanism

📖 Introduction

🧠 Model Architecture

1. Overall Framework

🛠️ Installation

📂 Data Process

IEMOCAP Dataset

🚀 Training

IEMOCAP Dataset

📜 Citation

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Speech Emotion Recognition via CNN-Transformer and Multidimensional Attention Mechanism

📖 Introduction

🧠 Model Architecture

1. Overall Framework

🛠️ Installation

📂 Data Process

IEMOCAP Dataset

🚀 Training

IEMOCAP Dataset

📜 Citation

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages