GitHub - AntonOkhotnikov/mdigits: Spoken russian numbers recognition with QuartzNet

Environment installation

Install pre-requisites

apt-get update && apt-get upgrade
apt-get install sox libsndfile1 ffmpeg

Install requirements

# using pip
python3 -m pip install -r requirements

# using conda
conda env create -f environment.yml

Train model

Install environment as shown above
Go to scripts/ and prepare train/val/test datasets manifests, noise datasets manifests (see readme)
Configure conf/quartznet_5x1_aug.yaml with generated manifests paths, experiments folder and your desired training params
Train the model

python3 train_quartznet.py conf/quartznet_5x1_aug.yaml

To view training logs

tensorboard --logdir <exp_path>

Experiments and results

	Model params, M	Est. fp32 model size, Mb	Four testing sentences decoding output
quartznet5x3.yaml	4.6	18.49	['89786', '33*6', '35', '183']
quartznet5x3_nvidia.yaml	6.4	25.56	['8986', '33760', '3975', '180']
quartznet_5x1.yaml	2.0	7.97	['897688', '3326', '309', '1830']
quartznet_5x1_aug.yaml	2.0	7.97	['8978', '327', '30975', '1830']
quartznet_5x1_aug.yaml (tuned*)	2.0	7.97	['897868', '3326', '309755', '183003']
oracle transcription	-	-	['896867', '332763', '309758', '183037']

tuned - expanded val/test sets, limited minimal lr for scheduler, trained for more epochs, higher probs of augmentations. See conf/quartznet_5x1_aug.yaml

Quantization

Best performed fp32 model (7.97 Mb) could be compressed 4x times to int8 (2Mb) using dynamic range quantization. Please refer to readme for the details

Evaluating the model

For model evaluation details please see readme

Augmentations used

For full description please see conf/quartznet_5x1_aug.yaml

speed - speed perturbation (changes voice of a speaker)
impulse (2015 files 1-second length):
- BUT_RIRs - real room impulse responses
noise (10120 files 2-seconds length):
- DCASE - audio events dataset
- DEMAND - db of acoustic noises
gain - volume perturbation
white_noise
transcode_aug - codecs augmentation

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
conf		conf
evaluation		evaluation
quantization		quantization
scripts		scripts
.gitignore		.gitignore
README.md		README.md
environment.yml		environment.yml
requirements.txt		requirements.txt
task.txt		task.txt
train_quartznet.py		train_quartznet.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Environment installation

Train model

Experiments and results

Quantization

Evaluating the model

Augmentations used

TODO:

References used

Acks

About

Releases

Packages

Languages

AntonOkhotnikov/mdigits

Folders and files

Latest commit

History

Repository files navigation

Environment installation

Train model

Experiments and results

Quantization

Evaluating the model

Augmentations used

TODO:

References used

Acks

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages