speechbrain
/

asr-wav2vec2-transformer-aishell

Automatic Speech Recognition

Model card Files Files and versions Community

Mirco commited on Jun 11, 2021

Commit

eca34f8

•

1 Parent(s): 9dd32c5

fix hyparam file

Files changed (1) hide show

hyperparams.yaml +8 -8

hyperparams.yaml CHANGED Viewed

@@ -1,18 +1,18 @@
 # ############################################################################
-# Model: E2E ASR with Transformer
-# Encoder: Transformer Encoder
 # Decoder: Transformer Decoder + (CTC/ATT joint) beamsearch
 # Tokens: BPE with unigram
 # losses: CTC + KLdiv (Label Smoothing loss)
 # Training: AISHELL-1
-# Authors:  Jianyuan Zhong, Titouan Parcollet
 # ############################################################################
 # Feature parameters
 sample_rate: 16000
 n_fft: 400
 n_mels: 80
-wav2vec2_hub: facebook/wav2vec2-large-it-voxpopuli
 ####################### Model parameters ###########################
 # Transformer
@@ -36,7 +36,7 @@ unk_index: 0
 # Decoding parameters
 min_decode_ratio: 0.0
-max_decode_ratio: 1.0 # 1.0
 valid_search_interval: 10
 valid_beam_size: 10
 test_beam_size: 10
@@ -49,7 +49,7 @@ wav2vec2: !new:speechbrain.lobes.models.huggingface_wav2vec.HuggingFaceWav2Vec2
     output_norm: True
     freeze: True
     pretrain: False # Pretraining is managed by the SpeechBrain pre-trainer.
-    save_path: !ref <save_folder>/wav2vec2_checkpoint
 Transformer: !new:speechbrain.lobes.models.transformer.TransformerASR.TransformerASR # yamllint disable-line rule:line-length
     input_size: 1024
@@ -108,6 +108,6 @@ log_softmax: !new:torch.nn.LogSoftmax
 pretrainer: !new:speechbrain.utils.parameter_transfer.Pretrainer
     loadables:
-        wav2vect2: !ref <wav2vect2>
-        model: !ref <model>
         tokenizer: !ref <tokenizer>

 # ############################################################################
+# Model: E2E ASR with Transformer + wav2vec2
+# Encoder: wav2vec Encoder
 # Decoder: Transformer Decoder + (CTC/ATT joint) beamsearch
 # Tokens: BPE with unigram
 # losses: CTC + KLdiv (Label Smoothing loss)
 # Training: AISHELL-1
+# Authors:  Jianyuan Zhong, Titouan Parcollet, Mirco Ravanelli
 # ############################################################################
 # Feature parameters
 sample_rate: 16000
 n_fft: 400
 n_mels: 80
+wav2vec2_hub: facebook/wav2vec2-large-100k-voxpopuli
 ####################### Model parameters ###########################
 # Transformer
 # Decoding parameters
 min_decode_ratio: 0.0
+max_decode_ratio: 1.0
 valid_search_interval: 10
 valid_beam_size: 10
 test_beam_size: 10
     output_norm: True
     freeze: True
     pretrain: False # Pretraining is managed by the SpeechBrain pre-trainer.
+    save_path: model_checkpoints
 Transformer: !new:speechbrain.lobes.models.transformer.TransformerASR.TransformerASR # yamllint disable-line rule:line-length
     input_size: 1024
 pretrainer: !new:speechbrain.utils.parameter_transfer.Pretrainer
     loadables:
+        wav2vec2: !ref <wav2vec2>
+        model: !ref <asr_model>
         tokenizer: !ref <tokenizer>