speechbrain
/

asr-transformer-transformerlm-librispeech

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:01bfdfb2bbfcb99605a6ad68f6f539785bd598385c4020f579a0a16f9bd803f7
-size 654179252

 version https://git-lfs.github.com/spec/v1
+oid sha256:2db0253dbd1cc0116907d789252d0e6154522cdf686138c1c0a38137668d7fa7
+size 291335121

hyperparams.yaml CHANGED Viewed

@@ -15,11 +15,11 @@ n_mels: 80
 ####################### Model parameters ###########################
 # Transformer
-d_model: 768
-nhead: 8
 num_encoder_layers: 12
 num_decoder_layers: 6
-d_ffn: 3072
 transformer_dropout: 0.0
 activation: !name:torch.nn.GELU
 output_neurons: 5000
@@ -38,9 +38,9 @@ min_decode_ratio: 0.0
 max_decode_ratio: 1.0
 valid_search_interval: 10
 valid_beam_size: 10
-test_beam_size: 10
 lm_weight: 0.60
-ctc_weight_decode: 0.52
 ############################## models ################################
@@ -48,14 +48,14 @@ CNN: !new:speechbrain.lobes.models.convolution.ConvolutionFrontEnd
     input_shape: (8, 10, 80)
     num_blocks: 3
     num_layers_per_block: 1
-    out_channels: (128, 256, 512)
-    kernel_sizes: (3, 3, 1)
     strides: (2, 2, 1)
-    residuals: (False, False, False)
-    norm: !name:speechbrain.nnet.normalization.BatchNorm2d
 Transformer: !new:speechbrain.lobes.models.transformer.TransformerASR.TransformerASR
-    input_size: 10240
     tgt_vocab: !ref <output_neurons>
     d_model: !ref <d_model>
     nhead: !ref <nhead>
@@ -64,7 +64,10 @@ Transformer: !new:speechbrain.lobes.models.transformer.TransformerASR.Transforme
     d_ffn: !ref <d_ffn>
     dropout: !ref <transformer_dropout>
     activation: !ref <activation>
-    normalize_before: False
 ctc_lin: !new:speechbrain.nnet.linear.Linear
     input_size: !ref <d_model>

 ####################### Model parameters ###########################
 # Transformer
+d_model: 512
+nhead: 4
 num_encoder_layers: 12
 num_decoder_layers: 6
+d_ffn: 2048
 transformer_dropout: 0.0
 activation: !name:torch.nn.GELU
 output_neurons: 5000
 max_decode_ratio: 1.0
 valid_search_interval: 10
 valid_beam_size: 10
+test_beam_size: 66
 lm_weight: 0.60
+ctc_weight_decode: 0.40
 ############################## models ################################
     input_shape: (8, 10, 80)
     num_blocks: 3
     num_layers_per_block: 1
+    out_channels: (64, 64, 64)
+    kernel_sizes: (5, 5, 1)
     strides: (2, 2, 1)
+    residuals: (False, False, True)
+    norm: !name:speechbrain.nnet.normalization.LayerNorm
 Transformer: !new:speechbrain.lobes.models.transformer.TransformerASR.TransformerASR
+    input_size: 1280
     tgt_vocab: !ref <output_neurons>
     d_model: !ref <d_model>
     nhead: !ref <nhead>
     d_ffn: !ref <d_ffn>
     dropout: !ref <transformer_dropout>
     activation: !ref <activation>
+    encoder_module: transformer
+    attention_type: regularMHA
+    normalize_before: True
+    causal: False
 ctc_lin: !new:speechbrain.nnet.linear.Linear
     input_size: !ref <d_model>

normalizer.ckpt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:48683d4aeeabada648645b74d4d006f2947406c27b660739f3d96a660f10f8d5
-size 1793

 version https://git-lfs.github.com/spec/v1
+oid sha256:d5650a789fc12867073ec4d44e9b5343f3db2b043ebfbf5843a2c02db5ca0c69
+size 1703