Krisshvamsi
/

TTS

@@ -1,173 +1,70 @@
-################################
-# Audio Parameters             #
-################################
-sample_rate: 22050
-hop_length: 256
-win_length: 1024
 n_mel_channels: 80
-n_fft: 1024
-mel_fmin: 0.0
-mel_fmax: 8000.0
-power: 1
-normalized: False
-min_max_energy_norm: True
-norm: "slaney"
-mel_scale: "slaney"
-dynamic_range_compression: True
-mel_normalized: False
-min_f0: 65  #(torchaudio pyin values)
-max_f0: 2093 #(torchaudio pyin values)
-positive_weight: 5.0
-lexicon:
-    - AA
-    - AE
-    - AH
-    - AO
-    - AW
-    - AY
-    - B
-    - CH
-    - D
-    - DH
-    - EH
-    - ER
-    - EY
-    - F
-    - G
-    - HH
-    - IH
-    - IY
-    - JH
-    - K
-    - L
-    - M
-    - N
-    - NG
-    - OW
-    - OY
-    - P
-    - R
-    - S
-    - SH
-    - T
-    - TH
-    - UH
-    - UW
-    - V
-    - W
-    - Y
-    - Z
-    - ZH
-    - ' '
-n_symbols: 42 #fixed depending on symbols in the lexicon +1 for a dummy symbol used for padding
-padding_idx: 0
-# Define model architecture
-d_model: 512
-nhead: 8
-num_encoder_layers: 6
-num_decoder_layers: 6
-dim_feedforward: 2048
-dropout: 0.2
-blank_index: 0 # This special token is for padding
-bos_index: 1
-eos_index: 2
-stop_weight: 0.45
-stop_threshold: 0.5
-###################PRENET#######################
-enc_pre_net: !new:models.EncoderPrenet
-dec_pre_net: !new:models.DecoderPrenet
-encoder_emb: !new:torch.nn.Embedding
-    num_embeddings: 128
-    embedding_dim: !ref <d_model>
-    padding_idx: !ref <blank_index>
-pos_emb_enc: !new:models.ScaledPositionalEncoding
-    d_model: !ref <d_model>
-decoder_emb: !new:torch.nn.Embedding
-    num_embeddings: 128
-    embedding_dim: !ref <d_model>
-    padding_idx: !ref <blank_index>
-pos_emb_dec: !new:models.ScaledPositionalEncoding
-    d_model: !ref <d_model>
-Seq2SeqTransformer: !new:torch.nn.Transformer
-    d_model: !ref <d_model>
-    nhead: !ref <nhead>
-    num_encoder_layers: !ref <num_encoder_layers>
-    num_decoder_layers: !ref <num_decoder_layers>
-    dim_feedforward: !ref <dim_feedforward>
-    dropout: !ref <dropout>
-    batch_first: True
-postnet: !new:models.PostNet
-    mel_channels: !ref <n_mel_channels>
-    postnet_channels: 512
-    kernel_size: 5
-    postnet_layers: 5
-mel_lin: !new:speechbrain.nnet.linear.Linear
-    input_size: !ref <d_model>
-    n_neurons: !ref <n_mel_channels>
-stop_lin: !new:speechbrain.nnet.linear.Linear
-    input_size: !ref <d_model>
-    n_neurons: 1
-mel_spec_feats: !name:speechbrain.lobes.models.FastSpeech2.mel_spectogram
-    sample_rate: !ref <sample_rate>
-    hop_length: !ref <hop_length>
-    win_length: !ref <win_length>
-    n_fft: !ref <n_fft>
-    n_mels: !ref <n_mel_channels>
-    f_min: !ref <mel_fmin>
-    f_max: !ref <mel_fmax>
-    power: !ref <power>
-    normalized: !ref <normalized>
-    min_max_energy_norm: !ref <min_max_energy_norm>
-    norm: !ref <norm>
-    mel_scale: !ref <mel_scale>
-    compression: !ref <dynamic_range_compression>
 modules:
-    enc_pre_net: !ref <enc_pre_net>
-    encoder_emb: !ref <encoder_emb>
-    pos_emb_enc: !ref <pos_emb_enc>
-    dec_pre_net: !ref <dec_pre_net>
-    #decoder_emb: !ref <decoder_emb>
-    pos_emb_dec: !ref <pos_emb_dec>
-    Seq2SeqTransformer: !ref <Seq2SeqTransformer>
-    postnet: !ref <postnet>
-    mel_lin: !ref <mel_lin>
-    stop_lin: !ref <stop_lin>
     model: !ref <model>
-lookahead_mask: !name:speechbrain.lobes.models.transformer.Transformer.get_lookahead_mask
-padding_mask: !name:speechbrain.lobes.models.transformer.Transformer.get_key_padding_mask
-model: !new:torch.nn.ModuleList
-    - [!ref <enc_pre_net>, !ref <encoder_emb>, !ref <pos_emb_enc>, !ref <dec_pre_net>, !ref <pos_emb_dec>, !ref <Seq2SeqTransformer>, !ref <postnet>, !ref <mel_lin>, !ref <stop_lin>]
-label_encoder: !new:speechbrain.dataio.encoder.TextEncoder
-pretrained_path: /content/
 pretrainer: !new:speechbrain.utils.parameter_transfer.Pretrainer
     loadables:
         model: !ref <model>
-        label_encoder: !ref <label_encoder>
-    paths:
-        model: !ref <pretrained_path>/model.ckpt
-        label_encoder: !ref <pretrained_path>/label_encoder.txt

+# ################################
+# Model: Tacotroon2 for TTS
+# Authors: Artem Ploujnikov, Yingzhi Wang
+# ################################
+mask_padding: True
 n_mel_channels: 80
+n_symbols: 148
+symbols_embedding_dim: 512
+encoder_kernel_size: 5
+encoder_n_convolutions: 3
+encoder_embedding_dim: 512
+attention_rnn_dim: 1024
+attention_dim: 128
+attention_location_n_filters: 32
+attention_location_kernel_size: 31
+n_frames_per_step: 1
+decoder_rnn_dim: 1024
+prenet_dim: 256
+max_decoder_steps: 1000
+gate_threshold: 0.5
+p_attention_dropout: 0.1
+p_decoder_dropout: 0.1
+postnet_embedding_dim: 512
+postnet_kernel_size: 5
+postnet_n_convolutions: 5
+decoder_no_early_stopping: False
+sample_rate: 22050
+# Model
+model: !new:speechbrain.lobes.models.Tacotron2.Tacotron2
+  mask_padding: !ref <mask_padding>
+  n_mel_channels: !ref <n_mel_channels>
+  # symbols
+  n_symbols: !ref <n_symbols>
+  symbols_embedding_dim: !ref <symbols_embedding_dim>
+  # encoder
+  encoder_kernel_size: !ref <encoder_kernel_size>
+  encoder_n_convolutions: !ref <encoder_n_convolutions>
+  encoder_embedding_dim: !ref <encoder_embedding_dim>
+  # attention
+  attention_rnn_dim: !ref <attention_rnn_dim>
+  attention_dim: !ref <attention_dim>
+  # attention location
+  attention_location_n_filters: !ref <attention_location_n_filters>
+  attention_location_kernel_size: !ref <attention_location_kernel_size>
+  # decoder
+  n_frames_per_step: !ref <n_frames_per_step>
+  decoder_rnn_dim: !ref <decoder_rnn_dim>
+  prenet_dim: !ref <prenet_dim>
+  max_decoder_steps: !ref <max_decoder_steps>
+  gate_threshold: !ref <gate_threshold>
+  p_attention_dropout: !ref <p_attention_dropout>
+  p_decoder_dropout: !ref <p_decoder_dropout>
+  # postnet
+  postnet_embedding_dim: !ref <postnet_embedding_dim>
+  postnet_kernel_size: !ref <postnet_kernel_size>
+  postnet_n_convolutions: !ref <postnet_n_convolutions>
+  decoder_no_early_stopping: !ref <decoder_no_early_stopping>
+# Function that converts the text into a sequence of valid characters.
+text_to_sequence: !name:speechbrain.utils.text_to_sequence.text_to_sequence
 modules:
     model: !ref <model>
 pretrainer: !new:speechbrain.utils.parameter_transfer.Pretrainer
     loadables:
         model: !ref <model>

model.ckpt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:45e8e10afd13fa8bf1563f8babdc4779d3316ec227eaabf8c57dab9e4f794ded
-size 226346982

 version https://git-lfs.github.com/spec/v1
+oid sha256:02d1aa3fc1cc8fb0981895c765e9d0017416bb78861b5450e458dda92e567856
+size 112830206