################################ # Audio Parameters # ################################ sample_rate: 22050 hop_length: 256 win_length: 1024 n_mel_channels: 80 n_fft: 1024 mel_fmin: 0.0 mel_fmax: 8000.0 mel_normalized: False power: 1 norm: "slaney" mel_scale: "slaney" dynamic_range_compression: True ################################ # Speaker Embedding Parameters # ################################ spk_emb_size: 192 spk_emb_sample_rate: 16000 custom_mel_spec_encoder: True spk_emb_encoder: speechbrain/spkrec-ecapa-voxceleb-mel-spec random_speaker_sampler: random_speaker_sampler.ckpt random_speaker_sampler_source: speechbrain/tts-mstacotron2-libritts ################################ # Optimization Hyperparameters # ################################ mask_padding: True ################################ # Model Parameters and model # ################################ n_symbols: 148 #fixed depending on symbols in textToSequence symbols_embedding_dim: 1024 # Encoder parameters encoder_kernel_size: 5 encoder_n_convolutions: 6 encoder_embedding_dim: 1024 # Decoder parameters # The number of frames in the target per encoder step n_frames_per_step: 1 decoder_rnn_dim: 2048 prenet_dim: 512 max_decoder_steps: 1500 gate_threshold: 0.5 p_attention_dropout: 0.1 p_decoder_dropout: 0.1 decoder_no_early_stopping: False # Attention parameters attention_rnn_dim: 2048 attention_dim: 256 # Location Layer parameters attention_location_n_filters: 32 attention_location_kernel_size: 31 # Mel-post processing network parameters postnet_embedding_dim: 1024 postnet_kernel_size: 5 postnet_n_convolutions: 10 mel_spectogram: !name:speechbrain.lobes.models.Tacotron2.mel_spectogram sample_rate: !ref hop_length: !ref win_length: !ref n_fft: !ref n_mels: !ref f_min: !ref f_max: !ref power: !ref normalized: !ref norm: !ref mel_scale: !ref compression: !ref #model model: !new:speechbrain.lobes.models.MSTacotron2.Tacotron2 mask_padding: !ref n_mel_channels: !ref # symbols n_symbols: !ref symbols_embedding_dim: !ref # encoder encoder_kernel_size: !ref encoder_n_convolutions: !ref encoder_embedding_dim: !ref # attention attention_rnn_dim: !ref attention_dim: !ref # attention location attention_location_n_filters: !ref attention_location_kernel_size: !ref # decoder n_frames_per_step: !ref decoder_rnn_dim: !ref prenet_dim: !ref max_decoder_steps: !ref gate_threshold: !ref p_attention_dropout: !ref p_decoder_dropout: !ref # postnet postnet_embedding_dim: !ref postnet_kernel_size: !ref postnet_n_convolutions: !ref decoder_no_early_stopping: !ref # speaker embeddings spk_emb_size: !ref modules: model: !ref g2p: speechbrain/soundchoice-g2p pretrainer: !new:speechbrain.utils.parameter_transfer.Pretrainer loadables: model: !ref