Spaces:

Laronix
/

Laronix_ASR_TTS_VC

Sleeping

App Files Files Community

KevinGeng commited on Sep 12, 2023

Commit

671e149

•

1 Parent(s): 1b3fb80

add TTS_models and vocoder lfs support

Browse files

Files changed (36) hide show

.gitattributes +2 -1
{TTS_model → TTS_models/libritts_xvector_vits}/config.yaml +0 -0
{TTS_model → TTS_models/libritts_xvector_vits}/images/discriminator_backward_time.png +0 -0
{TTS_model → TTS_models/libritts_xvector_vits}/images/discriminator_fake_loss.png +0 -0
{TTS_model → TTS_models/libritts_xvector_vits}/images/discriminator_forward_time.png +0 -0
{TTS_model → TTS_models/libritts_xvector_vits}/images/discriminator_loss.png +0 -0
{TTS_model → TTS_models/libritts_xvector_vits}/images/discriminator_optim_step_time.png +0 -0
{TTS_model → TTS_models/libritts_xvector_vits}/images/discriminator_real_loss.png +0 -0
{TTS_model → TTS_models/libritts_xvector_vits}/images/discriminator_train_time.png +0 -0
{TTS_model → TTS_models/libritts_xvector_vits}/images/generator_adv_loss.png +0 -0
{TTS_model → TTS_models/libritts_xvector_vits}/images/generator_backward_time.png +0 -0
{TTS_model → TTS_models/libritts_xvector_vits}/images/generator_dur_loss.png +0 -0
{TTS_model → TTS_models/libritts_xvector_vits}/images/generator_feat_match_loss.png +0 -0
{TTS_model → TTS_models/libritts_xvector_vits}/images/generator_forward_time.png +0 -0
{TTS_model → TTS_models/libritts_xvector_vits}/images/generator_kl_loss.png +0 -0
{TTS_model → TTS_models/libritts_xvector_vits}/images/generator_loss.png +0 -0
{TTS_model → TTS_models/libritts_xvector_vits}/images/generator_mel_loss.png +0 -0
{TTS_model → TTS_models/libritts_xvector_vits}/images/generator_optim_step_time.png +0 -0
{TTS_model → TTS_models/libritts_xvector_vits}/images/generator_train_time.png +0 -0
{TTS_model → TTS_models/libritts_xvector_vits}/images/gpu_max_cached_mem_GB.png +0 -0
{TTS_model → TTS_models/libritts_xvector_vits}/images/iter_time.png +0 -0
{TTS_model → TTS_models/libritts_xvector_vits}/images/optim0_lr0.png +0 -0
{TTS_model → TTS_models/libritts_xvector_vits}/images/optim1_lr0.png +0 -0
{TTS_model → TTS_models/libritts_xvector_vits}/images/train_time.png +0 -0
{TTS_model → TTS_models/libritts_xvector_vits}/train.total_count.ave_10best.pth +0 -0
app.py +3 -3
vocoders/libritts_hifigan.v1/checkpoint-2500000steps.pkl +3 -0
vocoders/libritts_hifigan.v1/config.yml +191 -0
vocoders/libritts_hifigan.v1/stats.h5 +3 -0
vocoders/vctk_parallel_wavegan.v1.long/._checkpoint-1000000steps.pkl +3 -0
vocoders/vctk_parallel_wavegan.v1.long/._config.yml +0 -0
vocoders/vctk_parallel_wavegan.v1.long/._stats.h5 +3 -0
vocoders/vctk_parallel_wavegan.v1.long/._train_nodev_all_vctk_parallel_wavegan.v1.long +0 -0
vocoders/vctk_parallel_wavegan.v1.long/checkpoint-1000000steps.pkl +3 -0
vocoders/vctk_parallel_wavegan.v1.long/config.yml +104 -0
vocoders/vctk_parallel_wavegan.v1.long/stats.h5 +3 -0

.gitattributes CHANGED Viewed

@@ -33,4 +33,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 xvector filter=lfs diff=lfs merge=lfs -text
-TTS_model filter=lfs diff=lfs merge=lfs -text

 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 xvector filter=lfs diff=lfs merge=lfs -text
+TTS_models filter=lfs diff=lfs merge=lfs -text
+vocoders filter=lfs diff=lfs merge=lfs -text

{TTS_model → TTS_models/libritts_xvector_vits}/config.yaml RENAMED Viewed

File without changes

{TTS_model → TTS_models/libritts_xvector_vits}/images/discriminator_backward_time.png RENAMED Viewed

File without changes

{TTS_model → TTS_models/libritts_xvector_vits}/images/discriminator_fake_loss.png RENAMED Viewed

File without changes

{TTS_model → TTS_models/libritts_xvector_vits}/images/discriminator_forward_time.png RENAMED Viewed

File without changes

{TTS_model → TTS_models/libritts_xvector_vits}/images/discriminator_loss.png RENAMED Viewed

File without changes

{TTS_model → TTS_models/libritts_xvector_vits}/images/discriminator_optim_step_time.png RENAMED Viewed

File without changes

{TTS_model → TTS_models/libritts_xvector_vits}/images/discriminator_real_loss.png RENAMED Viewed

File without changes

{TTS_model → TTS_models/libritts_xvector_vits}/images/discriminator_train_time.png RENAMED Viewed

File without changes

{TTS_model → TTS_models/libritts_xvector_vits}/images/generator_adv_loss.png RENAMED Viewed

File without changes

{TTS_model → TTS_models/libritts_xvector_vits}/images/generator_backward_time.png RENAMED Viewed

File without changes

{TTS_model → TTS_models/libritts_xvector_vits}/images/generator_dur_loss.png RENAMED Viewed

File without changes

{TTS_model → TTS_models/libritts_xvector_vits}/images/generator_feat_match_loss.png RENAMED Viewed

File without changes

{TTS_model → TTS_models/libritts_xvector_vits}/images/generator_forward_time.png RENAMED Viewed

File without changes

{TTS_model → TTS_models/libritts_xvector_vits}/images/generator_kl_loss.png RENAMED Viewed

File without changes

{TTS_model → TTS_models/libritts_xvector_vits}/images/generator_loss.png RENAMED Viewed

File without changes

{TTS_model → TTS_models/libritts_xvector_vits}/images/generator_mel_loss.png RENAMED Viewed

File without changes

{TTS_model → TTS_models/libritts_xvector_vits}/images/generator_optim_step_time.png RENAMED Viewed

File without changes

{TTS_model → TTS_models/libritts_xvector_vits}/images/generator_train_time.png RENAMED Viewed

File without changes

{TTS_model → TTS_models/libritts_xvector_vits}/images/gpu_max_cached_mem_GB.png RENAMED Viewed

File without changes

{TTS_model → TTS_models/libritts_xvector_vits}/images/iter_time.png RENAMED Viewed

File without changes

{TTS_model → TTS_models/libritts_xvector_vits}/images/optim0_lr0.png RENAMED Viewed

File without changes

{TTS_model → TTS_models/libritts_xvector_vits}/images/optim1_lr0.png RENAMED Viewed

File without changes

{TTS_model → TTS_models/libritts_xvector_vits}/images/train_time.png RENAMED Viewed

File without changes

{TTS_model → TTS_models/libritts_xvector_vits}/train.total_count.ave_10best.pth RENAMED Viewed

File without changes

app.py CHANGED Viewed

@@ -64,8 +64,8 @@ from espnet2.utils.types import str_or_none
 # local import
 text2speech = Text2Speech.from_pretrained(
-    train_config = "TTS_model/config.yaml",
-    model_file="TTS_model/train.total_count.ave_10best.pth",
     vocoder_tag=str_or_none(vocoder_tag),
     device="cuda",
     use_att_constraint=False,
@@ -106,7 +106,7 @@ transformer_text2speech = Text2Speech.from_pretrained(
     forward_window=3,
     speed_control_alpha=1.0,
 )
 # from google.cloud import texttospeech
 # Google_TTS_client = texttospeech.TextToSpeechClient()

 # local import
 text2speech = Text2Speech.from_pretrained(
+    train_config = "TTS_models/libritts_xvector_vits/config.yaml",
+    model_file="TTS_models/libritts_xvector_vits/train.total_count.ave_10best.pth",
     vocoder_tag=str_or_none(vocoder_tag),
     device="cuda",
     use_att_constraint=False,
     forward_window=3,
     speed_control_alpha=1.0,
 )
+pdb.set_trace()
 # from google.cloud import texttospeech
 # Google_TTS_client = texttospeech.TextToSpeechClient()

vocoders/libritts_hifigan.v1/checkpoint-2500000steps.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:859f68c82afdf0f22746db6a6b7fb3cee3010a94db09f831c9e5f1a41eb9b0b0
+size 1004606893

vocoders/libritts_hifigan.v1/config.yml ADDED Viewed

	@@ -0,0 +1,191 @@

+allow_cache: false
+batch_max_steps: 8400
+batch_size: 16
+config: conf/hifigan.v1.yaml
+dev_dumpdir: dump/dev_clean/norm
+dev_feats_scp: null
+dev_segments: null
+dev_wav_scp: null
+discriminator_adv_loss_params:
+  average_by_discriminators: false
+discriminator_grad_norm: -1
+discriminator_optimizer_params:
+  betas:
+  - 0.5
+  - 0.9
+  lr: 0.0002
+  weight_decay: 0.0
+discriminator_optimizer_type: Adam
+discriminator_params:
+  follow_official_norm: true
+  period_discriminator_params:
+    bias: true
+    channels: 32
+    downsample_scales:
+    - 3
+    - 3
+    - 3
+    - 3
+    - 1
+    in_channels: 1
+    kernel_sizes:
+    - 5
+    - 3
+    max_downsample_channels: 1024
+    nonlinear_activation: LeakyReLU
+    nonlinear_activation_params:
+      negative_slope: 0.1
+    out_channels: 1
+    use_spectral_norm: false
+    use_weight_norm: true
+  periods:
+  - 2
+  - 3
+  - 5
+  - 7
+  - 11
+  scale_discriminator_params:
+    bias: true
+    channels: 128
+    downsample_scales:
+    - 4
+    - 4
+    - 4
+    - 4
+    - 1
+    in_channels: 1
+    kernel_sizes:
+    - 15
+    - 41
+    - 5
+    - 3
+    max_downsample_channels: 1024
+    max_groups: 16
+    nonlinear_activation: LeakyReLU
+    nonlinear_activation_params:
+      negative_slope: 0.1
+    out_channels: 1
+  scale_downsample_pooling: AvgPool1d
+  scale_downsample_pooling_params:
+    kernel_size: 4
+    padding: 2
+    stride: 2
+  scales: 3
+discriminator_scheduler_params:
+  gamma: 0.5
+  milestones:
+  - 200000
+  - 400000
+  - 600000
+  - 800000
+discriminator_scheduler_type: MultiStepLR
+discriminator_train_start_steps: 0
+discriminator_type: HiFiGANMultiScaleMultiPeriodDiscriminator
+distributed: false
+eval_interval_steps: 1000
+feat_match_loss_params:
+  average_by_discriminators: false
+  average_by_layers: false
+  include_final_outputs: false
+fft_size: 2048
+fmax: 7600
+fmin: 80
+format: hdf5
+generator_adv_loss_params:
+  average_by_discriminators: false
+generator_grad_norm: -1
+generator_optimizer_params:
+  betas:
+  - 0.5
+  - 0.9
+  lr: 0.0002
+  weight_decay: 0.0
+generator_optimizer_type: Adam
+generator_params:
+  bias: true
+  channels: 512
+  in_channels: 80
+  kernel_size: 7
+  nonlinear_activation: LeakyReLU
+  nonlinear_activation_params:
+    negative_slope: 0.1
+  out_channels: 1
+  resblock_dilations:
+  - - 1
+    - 3
+    - 5
+  - - 1
+    - 3
+    - 5
+  - - 1
+    - 3
+    - 5
+  resblock_kernel_sizes:
+  - 3
+  - 7
+  - 11
+  upsample_kernal_sizes:
+  - 10
+  - 10
+  - 8
+  - 6
+  upsample_scales:
+  - 5
+  - 5
+  - 4
+  - 3
+  use_additional_convs: true
+  use_weight_norm: true
+generator_scheduler_params:
+  gamma: 0.5
+  milestones:
+  - 200000
+  - 400000
+  - 600000
+  - 800000
+generator_scheduler_type: MultiStepLR
+generator_train_start_steps: 1
+generator_type: HiFiGANGenerator
+global_gain_scale: 1.0
+hop_size: 300
+lambda_adv: 1.0
+lambda_aux: 45.0
+lambda_feat_match: 2.0
+log_interval_steps: 100
+mel_loss_params:
+  fft_size: 2048
+  fmax: 12000
+  fmin: 0
+  fs: 24000
+  hop_size: 300
+  log_base: null
+  num_mels: 80
+  win_length: 1200
+  window: hann
+num_mels: 80
+num_save_intermediate_results: 4
+num_workers: 2
+outdir: exp/train_nodev_clean_libritts_hifigan.v1
+pin_memory: true
+pretrain: ''
+rank: 0
+remove_short_samples: false
+resume: exp/train_nodev_clean_libritts_hifigan.v1/checkpoint-1890000steps.pkl
+sampling_rate: 24000
+save_interval_steps: 10000
+train_dumpdir: dump/train_nodev_clean/norm
+train_feats_scp: null
+train_max_steps: 2500000
+train_segments: null
+train_wav_scp: null
+trim_frame_size: 1024
+trim_hop_size: 256
+trim_silence: false
+trim_threshold_in_db: 20
+use_feat_match_loss: true
+use_mel_loss: true
+use_stft_loss: false
+verbose: 1
+version: 0.5.1
+win_length: 1200
+window: hann

vocoders/libritts_hifigan.v1/stats.h5 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:94d55b1ea02f33cb24aa5d1fbc4087519d36ca89ca032e3dc0ca6627df4ed190
+size 4736

vocoders/vctk_parallel_wavegan.v1.long/._checkpoint-1000000steps.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ccb8cfc739515054284e6ac7c75afdab0c771eba7d132c4e19efff528147a1a1
+size 223

vocoders/vctk_parallel_wavegan.v1.long/._config.yml ADDED Viewed

Binary file (223 Bytes). View file

vocoders/vctk_parallel_wavegan.v1.long/._stats.h5 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f688626155bff6853a6045408be9bb248828abc482e2218ee0d93183cede5062
+size 223

vocoders/vctk_parallel_wavegan.v1.long/._train_nodev_all_vctk_parallel_wavegan.v1.long ADDED Viewed

Binary file (187 Bytes). View file

vocoders/vctk_parallel_wavegan.v1.long/checkpoint-1000000steps.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c3e92516432be8da4dbcc9e284b0e8f5c0273fd8d7be939ca4c0db3f7c8c73e7
+size 17498016

vocoders/vctk_parallel_wavegan.v1.long/config.yml ADDED Viewed

	@@ -0,0 +1,104 @@

+allow_cache: true
+batch_max_steps: 24000
+batch_size: 6
+config: conf/parallel_wavegan.v1.long.yaml
+dev_dumpdir: dump/dev_all/norm
+dev_feats_scp: null
+dev_segments: null
+dev_wav_scp: null
+discriminator_grad_norm: 1
+discriminator_optimizer_params:
+  eps: 1.0e-06
+  lr: 5.0e-05
+  weight_decay: 0.0
+discriminator_params:
+  bias: true
+  conv_channels: 64
+  in_channels: 1
+  kernel_size: 3
+  layers: 10
+  nonlinear_activation: LeakyReLU
+  nonlinear_activation_params:
+    negative_slope: 0.2
+  out_channels: 1
+  use_weight_norm: true
+discriminator_scheduler_params:
+  gamma: 0.5
+  step_size: 200000
+discriminator_train_start_steps: 100000
+distributed: false
+eval_interval_steps: 1000
+fft_size: 2048
+fmax: 7600
+fmin: 80
+format: hdf5
+generator_grad_norm: 10
+generator_optimizer_params:
+  eps: 1.0e-06
+  lr: 0.0001
+  weight_decay: 0.0
+generator_params:
+  aux_channels: 80
+  aux_context_window: 2
+  dropout: 0.0
+  gate_channels: 128
+  in_channels: 1
+  kernel_size: 3
+  layers: 30
+  out_channels: 1
+  residual_channels: 64
+  skip_channels: 64
+  stacks: 3
+  upsample_net: ConvInUpsampleNetwork
+  upsample_params:
+    upsample_scales:
+    - 4
+    - 5
+    - 3
+    - 5
+  use_weight_norm: true
+generator_scheduler_params:
+  gamma: 0.5
+  step_size: 200000
+global_gain_scale: 1.0
+hop_size: 300
+lambda_adv: 4.0
+log_interval_steps: 100
+num_mels: 80
+num_save_intermediate_results: 4
+num_workers: 2
+outdir: exp/train_nodev_all_vctk_parallel_wavegan.v1.long
+pin_memory: true
+pretrain: ''
+rank: 0
+remove_short_samples: true
+resume: exp/train_nodev_all_vctk_parallel_wavegan.v1.long/checkpoint-970000steps.pkl
+sampling_rate: 24000
+save_interval_steps: 5000
+stft_loss_params:
+  fft_sizes:
+  - 1024
+  - 2048
+  - 512
+  hop_sizes:
+  - 120
+  - 240
+  - 50
+  win_lengths:
+  - 600
+  - 1200
+  - 240
+  window: hann_window
+train_dumpdir: dump/train_nodev_all/norm
+train_feats_scp: null
+train_max_steps: 1000000
+train_segments: null
+train_wav_scp: null
+trim_frame_size: 1024
+trim_hop_size: 256
+trim_silence: false
+trim_threshold_in_db: 20
+verbose: 1
+version: 0.3.4
+win_length: 1200
+window: hann

vocoders/vctk_parallel_wavegan.v1.long/stats.h5 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3144070fcf475d49873d9ee9c5433ae222587e569d38dd6fee8c6fff91d69c94
+size 4736