Voice-Cloning-Demo

Runtime error

App Files Files Community

kevinwang676

Kevin676 commited on Apr 28, 2023

Commit

cfa4e44

•

0 Parent(s):

Duplicate from Kevin676/Voice-Cloning

Browse files

Co-authored-by: Kevin Wang <Kevin676@users.noreply.huggingface.co>

Files changed (13) hide show

.gitattributes +35 -0
README.md +14 -0
SE_checkpoint.pth.tar +3 -0
app.py +192 -0
best_model_latest.pth.tar +3 -0
config.json +373 -0
config_se.json +119 -0
cv-speakers-pt+en-m-f.json +0 -0
errormessage.wav +0 -0
language_ids.json +5 -0
packages.txt +1 -0
requirements.txt +5 -0
speakers.json +0 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+SE_checkpoint.pth.tar filter=lfs diff=lfs merge=lfs -text
+best_model_latest.pth.tar filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,14 @@

+---
+title: Voice Cloning
+emoji: ⚡
+colorFrom: yellow
+colorTo: yellow
+sdk: gradio
+sdk_version: 3.11
+app_file: app.py
+pinned: false
+license: mit
+duplicated_from: Kevin676/Voice-Cloning
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

SE_checkpoint.pth.tar ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8f96efb20cbeeefd81fd8336d7f0155bf8902f82f9474e58ccb19d9e12345172
+size 44610930

app.py ADDED Viewed

	@@ -0,0 +1,192 @@

+#from turtle import title
+import gradio as gr
+import git
+import os
+os.system('git clone https://github.com/Edresson/Coqui-TTS -b multilingual-torchaudio-SE TTS')
+os.system('pip install -q -e TTS/')
+os.system('pip install -q torchaudio==0.9.0')
+os.system('pip install voicefixer --upgrade')
+from voicefixer import VoiceFixer
+voicefixer = VoiceFixer()
+import sys
+TTS_PATH = "TTS/"
+# add libraries into environment
+sys.path.append(TTS_PATH) # set this if TTS is not installed globally
+import os
+import string
+import time
+import argparse
+import json
+import numpy as np
+import IPython
+from IPython.display import Audio
+import torch
+import torchaudio
+from speechbrain.pretrained import SpectralMaskEnhancement
+enhance_model = SpectralMaskEnhancement.from_hparams(
+source="speechbrain/metricgan-plus-voicebank",
+savedir="pretrained_models/metricgan-plus-voicebank",
+#run_opts={"device":"cuda"},
+)
+from TTS.tts.utils.synthesis import synthesis
+from TTS.tts.utils.text.symbols import make_symbols, phonemes, symbols
+try:
+  from TTS.utils.audio import AudioProcessor
+except:
+  from TTS.utils.audio import AudioProcessor
+from TTS.tts.models import setup_model
+from TTS.config import load_config
+from TTS.tts.models.vits import *
+OUT_PATH = 'out/'
+# create output path
+os.makedirs(OUT_PATH, exist_ok=True)
+# model vars
+MODEL_PATH = '/home/user/app/best_model_latest.pth.tar'
+CONFIG_PATH = '/home/user/app/config.json'
+TTS_LANGUAGES = "/home/user/app/language_ids.json"
+TTS_SPEAKERS = "/home/user/app/speakers.json"
+USE_CUDA = torch.cuda.is_available()
+# load the config
+C = load_config(CONFIG_PATH)
+# load the audio processor
+ap = AudioProcessor(**C.audio)
+speaker_embedding = None
+C.model_args['d_vector_file'] = TTS_SPEAKERS
+C.model_args['use_speaker_encoder_as_loss'] = False
+model = setup_model(C)
+model.language_manager.set_language_ids_from_file(TTS_LANGUAGES)
+# print(model.language_manager.num_languages, model.embedded_language_dim)
+# print(model.emb_l)
+cp = torch.load(MODEL_PATH, map_location=torch.device('cpu'))
+# remove speaker encoder
+model_weights = cp['model'].copy()
+for key in list(model_weights.keys()):
+  if "speaker_encoder" in key:
+    del model_weights[key]
+model.load_state_dict(model_weights)
+model.eval()
+if USE_CUDA:
+    model = model.cuda()
+# synthesize voice
+use_griffin_lim = False
+os.system('pip install -q pydub ffmpeg-normalize')
+CONFIG_SE_PATH = "config_se.json"
+CHECKPOINT_SE_PATH = "SE_checkpoint.pth.tar"
+from TTS.tts.utils.speakers import SpeakerManager
+from pydub import AudioSegment
+import librosa
+SE_speaker_manager = SpeakerManager(encoder_model_path=CHECKPOINT_SE_PATH, encoder_config_path=CONFIG_SE_PATH, use_cuda=USE_CUDA)
+def compute_spec(ref_file):
+  y, sr = librosa.load(ref_file, sr=ap.sample_rate)
+  spec = ap.spectrogram(y)
+  spec = torch.FloatTensor(spec).unsqueeze(0)
+  return spec
+def greet(Text,Voicetoclone,VoiceMicrophone):
+    text= "%s" % (Text)
+    if Voicetoclone is not None:
+      reference_files= "%s" % (Voicetoclone)
+      print("path url")
+      print(Voicetoclone)
+      sample= str(Voicetoclone)
+    else:
+      reference_files= "%s" % (VoiceMicrophone)
+      print("path url")
+      print(VoiceMicrophone)
+      sample= str(VoiceMicrophone)
+    size= len(reference_files)*sys.getsizeof(reference_files)
+    size2= size / 1000000
+    if (size2 > 0.012) or len(text)>2000:
+      message="File is greater than 30mb or Text inserted is longer than 2000 characters. Please re-try with smaller sizes."
+      print(message)
+      raise SystemExit("File is greater than 30mb. Please re-try or Text inserted is longer than 2000 characters. Please re-try with smaller sizes.")
+    else:
+      os.system('ffmpeg-normalize $sample -nt rms -t=-27 -o $sample -ar 16000 -f')
+      reference_emb = SE_speaker_manager.compute_d_vector_from_clip(reference_files)
+      model.length_scale = 1  # scaler for the duration predictor. The larger it is, the slower the speech.
+      model.inference_noise_scale = 0.3 # defines the noise variance applied to the random z vector at inference.
+      model.inference_noise_scale_dp = 0.3 # defines the noise variance applied to the duration predictor z vector at inference.
+      text = text
+      model.language_manager.language_id_mapping
+      language_id = 0
+      print(" > text: {}".format(text))
+      wav, alignment, _, _ = synthesis(
+                        model,
+                        text,
+                        C,
+                        "cuda" in str(next(model.parameters()).device),
+                        ap,
+                        speaker_id=None,
+                        d_vector=reference_emb,
+                        style_wav=None,
+                        language_id=language_id,
+                        enable_eos_bos_chars=C.enable_eos_bos_chars,
+                        use_griffin_lim=True,
+                        do_trim_silence=False,
+                    ).values()
+      print("Generated Audio")
+      IPython.display.display(Audio(wav, rate=ap.sample_rate))
+      #file_name = text.replace(" ", "_")
+      #file_name = file_name.translate(str.maketrans('', '', string.punctuation.replace('_', ''))) + '.wav'
+      file_name="Audio.wav"
+      out_path = os.path.join(OUT_PATH, file_name)
+      print(" > Saving output to {}".format(out_path))
+      ap.save_wav(wav, out_path)
+      voicefixer.restore(input=out_path, # input wav file path
+                      output="audio1.wav", # output wav file path
+#                      cuda=True, # whether to use gpu acceleration'
+                      cuda = False,
+                      mode = 0) # You can try out mode 0, 1, or 2 to find out the best result
+      noisy = enhance_model.load_audio(
+      "audio1.wav"
+      ).unsqueeze(0)
+      enhanced = enhance_model.enhance_batch(noisy, lengths=torch.tensor([1.]))
+      torchaudio.save("enhanced.wav", enhanced.cpu(), 16000)
+      return "enhanced.wav"
+gr.Interface(
+    fn=greet,
+    inputs=[gr.inputs.Textbox(label='请输入您想要合成的文字，请自觉合法合规使用！'),gr.Audio(type="filepath", source="upload",label='请上传您喜欢的声音(wav/mp3文件, max. 30mb)'),gr.Audio(source="microphone", type="filepath", label = '请用麦克风上传您喜欢的声音，与文件上传二选一即可')],
+    outputs="audio",
+    title="🥳💬💕 - Voice Cloning/声音合成测试版（目前只支持英文文本合成，中文版正在开发中，敬请期待）",
+    description = "注意❗：请不要生成会对个人以及组织造成侵害的内容，此程序仅供科研、学习使用。用户生成内容与程序开发者无关，请自觉合法合规使用，违反者一切后果自负。",
+    article = "🤖 - 让有人文关怀的AI造福每一个人！AI向善，文明璀璨！TalktoAI - Enable the future！",
+).launch()

best_model_latest.pth.tar ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:017bfd8907c80bb5857d65d0223f0e4e4b9d699ef52e2a853d9cc7eb7e308cf0
+size 379957289

config.json ADDED Viewed

	@@ -0,0 +1,373 @@

+{
+    "model": "vits",
+    "run_name": "vits_tts-portuguese",
+    "run_description": "",
+    "epochs": 1000,
+    "batch_size": 52,
+    "eval_batch_size": 52,
+    "mixed_precision": false,
+    "scheduler_after_epoch": true,
+    "run_eval": true,
+    "test_delay_epochs": -1,
+    "print_eval": true,
+    "dashboard_logger": "tensorboard",
+    "print_step": 25,
+    "plot_step": 100,
+    "model_param_stats": false,
+    "project_name": null,
+    "log_model_step": 10000,
+    "wandb_entity": null,
+    "save_step": 10000,
+    "checkpoint": true,
+    "keep_all_best": false,
+    "keep_after": 10000,
+    "num_loader_workers": 4,
+    "num_eval_loader_workers": 4,
+    "use_noise_augment": false,
+    "use_language_weighted_sampler": true,
+    "output_path": "../checkpoints/VITS-multilingual/VITS_fixes/new/new-SE/use_noise_aument_false/xlarge-ZS-PT-VCTK/pt-en+LibriTTS-fr/speaker_encoder_as_loss_9_alpha/mixed-p-false-bug-SDP-fixed/",
+    "distributed_backend": "nccl",
+    "distributed_url": "tcp://localhost:54321",
+    "audio": {
+        "fft_size": 1024,
+        "win_length": 1024,
+        "hop_length": 256,
+        "frame_shift_ms": null,
+        "frame_length_ms": null,
+        "stft_pad_mode": "reflect",
+        "sample_rate": 16000,
+        "resample": false,
+        "preemphasis": 0.0,
+        "ref_level_db": 20,
+        "do_sound_norm": false,
+        "log_func": "np.log",
+        "do_trim_silence": true,
+        "trim_db": 45,
+        "power": 1.5,
+        "griffin_lim_iters": 60,
+        "num_mels": 80,
+        "mel_fmin": 0.0,
+        "mel_fmax": null,
+        "spec_gain": 1,
+        "do_amp_to_db_linear": false,
+        "do_amp_to_db_mel": true,
+        "signal_norm": false,
+        "min_level_db": -100,
+        "symmetric_norm": true,
+        "max_norm": 4.0,
+        "clip_norm": true,
+        "stats_path": null
+    },
+    "use_phonemes": false,
+    "use_espeak_phonemes": false,
+    "phoneme_language": "pt-br",
+    "compute_input_seq_cache": false,
+    "text_cleaner": "multilingual_cleaners",
+    "enable_eos_bos_chars": false,
+    "test_sentences_file": "",
+    "phoneme_cache_path": null,
+    "characters": {
+        "pad": "_",
+        "eos": "&",
+        "bos": "*",
+        "characters": "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz\u00af\u00b7\u00df\u00e0\u00e1\u00e2\u00e3\u00e4\u00e6\u00e7\u00e8\u00e9\u00ea\u00eb\u00ec\u00ed\u00ee\u00ef\u00f1\u00f2\u00f3\u00f4\u00f5\u00f6\u00f9\u00fa\u00fb\u00fc\u00ff\u0101\u0105\u0107\u0113\u0119\u011b\u012b\u0131\u0142\u0144\u014d\u0151\u0153\u015b\u016b\u0171\u017a\u017c\u01ce\u01d0\u01d2\u01d4\u0430\u0431\u0432\u0433\u0434\u0435\u0436\u0437\u0438\u0439\u043a\u043b\u043c\u043d\u043e\u043f\u0440\u0441\u0442\u0443\u0444\u0445\u0446\u0447\u0448\u0449\u044a\u044b\u044c\u044d\u044e\u044f\u0451\u0454\u0456\u0457\u0491\u2013!'(),-.:;? ",
+        "punctuations": "!'(),-.:;? ",
+        "phonemes": "iy\u0268\u0289\u026fu\u026a\u028f\u028ae\u00f8\u0258\u0259\u0275\u0264o\u025b\u0153\u025c\u025e\u028c\u0254\u00e6\u0250a\u0276\u0251\u0252\u1d7b\u0298\u0253\u01c0\u0257\u01c3\u0284\u01c2\u0260\u01c1\u029bpbtd\u0288\u0256c\u025fk\u0261q\u0262\u0294\u0274\u014b\u0272\u0273n\u0271m\u0299r\u0280\u2c71\u027e\u027d\u0278\u03b2fv\u03b8\u00f0sz\u0283\u0292\u0282\u0290\u00e7\u029dx\u0263\u03c7\u0281\u0127\u0295h\u0266\u026c\u026e\u028b\u0279\u027bj\u0270l\u026d\u028e\u029f\u02c8\u02cc\u02d0\u02d1\u028dw\u0265\u029c\u02a2\u02a1\u0255\u0291\u027a\u0267\u025a\u02de\u026b'\u0303' ",
+        "unique": true
+    },
+    "batch_group_size": 0,
+    "loss_masking": null,
+    "min_seq_len": 90,
+    "max_seq_len": 270,
+    "compute_f0": false,
+    "compute_linear_spec": true,
+    "add_blank": true,
+    "datasets": [
+        {
+            "name": "vctk",
+            "path": "../../datasets/VCTK-Corpus-removed-silence_16Khz/",
+            "meta_file_train": null,
+            "ununsed_speakers": [
+                "p225",
+                "p234",
+                "p238",
+                "p245",
+                "p248",
+                "p261",
+                "p294",
+                "p302",
+                "p326",
+                "p335",
+                "p347"
+            ],
+            "language": "en",
+            "meta_file_val": null,
+            "meta_file_attn_mask": ""
+        },
+        {
+            "name": "libri_tts",
+            "path": "../../datasets/LibriTTS/LibriTTS/dataset-preprocessed-clean-100-and-360/dataset-22k/",
+            "meta_file_train": "metadata_all.csv",
+            "ununsed_speakers": null,
+            "language": "en",
+            "meta_file_val": "dev-clean_500.csv",
+            "meta_file_attn_mask": ""
+        },
+        {
+            "name": "brspeech",
+            "path": "../../datasets/TTS-Portuguese-Corpus_16khz/",
+            "meta_file_train": "train_TTS-Portuguese_Corpus_metadata.csv",
+            "ununsed_speakers": null,
+            "language": "pt-br",
+            "meta_file_val": "eval_TTS-Portuguese_Corpus_metadata.csv",
+            "meta_file_attn_mask": ""
+        },
+        {
+            "name": "mailabs",
+            "path": "../../datasets/M-AILABS/fr_FR",
+            "meta_file_train": "",
+            "ununsed_speakers": null,
+            "language": "fr-fr",
+            "meta_file_val": null,
+            "meta_file_attn_mask": null
+        }
+    ],
+    "optimizer": "AdamW",
+    "optimizer_params": {
+        "betas": [
+            0.8,
+            0.99
+        ],
+        "eps": 1e-09,
+        "weight_decay": 0.01
+    },
+    "lr_scheduler": "",
+    "lr_scheduler_params": null,
+    "test_sentences": [
+        [
+            "It took me quite a long time to develop a voice, and now that I have it I'm not going to be silent.",
+            "VCTK_p225",
+            null,
+            "en"
+        ],
+        [
+            "It took me quite a long time to develop a voice, and now that I have it I'm not going to be silent.",
+            "ED",
+            null,
+            "en"
+        ],
+        [
+            "It took me quite a long time to develop a voice, and now that I have it I'm not going to be silent.",
+            "bernard",
+            null,
+            "en"
+        ],
+        [
+            "This cake is great. It's so delicious and moist.",
+            "VCTK_p234",
+            null,
+            "en"
+        ],
+        [
+            "This cake is great. It's so delicious and moist.",
+            "ED",
+            null,
+            "en"
+        ],
+        [
+            "This cake is great. It's so delicious and moist.",
+            "ezwa",
+            null,
+            "en"
+        ],
+        [
+            "Hoje \u00e9 fundamental encontrar a raz\u00e3o da exist\u00eancia humana.",
+            "ED",
+            null,
+            "pt-br"
+        ],
+        [
+            "Hoje \u00e9 fundamental encontrar a raz\u00e3o da exist\u00eancia humana.",
+            "VCTK_p238",
+            null,
+            "pt-br"
+        ],
+        [
+            "Hoje \u00e9 fundamental encontrar a raz\u00e3o da exist\u00eancia humana.",
+            "gilles_g_le_blanc",
+            null,
+            "pt-br"
+        ],
+        [
+            "Em muitas cidades a popula\u00e7\u00e3o est\u00e1 diminuindo.",
+            "ED",
+            null,
+            "pt-br"
+        ],
+        [
+            "Em muitas cidades a popula\u00e7\u00e3o est\u00e1 diminuindo.",
+            "VCTK_p245",
+            null,
+            "pt-br"
+        ],
+        [
+            "Em muitas cidades a popula\u00e7\u00e3o est\u00e1 diminuindo.",
+            "nadine_eckert_boulet",
+            null,
+            "pt-br"
+        ],
+        [
+            "Il m'a fallu beaucoup de temps pour d\u00e9velopper une voix, et maintenant que je l'ai, je ne vais pas me taire.",
+            "VCTK_p245",
+            null,
+            "fr-fr"
+        ],
+        [
+            "Il m'a fallu beaucoup de temps pour d\u00e9velopper une voix, et maintenant que je l'ai, je ne vais pas me taire.",
+            "ED",
+            null,
+            "fr-fr"
+        ],
+        [
+            "Il m'a fallu beaucoup de temps pour d\u00e9velopper une voix, et maintenant que je l'ai, je ne vais pas me taire.",
+            "ezwa",
+            null,
+            "fr-fr"
+        ],
+        [
+            "Il m'a fallu beaucoup de temps pour d\u00e9velopper une voix, et maintenant que je l'ai, je ne vais pas me taire.",
+            "bernard",
+            null,
+            "fr-fr"
+        ],
+        [
+            "Il m'a fallu beaucoup de temps pour d\u00e9velopper une voix, et maintenant que je l'ai, je ne vais pas me taire.",
+            "gilles_g_le_blanc",
+            null,
+            "fr-fr"
+        ],
+        [
+            "Il m'a fallu beaucoup de temps pour d\u00e9velopper une voix, et maintenant que je l'ai, je ne vais pas me taire.",
+            "nadine_eckert_boulet",
+            null,
+            "fr-fr"
+        ],
+        [
+            "Il m'a fallu beaucoup de temps pour d\u00e9velopper une voix, et maintenant que je l'ai, je ne vais pas me taire.",
+            "zeckou",
+            null,
+            "fr-fr"
+        ]
+    ],
+    "use_speaker_embedding": true,
+    "use_d_vector_file": true,
+    "d_vector_dim": 512,
+    "model_args": {
+        "num_chars": 165,
+        "out_channels": 513,
+        "spec_segment_size": 62,
+        "hidden_channels": 192,
+        "hidden_channels_ffn_text_encoder": 768,
+        "num_heads_text_encoder": 2,
+        "num_layers_text_encoder": 10,
+        "kernel_size_text_encoder": 3,
+        "dropout_p_text_encoder": 0.1,
+        "dropout_p_duration_predictor": 0.5,
+        "kernel_size_posterior_encoder": 5,
+        "dilation_rate_posterior_encoder": 1,
+        "num_layers_posterior_encoder": 16,
+        "kernel_size_flow": 5,
+        "dilation_rate_flow": 1,
+        "num_layers_flow": 4,
+        "resblock_type_decoder": 1,
+        "resblock_kernel_sizes_decoder": [
+            3,
+            7,
+            11
+        ],
+        "resblock_dilation_sizes_decoder": [
+            [
+                1,
+                3,
+                5
+            ],
+            [
+                1,
+                3,
+                5
+            ],
+            [
+                1,
+                3,
+                5
+            ]
+        ],
+        "upsample_rates_decoder": [
+            8,
+            8,
+            2,
+            2
+        ],
+        "upsample_initial_channel_decoder": 512,
+        "upsample_kernel_sizes_decoder": [
+            16,
+            16,
+            4,
+            4
+        ],
+        "use_sdp": true,
+        "noise_scale": 1.0,
+        "inference_noise_scale": 0.667,
+        "length_scale": 1,
+        "noise_scale_dp": 1.0,
+        "inference_noise_scale_dp": 0.8,
+        "max_inference_len": null,
+        "init_discriminator": true,
+        "use_spectral_norm_disriminator": false,
+        "use_speaker_embedding": true,
+        "num_speakers": 1244,
+        "speakers_file": null,
+        "d_vector_file": "../speaker_embeddings/new-SE/VCTK-LibriTTS+TTS-PT+MAILABS-FR/speakers.json",
+        "speaker_embedding_channels": 512,
+        "use_d_vector_file": true,
+        "d_vector_dim": 512,
+        "detach_dp_input": true,
+        "use_language_embedding": true,
+        "embedded_language_dim": 4,
+        "num_languages": 3,
+        "use_speaker_encoder_as_loss": true,
+        "speaker_encoder_config_path": "../checkpoints/Speaker_Encoder/Resnet-original-paper/config.json",
+        "speaker_encoder_model_path": "../checkpoints/Speaker_Encoder/Resnet-original-paper/converted_checkpoint.pth.tar",
+        "fine_tuning_mode": 0,
+        "freeze_encoder": false,
+        "freeze_DP": false,
+        "freeze_PE": false,
+        "freeze_flow_decoder": false,
+        "freeze_waveform_decoder": false
+    },
+    "grad_clip": [
+        5.0,
+        5.0
+    ],
+    "lr_gen": 0.0002,
+    "lr_disc": 0.0002,
+    "lr_scheduler_gen": "ExponentialLR",
+    "lr_scheduler_gen_params": {
+        "gamma": 0.999875,
+        "last_epoch": -1
+    },
+    "lr_scheduler_disc": "ExponentialLR",
+    "lr_scheduler_disc_params": {
+        "gamma": 0.999875,
+        "last_epoch": -1
+    },
+    "kl_loss_alpha": 1.0,
+    "disc_loss_alpha": 1.0,
+    "gen_loss_alpha": 1.0,
+    "feat_loss_alpha": 1.0,
+    "mel_loss_alpha": 45.0,
+    "dur_loss_alpha": 1.0,
+    "speaker_encoder_loss_alpha": 9.0,
+    "return_wav": true,
+    "r": 1
+}

config_se.json ADDED Viewed

	@@ -0,0 +1,119 @@

+{
+    "model": "speaker_encoder",
+    "run_name": "speaker_encoder",
+    "run_description": "resnet speaker encoder trained with commonvoice all languages dev and train, Voxceleb 1 dev and Voxceleb 2 dev",
+    "epochs": 100000,
+    "batch_size": null,
+    "eval_batch_size": null,
+    "mixed_precision": false,
+    "run_eval": true,
+    "test_delay_epochs": 0,
+    "print_eval": false,
+    "print_step": 50,
+    "tb_plot_step": 100,
+    "tb_model_param_stats": false,
+    "save_step": 1000,
+    "checkpoint": true,
+    "keep_all_best": false,
+    "keep_after": 10000,
+    "num_loader_workers": 8,
+    "num_val_loader_workers": 0,
+    "use_noise_augment": false,
+    "output_path": "../checkpoints/speaker_encoder/language_balanced/normalized/angleproto-4-samples-by-speakers/",
+    "distributed_backend": "nccl",
+    "distributed_url": "tcp://localhost:54321",
+    "audio": {
+        "fft_size": 512,
+        "win_length": 400,
+        "hop_length": 160,
+        "frame_shift_ms": null,
+        "frame_length_ms": null,
+        "stft_pad_mode": "reflect",
+        "sample_rate": 16000,
+        "resample": false,
+        "preemphasis": 0.97,
+        "ref_level_db": 20,
+        "do_sound_norm": false,
+        "do_trim_silence": false,
+        "trim_db": 60,
+        "power": 1.5,
+        "griffin_lim_iters": 60,
+        "num_mels": 64,
+        "mel_fmin": 0.0,
+        "mel_fmax": 8000.0,
+        "spec_gain": 20,
+        "signal_norm": false,
+        "min_level_db": -100,
+        "symmetric_norm": false,
+        "max_norm": 4.0,
+        "clip_norm": false,
+        "stats_path": null
+    },
+    "datasets": [
+        {
+            "name": "voxceleb2",
+            "path": "/workspace/scratch/ecasanova/datasets/VoxCeleb/vox2_dev_aac/",
+            "meta_file_train": null,
+            "ununsed_speakers": null,
+            "meta_file_val": null,
+            "meta_file_attn_mask": "",
+            "language": "voxceleb"
+        }
+    ],
+    "model_params": {
+        "model_name": "resnet",
+        "input_dim": 64,
+        "use_torch_spec": true,
+        "log_input": true,
+        "proj_dim": 512
+    },
+    "audio_augmentation": {
+        "p": 0.5,
+        "rir": {
+            "rir_path": "/workspace/store/ecasanova/ComParE/RIRS_NOISES/simulated_rirs/",
+            "conv_mode": "full"
+        },
+        "additive": {
+            "sounds_path": "/workspace/store/ecasanova/ComParE/musan/",
+            "speech": {
+                "min_snr_in_db": 13,
+                "max_snr_in_db": 20,
+                "min_num_noises": 1,
+                "max_num_noises": 1
+            },
+            "noise": {
+                "min_snr_in_db": 0,
+                "max_snr_in_db": 15,
+                "min_num_noises": 1,
+                "max_num_noises": 1
+            },
+            "music": {
+                "min_snr_in_db": 5,
+                "max_snr_in_db": 15,
+                "min_num_noises": 1,
+                "max_num_noises": 1
+            }
+        },
+        "gaussian": {
+            "p": 0.0,
+            "min_amplitude": 0.0,
+            "max_amplitude": 1e-05
+        }
+    },
+    "storage": {
+        "sample_from_storage_p": 0.5,
+        "storage_size": 40
+    },
+    "max_train_step": 1000000,
+    "loss": "angleproto",
+    "grad_clip": 3.0,
+    "lr": 0.0001,
+    "lr_decay": false,
+    "warmup_steps": 4000,
+    "wd": 1e-06,
+    "steps_plot_stats": 100,
+    "num_speakers_in_batch": 100,
+    "num_utters_per_speaker": 4,
+    "skip_speakers": true,
+    "voice_len": 2.0
+}

cv-speakers-pt+en-m-f.json ADDED Viewed

The diff for this file is too large to render. See raw diff

errormessage.wav ADDED Viewed

Binary file (889 kB). View file

language_ids.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+    "en": 0,
+    "fr-fr": 1,
+    "pt-br": 2
+}

packages.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ libsndfile1

requirements.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+TTS
+torchaudio==0.9.0
+ipython
+GitPython
+speechbrain

speakers.json ADDED Viewed

The diff for this file is too large to render. See raw diff