bark-voice-cloning-polish-HuBERT-quantizer

Sleeping

Hobis commited on May 28, 2023

Commit

3e91b4e

•

1 Parent(s): 001ec5c

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -18,7 +18,9 @@ tokenizer = CustomTokenizer.load_from_checkpoint('polish-HuBERT-quantizer_8_epoc
 def process_audio(in_file):
-    wav, sr = torchaudio.load(in_file.name)
     if wav.shape[0] == 2:
         wav = wav.mean(0, keepdim=True)
     semantic_vectors = hubert_model.forward(wav, input_sample_hz=sr)
@@ -30,8 +32,11 @@ def process_audio(in_file):
     codes = torch.cat([encoded[0] for encoded in encoded_frames], dim=-1).squeeze()
     fine_prompt = codes
     coarse_prompt = fine_prompt[:2, :]
-    np.savez('output.npz', semantic_prompt=semantic_tokens, fine_prompt=fine_prompt, coarse_prompt=coarse_prompt)
-    return 'output.npz'
 iface = gr.Interface(fn=process_audio, inputs=gr.inputs.File(label="Input Audio"), outputs=gr.outputs.File(label="Output File"))
 iface.launch()
@@ -41,3 +46,4 @@ iface.launch()

 def process_audio(in_file):
+    input_filename = in_file.name
+    wav, sr = torchaudio.load(input_filename)
     if wav.shape[0] == 2:
         wav = wav.mean(0, keepdim=True)
     semantic_vectors = hubert_model.forward(wav, input_sample_hz=sr)
     codes = torch.cat([encoded[0] for encoded in encoded_frames], dim=-1).squeeze()
     fine_prompt = codes
     coarse_prompt = fine_prompt[:2, :]
+    output_filename = os.path.splitext(input_filename)[0] + '.npz'
+    np.savez(output_filename, semantic_prompt=semantic_tokens, fine_prompt=fine_prompt, coarse_prompt=coarse_prompt)
+    return output_filename
 iface = gr.Interface(fn=process_audio, inputs=gr.inputs.File(label="Input Audio"), outputs=gr.outputs.File(label="Output File"))
 iface.launch()