11Labs-TTS-Free-VC-NEW

Sleeping

App Files Files Community

kevinwang676 commited on May 22

Commit

76e808f

•

1 Parent(s): e1f204c

Update app.py

Browse files

Files changed (1) hide show

app.py +8 -9

app.py CHANGED Viewed

@@ -68,8 +68,10 @@ def pad_buffer(audio):
     return audio
-def generate_voice(text, voice):
     audio = client.generate(text=text, voice=voice) #response.voices[0]
     audio = b"".join(audio)
     with open("output.mp3", "wb") as f:
@@ -101,7 +103,7 @@ html_denoise = """
 </html>
 """
-def convert(text, tgt, voice, save_path):
     model = "FreeVC (24kHz)"
     with torch.no_grad():
         # tgt
@@ -123,7 +125,7 @@ def convert(text, tgt, voice, save_path):
                 hps.data.mel_fmax
             )
         # src
-        src = generate_voice(text, voice)
         wav_src, _ = librosa.load(src, sr=hps.data.sampling_rate)
         wav_src = torch.from_numpy(wav_src).unsqueeze(0).to(device)
         c = cmodel(wav_src).last_hidden_state.transpose(1, 2).to(device)
@@ -304,9 +306,6 @@ import shutil
 def convert_from_srt(api_key, filename, audio_full, voice, multilingual):
-    client = ElevenLabs(
-        api_key=api_key, # Defaults to ELEVEN_API_KEY
-    )
     subtitle_list = read_srt(filename)
     #audio_data, sr = librosa.load(audio_full, sr=44100)
@@ -322,7 +321,7 @@ def convert_from_srt(api_key, filename, audio_full, voice, multilingual):
                 trim_audio([[i.start_time, i.end_time]], audio_full, f"sliced_audio_{i.index}")
                 print(f"正在合成第{i.index}条语音")
                 print(f"语音内容：{i.text}")
-                convert(i.text, f"sliced_audio_{i.index}_0.wav", voice, i.text + " " + str(i.index))
             except Exception:
                 pass
     else:
@@ -332,7 +331,7 @@ def convert_from_srt(api_key, filename, audio_full, voice, multilingual):
                 trim_audio([[i.start_time, i.end_time]], audio_full, f"sliced_audio_{i.index}")
                 print(f"正在合成第{i.index}条语音")
                 print(f"语音内容：{i.text.splitlines()[1]}")
-                convert(i.text.splitlines()[1], f"sliced_audio_{i.index}_0.wav", voice, i.text.splitlines()[1] + " " + str(i.index))
             except Exception:
                 pass
     merge_audios("output")

     return audio
+def generate_voice(api_key, text, voice):
+    client = ElevenLabs(
+        api_key=api_key, # Defaults to ELEVEN_API_KEY
+    )
     audio = client.generate(text=text, voice=voice) #response.voices[0]
     audio = b"".join(audio)
     with open("output.mp3", "wb") as f:
 </html>
 """
+def convert(api_key, text, tgt, voice, save_path):
     model = "FreeVC (24kHz)"
     with torch.no_grad():
         # tgt
                 hps.data.mel_fmax
             )
         # src
+        src = generate_voice(api_key, text, voice)
         wav_src, _ = librosa.load(src, sr=hps.data.sampling_rate)
         wav_src = torch.from_numpy(wav_src).unsqueeze(0).to(device)
         c = cmodel(wav_src).last_hidden_state.transpose(1, 2).to(device)
 def convert_from_srt(api_key, filename, audio_full, voice, multilingual):
     subtitle_list = read_srt(filename)
     #audio_data, sr = librosa.load(audio_full, sr=44100)
                 trim_audio([[i.start_time, i.end_time]], audio_full, f"sliced_audio_{i.index}")
                 print(f"正在合成第{i.index}条语音")
                 print(f"语音内容：{i.text}")
+                convert(api_key, i.text, f"sliced_audio_{i.index}_0.wav", voice, i.text + " " + str(i.index))
             except Exception:
                 pass
     else:
                 trim_audio([[i.start_time, i.end_time]], audio_full, f"sliced_audio_{i.index}")
                 print(f"正在合成第{i.index}条语音")
                 print(f"语音内容：{i.text.splitlines()[1]}")
+                convert(api_key, i.text.splitlines()[1], f"sliced_audio_{i.index}_0.wav", voice, i.text.splitlines()[1] + " " + str(i.index))
             except Exception:
                 pass
     merge_audios("output")