soni_cloned

Sleeping

App Files Files Community

test-rtechs commited on Aug 2, 2024

Commit

8d827df

verified ·

1 Parent(s): 54accfc

Update soni_translate/text_to_speech.py

Browse files

Files changed (1) hide show

soni_translate/text_to_speech.py +12 -11

soni_translate/text_to_speech.py CHANGED Viewed

@@ -15,6 +15,7 @@ from .utils import (
     remove_directory_contents,
     remove_files,
     run_command,
 )
 import numpy as np
 from typing import Any, Dict
@@ -59,7 +60,7 @@ def error_handling_in_tts(error, segment, TRANSLATE_AUDIO_TO, filename):
         # Read audio data from the TemporaryFile using soundfile
         audio_data, samplerate = sf.read(f)
         f.close()  # Close the TemporaryFile
-        sf.write(
             filename, audio_data, samplerate, format="ogg", subtype="vorbis"
         )
@@ -73,7 +74,7 @@ def error_handling_in_tts(error, segment, TRANSLATE_AUDIO_TO, filename):
         sample_rate_aux = 22050
         duration = float(segment["end"]) - float(segment["start"])
         data = np.zeros(int(sample_rate_aux * duration)).astype(np.float32)
-        sf.write(
             filename, data, sample_rate_aux, format="ogg", subtype="vorbis"
         )
         logger.error("Audio will be replaced -> [silent audio].")
@@ -181,7 +182,7 @@ def segments_egde_tts(filtered_edge_segments, TRANSLATE_AUDIO_TO, is_gui):
             # os.remove(temp_file)
             # Save file
-            sf.write(
                 file=filename,
                 samplerate=sample_rate,
                 data=data,
@@ -256,7 +257,7 @@ def segments_bark_tts(
                 speech_output.cpu().numpy().squeeze().astype(np.float32),
                 sampling_rate,
             )
-            sf.write(
                 file=filename,
                 samplerate=sampling_rate,
                 data=data_tts,
@@ -299,7 +300,7 @@ def uromanize(input_string):
             stderr=subprocess.PIPE,
         )
         stdout, stderr = process.communicate()
-    script_path = os.path.join("./uroman", "bin", "uroman.pl")
     command = ["perl", script_path]
@@ -362,7 +363,7 @@ def segments_vits_tts(filtered_vits_segments, TRANSLATE_AUDIO_TO):
                 sampling_rate,
             )
             # Save file
-            sf.write(
                 file=filename,
                 samplerate=sampling_rate,
                 data=data_tts,
@@ -667,7 +668,7 @@ def segments_coqui_tts(
                 sampling_rate,
             )
             # Save file
-            sf.write(
                 file=filename,
                 samplerate=sampling_rate,
                 data=data_tts,
@@ -855,7 +856,7 @@ def segments_vits_onnx_tts(filtered_onnx_vits_segments, TRANSLATE_AUDIO_TO):
                 sampling_rate,
             )
             # Save file
-            sf.write(
                 file=filename,
                 samplerate=sampling_rate,
                 data=data_tts,
@@ -925,7 +926,7 @@ def segments_openai_tts(
                 sampling_rate,
             )
-            sf.write(
                 file=filename,
                 samplerate=sampling_rate,
                 data=data_tts,
@@ -1509,7 +1510,7 @@ def toneconverter_freevc(
                 target_wav=original_wav_audio_segment,
             )
-            sf.write(
                 file=save_path,
                 samplerate=tts.voice_converter.vc_config.audio.output_sample_rate,
                 data=wav,
@@ -1571,4 +1572,4 @@ if __name__ == "__main__":
         tts_voice03="en-GB-SoniaNeural-Female",
         tts_voice04="en-NZ-MitchellNeural-Male",
         tts_voice05="en-GB-MaisieNeural-Female",
-    )

     remove_directory_contents,
     remove_files,
     run_command,
+    write_chunked,
 )
 import numpy as np
 from typing import Any, Dict
         # Read audio data from the TemporaryFile using soundfile
         audio_data, samplerate = sf.read(f)
         f.close()  # Close the TemporaryFile
+        write_chunked(
             filename, audio_data, samplerate, format="ogg", subtype="vorbis"
         )
         sample_rate_aux = 22050
         duration = float(segment["end"]) - float(segment["start"])
         data = np.zeros(int(sample_rate_aux * duration)).astype(np.float32)
+        write_chunked(
             filename, data, sample_rate_aux, format="ogg", subtype="vorbis"
         )
         logger.error("Audio will be replaced -> [silent audio].")
             # os.remove(temp_file)
             # Save file
+            write_chunked(
                 file=filename,
                 samplerate=sample_rate,
                 data=data,
                 speech_output.cpu().numpy().squeeze().astype(np.float32),
                 sampling_rate,
             )
+            write_chunked(
                 file=filename,
                 samplerate=sampling_rate,
                 data=data_tts,
             stderr=subprocess.PIPE,
         )
         stdout, stderr = process.communicate()
+    script_path = os.path.join("./uroman", "uroman", "uroman.pl")
     command = ["perl", script_path]
                 sampling_rate,
             )
             # Save file
+            write_chunked(
                 file=filename,
                 samplerate=sampling_rate,
                 data=data_tts,
                 sampling_rate,
             )
             # Save file
+            write_chunked(
                 file=filename,
                 samplerate=sampling_rate,
                 data=data_tts,
                 sampling_rate,
             )
             # Save file
+            write_chunked(
                 file=filename,
                 samplerate=sampling_rate,
                 data=data_tts,
                 sampling_rate,
             )
+            write_chunked(
                 file=filename,
                 samplerate=sampling_rate,
                 data=data_tts,
                 target_wav=original_wav_audio_segment,
             )
+            write_chunked(
                 file=save_path,
                 samplerate=tts.voice_converter.vc_config.audio.output_sample_rate,
                 data=wav,
         tts_voice03="en-GB-SoniaNeural-Female",
         tts_voice04="en-NZ-MitchellNeural-Male",
         tts_voice05="en-GB-MaisieNeural-Female",
+    )