Accent_changer

Runtime error

App Files Files Community

Shanuka01 commited on Oct 26, 2023

Commit

96b28b8

1 Parent(s): f7135c5

Update app.py

Browse files

Files changed (1) hide show

app.py +37 -44

app.py CHANGED Viewed

@@ -8,32 +8,36 @@ from tortoise.api import TextToSpeech
 from tortoise.utils.text import split_and_recombine_text
 from tortoise.utils.audio import load_audio, load_voice, load_voices
-# STT Setup
-device = 'cuda' if torch.cuda.is_available() else 'cpu'
 model_id = "openai/whisper-tiny"
-pipe = pipeline("automatic-speech-recognition", model=model_id, device=0)
-# TTS Setup
-VOICE_OPTIONS = ["indian_F_1", "indian_F_2", "indian_F_3", "indian_M_1", "indian_M_2", "indian_M_3"]
 tts = TextToSpeech(kv_cache=True, use_deepspeed=True, half=True)
-def combined_inference(filepath, voice):
-    # STT: Convert audio to text
-    output = pipe(
         filepath,
         max_new_tokens=256,
-        generate_kwargs={"task": "transcribe", "language": "english"},
-        chunk_length_s=15,
-        batch_size=16,
     )
-    text = output["text"]
-    # TTS: Convert text back to audio
-    texts = split_and_recombine_text(text)
     voice_samples, conditioning_latents = load_voice(voice)
-    for j, text in enumerate(texts):
         for audio_frame in tts.tts_with_preset(
             text,
             voice_samples=voice_samples,
@@ -41,32 +45,21 @@ def combined_inference(filepath, voice):
             preset="ultra_fast",
             k=1
         ):
-            yield (24000, audio_frame.cpu().detach().numpy())
-def main():
-    title = "Combined STT and TTS"
-    description = ""
-    voice = gr.Dropdown(
-        VOICE_OPTIONS, value="indian_F_1", label="Select voice:", type="value"
-    )
-    interface = gr.Interface(
-        fn=combined_inference,
-        inputs=[
-            gr.Audio(source="upload", type="filepath"),
-            voice
-        ],
-        title=title,
-        description=description,
-        outputs=[gr.Audio(label="streaming audio:", streaming=True, autoplay=True)],
-    )
-    interface.queue().launch()
-if __name__ == "__main__":
-    with open("Combined_STT_TTS_Runs_Scripts.log", "a") as f:
-        f.write(
-            f"\n\n-------------------------Combined STT TTS Scripts Logs, {datetime.now()}-------------------------\n"
-        )
-    main()

 from tortoise.utils.text import split_and_recombine_text
 from tortoise.utils.audio import load_audio, load_voice, load_voices
+# STT Initialization
 model_id = "openai/whisper-tiny"
+pipe = pipeline("automatic-speech-recognition", model=model_id)
+# TTS Initialization
+VOICE_OPTIONS = [
+    "indian_F_1", "indian_F_2", "indian_F_3",
+    "indian_M_1", "indian_M_2", "indian_M_3"
+]
 tts = TextToSpeech(kv_cache=True, use_deepspeed=True, half=True)
+def convert_audio(filepath, voice="indian_F_1"):
+    # Transcribe audio to text using STT
+    transcription_output = pipe(
         filepath,
         max_new_tokens=256,
+        generate_kwargs={
+            "task": "transcribe",
+            "language": "english",
+        },
+        chunk_length_s=30,
+        batch_size=8
     )
+    transcribed_text = transcription_output["text"]
+    # Use the transcribed text for TTS
+    texts = split_and_recombine_text(transcribed_text)
     voice_samples, conditioning_latents = load_voice(voice)
+    audio_frames = []
+    for text in texts:
         for audio_frame in tts.tts_with_preset(
             text,
             voice_samples=voice_samples,
             preset="ultra_fast",
             k=1
         ):
+            audio_frames.append(audio_frame.cpu().detach().numpy())
+    # Joining the audio frames for output
+    final_audio = torch.cat(audio_frames, axis=0)
+    return (24000, final_audio)
+interface = gr.Interface(
+    fn=convert_audio,
+    inputs=[
+        gr.Audio(source="upload", type="filepath"),
+        gr.Dropdown(VOICE_OPTIONS, value="indian_F_1", label="Select voice:", type="value")
+    ],
+    outputs=gr.Audio(label="streaming audio:", streaming=True, autoplay=True),
+    title="STT to TTS",
+    description="Convert spoken words into a different voice"
+)
+interface.launch()