Spaces:

Fralet
/

youtube

Sleeping

Fralet commited on Jun 21, 2024

Commit

0cd4364

verified ·

1 Parent(s): 1d15323

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,5 +1,6 @@
-from transformers import pipeline, DiffusionTextToSpeechPipeline
 # Initialize the translation pipeline for Russian to English
 translator = pipeline("translation_ru_to_en", model="Helsinki-NLP/opus-mt-ru-en")
@@ -19,11 +20,14 @@ summary = summarizer(translation, max_length=140, min_length=110, do_sample=Fals
 print("Summary: ", summary)
-pipeline = DiffusionTextToSpeechPipeline.from_pretrained("microsoft/tts-diffusion-xlarge-en")
 # Generate speech
-speech = pipeline(summary)
-# Save the output
-with open("output.wav", "wb") as f:
-    f.write(speech["sampling_rate"].get_wav_data())

+from transformers import pipeline, TFAutoModelForCausalLM, AutoTokenizer
+import soundfile as sf
+import torch
 # Initialize the translation pipeline for Russian to English
 translator = pipeline("translation_ru_to_en", model="Helsinki-NLP/opus-mt-ru-en")
 print("Summary: ", summary)
+tokenizer = AutoTokenizer.from_pretrained("facebook/fastspeech2-en-ljspeech")
+model = TFAutoModelForCausalLM.from_pretrained("facebook/fastspeech2-en-ljspeech")
+inputs = tokenizer(summary, return_tensors="tf")
 # Generate speech
+with torch.no_grad():
+    logits = model.generate(**inputs)
+# Save the audio
+sf.write('output_audio.wav', logits.numpy(), samplerate=16000)