Spaces:

Eldeeb
/

text-to-speech

Sleeping

Eldeeb commited on Sep 15, 2024

Commit

64e5450

verified ·

1 Parent(s): b534e1f

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,11 +1,9 @@
-# streamlit_app.py
 import streamlit as st
 from transformers import pipeline
 import numpy as np
-import tempfile
 import soundfile as sf
-import os
-import io
 # Caching the text-to-speech model
 @st.cache_resource
@@ -21,17 +19,24 @@ if 'conversation_history' not in st.session_state:
 if 'tts_audio' not in st.session_state:
     st.session_state.tts_audio = None
 def convert_text_to_speech(text):
     # Generate speech from text
-    audio = tts_pipe(text)
     return audio
-def save_audio(audio):
-    # Save the audio to a temporary file
-    temp_file = tempfile.NamedTemporaryFile(delete=False, suffix='.wav')
-    with open(temp_file.name, 'wb') as f:
-        f.write(audio['audio'])
-    return temp_file.name
 # Sidebar options
 st.sidebar.title("App Settings")
@@ -51,14 +56,11 @@ if feature == "Text-to-Speech":
         if user_message:
             # Convert text to speech
             tts_audio = convert_text_to_speech(user_message)
-            audio_file = save_audio(tts_audio)
             # Display the audio player
-            st.audio(audio_file, format='audio/wav')
             st.success("Conversion successful!")
-            # Clean up temporary file
-            os.remove(audio_file)
         else:
             st.warning("Please enter text before converting.")

 import streamlit as st
 from transformers import pipeline
+import io
 import numpy as np
 import soundfile as sf
+import requests
 # Caching the text-to-speech model
 @st.cache_resource
 if 'tts_audio' not in st.session_state:
     st.session_state.tts_audio = None
+# Example function to obtain speaker embeddings
+def get_speaker_embeddings():
+    # Placeholder: Replace with actual code to obtain embeddings
+    url = "https://huggingface.co/datasets/Matthijs/cmu-arctic-xvectors/resolve/main/xvectors.npy"
+    response = requests.get(url)
+    speaker_embeddings = np.load(io.BytesIO(response.content))
+    return speaker_embeddings
 def convert_text_to_speech(text):
+    speaker_embeddings = get_speaker_embeddings()  # Obtain speaker embeddings
     # Generate speech from text
+    audio = tts_pipe(text, speaker_embeddings=speaker_embeddings)
     return audio
+def convert_audio_to_bytes(audio):
+    # Convert audio data to bytes
+    audio_buffer = io.BytesIO(audio['audio'])
+    return audio_buffer
 # Sidebar options
 st.sidebar.title("App Settings")
         if user_message:
             # Convert text to speech
             tts_audio = convert_text_to_speech(user_message)
+            audio_bytes = convert_audio_to_bytes(tts_audio)
             # Display the audio player
+            st.audio(audio_bytes, format='audio/wav')
             st.success("Conversion successful!")
         else:
             st.warning("Please enter text before converting.")