WhisperSpeech

Runtime error

Tonic commited on Jan 20

Commit

9c5433a

•

1 Parent(s): 9c4ca64

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -37,16 +37,22 @@ def whisper_speech_demo(text, lang, speaker_audio, mix_lang, mix_text):
     resample_audio = resampler(newsr=24000)
     audio_data_resampled = next(resample_audio([{'sample_rate': 22050, 'samples': audio_data.cpu()}]))['samples_24k']
-    # Normalize
     with tempfile.NamedTemporaryFile(delete=False, suffix='.wav') as tmp_file:
         tmp_file_name = tmp_file.name
         audio_np = audio_data_resampled.numpy()  # Convert to numpy array
         if audio_np.max() > 1.0 or audio_np.min() < -1.0:
             audio_np = audio_np / np.max(np.abs(audio_np))
-        sf.write(tmp_file_name, audio_np, 24000, 'PCM_24')  # Write with a sample rate of 24000 Hz
     return tmp_file_name
 with gr.Blocks() as demo:

     resample_audio = resampler(newsr=24000)
     audio_data_resampled = next(resample_audio([{'sample_rate': 22050, 'samples': audio_data.cpu()}]))['samples_24k']
+    # Normalize and write to a WAV file
     with tempfile.NamedTemporaryFile(delete=False, suffix='.wav') as tmp_file:
         tmp_file_name = tmp_file.name
         audio_np = audio_data_resampled.numpy()  # Convert to numpy array
+        # Normalize if necessary
         if audio_np.max() > 1.0 or audio_np.min() < -1.0:
             audio_np = audio_np / np.max(np.abs(audio_np))
+        # Ensure the audio data is 2D (num_samples, num_channels)
+        if audio_np.ndim == 1:
+            audio_np = np.expand_dims(audio_np, axis=1)
+        # Write the file
+        sf.write(tmp_file_name, audio_np, 24000)
     return tmp_file_name
 with gr.Blocks() as demo: