Spaces:

skytnt
/

moe-tts

Running on CPU Upgrade

App Files Files Community

skytnt commited on Oct 10, 2024

Commit

eb91658

1 Parent(s): a4b3927

gradio 5.0.1

Browse files

Files changed (2) hide show

README.md +1 -1
app.py +11 -19

README.md CHANGED Viewed

@@ -4,7 +4,7 @@ emoji: 😊🎙️
 colorFrom: red
 colorTo: pink
 sdk: gradio
-sdk_version: 4.36.0
 app_file: app.py
 pinned: true
 license: mit

 colorFrom: red
 colorTo: pink
 sdk: gradio
+sdk_version: 5.0.1
 app_file: app.py
 pinned: true
 license: mit

app.py CHANGED Viewed

@@ -2,22 +2,18 @@ import argparse
 import json
 import os
 import re
-import tempfile
-from pathlib import Path
 import librosa
 import numpy as np
 import torch
-from gradio import FileData
 from torch import no_grad, LongTensor
 import commons
 import utils
-import gradio as gr
-import gradio.utils as gr_utils
-import gradio_client.utils as gr_processing_utils
 from models import SynthesizerTrn
 from text import text_to_sequence, _clean_text
-from mel_processing import spectrogram_torch
 limitation = os.getenv("SYSTEM") == "spaces"  # limit text and audio length in huggingface spaces
@@ -59,9 +55,6 @@ def create_vc_fn(model, hps, speaker_ids):
         if input_audio is None:
             return "You need to upload an audio", None
         sampling_rate, audio = input_audio
-        duration = audio.shape[0] / sampling_rate
-        if limitation and duration > 30:
-            return "Error: Audio is too long", None
         original_speaker_id = speaker_ids[original_speaker]
         target_speaker_id = speaker_ids[target_speaker]
@@ -92,9 +85,6 @@ def create_soft_vc_fn(model, hps, speaker_ids):
         if input_audio is None:
             return "You need to upload an audio", None
         sampling_rate, audio = input_audio
-        duration = audio.shape[0] / sampling_rate
-        if limitation and duration > 30:
-            return "Error: Audio is too long", None
         target_speaker_id = speaker_ids[target_speaker]
         audio = (audio / np.iinfo(audio.dtype).max).astype(np.float32)
@@ -186,12 +176,12 @@ if __name__ == '__main__':
                             to_symbol_fn) in enumerate(models_tts):
                         with gr.TabItem(f"model{i}"):
                             with gr.Column():
-                                cover_markdown = f"![cover](file/{cover_path})\n\n" if cover_path else ""
                                 gr.Markdown(f"## {name}\n\n"
                                             f"{cover_markdown}"
                                             f"model author: {author}\n\n"
                                             f"language: {lang}")
-                                tts_input1 = gr.TextArea(label="Text (150 words limitation)", value=example,
                                                          elem_id=f"tts-input{i}")
                                 tts_input2 = gr.Dropdown(label="Speaker", choices=speakers,
                                                          type="index", value=speakers[0])
@@ -237,7 +227,7 @@ if __name__ == '__main__':
                 with gr.Tabs():
                     for i, (name, author, cover_path, speakers, vc_fn) in enumerate(models_vc):
                         with gr.TabItem(f"model{i}"):
-                            cover_markdown = f"![cover](file/{cover_path})\n\n" if cover_path else ""
                             gr.Markdown(f"## {name}\n\n"
                                         f"{cover_markdown}"
                                         f"model author: {author}")
@@ -245,7 +235,8 @@ if __name__ == '__main__':
                                                     value=speakers[0])
                             vc_input2 = gr.Dropdown(label="Target Speaker", choices=speakers, type="index",
                                                     value=speakers[min(len(speakers) - 1, 1)])
-                            vc_input3 = gr.Audio(label="Input Audio (30s limitation)")
                             vc_submit = gr.Button("Convert", variant="primary")
                             vc_output1 = gr.Textbox(label="Output Message")
                             vc_output2 = gr.Audio(label="Output Audio", elem_id=f"vc-audio{i}")
@@ -255,13 +246,14 @@ if __name__ == '__main__':
                 with gr.Tabs():
                     for i, (name, author, cover_path, speakers, soft_vc_fn) in enumerate(models_soft_vc):
                         with gr.TabItem(f"model{i}"):
-                            cover_markdown = f"![cover](file/{cover_path})\n\n" if cover_path else ""
                             gr.Markdown(f"## {name}\n\n"
                                         f"{cover_markdown}"
                                         f"model author: {author}")
                             vc_input1 = gr.Dropdown(label="Target Speaker", choices=speakers, type="index",
                                                     value=speakers[0])
-                            vc_input2 = gr.Audio(label="Input Audio (30s limitation)")
                             vc_submit = gr.Button("Convert", variant="primary")
                             vc_output1 = gr.Textbox(label="Output Message")
                             vc_output2 = gr.Audio(label="Output Audio", elem_id=f"svc-audio{i}")

 import json
 import os
 import re
+import gradio as gr
 import librosa
 import numpy as np
 import torch
 from torch import no_grad, LongTensor
 import commons
 import utils
+from mel_processing import spectrogram_torch
 from models import SynthesizerTrn
 from text import text_to_sequence, _clean_text
 limitation = os.getenv("SYSTEM") == "spaces"  # limit text and audio length in huggingface spaces
         if input_audio is None:
             return "You need to upload an audio", None
         sampling_rate, audio = input_audio
         original_speaker_id = speaker_ids[original_speaker]
         target_speaker_id = speaker_ids[target_speaker]
         if input_audio is None:
             return "You need to upload an audio", None
         sampling_rate, audio = input_audio
         target_speaker_id = speaker_ids[target_speaker]
         audio = (audio / np.iinfo(audio.dtype).max).astype(np.float32)
                             to_symbol_fn) in enumerate(models_tts):
                         with gr.TabItem(f"model{i}"):
                             with gr.Column():
+                                cover_markdown = f"![cover](gradio_api/file={cover_path})\n\n" if cover_path else ""
                                 gr.Markdown(f"## {name}\n\n"
                                             f"{cover_markdown}"
                                             f"model author: {author}\n\n"
                                             f"language: {lang}")
+                                tts_input1 = gr.TextArea(label="Text (150 chars limitation)", value=example,
                                                          elem_id=f"tts-input{i}")
                                 tts_input2 = gr.Dropdown(label="Speaker", choices=speakers,
                                                          type="index", value=speakers[0])
                 with gr.Tabs():
                     for i, (name, author, cover_path, speakers, vc_fn) in enumerate(models_vc):
                         with gr.TabItem(f"model{i}"):
+                            cover_markdown = f"![cover](gradio_api/file={cover_path})\n\n" if cover_path else ""
                             gr.Markdown(f"## {name}\n\n"
                                         f"{cover_markdown}"
                                         f"model author: {author}")
                                                     value=speakers[0])
                             vc_input2 = gr.Dropdown(label="Target Speaker", choices=speakers, type="index",
                                                     value=speakers[min(len(speakers) - 1, 1)])
+                            vc_input3 = gr.Audio(label="Input Audio",
+                                                 max_length=30 if limitation else None)
                             vc_submit = gr.Button("Convert", variant="primary")
                             vc_output1 = gr.Textbox(label="Output Message")
                             vc_output2 = gr.Audio(label="Output Audio", elem_id=f"vc-audio{i}")
                 with gr.Tabs():
                     for i, (name, author, cover_path, speakers, soft_vc_fn) in enumerate(models_soft_vc):
                         with gr.TabItem(f"model{i}"):
+                            cover_markdown = f"![cover](gradio_api/file={cover_path})\n\n" if cover_path else ""
                             gr.Markdown(f"## {name}\n\n"
                                         f"{cover_markdown}"
                                         f"model author: {author}")
                             vc_input1 = gr.Dropdown(label="Target Speaker", choices=speakers, type="index",
                                                     value=speakers[0])
+                            vc_input2 = gr.Audio(label="Input Audio",
+                                                 max_length=30 if limitation else None)
                             vc_submit = gr.Button("Convert", variant="primary")
                             vc_output1 = gr.Textbox(label="Output Message")
                             vc_output2 = gr.Audio(label="Output Audio", elem_id=f"svc-audio{i}")