Spaces:

pivich
/

sovits-new

Sleeping

sovits-new / app.py

Vladimir Alabov

update floppa model

507df25 9 months ago

No virus

4.37 kB

	import os
	import io
	import gradio as gr
	import librosa
	import numpy as np
	import logging
	import soundfile
	import torchaudio
	import asyncio
	import argparse
	import subprocess
	import gradio.processing_utils as gr_processing_utils
	logging.getLogger('numba').setLevel(logging.WARNING)
	logging.getLogger('markdown_it').setLevel(logging.WARNING)
	logging.getLogger('urllib3').setLevel(logging.WARNING)
	logging.getLogger('matplotlib').setLevel(logging.WARNING)

	limitation = os.getenv("SYSTEM") == "spaces" # limit audio length in huggingface spaces

	def unused_vc_fn(input_audio, vc_transform, voice):
	if input_audio is None:
	return "You need to upload an audio", None
	sampling_rate, audio = input_audio
	duration = audio.shape[0] / sampling_rate
	if duration > 20 and limitation:
	return "Please upload an audio file that is less than 20 seconds. If you need to generate a longer audio file, please use Colab.", None
	audio = (audio / np.iinfo(audio.dtype).max).astype(np.float32)
	if len(audio.shape) > 1:
	audio = librosa.to_mono(audio.transpose(1, 0))
	if sampling_rate != 16000:
	audio = librosa.resample(audio, orig_sr=sampling_rate, target_sr=16000)
	raw_path = io.BytesIO()
	soundfile.write(raw_path, audio, 16000, format="wav")
	raw_path.seek(0)
	out_audio, out_sr = model.infer(sid, vc_transform, raw_path,
	auto_predict_f0=True,
	)
	return "Success", (44100, out_audio.cpu().numpy())


	def run_inference(input_audio, speaker):
	if input_audio is None:
	return "You need to upload an audio", None
	sampling_rate, audio = input_audio
	duration = audio.shape[0] / sampling_rate
	if duration > 20 and limitation:
	return "Please upload an audio file that is less than 20 seconds. If you need to generate a longer audio file, please use Colab.", None
	audio = (audio / np.iinfo(audio.dtype).max).astype(np.float32)
	if len(audio.shape) > 1:
	audio = librosa.to_mono(audio.transpose(1, 0))
	if sampling_rate != 16000:
	audio = librosa.resample(audio, orig_sr=sampling_rate, target_sr=16000)

	#TODO edit from GUI
	cluster_ratio = 1
	noise_scale = 2
	is_pitch_prediction_enabled = True
	f0_method = "dio"
	transpose = 0

	model_path = f"./models/{speaker}/{speaker}.pth"
	config_path = f"./models/{speaker}/config.json"
	cluster_path = ""

	raw_path = 'tmp.wav'
	soundfile.write(raw_path, audio, 16000, format="wav")

	inference_cmd = f"svc infer {raw_path} -m {model_path} -c {config_path} {f'-k {cluster_path} -r {cluster_ratio}' if cluster_path != '' and cluster_ratio > 0 else ''} -t {transpose} --f0-method {f0_method} -n {noise_scale} -o out.wav {'' if is_pitch_prediction_enabled else '--no-auto-predict-f0'}"
	print(inference_cmd)

	result = subprocess.run(
	inference_cmd.split(),
	stdout=subprocess.PIPE,
	stderr=subprocess.STDOUT,
	text=True
	)
	audio, sr = torchaudio.load('out.wav')
	out_audio = audio.cpu().numpy()[0]
	print(out_audio)
	return 'out.wav' # (sr, out_audio)

	if __name__ == '__main__':
	parser = argparse.ArgumentParser()
	parser.add_argument('--device', type=str, default='cpu')
	parser.add_argument('--api', action="store_true", default=False)
	parser.add_argument("--share", action="store_true", default=False, help="share gradio app")
	args = parser.parse_args()

	speakers = ["chapaev", "petka", "anka", "narrator", "floppa"]

	models = []
	voices = []

	# !svc infer {NAME}.wav -c config.json -m G_riri_220.pth
	# display(Audio(f"{NAME}.out.wav", autoplay=True))
	with gr.Blocks() as app:
	gr.Markdown(
	"# <center> Sovits Chapay\n"
	)

	with gr.Row():
	with gr.Column():
	vc_input = gr.Audio(label="Input audio"+' (less than 20 seconds)' if limitation else '')
	speaker = gr.Dropdown(label="Speaker", choices=speakers, visible=True)

	vc_submit = gr.Button("Generate", variant="primary")
	with gr.Column():
	vc_output = gr.Audio(label="Output Audio")
	vc_submit.click(run_inference, [vc_input, speaker], [vc_output])
	app.queue(concurrency_count=1, api_open=True).launch(show_api=True, show_error=True)