Spaces:

Somalitts
/

8aad

Running

App Files Files Community

8aad / app.py

Somalitts

Update app.py

25352e2 verified 11 days ago

raw

history blame contribute delete

3.77 kB

	import gradio as gr
	import torch
	import torchaudio
	import re
	import os
	from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan
	from speechbrain.pretrained import EncoderClassifier

	device = "cuda" if torch.cuda.is_available() else "cpu"

	# Load models
	processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
	model = SpeechT5ForTextToSpeech.from_pretrained("Somalitts/8aad").to(device)
	vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan").to(device)

	speaker_model = EncoderClassifier.from_hparams(
	source="speechbrain/spkrec-xvect-voxceleb",
	run_opts={"device": device},
	savedir="./spk_model"
	)

	# Speaker embedding
	EMB_PATH = "speaker_embedding.pt"
	if os.path.exists(EMB_PATH):
	speaker_embedding = torch.load(EMB_PATH).to(device)
	else:
	audio, sr = torchaudio.load("1.wav")
	audio = torchaudio.functional.resample(audio, sr, 16000).mean(dim=0).unsqueeze(0).to(device)
	with torch.no_grad():
	emb = speaker_model.encode_batch(audio)
	emb = torch.nn.functional.normalize(emb, dim=2).squeeze()
	torch.save(emb.cpu(), EMB_PATH)
	speaker_embedding = emb

	# Number conversion (Somali)
	number_words = {
	0: "eber", 1: "koow", 2: "labo", 3: "seddex", 4: "afar", 5: "shan",
	6: "lix", 7: "todobo", 8: "sideed", 9: "sagaal", 10: "toban",
	11: "toban iyo koow", 12: "toban iyo labo", 13: "toban iyo seddex",
	14: "toban iyo afar", 15: "toban iyo shan", 16: "toban iyo lix",
	17: "toban iyo todobo", 18: "toban iyo sideed", 19: "toban iyo sagaal",
	20: "labaatan", 30: "sodon", 40: "afartan", 50: "konton",
	60: "lixdan", 70: "todobaatan", 80: "sideetan", 90: "sagaashan",
	100: "boqol", 1000: "kun",
	}

	def number_to_words(number):
	if number < 20:
	return number_words[number]
	elif number < 100:
	tens, unit = divmod(number, 10)
	return number_words[tens * 10] + (" " + number_words[unit] if unit else "")
	elif number < 1000:
	hundreds, remainder = divmod(number, 100)
	return (number_words[hundreds] + " boqol" if hundreds > 1 else "BOQOL") + (" " + number_to_words(remainder) if remainder else "")
	elif number < 1000000:
	thousands, remainder = divmod(number, 1000)
	return (number_to_words(thousands) + " kun" if thousands > 1 else "KUN") + (" " + number_to_words(remainder) if remainder else "")
	elif number < 1000000000:
	millions, remainder = divmod(number, 1000000)
	return number_to_words(millions) + " malyan" + (" " + number_to_words(remainder) if remainder else "")
	elif number < 1000000000000:
	billions, remainder = divmod(number, 1000000000)
	return number_to_words(billions) + " milyaar" + (" " + number_to_words(remainder) if remainder else "")
	else:
	return str(number)

	def replace_numbers_with_words(text):
	def replace(match):
	number = int(match.group())
	return number_to_words(number)
	return re.sub(r'\b\d+\b', replace, text)

	def normalize_text(text):
	text = text.lower()
	text = replace_numbers_with_words(text)
	text = re.sub(r'[^\w\s]', '', text)
	return text

	# TTS function
	def text_to_speech(text):
	text = normalize_text(text)
	inputs = processor(text=text, return_tensors="pt").to(device)
	with torch.no_grad():
	speech = model.generate_speech(inputs["input_ids"], speaker_embedding.unsqueeze(0), vocoder=vocoder)
	return (16000, speech.cpu().numpy())

	# Gradio Interface
	iface = gr.Interface(
	fn=text_to_speech,
	inputs=gr.Textbox(label="Geli qoraalka af-soomaali"),
	outputs=gr.Audio(label="Codka la abuuray", type="numpy"),
	title="Somali TTS",
	description="TTS Soomaaliyeed oo la adeegsaday cod gaar ah (11.wav)"
	)

	iface.launch()