Spaces:

Varosa
/

Varosa_Translation

Sleeping

App Files Files Community

Varosa commited on Oct 6, 2023

Commit

0ad5b35

•

1 Parent(s): 9be6ad2

uploaded all files

Browse files

Files changed (3) hide show

app.py +67 -0
requirements.txt +6 -0
utils.py +55 -0

app.py ADDED Viewed

	@@ -0,0 +1,67 @@

+import gradio as gr
+from transformers import pipeline
+from transformers import MBartForConditionalGeneration, MBart50TokenizerFast
+from utils import lang_ids
+import nltk
+nltk.download('punkt')
+MODEL_NAME = "Pranjal12345/pranjal_whisper_medium"
+BATCH_SIZE = 8
+FILE_LIMIT_MB = 1000
+pipe = pipeline(
+    task="automatic-speech-recognition",
+    model=MODEL_NAME,
+    chunk_length_s=30,
+    device='cpu',
+)
+lang_list = list(lang_ids.keys())
+def translate_audio(inputs,target_language):
+    if inputs is None:
+        raise gr.Error("No audio file submitted! Please upload an audio file before submitting your request.")
+    text = pipe(inputs, batch_size=BATCH_SIZE, generate_kwargs={"task": "translate"}, return_timestamps=True)["text"]
+    target_lang = lang_ids[target_language]
+    if target_language == 'English':
+         return text
+    else:
+        model = MBartForConditionalGeneration.from_pretrained("sanjitaa/mbart-many-to-many")
+        tokenizer = MBart50TokenizerFast.from_pretrained("sanjitaa/mbart-many-to-many")
+        tokenizer.src_lang = "en_XX"
+        chunks = nltk.tokenize.sent_tokenize(text)
+        translated_text = ''
+        for segment in chunks:
+                encoded_chunk = tokenizer(segment, return_tensors="pt")
+                generated_tokens = model.generate(
+                     **encoded_chunk,
+                     forced_bos_token_id=tokenizer.lang_code_to_id[target_lang]
+                )
+                translated_chunk = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
+                translated_text = translated_text + translated_chunk[0]
+        return translated_text
+inputs=[
+    gr.inputs.Audio(source="upload", type="filepath", label="Audio file"),
+    gr.Dropdown(lang_list, value="English", label="Target Language"),
+    ]
+description = "Audio translation"
+translation_interface = gr.Interface(
+    fn=translate_audio,
+    inputs= inputs,
+    outputs="text",
+    title="Speech Translation",
+    description= description
+)
+if __name__ == "__main__":
+    translation_interface.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+torch
+transformers
+requests
+python-multipart
+sentencepiece
+nltk

utils.py ADDED Viewed

	@@ -0,0 +1,55 @@

+lang_ids = {
+    "Arabic": "ar_AR",
+    "Czech": "cs_CZ",
+    "German": "de_DE",
+    "English": "en_XX",
+    "Spanish": "es_XX",
+    "Estonian": "et_EE",
+    "Finnish": "fi_FI",
+    "French": "fr_XX",
+    "Gujarati": "gu_IN",
+    "Hindi": "hi_IN",
+    "Italian": "it_IT",
+    "Japanese":"ja_XX",
+    "Kazakh": "kk_KZ",
+    "Korean": "ko_KR",
+    "Lithuanian": "lt_LT",
+    "Latvian": "lv_LV",
+    "Burmese": "my_MM",
+    "Nepali": "ne_NP",
+    "Dutch": "nl_XX",
+    "Romanian": "ro_RO",
+    "Russian": "ru_RU",
+    "Sinhala": "si_LK",
+    "Turkish": "tr_TR",
+    "Vietnamese": "vi_VN",
+    "Chinese": "zh_CN",
+    "Afrikaans": "af_ZA",
+    "Azerbaijani": "az_AZ",
+    "Bengali": "bn_IN",
+    "Persian": "fa_IR",
+    "Hebrew": "he_IL",
+    "Croatian": "hr_HR",
+    "Indonesian": "id_ID",
+    "Georgian": "ka_GE",
+    "Khmer": "km_KH",
+    "Macedonian": "mk_MK",
+    "Malayalam": "ml_IN",
+    "Mongolian": "mn_MN",
+    "Marathi": "mr_IN",
+    "Polish": "pl_PL",
+    "Pashto": "ps_AF",
+    "Portuguese": "pt_XX",
+    "Swedish": "sv_SE",
+    "Swahili": "sw_KE",
+    "Tamil": "ta_IN",
+    "Telugu": "te_IN",
+    "Thai": "th_TH",
+    "Tagalog": "tl_XX",
+    "Ukrainian": "uk_UA",
+    "Urdu": "ur_PK",
+    "Xhosa": "xh_ZA",
+    "Galician": "gl_ES",
+    "Slovene": "sl_SI",
+}