Spaces:

OOI-FrontierTech
/

demo_language_moore

Sleeping

khof312 commited on Nov 6, 2023

Commit

a84c313

1 Parent(s): 30539df

Time execution and fix small bug in STT.

Files changed (4) hide show

src/language_id.py CHANGED Viewed

@@ -1,4 +1,4 @@
 import librosa
 import torch
 from transformers import Wav2Vec2ForSequenceClassification, AutoFeatureExtractor
@@ -22,6 +22,8 @@ def identify_language(fp:str) -> str:
     # Ensure replicability
     set_seed(555)
     # Load language ID model
     model_id = "facebook/mms-lid-256" # Need to find the appropriate model for the language -- 256 languages is the first that contains MOS
     processor = AutoFeatureExtractor.from_pretrained(model_id)
@@ -37,5 +39,6 @@ def identify_language(fp:str) -> str:
     lang_id = torch.argmax(outputs, dim=-1)[0].item()
     detected_lang = model.config.id2label[lang_id]
     return detected_lang

+import time
 import librosa
 import torch
 from transformers import Wav2Vec2ForSequenceClassification, AutoFeatureExtractor
     # Ensure replicability
     set_seed(555)
+    start_time = time.time()
     # Load language ID model
     model_id = "facebook/mms-lid-256" # Need to find the appropriate model for the language -- 256 languages is the first that contains MOS
     processor = AutoFeatureExtractor.from_pretrained(model_id)
     lang_id = torch.argmax(outputs, dim=-1)[0].item()
     detected_lang = model.config.id2label[lang_id]
+    print("Time elapsed: ", int(time.time() - start_time), " seconds")
     return detected_lang

src/speech_to_text.py CHANGED Viewed

@@ -3,6 +3,7 @@ import librosa
 import torch
 from transformers import Wav2Vec2ForCTC, AutoProcessor
 from transformers import set_seed
 def transcribe(fp:str, target_lang:str) -> str:
@@ -23,10 +24,10 @@ def transcribe(fp:str, target_lang:str) -> str:
     '''
     # Ensure replicability
     set_seed(555)
     # Load transcription model
     model_id = "facebook/mms-1b-all"
-    target_lang = "mos"
     processor = AutoProcessor.from_pretrained(model_id, target_lang=target_lang)
     model = Wav2Vec2ForCTC.from_pretrained(model_id, target_lang=target_lang, ignore_mismatched_sizes=True)
@@ -42,4 +43,5 @@ def transcribe(fp:str, target_lang:str) -> str:
     ids = torch.argmax(outputs, dim=-1)[0]
     transcript = processor.decode(ids)
     return transcript

 import torch
 from transformers import Wav2Vec2ForCTC, AutoProcessor
 from transformers import set_seed
+import time
 def transcribe(fp:str, target_lang:str) -> str:
     '''
     # Ensure replicability
     set_seed(555)
+    start_time = time.time()
     # Load transcription model
     model_id = "facebook/mms-1b-all"
     processor = AutoProcessor.from_pretrained(model_id, target_lang=target_lang)
     model = Wav2Vec2ForCTC.from_pretrained(model_id, target_lang=target_lang, ignore_mismatched_sizes=True)
     ids = torch.argmax(outputs, dim=-1)[0]
     transcript = processor.decode(ids)
+    print("Time elapsed: ", int(time.time() - start_time), " seconds")
     return transcript

src/text_to_speech.py CHANGED Viewed

@@ -1,4 +1,4 @@
 import torch
 from transformers import set_seed
 from transformers import VitsTokenizer, VitsModel
@@ -19,6 +19,11 @@ def synthesize_facebook(s:str, iso3:str) -> str:
     synth:str
         The synthesized audio.
     '''
     # Load synthesizer
     tokenizer = VitsTokenizer.from_pretrained(f"facebook/mms-tts-{iso3}")
     model = VitsModel.from_pretrained(f"facebook/mms-tts-{iso3}")
@@ -31,4 +36,5 @@ def synthesize_facebook(s:str, iso3:str) -> str:
     synth = outputs.waveform[0]
     return synth.numpy()

+import time
 import torch
 from transformers import set_seed
 from transformers import VitsTokenizer, VitsModel
     synth:str
         The synthesized audio.
     '''
+    # Ensure replicability
+    set_seed(555)
+    start_time = time.time()
     # Load synthesizer
     tokenizer = VitsTokenizer.from_pretrained(f"facebook/mms-tts-{iso3}")
     model = VitsModel.from_pretrained(f"facebook/mms-tts-{iso3}")
     synth = outputs.waveform[0]
+    print("Time elapsed: ", int(time.time() - start_time), " seconds")
     return synth.numpy()

src/translation.py CHANGED Viewed

@@ -2,6 +2,7 @@ import torch
 from transformers import set_seed, pipeline
 from transformers import M2M100ForConditionalGeneration, M2M100Tokenizer
 from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
 ######### HELSINKI NLP ##################
 def translate_helsinki_nlp(s:str, src_iso:str, dest_iso:str)-> str:
@@ -118,6 +119,10 @@ def translate(s, src_iso, dest_iso):
     translation:str
         The translated text, concatenated over different models
     '''
     # Translate with Meta NLLB
     translation= "Meta's NLLB translation is:\n\n" + translate_facebook(s, src_iso, dest_iso)
@@ -133,5 +138,7 @@ def translate(s, src_iso, dest_iso):
         dest_iso = dest_iso.replace("fra", "fr")
         translation+= "\n\n\nMasakhane's M2M translation is:\n\n" + translate_masakhane(s, src_iso, dest_iso)
     return translation

 from transformers import set_seed, pipeline
 from transformers import M2M100ForConditionalGeneration, M2M100Tokenizer
 from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
+import time
 ######### HELSINKI NLP ##################
 def translate_helsinki_nlp(s:str, src_iso:str, dest_iso:str)-> str:
     translation:str
         The translated text, concatenated over different models
     '''
+    # Ensure replicability
+    start_time = time.time()
     # Translate with Meta NLLB
     translation= "Meta's NLLB translation is:\n\n" + translate_facebook(s, src_iso, dest_iso)
         dest_iso = dest_iso.replace("fra", "fr")
         translation+= "\n\n\nMasakhane's M2M translation is:\n\n" + translate_masakhane(s, src_iso, dest_iso)
+    print("Time elapsed: ", int(time.time() - start_time), " seconds")
     return translation