Spaces:

RASMUS
/

Whisper-youtube-crosslingual-subtitles

Running

App Files Files Community

RASMUS commited on Dec 20, 2022

Commit

e8a76b4

•

1 Parent(s): fce64ec

Update app.py

Browse files

Files changed (1) hide show

app.py +57 -48

app.py CHANGED Viewed

@@ -1,8 +1,14 @@
 import os
 os.system('git clone https://github.com/ggerganov/whisper.cpp.git')
 os.system('make -C ./whisper.cpp')
 os.system('bash ./whisper.cpp/models/download-ggml-model.sh small')
 os.system('bash ./whisper.cpp/models/download-ggml-model.sh base')
 os.system('bash ./whisper.cpp/models/download-ggml-model.sh medium')
@@ -15,17 +21,14 @@ os.system('bash ./whisper.cpp/models/download-ggml-model.sh base.en')
-import os
 import gradio as gr
-import os
 from pathlib import Path
 import pysrt
 import pandas as pd
 import re
 import time
 import os
 from pytube import YouTube
 from transformers import MarianMTModel, MarianTokenizer
@@ -33,32 +36,7 @@ from transformers import MarianMTModel, MarianTokenizer
 import psutil
 num_cores = psutil.cpu_count()
 os.environ["OMP_NUM_THREADS"] = f"{num_cores}"
-import torch
-finnish_marian_nmt_model = "Helsinki-NLP/opus-mt-tc-big-en-fi"
-finnish_tokenizer_marian = MarianTokenizer.from_pretrained(finnish_marian_nmt_model, max_length=40)
-finnish_tokenizer_marian.max_new_tokens = 30
-finnish_translation_model = MarianMTModel.from_pretrained(finnish_marian_nmt_model)
-swedish_marian_nmt_model = "Helsinki-NLP/opus-mt-en-sv"
-swedish_tokenizer_marian = MarianTokenizer.from_pretrained(swedish_marian_nmt_model, max_length=40)
-swedish_tokenizer_marian.max_new_tokens = 30
-swedish_translation_model = MarianMTModel.from_pretrained(swedish_marian_nmt_model)
-danish_marian_nmt_model = "Helsinki-NLP/opus-mt-en-da"
-danish_tokenizer_marian = MarianTokenizer.from_pretrained(danish_marian_nmt_model, max_length=40)
-danish_tokenizer_marian.max_new_tokens = 30
-danish_translation_model = MarianMTModel.from_pretrained(danish_marian_nmt_model)
-translation_models = {
-"Finnish": [finnish_tokenizer_marian, finnish_translation_model],
-"Swedish": [swedish_tokenizer_marian, swedish_translation_model],
-"Danish": [danish_tokenizer_marian, danish_translation_model]
-}
 whisper_models = ["base", "small", "medium", "base.en"]
@@ -80,8 +58,34 @@ source_languages = {
 "Let the model analyze": "Let the model analyze"
 }
-source_languages_2 = {
-"English":"en",
 }
@@ -90,7 +94,7 @@ transcribe_options = dict(beam_size=3, best_of=3, without_timestamps=False)
 source_language_list = [key[0] for key in source_languages.items()]
-source_language_list_2 = [key[0] for key in source_languages_2.items()]
 translation_models_list = [key[0] for key in translation_models.items()]
@@ -190,27 +194,32 @@ def speech_to_text(video_file_path, selected_source_lang, whisper_model):
 def translate_transcriptions(df, selected_translation_lang_2, selected_source_lang_2):
-    print("IN TRANSLATE")
     if selected_translation_lang_2 is None:
-            selected_translation_lang_2 = 'Finnish'
     df.reset_index(inplace=True)
-    print("Getting models")
-    tokenizer_marian = translation_models.get(selected_translation_lang_2)[0]
-    translation_model = translation_models.get(selected_translation_lang_2)[1]
     print("start_translation")
     translations = []
-    print(df.head())
     if selected_translation_lang_2 != selected_source_lang_2:
-        print("TRASNLATING")
-        sentences = list(df['text'])
-        sentences = [stringi.replace('[','').replace(']','') for stringi in sentences]
-        translations = translation_model.generate(**tokenizer_marian(sentences, return_tensors="pt", padding=True, truncation=True))
-        print(translations)
-        df['translation'] = translations
     else:
         df['translation'] = df['text']
     print("translations done")

 import os
+# Download and build ggergavos/whisper.cpp Kudos to this man for wonderful whisper implementation!
+# This means speed!
 os.system('git clone https://github.com/ggerganov/whisper.cpp.git')
 os.system('make -C ./whisper.cpp')
+# Download models, add finetuned languages later once whisper finetuning event is ready
+# Models are downloaded on the fly so we can get quite many models :)
 os.system('bash ./whisper.cpp/models/download-ggml-model.sh small')
 os.system('bash ./whisper.cpp/models/download-ggml-model.sh base')
 os.system('bash ./whisper.cpp/models/download-ggml-model.sh medium')
 import gradio as gr
 from pathlib import Path
 import pysrt
 import pandas as pd
 import re
 import time
 import os
+import json
 from pytube import YouTube
 from transformers import MarianMTModel, MarianTokenizer
 import psutil
 num_cores = psutil.cpu_count()
 os.environ["OMP_NUM_THREADS"] = f"{num_cores}"
+headers = {'Authorization': os.environ['DeepL_API_KEY']}
 whisper_models = ["base", "small", "medium", "base.en"]
 "Let the model analyze": "Let the model analyze"
 }
+DeepL_language_codes_for_translation = {
+"Bulgarian": "BG",
+"Czech": "CS",
+"Danish": "DA",
+"German": "DE",
+"Greek": "EL",
+"English": "EN",
+"Spanish": "ES",
+"Estonian": "ET",
+"Finnish": "FI",
+"French": "FR",
+"Hungarian": "HU",
+"Indonesian": "ID",
+"Italian": "IT",
+"Japanese": "JA",
+"Lithuanian": "LT",
+"Latvian": "LV",
+"Dutch": "NL",
+"Polish": "PL",
+"Portuguese": "PT",
+"Romanian": "RO",
+"Russian": "RU",
+"Slovak": "SK",
+"Slovenian": "SL",
+"Swedish": "SV",
+"Turkish": "TR",
+"Ukrainian": "UK",
+"Chinese": "ZH"
 }
 source_language_list = [key[0] for key in source_languages.items()]
+source_language_list_2 = [key[0] for key in DeepL_language_codes_for_translation.items()]
 translation_models_list = [key[0] for key in translation_models.items()]
 def translate_transcriptions(df, selected_translation_lang_2, selected_source_lang_2):
     if selected_translation_lang_2 is None:
+            selected_translation_lang_2 = 'English'
     df.reset_index(inplace=True)
     print("start_translation")
     translations = []
     if selected_translation_lang_2 != selected_source_lang_2:
+        text_combined = ""
+        for i, sentence in enumerate(init__df['text']):
+            if i == 0:
+                text_combined = sentence
+            else:
+                text_combined = text_combined + '\n' + sentence
+        data = {'text': text_combined,
+        'tag_spitting': 'xml',
+        'target_lang': DeepL_language_codes.get(selected_source_lang_2)
+               }
+        response = requests.post('https://api-free.deepl.com/v2/translate', headers=headers, data=data)
+        # Print the response from the server
+        translated_sentences = json.loads(response.text)
+        translated_sentences['translations'][0]['text'].split('\n')
+        df['translation'] = translated_sentences
     else:
         df['translation'] = df['text']
     print("translations done")