Spaces:

Mufintech
/

RealTime_Translation

Runtime error

App Files Files Community

MufinApps commited on Dec 1, 2023

Commit

81ce2b1

•

1 Parent(s): 61c69c6

Added new transcript feature

Browse files

Files changed (7) hide show

.gitignore +3 -1
__pycache__/transcription_service.cpython-311.pyc +0 -0
app.py +42 -127
css.txt +15 -0
languages_info.json +128 -0
requirements.txt +40 -6
transcription_service.py +69 -0

.gitignore CHANGED Viewed

	@@ -1 +1,3 @@
1	- rt/

+rt/
+checkopenai.py
+msq-ai-78bdccb055f4.json

__pycache__/transcription_service.cpython-311.pyc ADDED Viewed

Binary file (1.56 kB). View file

app.py CHANGED Viewed

@@ -1,113 +1,40 @@
 import gradio as gr
-import openai
 import threading as th
 import os
 def translateoutput(text,language):
-    completion = openai.ChatCompletion.create(
     model="gpt-3.5-turbo",
     messages=[
-    {"role": "system", "content": f"You will be provided with a sentence in English, and your task is to translate it into {language}."},
-    {"role": "user", "content":text}
-  ]
-)
-    return completion.choices[0]['message']['content']
 # Initialize a global variable to hold previous output
-language_info={
-    'Afrikaans': 'af',
-    'English': 'en',
-    'Arabic': 'ar',
-    'Armenian': 'hy',
-    'Azerbaijani': 'az',
-    'Belarusian': 'be',
-    'Bosnian': 'bs',
-    'Bulgarian': 'bg',
-    'Catalan': 'ca',
-    'Chinese': 'zh',
-    'Croatian': 'hr',
-    'Czech': 'cs',
-    'Danish': 'da',
-    'Dutch': 'nl',
-    'English': 'en',
-    'Estonian': 'et',
-    'Finnish': 'fi',
-    'French': 'fr',
-    'Galician': 'gl',
-    'German': 'de',
-    'Greek': 'el',
-    'Hebrew': 'he',
-    'Hindi': 'hi',
-    'Hungarian': 'hu',
-    'Icelandic': 'is',
-    'Indonesian': 'id',
-    'Italian': 'it',
-    'Japanese': 'ja',
-    'Kannada': 'kn',
-    'Kazakh': 'kk',
-    'Korean': 'ko',
-    'Latvian': 'lv',
-    'Lithuanian': 'lt',
-    'Macedonian': 'mk',
-    'Malay': 'ms',
-    'Marathi': 'mr',
-    'Maori': 'mi',
-    'Nepali': 'ne',
-    'Norwegian': 'no',
-    'Persian': 'fa',
-    'Polish': 'pl',
-    'Portuguese': 'pt',
-    'Romanian': 'ro',
-    'Russian': 'ru',
-    'Serbian': 'sr',
-    'Slovak': 'sk',
-    'Slovenian': 'sl',
-    'Spanish': 'es',
-    'Swahili': 'sw',
-    'Swedish': 'sv',
-    'Tagalog': 'tl',
-    'Tamil': 'ta',
-    'Thai': 'th',
-    'Turkish': 'tr',
-    'Ukrainian': 'uk',
-    'Urdu': 'ur',
-    'Vietnamese': 'vi',
-    'Welsh': 'cy',
-    'Other': 'Other'
-}
-def translate(audio_file,lan):
-    message=""
-    with open(audio_file, 'rb') as f:
-        result = openai.Audio.translate("whisper-1", f)
-        text=result.text
-        if lan=="English" or lan=="Other" or text=="":
-            message=text
-        else:
-            text=translateoutput(text,lan)
-            message=text
-    th.current_thread().return_value=message
 def transcription(audio_file,input_lang):
     global language_info
-    with open(audio_file, 'rb') as f:
-        if input_lang=="Other":
-            result = openai.Audio.transcribe("whisper-1", f)
-            th.current_thread().return_value=result.text
-        else:
-            result = openai.Audio.transcribe("whisper-1", f,language=language_info[input_lang])
-            th.current_thread().return_value=result.text
@@ -115,16 +42,13 @@ def transcription(audio_file,input_lang):
 def func(audio_file,input_lang,lan,state="",state1=""):
-    t1 = th.Thread(target=translate, args=(audio_file,lan,))
-    t2 = th.Thread(target=transcription, args=(audio_file,input_lang,))
-    t1.start()
-    t2.start()
-    t1.join()
-    t2.join()
-    translation_text=t1.return_value
-    transcribe_text=t2.return_value
-    state+=transcribe_text+" "
-    state1+=translation_text+" "
     state=state.replace(".","\n")
     state1=state1.replace(".","\n")
@@ -135,19 +59,17 @@ def func(audio_file,input_lang,lan,state="",state1=""):
 def gpt_api(text,language):
-    if text=="":
         return ""
-    if len(text)>2000:
-        text=text[-2000:]
-    completion = openai.ChatCompletion.create(
     model="gpt-3.5-turbo",
     messages=[
-    {"role": "system", "content": f"your task is to make a concise summery and useful summery from the given text in {language}."},
-    {"role": "user", "content":text}
-]
-)
-    message=completion.choices[0]['message']['content']
     th.current_thread().return_value=message
@@ -170,21 +92,12 @@ def clear_output_data():
     return "","","",""
-css='''#clear {background-color: ##919cbf;border-radius:5%;}
-#clear:hover {background-color: #ff0000;transition: 0.5s;}
-#summery {background-color: ##919cbf;border-radius:5%;}
-#summery:hover {background-color:#2dcc9a ;transition: 0.5s;}
-# div {background-image:url("https://images.unsplash.com/photo-1506259091721-347e791bab0f?auto=format&fit=crop&q=80&w=1470&ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D");
-# background-size: cover;
-# background-position: center;
-# background-repeat: no-repeat;
-# background-attachment: fixed;
-# color=white;!imoportant;
-}
-'''
-with gr.Blocks(theme=gr.themes.Soft(),css=css) as app:
     gr.Markdown("## Mufin Real-Time Audio Transcription And Translation",elem_id="heading")
     gr.Markdown("### say any language we are here to translate it for team!!",elem_classes="heading")
@@ -192,8 +105,9 @@ with gr.Blocks(theme=gr.themes.Soft(),css=css) as app:
     with gr.Row():
             mic = gr.Audio(sources="microphone",streaming=True,type='filepath',label='Speak')
-            input_lan=gr.Dropdown(choices=language_info.keys(),label="Choose Input Language please",value="English",interactive=True)
-            lan=gr.Dropdown(choices=language_info.keys(),label="Choose a language for translation",value="Korean",interactive=True)
             summery=gr.Button(value="Summery",variant="secondary",size="small",elem_id="summery")
             clear_output = gr.ClearButton(value="Clear Output",variant="stop",size="small",elem_id="clear")
     with gr.Row():
@@ -211,6 +125,7 @@ with gr.Blocks(theme=gr.themes.Soft(),css=css) as app:
         # pass
         summery.click(make_summery,[text,text1,input_lan,lan],[sumer_ts,sumer_tr],cancels=[st],queue=False)
         clear_output.click(clear_output_data,[],[text,text1,sumer_tr,sumer_ts],cancels=[st],queue=False)
         # gr.update(visible=True)
 app.queue()

 import gradio as gr
+from openai import OpenAI
 import threading as th
 import os
+import json
+from transcription_service import transcribe_speech_local
 def translateoutput(text,language):
+    if text=="" or text is None:
+        return ""
+    client = OpenAI()
+    response = client.chat.completions.create(
     model="gpt-3.5-turbo",
     messages=[
+        {"role": "system", "content": f"You will be provided with a sentence in English, and your task is to translate it into {language}."},
+        {"role": "user", "content": text},
+    ]
+    )
+    return response.choices[0].message.content
 # Initialize a global variable to hold previous output
+language_info=json.load(open("languages_info.json","r"))
 def transcription(audio_file,input_lang):
     global language_info
+    return transcribe_speech_local(audio_file,language_info[input_lang])
 def func(audio_file,input_lang,lan,state="",state1=""):
+    text_transcription=transcription(audio_file,input_lang)
+    text_translation=translateoutput(text_transcription,lan)
+    if text_transcription is None:
+        text_transcription=""
+    state+=str(text_transcription)+" "
+    state1+=str(text_translation)+" "
     state=state.replace(".","\n")
     state1=state1.replace(".","\n")
 def gpt_api(text,language):
+    if text=="" or text is None:
         return ""
+    client = OpenAI()
+    response = client.chat.completions.create(
     model="gpt-3.5-turbo",
     messages=[
+        {"role": "system", "content": f"You will be provided with a text data, and your task is to make very concise summery it into {language}."},
+        {"role": "user", "content": text},
+    ])
+    message=response.choices[0].message.content
     th.current_thread().return_value=message
     return "","","",""
+def switch(input_lan,lan):
+    return lan,input_lan
+with gr.Blocks(theme=gr.themes.Soft(),css="css.txt") as app:
     gr.Markdown("## Mufin Real-Time Audio Transcription And Translation",elem_id="heading")
     gr.Markdown("### say any language we are here to translate it for team!!",elem_classes="heading")
     with gr.Row():
             mic = gr.Audio(sources="microphone",streaming=True,type='filepath',label='Speak')
+            input_lan=gr.Dropdown(choices=language_info.keys(),label="Choose Input Language please",value="English (United Kingdom)",interactive=True)
+            switchbutton=gr.Button(value='\u21C6',variant="secondary",elem_id="switchbtn")
+            lan=gr.Dropdown(choices=language_info.keys(),label="Choose a language for translation",value="Korean (South Korea)",interactive=True)
             summery=gr.Button(value="Summery",variant="secondary",size="small",elem_id="summery")
             clear_output = gr.ClearButton(value="Clear Output",variant="stop",size="small",elem_id="clear")
     with gr.Row():
         # pass
         summery.click(make_summery,[text,text1,input_lan,lan],[sumer_ts,sumer_tr],cancels=[st],queue=False)
         clear_output.click(clear_output_data,[],[text,text1,sumer_tr,sumer_ts],cancels=[st],queue=False)
+        switchbutton.click(switch,[input_lan,lan],[input_lan,lan],cancels=[st],queue=False)
         # gr.update(visible=True)
 app.queue()

css.txt ADDED Viewed

	@@ -0,0 +1,15 @@

+#clear {background-color: ##919cbf;border-radius:5%;}
+#clear:hover {color:white;background-color: #ff0000;transition: 0.5s;}
+#summery {background-color: ##919cbf;border-radius:5%;}
+#summery:hover {background-color:#2980b9;transition: 0.5s;color:#fff}
+#switchbtn {
+    margin: 0.6em 0em 0.55em 0;
+    max-width: 2.5em;
+    min-width: 2.5em !important;
+    height: 2.4em;
+}
+#switchbtn:hover{
+  background-color:#2980b9;transition: 0.5s;color:#fff;
+}

languages_info.json ADDED Viewed

	@@ -0,0 +1,128 @@

+{
+  "Afrikaans (South Africa)": "af-ZA",
+  "Albanian (Albania)": "sq-AL",
+  "Arabic (Algeria)": "ar-DZ",
+  "Arabic (Bahrain)": "ar-BH",
+  "Arabic (Egypt)": "ar-EG",
+  "Arabic (Iraq)": "ar-IQ",
+  "Arabic (Jordan)": "ar-JO",
+  "Arabic (Kuwait)": "ar-KW",
+  "Arabic (Lebanon)": "ar-LB",
+  "Arabic (Morocco)": "ar-MA",
+  "Arabic (Oman)": "ar-OM",
+  "Arabic (Qatar)": "ar-QA",
+  "Arabic (Saudi Arabia)": "ar-SA",
+  "Arabic (Sudan)": "ar-SD",
+  "Arabic (Syria)": "ar-SY",
+  "Arabic (Tunisia)": "ar-TN",
+  "Arabic (United Arab Emirates)": "ar-AE",
+  "Arabic (Yemen)": "ar-YE",
+  "Armenian (Armenia)": "hy-AM",
+  "Bengali (Bangladesh)": "bn-BD",
+  "Bengali (India)": "bn-IN",
+  "Bosnian (Bosnia and Herzegovina)": "bs-BA",
+  "Catalan (Spain)": "ca-ES",
+  "Croatian (Croatia)": "hr-HR",
+  "Czech (Czech Republic)": "cs-CZ",
+  "Danish (Denmark)": "da-DK",
+  "Dutch (Belgium)": "nl-BE",
+  "Dutch (Netherlands)": "nl-NL",
+  "English (Australia)": "en-AU",
+  "English (Canada)": "en-CA",
+  "English (Ghana)": "en-GH",
+  "English (India)": "en-IN",
+  "English (Ireland)": "en-IE",
+  "English (Kenya)": "en-KE",
+  "English (New Zealand)": "en-NZ",
+  "English (Nigeria)": "en-NG",
+  "English (Philippines)": "en-PH",
+  "English (Singapore)": "en-SG",
+  "English (South Africa)": "en-ZA",
+  "English (Tanzania)": "en-TZ",
+  "English (United Kingdom)": "en-GB",
+  "English (United States)": "en-US",
+  "Estonian (Estonia)": "et-EE",
+  "Filipino (Philippines)": "fil-PH",
+  "Finnish (Finland)": "fi-FI",
+  "French (Belgium)": "fr-BE",
+  "French (Canada)": "fr-CA",
+  "French (France)": "fr-FR",
+  "French (Switzerland)": "fr-CH",
+  "Galician (Spain)": "gl-ES",
+  "Georgian (Georgia)": "ka-GE",
+  "German (Austria)": "de-AT",
+  "German (Germany)": "de-DE",
+  "German (Switzerland)": "de-CH",
+  "Greek (Greece)": "el-GR",
+  "Gujarati (India)": "gu-IN",
+  "Hebrew (Israel)": "iw-IL",
+  "Hindi (India)": "hi-IN",
+  "Hungarian (Hungary)": "hu-HU",
+  "Icelandic (Iceland)": "is-IS",
+  "Indonesian (Indonesia)": "id-ID",
+  "Italian (Italy)": "it-IT",
+  "Italian (Switzerland)": "it-CH",
+  "Japanese (Japan)": "ja-JP",
+  "Javanese (Indonesia)": "jv-ID",
+  "Kannada (India)": "kn-IN",
+  "Khmer (Cambodia)": "km-KH",
+  "Korean (South Korea)": "ko-KR",
+  "Lao (Laos)": "lo-LA",
+  "Latvian (Latvia)": "lv-LV",
+  "Lithuanian (Lithuania)": "lt-LT",
+  "Macedonian (North Macedonia)": "mk-MK",
+  "Malay (Malaysia)": "ms-MY",
+  "Malayalam (India)": "ml-IN",
+  "Marathi (India)": "mr-IN",
+  "Burmese (Myanmar [Burma])": "my-MM",
+  "Nepali (Nepal)": "ne-NP",
+  "Norwegian (Norway)": "no-NO",
+  "Persian (Iran)": "fa-IR",
+  "Polish (Poland)": "pl-PL",
+  "Portuguese (Brazil)": "pt-BR",
+  "Portuguese (Portugal)": "pt-PT",
+  "Punjabi (India)": "pa-IN",
+  "Romanian (Romania)": "ro-RO",
+  "Russian (Russia)": "ru-RU",
+  "Serbian (Serbia)": "sr-RS",
+  "Sinhala (Sri Lanka)": "si-LK",
+  "Slovak (Slovakia)": "sk-SK",
+  "Slovenian (Slovenia)": "sl-SI",
+  "Spanish (Argentina)": "es-AR",
+  "Spanish (Bolivia)": "es-BO",
+  "Spanish (Chile)": "es-CL",
+  "Spanish (Colombia)": "es-CO",
+  "Spanish (Costa Rica)": "es-CR",
+  "Spanish (Dominican Republic)": "es-DO",
+  "Spanish (Ecuador)": "es-EC",
+  "Spanish (El Salvador)": "es-SV",
+  "Spanish (Guatemala)": "es-GT",
+  "Spanish (Honduras)": "es-HN",
+  "Spanish (Mexico)": "es-MX",
+  "Spanish (Nicaragua)": "es-NI",
+  "Spanish (Panama)": "es-PA",
+  "Spanish (Paraguay)": "es-PY",
+  "Spanish (Peru)": "es-PE",
+  "Spanish (Puerto Rico)": "es-PR",
+  "Spanish (Spain)": "es-ES",
+  "Spanish (United States)": "es-US",
+  "Spanish (Uruguay)": "es-UY",
+  "Spanish (Venezuela)": "es-VE",
+  "Sundanese (Indonesia)": "su-ID",
+  "Swahili (Kenya)": "sw-KE",
+  "Swahili (Tanzania)": "sw-TZ",
+  "Swedish (Sweden)": "sv-SE",
+  "Tamil (India)": "ta-IN",
+  "Tamil (Malaysia)": "ta-MY",
+  "Tamil (Singapore)": "ta-SG",
+  "Tamil (Sri Lanka)": "ta-LK",
+  "Telugu (India)": "te-IN",
+  "Thai (Thailand)": "th-TH",
+  "Turkish (Turkey)": "tr-TR",
+  "Ukrainian (Ukraine)": "uk-UA",
+  "Urdu (Pakistan)": "ur-PK",
+  "Urdu (India)": "ur-IN",
+  "Uzbek (Uzbekistan)": "uz-UZ",
+  "Vietnamese (Vietnam)": "vi-VN",
+  "Zulu (South Africa)": "zu-ZA"
+}

requirements.txt CHANGED Viewed

@@ -6,12 +6,16 @@ annotated-types==0.6.0
 anyio==3.7.1
 async-timeout==4.0.3
 attrs==23.1.0
 certifi==2023.7.22
 charset-normalizer==3.3.2
 click==8.1.7
 colorama==0.4.6
 contourpy==1.2.0
 cycler==0.12.1
 distro==1.8.0
 fastapi==0.104.1
 ffmpy==0.3.1
@@ -19,29 +23,54 @@ filelock==3.13.1
 fonttools==4.44.0
 frozenlist==1.4.0
 fsspec==2023.10.0
-gradio==4.1.2
 gradio_client==0.7.0
 h11==0.14.0
 httpcore==1.0.1
 httpx==0.25.1
 huggingface-hub==0.18.0
 idna==3.4
 importlib-resources==6.1.1
 Jinja2==3.1.2
 jsonschema==4.19.2
 jsonschema-specifications==2023.7.1
 kiwisolver==1.4.5
 markdown-it-py==3.0.0
 MarkupSafe==2.1.3
 matplotlib==3.8.1
 mdurl==0.1.2
 multidict==6.0.4
 numpy==1.26.1
-openai==0.28.1
 orjson==3.9.10
 packaging==23.2
 pandas==2.1.2
 Pillow==10.1.0
 pydantic==2.4.2
 pydantic_core==2.10.1
 pydub==0.25.1
@@ -55,22 +84,27 @@ referencing==0.30.2
 requests==2.31.0
 rich==13.6.0
 rpds-py==0.12.0
 semantic-version==2.10.0
 shellingham==1.5.4
 six==1.16.0
 sniffio==1.3.0
 starlette==0.27.0
 tomlkit==0.12.0
 toolz==0.12.0
 tqdm==4.66.1
 typer==0.9.0
 typing_extensions==4.8.0
 tzdata==2023.3
 urllib3==2.0.7
 uvicorn==0.24.0.post1
 websockets==11.0.3
 yarl==1.9.2
-noisereduce==3.0.0
-librosa==0.10.1
-pydub==0.25.1
-torch==2.1.1

 anyio==3.7.1
 async-timeout==4.0.3
 attrs==23.1.0
+audioread==3.0.1
+cachetools==5.3.2
 certifi==2023.7.22
+cffi==1.16.0
 charset-normalizer==3.3.2
 click==8.1.7
 colorama==0.4.6
 contourpy==1.2.0
 cycler==0.12.1
+decorator==5.1.1
 distro==1.8.0
 fastapi==0.104.1
 ffmpy==0.3.1
 fonttools==4.44.0
 frozenlist==1.4.0
 fsspec==2023.10.0
+google-api-core==2.14.0
+google-api-python-client==2.109.0
+google-auth==2.23.4
+google-auth-httplib2==0.1.1
+google-cloud-speech==2.22.0
+googleapis-common-protos==1.61.0
+gradio==4.7.1
 gradio_client==0.7.0
+grpcio==1.59.3
+grpcio-status==1.59.3
 h11==0.14.0
 httpcore==1.0.1
+httplib2==0.22.0
 httpx==0.25.1
 huggingface-hub==0.18.0
 idna==3.4
 importlib-resources==6.1.1
 Jinja2==3.1.2
+joblib==1.3.2
 jsonschema==4.19.2
 jsonschema-specifications==2023.7.1
 kiwisolver==1.4.5
+lazy_loader==0.3
+librosa==0.10.1
+llvmlite==0.41.1
 markdown-it-py==3.0.0
 MarkupSafe==2.1.3
 matplotlib==3.8.1
 mdurl==0.1.2
+mpmath==1.3.0
+msgpack==1.0.7
 multidict==6.0.4
+networkx==3.2.1
+noisereduce==3.0.0
+numba==0.58.1
 numpy==1.26.1
+openai==1.3.6
 orjson==3.9.10
 packaging==23.2
 pandas==2.1.2
 Pillow==10.1.0
+platformdirs==4.0.0
+pooch==1.8.0
+proto-plus==1.22.3
+protobuf==4.25.1
+pyasn1==0.5.1
+pyasn1-modules==0.3.0
+pycparser==2.21
 pydantic==2.4.2
 pydantic_core==2.10.1
 pydub==0.25.1
 requests==2.31.0
 rich==13.6.0
 rpds-py==0.12.0
+rsa==4.9
+scikit-learn==1.3.2
+scipy==1.11.4
 semantic-version==2.10.0
 shellingham==1.5.4
 six==1.16.0
 sniffio==1.3.0
+soundfile==0.12.1
+soxr==0.3.7
 starlette==0.27.0
+sympy==1.12
+threadpoolctl==3.2.0
 tomlkit==0.12.0
 toolz==0.12.0
+torch==2.1.1
 tqdm==4.66.1
 typer==0.9.0
 typing_extensions==4.8.0
 tzdata==2023.3
+uritemplate==4.1.1
 urllib3==2.0.7
 uvicorn==0.24.0.post1
 websockets==11.0.3
 yarl==1.9.2

transcription_service.py ADDED Viewed

	@@ -0,0 +1,69 @@

+# from google.cloud import speech
+# import json
+# import os
+# os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = 'msq-ai-78bdccb055f4.json'
+# def speech_to_text(
+#     config: speech.RecognitionConfig,
+#     audio: speech.RecognitionAudio,
+# ) -> speech.RecognizeResponse:
+#     client = speech.SpeechClient()
+#     # Synchronous speech recognition request
+#     response = client.recognize(config=config, audio=audio)
+#     return response
+# def print_response(response: speech.RecognizeResponse):
+#     for result in response.results:
+#         return print_result(result)
+# def print_result(result: speech.SpeechRecognitionResult):
+#     best_alternative = result.alternatives[0]
+#     # print("-" * 80)
+#     # print(f"language_code: {result.language_code}")
+#     return best_alternative.transcript
+#     # print(f"confidence:    {best_alternative.confidence:.0%}")
+# def main(audio,language):
+#     config = speech.RecognitionConfig(
+#     language_code=language,
+#     )
+#     audio = speech.RecognitionAudio(
+#     uri=audio,
+#     )
+#     response=speech_to_text(config,audio)
+#     return print_response(response)
+import os
+from google.cloud import speech
+def transcribe_speech_local(wav_file,language):
+    """
+    Transcribes a local WAV file using Google's Speech-to-Text API.
+    """
+    client = speech.SpeechClient()
+    with open(wav_file, "rb") as audio_file:
+        content = audio_file.read()
+    audio = speech.RecognitionAudio(content=content)
+    config = speech.RecognitionConfig(
+        # encoding=speech.RecognitionConfig.AudioEncoding.LINEAR16,
+      # Adjust this according to your file's sample rate
+        language_code=language,
+        enable_automatic_punctuation=True
+    )
+    response = client.recognize(config=config, audio=audio)
+    for result in response.results:
+        return "{}".format(result.alternatives[0].transcript)
+# Example usage