Spaces:

Sarath0x8f
/

OCR-Translator

Running

App Files Files Community

Sarath0x8f commited on Oct 30

Commit

d69917c

•

1 Parent(s): 84247c4

Upload 9 files

Browse files

Files changed (9) hide show

Audio/output.wav +0 -0
Audio/translate.wav +0 -0
ObjCharRec.py +25 -0
SpllingChecker.py +8 -0
app.py +53 -0
demo_app.py +48 -0
main.py +15 -0
requirements.txt +0 -0
translate_speak.py +50 -0

Audio/output.wav ADDED Viewed

Binary file (168 kB). View file

Audio/translate.wav ADDED Viewed

Binary file (221 kB). View file

ObjCharRec.py ADDED Viewed

	@@ -0,0 +1,25 @@

+from paddleocr import PaddleOCR
+import translate_speak
+def ocr_with_paddle(img):
+    """
+    Paddle OCR
+    """
+    try:
+        finaltext = ''
+        ocr = PaddleOCR(lang='en', use_angle_cls=True)
+        result = ocr.ocr(img)
+        for i in range(len(result[0])):
+            text = result[0][i][1][0]
+            finaltext += ' ' + text
+        audio_path = translate_speak.audio_streaming(txt=finaltext, to=1)
+        return finaltext, audio_path
+    except:
+        return "An err occurred upload image"
+if __name__ == "__main__":
+    print(ocr_with_paddle('Images/download.jpeg'))

SpllingChecker.py ADDED Viewed

	@@ -0,0 +1,8 @@

+from textblob import TextBlob
+s = "i m lve in wth you"
+print("original text: "+str(s))
+b = TextBlob(s)
+print("corrected text: "+str(b.correct()))

app.py ADDED Viewed

	@@ -0,0 +1,53 @@

+import gradio as gr
+import ObjCharRec
+from deep_translator import GoogleTranslator
+import demo_app
+import translate_speak
+langs_list = GoogleTranslator().get_supported_languages()
+langs_dict = GoogleTranslator().get_supported_languages(as_dict=True)
+with gr.Blocks() as main_interface:
+    gr.Markdown("# OCR")
+    with gr.Tabs():
+        with gr.TabItem("Intro"):
+            pass
+        with gr.TabItem("Simple OCR"):
+            gr.Markdown("Paddle OCR")
+            with gr.Row():
+                with gr.Column():
+                    image_input = gr.Image(label="Upload Image")
+                    with gr.Row():
+                        clear_btn = gr.ClearButton()
+                        submit_btn = gr.Button("Submit")
+                output_text = gr.Text(label="Output")
+            submit_btn.click(fn=ObjCharRec.ocr_with_paddle, inputs=image_input, outputs=output_text)
+            clear_btn.click(lambda :[None, None], outputs=[image_input, output_text])
+        with gr.TabItem("translator"):
+            with gr.Row():
+                with gr.Column():
+                    image_input = gr.Image(label="Upload Image")
+                    with gr.Row():
+                        clear_btn = gr.ClearButton()
+                        submit_btn = gr.Button("Submit")
+                with gr.Column():
+                    with gr.Row():
+                        output_text = gr.Text(label="Output")
+                        audio_out = gr.Audio(label="Streamed Audio")
+                    lang_drop = gr.Dropdown(langs_dict, label="language",  interactive=True)
+                    translate_btn = gr.Button("Translate")
+                    with gr.Row():
+                        translated_txt = gr.Text(label="translated text")
+                        translated_out = gr.Audio(label="Streamed Audio")
+            submit_btn.click(fn=ObjCharRec.ocr_with_paddle, inputs=image_input, outputs=[output_text, audio_out])
+            translate_btn.click(fn=translate_speak.translate_txt, inputs=[lang_drop, output_text], outputs=[translated_txt, translated_out])
+            clear_btn.click(lambda :[None]*5, outputs=[image_input, output_text, translated_txt, translated_out, audio_out])
+if __name__ == "__main__":
+    main_interface.launch()

demo_app.py ADDED Viewed

	@@ -0,0 +1,48 @@

+import gradio as gr
+import soundfile as sf
+import numpy as np
+import tempfile
+import os
+# Define the file path of the audio file you want to play directly
+direct_audio_file_path = "Audio/translated_audio.wav"  # Replace this with the actual file path
+# Function to handle audio streaming
+def audio_streaming(audio=None):
+    # If an audio file is provided as input, use it; otherwise, use the direct file path
+    if audio is None:
+        audio = direct_audio_file_path
+    # Load the audio file
+    data, samplerate = sf.read(audio)
+    # Ensure data is in float32 format
+    data = np.array(data, dtype=np.float32)
+    # Save to a temporary file that Gradio can use for audio playback
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as tmp_file:
+        sf.write(tmp_file.name, data, samplerate)
+        temp_audio_path = tmp_file.name
+    # Return the file path to Gradio
+    return temp_audio_path
+# Gradio interface
+with gr.Blocks() as demo:
+    gr.Markdown("### Audio Streaming App")
+    # Button to play audio from the predefined file path
+    play_button = gr.Button("Play Direct Audio")
+    # Define output for streamed audio
+    audio_output = gr.Audio(label="Streamed Audio")
+    # Set up the Gradio interface to handle the button click
+    play_button.click(
+        fn=audio_streaming,
+        inputs=None,  # No input needed for direct play
+        outputs=audio_output
+    )
+if __name__ == "__main__":
+    demo.launch()

main.py ADDED Viewed

	@@ -0,0 +1,15 @@

+from ObjCharRec import ocr_with_paddle
+from textblob import TextBlob
+def demo():
+    paths = ['Images/download.jpeg', 'Images/download.png', 'Images/hq720.jpg', 'Images/testocr.png']
+    l = []
+    for img in paths:
+        text = ocr_with_paddle(img)
+        txtblob = TextBlob(text)
+        l.append(str(txtblob.correct()))
+    return l
+if __name__ == "__main__":
+    print(demo())

requirements.txt ADDED Viewed

Binary file (156 Bytes). View file

translate_speak.py ADDED Viewed

	@@ -0,0 +1,50 @@

+import os
+from gtts import gTTS
+from deep_translator import GoogleTranslator
+import soundfile as sf
+import tempfile
+import numpy as np
+import gtts
+output_path = 'Audio/output.wav'
+translate_path = 'Audio/translate.wav'
+def audio_streaming(txt=None, lang='en', to=None):
+    # If an audio file is provided as input, use it; otherwise, use the direct file path
+    speak = gTTS(text=txt, lang=lang, slow=False)
+    if to == 1:
+        audio = output_path
+    else:
+        audio = translate_path
+    speak.save(audio)
+    # Load the audio file
+    data, samplerate = sf.read(audio)
+    # Ensure data is in float32 format
+    data = np.array(data, dtype=np.float32)
+    # Save to a temporary file that Gradio can use for audio playback
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as tmp_file:
+        sf.write(tmp_file.name, data, samplerate)
+        temp_audio_path = tmp_file.name
+    # Return the file path to Gradio
+    return temp_audio_path
+def translate_txt(lang, text):
+    translator = GoogleTranslator(source="en", target=lang)
+    translated_text = translator.translate(text)
+    audio_path = audio_streaming(translated_text, lang='en', to=2)
+    return translated_text, audio_path
+if __name__ == "__main__":
+    # print(audio_streaming("hello world"))
+    # os.system(f"start {audio_streaming('hello world!')}")
+    translate = set(GoogleTranslator().get_supported_languages(as_dict=True))
+    speak = set(gtts.lang.tts_langs())
+    not_speak = translate - speak
+    print(not_speak, len(not_speak))