Spaces:

MedSpeech
/

MedSpeechPro

Runtime error

App Files Files Community

0mid commited on Dec 31, 2023

Commit

45edaec

•

1 Parent(s): 216adac

Update app.py

Browse files

Files changed (1) hide show

app.py +64 -32

app.py CHANGED Viewed

@@ -1,8 +1,3 @@
-import streamlit as st
-import pandas as pd
-import os
-import datetime
-import subprocess
 # import whisper
 from faster_whisper import WhisperModel
 import datetime
@@ -350,33 +345,70 @@ def speech_to_text(video_file_path, selected_source_lang, whisper_model, num_spe
         raise RuntimeError("Error Running inference with local model", e)
-# Streamlit app layout
-st.title('Med Speech Pro : Lightning-Fast')
-st.markdown('Experience Rapid Speech Recognition and Seamless Speaker identification With SpeechPro, a cutting-edge solution for accurate Medical Transcription')
-# Handling YouTube URL input
-youtube_url = st.text_input("Enter YouTube URL")
-if st.button('Download YouTube Video'):
-    # Call your function to handle YouTube video downloading
-    video_file_path = get_youtube(youtube_url)
-    st.video(video_file_path)
-# File Uploader for videos
-video_file = st.file_uploader("Upload a video file", type=["mp4", "avi", "mov"])
-selected_source_lang = st.selectbox("Select Spoken Language in Video", source_language_list)
-selected_whisper_model = st.selectbox("Select Whisper Model", whisper_models)
-number_of_speakers = st.number_input("Number of Speakers (0 for automatic detection)", min_value=0, value=0)
-if st.button('Transcribe Video'):
-    if video_file is not None:
-        # Process the video file
-        df_results, system_info, save_path = speech_to_text(video_file, selected_source_lang, selected_whisper_model, number_of_speakers)
-        st.dataframe(df_results)
-        st.markdown(system_info)
-        st.download_button('Download Transcript', data=pd.read_csv(save_path).to_csv(), file_name='transcript.csv')
-    else:
-        st.error("Please upload a video file or download one from YouTube.")
-# Additional components and functionalities can be added here as needed.

 # import whisper
 from faster_whisper import WhisperModel
 import datetime
         raise RuntimeError("Error Running inference with local model", e)
+# ---- Gradio Layout -----
+# Inspiration from https://huggingface.co/spaces/RASMUS/Whisper-youtube-crosslingual-subtitles
+video_in = gr.Video(label="Video file", mirror_webcam=False)
+youtube_url_in = gr.Textbox(label="Youtube url", lines=1, interactive=True)
+df_init = pd.DataFrame(columns=['Start', 'End', 'Speaker', 'Text'])
+memory = psutil.virtual_memory()
+selected_source_lang = gr.Dropdown(choices=source_language_list, type="value", value="en", label="Spoken language in video", interactive=True)
+selected_whisper_model = gr.Dropdown(choices=whisper_models, type="value", value="base", label="Selected Whisper model", interactive=True)
+number_speakers = gr.Number(precision=0, value=0, label="Input number of speakers for better results. If value=0, model will automatic find the best number of speakers", interactive=True)
+system_info = gr.Markdown(f"*Memory: {memory.total / (1024 * 1024 * 1024):.2f}GB, used: {memory.percent}%, available: {memory.available / (1024 * 1024 * 1024):.2f}GB*")
+download_transcript = gr.File(label="Download transcript")
+transcription_df = gr.DataFrame(value=df_init,label="Transcription dataframe", row_count=(0, "dynamic"), max_rows = 10, wrap=True, overflow_row_behaviour='paginate')
+title = "Whisper speaker diarization"
+demo = gr.Blocks(title=title)
+demo.encrypt = False
+with demo:
+    with gr.Tab("Med Speech Pro"):
+        gr.Markdown('''
+            <div>
+            <h1 style='text-align: center'>Med Speech Pro : Lightning-Fast</h1>
+            Description: Experience Rapid Speech Recognition and Seamless Speaker identification With SpeechPro, a cutting-edge solution for accurate Medical Transcription
+            </div>
+        ''')
+        with gr.Row():
+            with gr.Column():
+                youtube_url_in.render()
+                download_youtube_btn = gr.Button("Download Youtube video")
+                download_youtube_btn.click(get_youtube, [youtube_url_in], [
+                    video_in])
+                print(video_in)
+        with gr.Row():
+            with gr.Column():
+                video_in.render()
+                with gr.Column():
+                    gr.Markdown('''.
+                    ''')
+                selected_source_lang.render()
+                selected_whisper_model.render()
+                number_speakers.render()
+                transcribe_btn = gr.Button("Transcribe Now")
+                transcribe_btn.click(speech_to_text,
+                                     [video_in, selected_source_lang, selected_whisper_model, number_speakers],
+                                     [transcription_df, system_info, download_transcript]
+                                    )
+        with gr.Row():
+            gr.Markdown('''
+            ##### Results
+            ##### ''')
+        with gr.Row():
+            with gr.Column():
+                download_transcript.render()
+                transcription_df.render()
+                system_info.render()
+                gr.Markdown('''<center><img src='https://visitor-badge.glitch.me/badge?page_id=WhisperDiarizationSpeakers' alt='visitor badge'><a href="https://opensource.org/licenses/Apache-2.0"><img src='https://img.shields.io/badge/License-Apache_2.0-blue.svg' alt='License: Apache 2.0'></center>''')
+demo.launch(debug=True,share=True)