Spaces:

DiegoLigtenberg
/

realtimespeech

Build error

App Files Files Community

DiegoLigtenberg commited on Nov 6, 2022

Commit

863cbdb

1 Parent(s): 8afe900

working

Browse files

Files changed (1) hide show

app.py +28 -26

app.py CHANGED Viewed

@@ -55,37 +55,39 @@ if "transcription" in st.session_state:
     st.session_state.transcription.whisper()
     # create two columns to separate page and youtube video
-    transcription_col, media_col = st.columns(2, gap="large")
-    transcription_col.markdown("#### Audio")
-    with open(st.session_state.transcription.audio_path, "rb") as f:
-        transcription_col.audio(f.read())
-    transcription_col.markdown("---")
-    transcription_col.markdown(f"#### Transcription (whisper model - `{whisper_model}`)")
-    transcription_col.markdown(f"##### Language: `{st.session_state.transcription.language}`")
-    # Trim raw transcribed output off tokens to simplify
-    raw_output = transcription_col.expander("Raw output")
-    raw_output.markdown(st.session_state.transcription.raw_output["text"])
-    if summary:
-        summarized_output = transcription_col.expander("summarized output")
-        # CURRENTLY ONLY SUPPORTS 1024 WORD TOKENS -> TODO: FIND METHOD TO INCREASE SUMMARY FOR LONGER VIDS -> 1024 * 4 = aprox 800 words within 1024 range
-        text_summary = TextToSummary(str(st.session_state.transcription.text[:1024*4]),min_sum,max_sum).get_summary()
-        summarized_output.markdown(text_summary[0]["summary_text"])
-    # Show transcription in format with timers added to text
-    time_annotated_output = transcription_col.expander("time_annotated_output")
-    for segment in st.session_state.transcription.segments:
-        time_annotated_output.markdown(
-            f"""[{round(segment["start"], 1)} - {round(segment["end"], 1)}] - {segment["text"]}"""
-        )
     # Show input youtube video
-    if input_type == "YouTube":
-        media_col.markdown("---")
-        media_col.markdown("#### Original YouTube Video")
-        media_col.video(st.session_state.transcription.source)
 else:
     pass

     st.session_state.transcription.whisper()
     # create two columns to separate page and youtube video
+    transcription_col, media_col = st.columns(2)
+    with transcription_col:
+        st.markdown("#### Audio")
+        with open(st.session_state.transcription.audio_path, "rb") as f:
+            st.audio(f.read())
+        st.markdown("---")
+        st.markdown(f"#### Transcription (whisper model - `{whisper_model}`)")
+        st.markdown(f"##### Language: `{st.session_state.transcription.language}`")
+        # Trim raw transcribed output off tokens to simplify
+        raw_output = st.expander("Raw output")
+        raw_output.markdown(st.session_state.transcription.raw_output["text"])
+        if summary:
+            summarized_output = st.expander("summarized output")
+            # CURRENTLY ONLY SUPPORTS 1024 WORD TOKENS -> TODO: FIND METHOD TO INCREASE SUMMARY FOR LONGER VIDS -> 1024 * 4 = aprox 800 words within 1024 range
+            text_summary = TextToSummary(str(st.session_state.transcription.text[:1024*4]),min_sum,max_sum).get_summary()
+            summarized_output.markdown(text_summary[0]["summary_text"])
+        # Show transcription in format with timers added to text
+        time_annotated_output = st.expander("time_annotated_output")
+        for segment in st.session_state.transcription.segments:
+            time_annotated_output.markdown(
+                f"""[{round(segment["start"], 1)} - {round(segment["end"], 1)}] - {segment["text"]}"""
+            )
     # Show input youtube video
+    with media_col:
+        if input_type == "YouTube":
+            st.markdown("---")
+            st.markdown("#### Original YouTube Video")
+            st.video(st.session_state.transcription.source)
 else:
     pass