Spaces:

Selim321
/

youtube-summarizer

Sleeping

App Files Files Community

Selim321 commited on May 18, 2023

Commit

8396eb2

•

1 Parent(s): 2182ae8

Upload 2 files

Browse files

Files changed (2) hide show

app.py +100 -0
requirements.txt +70 -0

app.py ADDED Viewed

	@@ -0,0 +1,100 @@

+import streamlit as st
+import requests
+from gtts import gTTS
+from urllib.parse import urlparse, parse_qs
+from youtube_transcript_api import YouTubeTranscriptApi
+import unicodedata
+from deepmultilingualpunctuation import PunctuationModel
+from transformers import pipeline
+def summarize_video(url):
+  parsed_url = urlparse(url)
+  video_id = parse_qs(parsed_url.query)['v'][0]
+  # Get the transcript
+  transcript = YouTubeTranscriptApi.get_transcript(video_id)
+  # Combining all the lists into on unique list
+  text = []
+  for i in range(0, len(transcript)):
+      text.append(transcript[i]["text"])
+  # Join list items into one paragraph
+  video_transcript = " ".join(text)
+  print("Text transcript created")
+  print(video_transcript)
+  # Text normalization
+  my_string = unicodedata.normalize('NFKD', video_transcript)
+  print("Text normalized")
+  # Add punctuation
+  model = PunctuationModel()
+  result = model.restore_punctuation(video_transcript)
+  print("Punctuation restored")
+  # SUMMARIZATION
+  # instantiate the summarization pipeline
+  summarization_pipeline = pipeline(
+      "summarization",
+      model="t5-base", # you can choose a different model, depending on your requirements
+      tokenizer="t5-base" # you can choose a different tokenizer, depending on your requirements
+  )
+  # define the input text to summarize
+  input_text = result
+  # split the input text into smaller chunks
+  chunk_size = 5000
+  chunks = [input_text[i:i+chunk_size] for i in range(0, len(input_text), chunk_size)]
+  # summarize each chunk separately
+  summaries = []
+  for chunk in chunks:
+      summary = summarization_pipeline(chunk, max_length=200, min_length=30, do_sample=False)
+      summaries.append(summary[0]['summary_text'])
+  # combine the summaries of all chunks into a single summary
+  final_summary = " ".join(summaries)
+  # print the generated summary
+  return final_summary
+# Define the Streamlit app
+st.title("YouTube Summarizer")
+# Define the input form
+form = st.form(key="input_form")
+# Get the video ID from the URL
+video_url = form.text_input("Enter a YouTube video URL")
+# Submit button
+submit_button = form.form_submit_button("Summarize Video")
+# Handle form submissions
+if submit_button:
+    # Call the summarize_video function to get the summary
+    summary = summarize_video(video_url)
+    # Display the summary to the user
+    st.subheader("Summary")
+    st.write(summary)
+    # Convert text summary into audio
+    tts = gTTS(summary)
+    print("converting text to audio")
+    tts.save('hello.mp3')
+    # Download audio transcript
+    with open('hello.mp3', 'rb') as f:
+        st.download_button('Download mp3', f, file_name='hello.mp3')

requirements.txt ADDED Viewed

	@@ -0,0 +1,70 @@

+altair==4.2.2
+anyio==3.6.2
+attrs==23.1.0
+blinker==1.6.2
+cachetools==5.3.0
+certifi==2022.12.7
+charset-normalizer==3.1.0
+click==8.1.3
+decorator==5.1.1
+deepmultilingualpunctuation==1.0.1
+entrypoints==0.4
+fastapi==0.95.1
+filelock==3.12.0
+fsspec==2023.4.0
+gitdb==4.0.10
+GitPython==3.1.31
+gTTS==2.3.2
+h11==0.14.0
+huggingface-hub==0.14.1
+idna==3.4
+importlib-metadata==6.6.0
+Jinja2==3.1.2
+jsonschema==4.17.3
+markdown-it-py==2.2.0
+MarkupSafe==2.1.2
+mdurl==0.1.2
+mpmath==1.3.0
+networkx==3.1
+numpy==1.24.3
+packaging==23.1
+pandas==2.0.1
+Pillow==9.5.0
+protobuf==3.20.1
+pyarrow==12.0.0
+pydantic==1.10.7
+pydeck==0.8.1b0
+Pygments==2.15.1
+Pympler==1.0.1
+pyrsistent==0.19.3
+python-dateutil==2.8.2
+pytz==2023.3
+pytz-deprecation-shim==0.1.0.post0
+PyYAML==6.0
+regex==2023.5.5
+requests==2.30.0
+rich==13.3.5
+sentencepiece==0.1.99
+six==1.16.0
+smmap==5.0.0
+sniffio==1.3.0
+starlette==0.26.1
+streamlit==1.22.0
+sympy==1.11.1
+tenacity==8.2.2
+tokenizers==0.13.3
+toml==0.10.2
+toolz==0.12.0
+torch==2.0.0
+tornado==6.3.1
+tqdm==4.65.0
+transformers==4.28.1
+typing_extensions==4.5.0
+tzdata==2023.3
+tzlocal==4.3
+urllib3==2.0.2
+uvicorn==0.22.0
+validators==0.20.0
+watchdog==3.0.0
+youtube-transcript-api==0.6.0
+zipp==3.15.0