Gradio_Youtube_Transcript_v2

Runtime error

App Files Files Community

Bilalst commited on Jul 10, 2023

Commit

90d5de6

0 Parent(s):

Duplicate from Bilalst/Gradio_Youtube_Transcript

Browse files

Files changed (5) hide show

.gitattributes +35 -0
README.md +13 -0
app.py +118 -0
apt.txt +4 -0
requirements.txt +9 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,13 @@

+---
+title: Gradio Youtube Transcript
+emoji: 🦀
+colorFrom: green
+colorTo: yellow
+sdk: gradio
+sdk_version: 3.35.2
+app_file: app.py
+pinned: false
+duplicated_from: Bilalst/Gradio_Youtube_Transcript
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,118 @@

+import gradio as gr
+import requests
+from sentence_transformers import SentenceTransformer
+from youtube_transcript_api import YouTubeTranscriptApi
+import numpy as np
+import huggingface_hub
+import os
+import faiss
+# Set up SentenceTransformer
+model = SentenceTransformer('all-mpnet-base-v2')
+playlist_id = 'PLD4EAA8F8C9148A1B'
+api_key = 'AIzaSyBGuTvXcnliEh6yhTxugrAVM5YzcG9qr9U'
+# Make a request to the YouTube Data API to retrieve the playlist items
+url = f'https://www.googleapis.com/youtube/v3/playlistItems?part=snippet&maxResults=50&playlistId={playlist_id}&key={api_key}'
+video_ids = []
+while True:
+    response = requests.get(url)
+    data = response.json()
+    # Extract the video IDs from the response
+    for item in data['items']:
+        video_ids.append(item['snippet']['resourceId']['videoId'])
+    # Check if there are more pages of results
+    if 'nextPageToken' in data:
+        next_page_token = data['nextPageToken']
+        url = f'https://www.googleapis.com/youtube/v3/playlistItems?part=snippet&maxResults=50&playlistId={playlist_id}&key={api_key}&pageToken={next_page_token}'
+    else:
+        break
+# Empty lists to store transcripts and video IDs
+transcripts = []
+ids = []
+for video_id in video_ids:
+    try:
+        transcript = YouTubeTranscriptApi.get_transcript(video_id)
+        transcript_text = ' '.join([t['text'] for t in transcript])
+        transcripts.append(transcript_text)
+        ids.append(video_id)
+    except Exception as e:
+        print(f"Error retrieving transcript for video {video_id}: {e}")
+        continue
+# create sentence embeddings
+sentence_embeddings = model.encode(transcripts)
+# Set up FAISS
+index = faiss.IndexFlatL2(768)  # Create an index with L2 distance
+# Convert list of embeddings to NumPy array
+sentence_embeddings = np.array(sentence_embeddings)
+# Add sentence embeddings to FAISS index
+index.add(sentence_embeddings)
+#---------------------------------------------
+def get_video_links(input_text):
+    # Encode input text using SentenceTransformer
+    input_embedding = model.encode([input_text])[0]
+    # Perform nearest neighbor search in FAISS index
+    k = 15  # Number of nearest neighbors to retrieve
+    _, T = index.search(np.array([input_embedding]), k)  # search
+    # Return the list of video links with thumbnails and titles as an HTML string
+    video_links = []
+    visited_ids = set()
+    for i in T[0]:
+        video_id = ids[i]
+        if video_id in visited_ids:
+            continue  # Skip if the video_id has already been visited
+        visited_ids.add(video_id)
+        # Retrieve video details using YouTube Data API
+        video_info_url = f"https://www.googleapis.com/youtube/v3/videos?part=snippet&id={video_id}&key={api_key}"
+        response = requests.get(video_info_url)
+        data = response.json()
+        video_title = data['items'][0]['snippet']['title']
+        video_thumbnail = data['items'][0]['snippet']['thumbnails']['default']['url']
+        # Generate HTML code for the video link with thumbnail and title
+        video_link = f"https://www.youtube.com/watch?v={video_id}"
+        video_html = f'<a href="{video_link}" target="_blank"><img src="{video_thumbnail}"><br>{video_title}</a><br>'
+        video_links.append(video_html)
+    return ''.join(video_links)
+# Create Gradio interface with "html" output type
+iface = gr.Interface(fn=get_video_links, inputs=[gr.inputs.Textbox(label="Add what you are looking to find in Dr. Joe's testimonials!")], outputs="html", title="Dr. Joe Dispenza testimonials Search")
+# Launch the Gradio interface on Hugging Face Spaces
+if __name__ == '__main__':
+    iface.launch()

apt.txt ADDED Viewed

	@@ -0,0 +1,4 @@

+build-essential
+python3-dev
+libomp-dev
+swig

requirements.txt ADDED Viewed

	@@ -0,0 +1,9 @@

+Gradio
+sentence-transformers
+faiss-cpu
+youtube-transcript-api
+huggingface-hub
+requests
+numpy