Spaces:

Gradio-Blocks
/

Ask_Questions_To_YouTube_Videos

Build error

ysharma HF staff commited on May 22, 2022

Commit

04e3933

1 Parent(s): c915ab7

1

Files changed (1) hide show

app.py CHANGED Viewed

@@ -18,18 +18,18 @@ def get_transcript(link):
   print(f"video id extracted is : {video_id}")
   transcript = YouTubeTranscriptApi.get_transcript(video_id)
   FinalTranscript = ' '.join([i['text'] for i in transcript])
-  return FinalTranscript, video_id
 #input - question and transcript, output - answer timestamp
-def get_answers_timestamp(question, transcript):
   print("******** Inside get_answers_timestamp ********")
   model_ckpt = "deepset/minilm-uncased-squad2"
   tokenizer = AutoTokenizer.from_pretrained(model_ckpt)
   #question = "any funny examples in video??"
-  context = transcript
   print(f"Input Question is : {question}")
-  print(f"Type of trancript is : {type(transcript)}, Length of transcript is : {len(transcript)}")
   inputs = tokenizer(question, context, return_overflowing_tokens=True, max_length=512, stride = 25)
   #overlaps
@@ -57,7 +57,7 @@ def get_answers_timestamp(question, transcript):
   #idxmax, idxmax2
   idxcont = lst[idxmax2]['start']
-  answer = transcript[len(contx[0])-135 + idxcont:]
   sentence_keyword = answer[:50]
   dftranscript = pd.DataFrame(transcript)
@@ -85,11 +85,11 @@ def display_vid(url, question):
   #print(html)
   #get transcript
-  transcript, video_id = get_transcript(url)
   #get answer timestamp
   #input - question and transcript, output - answer timestamp
-  ans_timestamp = get_answers_timestamp(question, transcript)
   #created embedding
   #sample - smUHQndcmOY?start=234

   print(f"video id extracted is : {video_id}")
   transcript = YouTubeTranscriptApi.get_transcript(video_id)
   FinalTranscript = ' '.join([i['text'] for i in transcript])
+  return FinalTranscript,transcript, video_id
 #input - question and transcript, output - answer timestamp
+def get_answers_timestamp(question, final_transcript, transcript):
   print("******** Inside get_answers_timestamp ********")
   model_ckpt = "deepset/minilm-uncased-squad2"
   tokenizer = AutoTokenizer.from_pretrained(model_ckpt)
   #question = "any funny examples in video??"
+  context = final_transcript
   print(f"Input Question is : {question}")
+  print(f"Type of trancript is : {type(context)}, Length of transcript is : {len(context)}")
   inputs = tokenizer(question, context, return_overflowing_tokens=True, max_length=512, stride = 25)
   #overlaps
   #idxmax, idxmax2
   idxcont = lst[idxmax2]['start']
+  answer = final_transcript[len(contx[0])-135 + idxcont:]
   sentence_keyword = answer[:50]
   dftranscript = pd.DataFrame(transcript)
   #print(html)
   #get transcript
+  final_transcript, transcript, video_id = get_transcript(url)
   #get answer timestamp
   #input - question and transcript, output - answer timestamp
+  ans_timestamp = get_answers_timestamp(question, final_transcript, transcript)
   #created embedding
   #sample - smUHQndcmOY?start=234