Spaces:

LaoCzi
/

YouTube_Summarize

Running

App Files Files

LaoCzi commited on Mar 17, 2023

Commit

5a8ba9d

•

1 Parent(s): 2274cd3

Update app.py

Browse files

Files changed (1) hide show

app.py +68 -20

app.py CHANGED Viewed

@@ -1,20 +1,46 @@
 import os
 import openai
-openai.api_key = os.getenv("OPENAI_API_KEY")
 import gradio as gr
 from youtube_transcript_api import YouTubeTranscriptApi
 from urllib.parse import urlparse, parse_qs
 from requests.structures import CaseInsensitiveDict
-def Prompt_T(context):
-  result  = """I want you to act as a content writer who is working with youtube video transcript. Summarise the following text:
   =========
   """+ context +"""
   =========
   Answer:"""
-  return result
 def split_string(string, chunk_size):
@@ -45,7 +71,6 @@ def generate(video_url, request: gr.Request):
       my_v = my_dict['v'][0]
       video_url ="https://youtube.com/watch?v="+my_v
     except KeyError:
-      print("Ключ 'v' отсутствует в словаре.")
       my_v = ""
     #Если две переменные пустые, то показываем базовую страницу с рекламой
@@ -60,51 +85,74 @@ def generate(video_url, request: gr.Request):
     #Пробуем извлеч video_id пока на английском
     video_id = video_url[-11:]
     try:
-      t = YouTubeTranscriptApi.get_transcript(video_id,languages=["en"])
       # do something with the transcript
     except Exception as e:
-      return "Несмогли нати трнскрипт", "Ошибка"
     finalString = ""
     for item in t:
         text = item['text']
         finalString += text + " "
     print("Transcript:",finalString)
     print("Transcript lenght:",len(finalString))
     print ("===============================================")
     input_string = finalString
-    chunk_size = 10000
     result_list = split_string(input_string, chunk_size)
-    eng_answer=""
     count= 0
     for item in result_list:
       count = count +1
       context = item
-      eng_prompt = Prompt_T(context)
-      eng_answer = eng_answer +" \n" + gpt_api (eng_prompt)
-      print("Context:", context)
-      print(count, " - part eng_answer:", eng_answer)
-      print("==========================")
     html_embed='<iframe width="450" height="158" src="https://www.youtube.com/embed/'+ video_id +'" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" allowfullscreen></iframe>'
-    html_content="<h6>"+"<br>"+eng_answer+"</h6>"
     return html_content, html_embed
-title = "YouTube Summorize (only english video)"
 css="""
 footer {visibility: hidden}
 .gradio-container {padding-top: 100px}
 """
 with gr.Blocks(css=css, title=title) as demo:
     with gr.Row():
         with gr.Column():
-          input_d = gr.Textbox(label="YouTube video URL", placeholder="https://www.youtube.com/watch?v=XXXXXXXX")
           greet_btn = gr.Button("Summarise")
         dt_2 = gr.outputs.HTML()
     dt_1 = gr.outputs.HTML()
-    dt =[dt_1, dt_2 ]
     greet_btn.click(generate, inputs=input_d, outputs=dt)
     demo.load(generate, inputs=input_d, outputs=dt)

 import os
 import openai
 import gradio as gr
 from youtube_transcript_api import YouTubeTranscriptApi
 from urllib.parse import urlparse, parse_qs
 from requests.structures import CaseInsensitiveDict
+openai.api_key = os.getenv("OPENAI_API_KEY")
+google_analtycs="""
+<!-- Google tag (gtag.js) -->
+<script async src="https://www.googletagmanager.com/gtag/js?id=G-S9JEXRFQJF"></script>
+<script>
+  window.dataLayer = window.dataLayer || [];
+  function gtag(){dataLayer.push(arguments);}
+  gtag('js', new Date());
+  gtag('config', 'G-S9JEXRFQJF');
+</script>
+"""
+def Prompt_T(context, lang):
+  prompt  = """I want you to act as a content writer who is working with youtube video transcript. Summarise the following text in 70 words:
   =========
   """+ context +"""
   =========
   Answer:"""
+  if (lang=="ru"):prompt  = """Я хочу, чтобы вы выступили в роли автора контента, который взят с  транскрипт youtube видео, его нужно преобразовать  в читаемый вид. Резюмируйте следующий текст в 50 слов:
+  =========
+  """+ context +"""
+  =========
+  Ответ:"""
+  if (lang=="uk"):prompt  = """Я хочу, щоб ви виступили в ролі автора контенту, який узятий з транскрипту youtube відео,  його треба перетворити у читабельний вигляд. Резюмуйте наступний текст у 50 слів:
+  =========
+  """+ context +"""
+  =========
+  Ответ:"""
+  return prompt
 def split_string(string, chunk_size):
       my_v = my_dict['v'][0]
       video_url ="https://youtube.com/watch?v="+my_v
     except KeyError:
       my_v = ""
     #Если две переменные пустые, то показываем базовую страницу с рекламой
     #Пробуем извлеч video_id пока на английском
     video_id = video_url[-11:]
+    try:
+      transcript_list = YouTubeTranscriptApi.list_transcripts(video_id)
+    except Exception as e:
+      return "No access for transcript ", "Error transcript_list"
+    # iterate over all available transcripts
+    lang_video="en"
+    for transcript in transcript_list:
+      if (transcript.is_generated == True): lang_video = transcript.language_code
+      print ("transcript.language_code=", transcript.language_code)
     try:
+      t = YouTubeTranscriptApi.get_transcript(video_id,languages=[lang_video])
       # do something with the transcript
     except Exception as e:
+      return "No access for transcript", "Error transcript"
     finalString = ""
     for item in t:
         text = item['text']
         finalString += text + " "
     print("Transcript:",finalString)
     print("Transcript lenght:",len(finalString))
     print ("===============================================")
     input_string = finalString
+    chunk_size = 12000
+    if (lang_video=="ru"): chunk_size = 5000
+    if (lang_video=="uk"): chunk_size = 5000
     result_list = split_string(input_string, chunk_size)
+    final_answer_gpt=""
     count= 0
+    print("++++++++++++++++++++++++++++++++++++++")
+    for item in result_list:
+        print(item)
     for item in result_list:
       count = count +1
       context = item
+      input_gpt = Prompt_T(context,lang_video)
+      final_answer_gpt = final_answer_gpt +"<p>" + gpt_api (input_gpt)+"</p>"
     html_embed='<iframe width="450" height="158" src="https://www.youtube.com/embed/'+ video_id +'" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" allowfullscreen></iframe>'
+    html_content="<h6>"+"<br>"+final_answer_gpt+"</h6>"
     return html_content, html_embed
+title = "YouTube Summorize (en,ua,ru)"
 css="""
 footer {visibility: hidden}
 .gradio-container {padding-top: 100px}
 """
 with gr.Blocks(css=css, title=title) as demo:
+    gr.HTML("<h1>A simple way to summarise and translate the YouTube video in 22 languages</h1>"+google_analtycs)
     with gr.Row():
         with gr.Column():
+          input_d = gr.Textbox(label="YouTube video URL", placeholder="https://www.youtube.com/watch?v=XXXXXXXX", value="")
           greet_btn = gr.Button("Summarise")
         dt_2 = gr.outputs.HTML()
     dt_1 = gr.outputs.HTML()
+    dt =[dt_1, dt_2]
     greet_btn.click(generate, inputs=input_d, outputs=dt)
     demo.load(generate, inputs=input_d, outputs=dt)