video_bot_999

Sleeping

App Files Files Community

youngtsai commited on May 12

Commit

c205271

•

1 Parent(s): aaa2911

update

Browse files

Files changed (1) hide show

app.py +38 -73

app.py CHANGED Viewed

@@ -427,7 +427,6 @@ def get_video_duration(video_id):
 def process_transcript_and_screenshots_on_gcs(video_id):
     print("====process_transcript_and_screenshots_on_gcs====")
     # GCS
-    gcs_client = GCS_CLIENT
     bucket_name = 'video_ai_assistant'
     # 逐字稿文件名
     transcript_file_name = f'{video_id}_transcript.json'
@@ -552,9 +551,6 @@ def process_youtube_link(password, link):
         }
         formatted_simple_transcript.append(simple_line)
-    global TRANSCRIPTS
-    TRANSCRIPTS = formatted_transcript
     # 基于逐字稿生成其他所需的输出
     source = "gcs"
     questions_answers = get_questions_answers(video_id, formatted_simple_transcript, source)
@@ -568,9 +564,6 @@ def process_youtube_link(password, link):
     key_moments_html = get_key_moments_html(key_moments)
     html_content = format_transcript_to_html(formatted_transcript)
     simple_html_content = format_simple_transcript_to_html(formatted_simple_transcript)
-    first_image = formatted_transcript[0]['screenshot_path']
-    # first_image = "https://www.nameslook.com/names/dfsadf-nameslook.png"
-    first_text = formatted_transcript[0]['text']
     mind_map_json = get_mind_map(video_id, formatted_simple_transcript, source)
     mind_map = mind_map_json["mind_map"]
     mind_map_html = get_mind_map_html(mind_map)
@@ -593,8 +586,6 @@ def process_youtube_link(password, link):
         mind_map_html, \
         html_content, \
         simple_html_content, \
-        first_image, \
-        first_text, \
         reading_passage_text, \
         reading_passage, \
         subject, \
@@ -1335,28 +1326,6 @@ def get_key_moments(video_id, formatted_simple_transcript, formatted_transcript,
 def generate_key_moments(formatted_simple_transcript, formatted_transcript):
     print("===generate_key_moments===")
-    # 使用 OpenAI 生成基于上传数据的问题
-    sys_content = "你是一個擅長資料分析跟影片教學的老師，user 為學生，請精讀資料文本，自行判斷資料的種類，使用 zh-TW"
-    user_content = f"""
-        請根據 {formatted_simple_transcript} 文本，提取出重點摘要，並給出對應的時間軸
-        1. 小範圍切出不同段落的相對應時間軸的重點摘要，
-        2. 每一小段最多不超過 1/5 的總內容，也就是大約 3~5段的重點（例如五～十分鐘的影片就一段大約1~2分鐘，最多三分鐘，但如果是超過十分鐘的影片，那一小段大約 2~3分鐘，以此類推）
-        3. 注意不要遺漏任何一段時間軸的內容 從零秒開始
-        4. 如果頭尾的情節不是重點，特別是打招呼或是介紹人物、或是say goodbye 就是不重要的情節，就不用擷取
-        5. 以這種方式分析整個文本，從零秒開始分析，直到結束。這很重要
-        6. 關鍵字從transcript  extract to keyword，保留專家名字、專業術語、年份、數字、期刊名稱、地名、數學公式
-        7. text, keywords please use or transfer to zh-TW, it's very important
-        Example: retrun JSON
-        {{key_moments:[{{
-            "start": "00:00",
-            "end": "01:00",
-            "text": "逐字稿的重點摘要",
-            "keywords": ["關鍵字", "關鍵字"]
-            }}]
-        }}
-    """
     segments = split_data(formatted_simple_transcript, word_base=100000)
     all_content = []
@@ -1562,6 +1531,29 @@ def get_key_moments_html(key_moments):
         position: absolute;
         width: 1px;
     }
     @media (max-width: 768px) {
         #gallery-main {
@@ -1614,6 +1606,9 @@ def get_key_moments_html(key_moments):
             </div>
         """
         key_moments_html += f"""
         <div class="gallery-container" id="gallery-main">
             <div id="gallery"><!-- gallery start -->
@@ -1624,7 +1619,11 @@ def get_key_moments_html(key_moments):
             <div id="text-content">
                 <h3>{moment['start']} - {moment['end']}</h3>
                 <p><strong>摘要: {moment['text']} </strong></p>
-                <p>內容: {moment['transcript']}</p>
             </div>
         </div>
         """
@@ -1647,6 +1646,9 @@ def get_LLM_content(video_id, kind):
             content_text = content_json["reading_passage"]
         elif kind == "summary_markdown":
             content_text = content_json["summary"]
         else:
             content_text = json.dumps(content_json, ensure_ascii=False, indent=2)
     else:
@@ -1701,8 +1703,9 @@ def update_LLM_content(video_id, new_content, kind):
         else:
             key_moments_list = new_content
         key_moments_json = {"key_moments": key_moments_list}
-        key_moments_text = json.dumps(key_moments_json, ensure_ascii=False, indent=2)
-        GCS_SERVICE.upload_json_string(bucket_name, blob_name, key_moments_text)
         updated_content = key_moments_text
     elif kind == "transcript":
         if isinstance(new_content, str):
@@ -2588,34 +2591,6 @@ def show_all_chatbot_accordion():
     all_chatbot_select_btn_visible = gr.update(visible=False)
     return chatbot_select_accordion_visible, all_chatbot_select_btn_visible
-# --- Slide mode ---
-def update_slide(direction):
-    global TRANSCRIPTS
-    global CURRENT_INDEX
-    print("=== 更新投影片 ===")
-    print(f"CURRENT_INDEX: {CURRENT_INDEX}")
-    # print(f"TRANSCRIPTS: {TRANSCRIPTS}")
-    CURRENT_INDEX += direction
-    if CURRENT_INDEX < 0:
-        CURRENT_INDEX = 0  # 防止索引小于0
-    elif CURRENT_INDEX >= len(TRANSCRIPTS):
-        CURRENT_INDEX = len(TRANSCRIPTS) - 1  # 防止索引超出范围
-    # 获取当前条目的文本和截图 URL
-    current_transcript = TRANSCRIPTS[CURRENT_INDEX]
-    slide_image = current_transcript["screenshot_path"]
-    slide_text = current_transcript["text"]
-    return slide_image, slide_text
-def prev_slide():
-    return update_slide(-1)
-def next_slide():
-    return update_slide(1)
 # --- Init params ---
 def init_params(text, request: gr.Request):
@@ -2649,7 +2624,7 @@ def init_params(text, request: gr.Request):
         # check if origin is from junyiacademy
         origin = request.headers.get("origin", "")
         if "junyiacademy" in origin:
-            password_text = "6161"
             admin = gr.update(visible=False)
             reading_passage_admin = gr.update(visible=False)
             summary_admin = gr.update(visible=False)
@@ -3059,14 +3034,6 @@ with gr.Blocks(theme=gr.themes.Base(primary_hue=gr.themes.colors.orange, seconda
             simple_html_content = gr.HTML(label="Simple Transcript")
         with gr.Tab("圖文"):
             transcript_html = gr.HTML(label="YouTube Transcript and Video")
-        with gr.Tab("投影片"):
-            slide_image = gr.Image()
-            slide_text = gr.Textbox()
-            with gr.Row():
-                prev_button = gr.Button("Previous")
-                next_button = gr.Button("Next")
-            prev_button.click(fn=prev_slide, inputs=[], outputs=[slide_image, slide_text])
-            next_button.click(fn=next_slide, inputs=[], outputs=[slide_image, slide_text])
         with gr.Tab("markdown"):
             gr.Markdown("## 請複製以下 markdown 並貼到你的心智圖工具中，建議使用：https://markmap.js.org/repl")
             mind_map = gr.Textbox(container=True, show_copy_button=True, lines=40, elem_id="mind_map_markdown")
@@ -3217,8 +3184,6 @@ with gr.Blocks(theme=gr.themes.Base(primary_hue=gr.themes.colors.orange, seconda
         mind_map_html,
         transcript_html,
         simple_html_content,
-        slide_image,
-        slide_text,
         reading_passage_text,
         reading_passage,
         content_subject,

 def process_transcript_and_screenshots_on_gcs(video_id):
     print("====process_transcript_and_screenshots_on_gcs====")
     # GCS
     bucket_name = 'video_ai_assistant'
     # 逐字稿文件名
     transcript_file_name = f'{video_id}_transcript.json'
         }
         formatted_simple_transcript.append(simple_line)
     # 基于逐字稿生成其他所需的输出
     source = "gcs"
     questions_answers = get_questions_answers(video_id, formatted_simple_transcript, source)
     key_moments_html = get_key_moments_html(key_moments)
     html_content = format_transcript_to_html(formatted_transcript)
     simple_html_content = format_simple_transcript_to_html(formatted_simple_transcript)
     mind_map_json = get_mind_map(video_id, formatted_simple_transcript, source)
     mind_map = mind_map_json["mind_map"]
     mind_map_html = get_mind_map_html(mind_map)
         mind_map_html, \
         html_content, \
         simple_html_content, \
         reading_passage_text, \
         reading_passage, \
         subject, \
 def generate_key_moments(formatted_simple_transcript, formatted_transcript):
     print("===generate_key_moments===")
     segments = split_data(formatted_simple_transcript, word_base=100000)
     all_content = []
         position: absolute;
         width: 1px;
     }
+    .keyword-label {
+        display: inline-block;
+        padding: 5px 10px;
+        margin: 2px;
+        border: 2px solid black;
+        border-radius: 5px;
+        font-size: 0.9em;
+    }
+    details {
+        border-radius: 5px;
+        padding: 10px;
+        border: 2px solid black;
+    }
+    summary {
+        font-weight: bold;
+        cursor: pointer;
+        outline: none;
+    }
+    summary::-webkit-details-marker {
+        display: none;
+    }
     @media (max-width: 768px) {
         #gallery-main {
             </div>
         """
+        keywords_html = ' '.join([f'<span class="keyword-label">{keyword}</span>' for keyword in moment['keywords']])
         key_moments_html += f"""
         <div class="gallery-container" id="gallery-main">
             <div id="gallery"><!-- gallery start -->
             <div id="text-content">
                 <h3>{moment['start']} - {moment['end']}</h3>
                 <p><strong>摘要: {moment['text']} </strong></p>
+                <details>
+                    <summary>逐字稿</summary>
+                    <p><strong>內容: </strong> {moment['transcript']} </p>
+                </details>
+                <p><strong>關鍵字:</strong> {keywords_html}</p>
             </div>
         </div>
         """
             content_text = content_json["reading_passage"]
         elif kind == "summary_markdown":
             content_text = content_json["summary"]
+        elif kind == "key_moments":
+            content_text = content_json["key_moments"]
+            content_text = json.dumps(content_text, ensure_ascii=False, indent=2)
         else:
             content_text = json.dumps(content_json, ensure_ascii=False, indent=2)
     else:
         else:
             key_moments_list = new_content
         key_moments_json = {"key_moments": key_moments_list}
+        key_moments_json_text = json.dumps(key_moments_json, ensure_ascii=False, indent=2)
+        GCS_SERVICE.upload_json_string(bucket_name, blob_name, key_moments_json_text)
+        key_moments_text = json.dumps(key_moments_list, ensure_ascii=False, indent=2)
         updated_content = key_moments_text
     elif kind == "transcript":
         if isinstance(new_content, str):
     all_chatbot_select_btn_visible = gr.update(visible=False)
     return chatbot_select_accordion_visible, all_chatbot_select_btn_visible
 # --- Init params ---
 def init_params(text, request: gr.Request):
         # check if origin is from junyiacademy
         origin = request.headers.get("origin", "")
         if "junyiacademy" in origin:
+            password_text = PASSWORD
             admin = gr.update(visible=False)
             reading_passage_admin = gr.update(visible=False)
             summary_admin = gr.update(visible=False)
             simple_html_content = gr.HTML(label="Simple Transcript")
         with gr.Tab("圖文"):
             transcript_html = gr.HTML(label="YouTube Transcript and Video")
         with gr.Tab("markdown"):
             gr.Markdown("## 請複製以下 markdown 並貼到你的心智圖工具中，建議使用：https://markmap.js.org/repl")
             mind_map = gr.Textbox(container=True, show_copy_button=True, lines=40, elem_id="mind_map_markdown")
         mind_map_html,
         transcript_html,
         simple_html_content,
         reading_passage_text,
         reading_passage,
         content_subject,