Spaces:

JunyiAcademy
/

vaitor2

Sleeping

App Files Files Community

youngtsai commited on May 13, 2024

Commit

5324cd6

1 Parent(s): f4feb7d

update

Browse files

Files changed (1) hide show

app.py +69 -69

app.py CHANGED Viewed

@@ -49,6 +49,7 @@ print(gr.__version__)
 if is_env_local:
     with open("local_config.json") as f:
         config = json.load(f)
         PASSWORD = config["PASSWORD"]
         GCS_KEY = json.dumps(config["GOOGLE_APPLICATION_CREDENTIALS_JSON"])
         DRIVE_KEY = json.dumps(config["GOOGLE_APPLICATION_CREDENTIALS_JSON"])
@@ -64,7 +65,9 @@ if is_env_local:
         AWS_SECRET_KEY = config["AWS_SECRET_KEY"]
         AWS_REGION_NAME = config["AWS_REGION_NAME"]
         OUTPUT_PATH = config["OUTPUT_PATH"]
 else:
     PASSWORD = os.getenv("PASSWORD")
     GCS_KEY = os.getenv("GOOGLE_APPLICATION_CREDENTIALS_JSON")
     DRIVE_KEY = os.getenv("GOOGLE_APPLICATION_CREDENTIALS_JSON")
@@ -426,54 +429,14 @@ def get_video_duration(video_id):
 def process_transcript_and_screenshots_on_gcs(video_id):
     print("====process_transcript_and_screenshots_on_gcs====")
-    # GCS
-    bucket_name = 'video_ai_assistant'
-    # 逐字稿文件名
-    transcript_file_name = f'{video_id}_transcript.json'
-    transcript_blob_name = f"{video_id}/{transcript_file_name}"
-    # 检查逐字稿是否存在
-    is_new_transcript = False
-    is_transcript_exists = GCS_SERVICE.check_file_exists(bucket_name, transcript_blob_name)
-    video_duration = get_video_duration(video_id)
-    if not is_transcript_exists:
-        print("逐字稿文件不存在于GCS中，重新建立")
-        # 从YouTube获取逐字稿并上传
-        try:
-            transcript = get_transcript_by_yt_api(video_id)
-        except:
-            # call open ai whisper
-            print("===call open ai whisper===")
-            transcript = generate_transcription_by_whisper(video_id)
-        if transcript:
-            print("成功獲取字幕")
-        else:
-            print("沒有找到字幕")
-            transcript = generate_transcription_by_whisper(video_id)
-        if video_duration:
-            transcript = [entry for entry in transcript if entry['start'] <= video_duration]
-        transcript_text = json.dumps(transcript, ensure_ascii=False, indent=2)
-        GCS_SERVICE.upload_json_string(bucket_name, transcript_blob_name, transcript_text)
-        is_new_transcript = True
-    else:
-        # 逐字稿已存在，下载逐字稿内容
-        print("逐字稿已存在于GCS中")
-        transcript_text = GCS_SERVICE.download_as_string(bucket_name, transcript_blob_name)
-        transcript = json.loads(transcript_text)
-        if video_duration:
-            transcript = [entry for entry in transcript if entry['start'] <= video_duration]
-    # print("===確認其他衍生文件===")
-    # source = "gcs"
-    # get_questions(video_id, transcript_text, source)
-    # get_video_id_summary(video_id, transcript_text, source)
-    # get_mind_map(video_id, transcript_text, source)
-    # print("===確認其他衍生文件 end ===")
     # 處理截圖
     for entry in transcript:
         if 'img_file_id' not in entry:
             # 檢查 OUTPUT_PATH 是否存在 video_id.mp4
@@ -488,38 +451,67 @@ def process_transcript_and_screenshots_on_gcs(video_id):
                         if i == 4:
                             raise gr.Error(f"下载视频失败: {str(e)}")
                         time.sleep(5)
-            # 截图
-            screenshot_path = screenshot_youtube_video(video_id, entry['start'])
-            screenshot_blob_name = f"{video_id}/{video_id}_{entry['start']}.jpg"
-            img_file_id = GCS_SERVICE.upload_image_and_get_public_url(bucket_name, screenshot_blob_name, screenshot_path)
-            entry['img_file_id'] = img_file_id
-            print(f"截图已上传到GCS: {img_file_id}")
-            is_new_transcript = True
-    # 確認是否更新逐字稿文件
     if is_new_transcript:
-        # 更新逐字稿文件
-        print("===更新逐字稿文件===")
-        print(transcript)
         print("===更新逐字稿文件===")
-        updated_transcript_text = json.dumps(transcript, ensure_ascii=False, indent=2)
-        GCS_SERVICE.upload_json_string(bucket_name, transcript_blob_name, updated_transcript_text)
-        print("逐字稿已更新，包括截图链接")
-        updated_transcript_json = json.loads(updated_transcript_text)
     else:
-        updated_transcript_json = transcript
-    return updated_transcript_json
 def process_youtube_link(password, link):
     verify_password(password)
-    # 使用 YouTube API 获取逐字稿
-    # 假设您已经获取了 YouTube 视频的逐字稿并存储在变量 `transcript` 中
     video_id = extract_youtube_id(link)
     try:
-        transcript = process_transcript_and_screenshots_on_gcs(video_id)
     except Exception as e:
         error_msg = f" {video_id} 逐字稿錯誤: {str(e)}"
         print("===process_youtube_link error===")
@@ -2615,6 +2607,8 @@ def init_params(text, request: gr.Request):
         chatbot_ai = gr.update(visible=False)
         ai_chatbot_params = gr.update(visible=True)
         # if youtube_link in query_params
         if "youtube_id" in request.query_params:
             youtube_id = request.query_params["youtube_id"]
@@ -2633,11 +2627,15 @@ def init_params(text, request: gr.Request):
             lesson_plan_accordion = gr.update(visible=False)
             exit_ticket_accordion = gr.update(visible=False)
             ai_chatbot_params = gr.update(visible=False)
     return admin, reading_passage_admin, summary_admin, see_detail, \
         worksheet_accordion, lesson_plan_accordion, exit_ticket_accordion, \
         password_text, youtube_link, \
-        chatbot_open_ai_streaming, chatbot_ai, ai_chatbot_params
 def update_state(content_subject, content_grade, trascript, key_moments, questions_answers):
     # inputs=[content_subject, content_grade, df_string_output],
@@ -2699,6 +2697,7 @@ with gr.Blocks(theme=gr.themes.Base(primary_hue=gr.themes.colors.orange, seconda
         # web_link = gr.Textbox(label="Enter Web Page Link", visible=False)
         user_data = gr.Textbox(label="User Data", elem_id="user_data_input", visible=True)
         youtube_link_btn = gr.Button("Submit_YouTube_Link", elem_id="youtube_link_btn", visible=True)
     with gr.Row() as data_state:
         content_subject_state = gr.State()  # 使用 gr.State 存储 content_subject
         content_grade_state = gr.State()  # 使用 gr.State 存储 content_grade
@@ -3567,6 +3566,7 @@ with gr.Blocks(theme=gr.themes.Base(primary_hue=gr.themes.colors.orange, seconda
         chatbot_open_ai_streaming,
         chatbot_ai,
         ai_chatbot_params,
     ]
     demo.load(
         init_params,

 if is_env_local:
     with open("local_config.json") as f:
         config = json.load(f)
+        IS_ENV_PROD = "False"
         PASSWORD = config["PASSWORD"]
         GCS_KEY = json.dumps(config["GOOGLE_APPLICATION_CREDENTIALS_JSON"])
         DRIVE_KEY = json.dumps(config["GOOGLE_APPLICATION_CREDENTIALS_JSON"])
         AWS_SECRET_KEY = config["AWS_SECRET_KEY"]
         AWS_REGION_NAME = config["AWS_REGION_NAME"]
         OUTPUT_PATH = config["OUTPUT_PATH"]
 else:
+    IS_ENV_PROD = os.getenv("IS_ENV_PROD", "False")
     PASSWORD = os.getenv("PASSWORD")
     GCS_KEY = os.getenv("GOOGLE_APPLICATION_CREDENTIALS_JSON")
     DRIVE_KEY = os.getenv("GOOGLE_APPLICATION_CREDENTIALS_JSON")
 def process_transcript_and_screenshots_on_gcs(video_id):
     print("====process_transcript_and_screenshots_on_gcs====")
+    transcript, exists = get_transcript_from_gcs(video_id)
+    if not exists:
+        print("Transcript file does not exist, creating new transcript...")
+        transcript = generate_transcription_by_whisper(video_id)
+        upload_transcript_to_gcs(video_id, transcript)
     # 處理截圖
+    is_new_transcript = False
     for entry in transcript:
         if 'img_file_id' not in entry:
             # 檢查 OUTPUT_PATH 是否存在 video_id.mp4
                         if i == 4:
                             raise gr.Error(f"下载视频失败: {str(e)}")
                         time.sleep(5)
+            try:
+                screenshot_path = screenshot_youtube_video(video_id, entry['start'])
+                screenshot_blob_name = f"{video_id}/{video_id}_{entry['start']}.jpg"
+                img_file_id = GCS_SERVICE.upload_image_and_get_public_url('video_ai_assistant', screenshot_blob_name, screenshot_path)
+                entry['img_file_id'] = img_file_id
+                print(f"截图已上传到GCS: {img_file_id}")
+                is_new_transcript = True
+            except Exception as e:
+                print(f"Error processing screenshot: {str(e)}")
     if is_new_transcript:
         print("===更新逐字稿文件===")
+        upload_transcript_to_gcs(video_id, transcript)
+    return transcript
+def get_transcript(video_id):
+    print("====get_transcript====")
+    transcript, exists = get_transcript_from_gcs(video_id)
+    if not exists:
+        raise gr.Error("逐字稿文件不存在於GCS中。")
+    if any('img_file_id' not in entry for entry in transcript):
+        raise gr.Error("Some entries in the transcript do not have an associated img_file_id.")
+    print("Transcript is verified with all necessary images.")
+    return transcript
+def get_transcript_from_gcs(video_id):
+    print("Checking for transcript in GCS...")
+    bucket_name = 'video_ai_assistant'
+    transcript_file_name = f'{video_id}_transcript.json'
+    transcript_blob_name = f"{video_id}/{transcript_file_name}"
+    # Check if the transcript exists in GCS
+    is_transcript_exists = GCS_SERVICE.check_file_exists(bucket_name, transcript_blob_name)
+    if is_transcript_exists:
+        # Download the transcript if it exists
+        transcript_text = GCS_SERVICE.download_as_string(bucket_name, transcript_blob_name)
+        return json.loads(transcript_text), True
     else:
+        print("No transcript found for video ID:", video_id)
+        return None, False
+def upload_transcript_to_gcs(video_id, transcript):
+    print("Uploading updated transcript to GCS...")
+    bucket_name = 'video_ai_assistant'
+    transcript_file_name = f'{video_id}_transcript.json'
+    transcript_blob_name = f"{video_id}/{transcript_file_name}"
+    transcript_text = json.dumps(transcript, ensure_ascii=False, indent=2)
+    GCS_SERVICE.upload_json_string(bucket_name, transcript_blob_name, transcript_text)
+    print("Transcript uploaded successfully.")
 def process_youtube_link(password, link):
     verify_password(password)
     video_id = extract_youtube_id(link)
     try:
+        if IS_ENV_PROD == "True":
+            transcript = get_transcript(video_id)
+        else:
+            transcript = process_transcript_and_screenshots_on_gcs(video_id)
     except Exception as e:
         error_msg = f" {video_id} 逐字稿錯誤: {str(e)}"
         print("===process_youtube_link error===")
         chatbot_ai = gr.update(visible=False)
         ai_chatbot_params = gr.update(visible=True)
+        is_env_prod = gr.update(value=False)
         # if youtube_link in query_params
         if "youtube_id" in request.query_params:
             youtube_id = request.query_params["youtube_id"]
             lesson_plan_accordion = gr.update(visible=False)
             exit_ticket_accordion = gr.update(visible=False)
             ai_chatbot_params = gr.update(visible=False)
+        if IS_ENV_PROD == "True":
+            is_env_prod = gr.update(value=True)
     return admin, reading_passage_admin, summary_admin, see_detail, \
         worksheet_accordion, lesson_plan_accordion, exit_ticket_accordion, \
         password_text, youtube_link, \
+        chatbot_open_ai_streaming, chatbot_ai, ai_chatbot_params, \
+        is_env_prod
 def update_state(content_subject, content_grade, trascript, key_moments, questions_answers):
     # inputs=[content_subject, content_grade, df_string_output],
         # web_link = gr.Textbox(label="Enter Web Page Link", visible=False)
         user_data = gr.Textbox(label="User Data", elem_id="user_data_input", visible=True)
         youtube_link_btn = gr.Button("Submit_YouTube_Link", elem_id="youtube_link_btn", visible=True)
+        is_env_prod = gr.Checkbox(value=False, label="is_env_prod")
     with gr.Row() as data_state:
         content_subject_state = gr.State()  # 使用 gr.State 存储 content_subject
         content_grade_state = gr.State()  # 使用 gr.State 存储 content_grade
         chatbot_open_ai_streaming,
         chatbot_ai,
         ai_chatbot_params,
+        is_env_prod,
     ]
     demo.load(
         init_params,