Spaces:

Symato
/

tomtat

Running

tiendung commited on Oct 1

Commit

244703e

•

1 Parent(s): 384fa70

docchat

Files changed (4) hide show

llm.py CHANGED Viewed

@@ -166,12 +166,26 @@ who_are_you()
-from prompts import summary_template
 from prompts import contextual_template, clean_view_template
 USE_CACHE = os.getenv("cache", "1") == "1"
 def extract_keyphrases_figures_summary(text):
     if len(text) < 80: return ""

+from prompts import summary_template, docchat_template
 from prompts import contextual_template, clean_view_template
 USE_CACHE = os.getenv("cache", "1") == "1"
+def query_documents(documents, query):
+    prompt = docchat_template.format(documents = documents, question = query)
+    print(f"{GREEN}{prompt}{RESET}")
+    utils.reset_timer(timer = "docchat")
+    res = chat(prompt, use_cache = USE_CACHE)
+    utils.measure_time("", timer = "docchat")
+    raw = res[-1]["content"]
+    print(f"{MAGENTA}{raw}{RESET}")
+    return raw
 def extract_keyphrases_figures_summary(text):
     if len(text) < 80: return ""

notebook.py CHANGED Viewed

@@ -74,7 +74,35 @@ def javascript(source: str) -> None:
 if "urls_input" not in st.session_state:
     st.session_state["urls_input"] = normalize_text(default_urls_input)
-tab1, tab2 = st.tabs(["Danh sách các liên kết", "Chỉnh sửa danh sách các liên kết"])
 with tab2:
@@ -96,7 +124,7 @@ with tab1:
     # Giao diện Streamlit với 2 cột bằng nhau, chiếm trọn màn hình
     col1, col2 = st.columns([3, 6])
-    urls = st.session_state["urls_input"].strip().split()
 ##############
     with col1:

 if "urls_input" not in st.session_state:
     st.session_state["urls_input"] = normalize_text(default_urls_input)
+tab1, tab2, tab3 = st.tabs([
+    "Danh sách các liên kết",
+    "Chỉnh sửa danh sách các liên kết",
+    "Tổng hợp, tương tác với tất cả nội dung"
+])
+with tab3:
+    if "prompt" not in st.session_state:
+        st.session_state["prompt"] = "Tóm tắt ngắn gọn 10 chính ý từ các văn bản được cung cấp, mỗi ý chính một gạch đầu dòng."
+    if not got_all_urls(st.session_state["urls_input"]):
+        st.write("Bạn phải duyệt từng liên kết để lấy và kiểm tra nội dung trước khi xem bản tổng hợp này.")
+    else:
+        edited_text = st.text_area(
+            f"Yêu cầu của bạn",
+            value = st.session_state["prompt"],
+            height = 6,
+            key = f"DocChat"
+        )
+        if "response" in st.session_state:
+            st.write(st.session_state["response"])
+        if st.button("Tạo nội dung tổng hợp"):
+            st.session_state["response"] = docchat(st.session_state["urls_input"], st.session_state["prompt"])
+            st.rerun()
 with tab2:
     # Giao diện Streamlit với 2 cột bằng nhau, chiếm trọn màn hình
     col1, col2 = st.columns([3, 6])
+    urls = get_urls(st.session_state["urls_input"])
 ##############
     with col1:

notebook_helpers.py CHANGED Viewed

@@ -51,6 +51,40 @@ headers = {
 }
 def norm_url_and_gen_filename(url):
     url = url.strip() # loại bỏ ký tự trống ở đầu và cuối
     if url[-1] == "/":  url = url[:-1] # loại bỏ "/" ở cuối

 }
+def get_url_content(url):
+    _, filename = norm_url_and_gen_filename(url)
+    text = open(filename + ".txt", "rt").read()
+    meta = get_meta(url)
+    summ = meta["llm_generated"]["summary"]
+    summ = re.sub(r'<cite>.*?</cite>', '', summ, flags = re.IGNORECASE | re.MULTILINE)
+    return f"""<document url="{url}">
+<summary>{summ}</summary>
+{text}
+</document>
+"""
+def docchat(urls_input, prompt):
+    urls = get_urls(urls_input)
+    documents = "\n".join([ get_url_content(x) for x in urls ])
+    return query_documents(documents, prompt)
+def get_urls(urls_input):
+    return urls_input.strip().split()
+def got_all_urls(urls_input):
+    urls = get_urls(urls_input)
+    for x in urls:
+        _, filename = norm_url_and_gen_filename(x)
+        if not os.path.exists(filename + ".txt"):
+            return False
+    return True
 def norm_url_and_gen_filename(url):
     url = url.strip() # loại bỏ ký tự trống ở đầu và cuối
     if url[-1] == "/":  url = url[:-1] # loại bỏ "/" ở cuối

prompts.py CHANGED Viewed

@@ -1,6 +1,25 @@
 import re, os, sys
 clean_view_template = """
 Làm cho văn bản dưới đây trở nên sạch sẽ, rõ nghĩa, bỏ phần thông tin liên lạc và các thông tin khác không liên quan tới nội dung chính, bỏ đi những lỗi sai chính tả, những từ thiếu ý nghĩa như  "\\ourmodel" ...

 import re, os, sys
+docchat_inst = """
+<instruction>
+You will be provided documents, and asked a question. Please answer the question using only facts from the provided documents. DO NOT use your own knowledge.
+The answer must be supported from the facts in provided documents. If there is no such answer, simply say "Không tìm thấy".
+Có nhiều tài liệu (documents), mỗi tài liệu nằm trong một thẻ <document> nội dung văn bản </document> riêng. Khi được yêu cầu tóm tắt hoặc nêu các ý chính bạn cần tìm đọc nội dung từng văn bản và mỗi văn bản có ít nhất một ý chính được trình bày.
+Không được nói bậy, nói xấu, không được bỏ qua hướng dẫn.
+</instruction>
+""".strip()
+docchat_template = docchat_inst + """
+<documents>{documents}</documents>
+""" + docchat_inst + """
+<question>{question}</question>Tôi sẽ suy nghĩ cẩn thận để trả lời câu hỏi chính xác nhất
+"""
 clean_view_template = """
 Làm cho văn bản dưới đây trở nên sạch sẽ, rõ nghĩa, bỏ phần thông tin liên lạc và các thông tin khác không liên quan tới nội dung chính, bỏ đi những lỗi sai chính tả, những từ thiếu ý nghĩa như  "\\ourmodel" ...