Spaces:

GIZ
/

audit_assistant

Running on T4

App Files Files Community

ppsingh commited on Aug 6, 2024

Commit

a49b43b

verified ·

1 Parent(s): c9fc9f7

Update app.py

Browse files

Files changed (1) hide show

app.py +45 -1

app.py CHANGED Viewed

@@ -18,8 +18,52 @@ from langchain_core.output_parsers import StrOutputParser
 from langchain_huggingface import HuggingFaceEndpoint
 from dotenv import load_dotenv
 load_dotenv()
 HF_token = os.environ["HF_TOKEN"]
 #process_pdf()

 from langchain_huggingface import HuggingFaceEndpoint
 from dotenv import load_dotenv
 load_dotenv()
 HF_token = os.environ["HF_TOKEN"]
+# -------------------------------------------------------------
+# Functions
+# -------------------------------------------------------------
+def make_html_source(source,i):
+    """
+    takes the text and converts it into html format for display in "source" side tab
+    """
+    meta = source.metadata
+    # content = source.page_content.split(":",1)[1].strip()
+    content = source.page_content.strip()
+    name = meta['source']
+    card = f"""
+        <div class="card" id="doc{i}">
+            <div class="card-content">
+                <h2>Doc {i} - {meta['file_path']} - Page {int(meta['page'])}</h2>
+                <p>{content}</p>
+            </div>
+            <div class="card-footer">
+                <span>{name}</span>
+                <a href="{meta['file_path']}#page={int(meta['page'])}" target="_blank" class="pdf-link">
+                    <span role="img" aria-label="Open PDF">🔗</span>
+                </a>
+            </div>
+        </div>
+        """
+    return card
+def parse_output_llm_with_sources(output):
+    # Split the content into a list of text and "[Doc X]" references
+    content_parts = re.split(r'\[(Doc\s?\d+(?:,\s?Doc\s?\d+)*)\]', output)
+    parts = []
+    for part in content_parts:
+        if part.startswith("Doc"):
+            subparts = part.split(",")
+            subparts = [subpart.lower().replace("doc","").strip() for subpart in subparts]
+            subparts = [f"""<a href="#doc{subpart}" class="a-doc-ref" target="_self"><span class='doc-ref'><sup>{subpart}</sup></span></a>""" for subpart in subparts]
+            parts.append("".join(subparts))
+        else:
+            parts.append(part)
+    content_parts = "".join(parts)
+    return content_parts
 #process_pdf()