Spaces:

datajoi
/

Domain-Document-Indexing

Sleeping

App Files Files Community

Mustehson commited on Sep 11, 2024

Commit

a831d50

•

1 Parent(s): fda45ca

Scrape&Clean Data

Browse files

Files changed (3) hide show

app.py +124 -59
logo.png +0 -0
requirements.txt +8 -1

app.py CHANGED Viewed

@@ -1,63 +1,128 @@
 import gradio as gr
-from huggingface_hub import InferenceClient
-"""
-For more information on `huggingface_hub` Inference API support, please check the docs: https://huggingface.co/docs/huggingface_hub/v0.22.2/en/guides/inference
-"""
-client = InferenceClient("HuggingFaceH4/zephyr-7b-beta")
-def respond(
-    message,
-    history: list[tuple[str, str]],
-    system_message,
-    max_tokens,
-    temperature,
-    top_p,
-):
-    messages = [{"role": "system", "content": system_message}]
-    for val in history:
-        if val[0]:
-            messages.append({"role": "user", "content": val[0]})
-        if val[1]:
-            messages.append({"role": "assistant", "content": val[1]})
-    messages.append({"role": "user", "content": message})
-    response = ""
-    for message in client.chat_completion(
-        messages,
-        max_tokens=max_tokens,
-        stream=True,
-        temperature=temperature,
-        top_p=top_p,
-    ):
-        token = message.choices[0].delta.content
-        response += token
-        yield response
-"""
-For information on how to customize the ChatInterface, peruse the gradio docs: https://www.gradio.app/docs/chatinterface
-"""
-demo = gr.ChatInterface(
-    respond,
-    additional_inputs=[
-        gr.Textbox(value="You are a friendly Chatbot.", label="System message"),
-        gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens"),
-        gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature"),
-        gr.Slider(
-            minimum=0.1,
-            maximum=1.0,
-            value=0.95,
-            step=0.05,
-            label="Top-p (nucleus sampling)",
-        ),
-    ],
-)
 if __name__ == "__main__":
-    demo.launch()

+import re
 import gradio as gr
+from io import StringIO
+import pandas as pd
+from langchain_community.document_loaders import RecursiveUrlLoader
+from langchain_text_splitters import RecursiveCharacterTextSplitter
+from langchain_community.document_transformers import Html2TextTransformer
+TAB_LINES = 22
+def scrape_text(url):
+    try:
+        loader = RecursiveUrlLoader(url=url, max_depth=None,
+                                    prevent_outside=True, check_response_status=True)
+        documents = loader.load()
+    except Exception as e:
+        print(f"Error loading URL: {e}")
+        return None
+    return documents
+def clean_text(documents):
+    html2text = Html2TextTransformer()
+    docs_transformed = html2text.transform_documents([documents])
+    cleaned_string = re.sub(r'\n\n+|\n+|\s+', ' ', docs_transformed[0].page_content)
+    docs_transformed[0].page_content = cleaned_string
+    return docs_transformed
+def remove_tables(docs):
+    table_pattern = re.compile(r'<table.*?>.*?</table>', re.DOTALL)
+    docs.page_content = table_pattern.sub('', docs.page_content)
+    return docs
+def format_chunks_with_spaces(chunks):
+    separator = "\n\n---\n\n"
+    formatted_chunks = ""
+    for i, chunk in enumerate(chunks):
+        formatted_chunks += f"Chunk {i+1}: \n\n"
+        formatted_chunks += chunk.page_content
+        formatted_chunks += separator
+    return formatted_chunks
+def get_tables(raw_html):
+    try:
+        tables = pd.read_html(StringIO(str(raw_html.page_content)))
+    except Exception as e:
+        print(f"Error reading table: {e}")
+        return None
+    return tables
+def concat_dfs(df_list):
+    concatenated_df = pd.concat(df_list, ignore_index=True)
+    return concatenated_df
+def get_docs(url):
+    raw_html = scrape_text(url)
+    if raw_html is None:
+        return None, None, None, None, None
+    tables_list = get_tables(raw_html[0])
+    if tables_list is not None:
+        concat_tables = concat_dfs(tables_list)
+    else:
+        concat_tables = None
+    tables_rmv_html = remove_tables(raw_html[0])
+    clean_docs = clean_text(tables_rmv_html)
+    text_splitter = RecursiveCharacterTextSplitter(chunk_size=1024, chunk_overlap=200)
+    documents_splits = text_splitter.split_documents(clean_docs)
+    formatted_chunks = format_chunks_with_spaces(documents_splits)
+    return raw_html[0].page_content, clean_docs[0].page_content, concat_tables, raw_html[0].metadata, formatted_chunks
+with gr.Blocks(theme=gr.themes.Soft(primary_hue="purple", secondary_hue="indigo")) as demo:
+    gr.Image("logo.png", label=None, show_label=False, container=False, height=100)
+    gr.Markdown("""
+    <div style='text-align: center;'>
+    <strong style='font-size: 36px;'>Domain Document Indexing</strong>
+    </div>
+    """)
+    with gr.Row():
+        with gr.Column(scale=1):
+            url_input = gr.Textbox(lines=5, label="URL", placeholder="Enter your URL here...")
+            scarpe_url_button = gr.Button(value="Scrape & Create Embeddings", variant="primary")
+        with gr.Column(elem_id = "col_container", scale=2):
+            with gr.Tabs():
+                with gr.Tab("RAW HTML"):
+                    raw_page_content = gr.Textbox(lines=TAB_LINES, label="Page Content HTML", value="", interactive=False,
+                                                  autoscroll=False)
+                with gr.Tab("Clean Content"):
+                    page_content = gr.Textbox(lines=TAB_LINES, label="Clean Page Content", value="", interactive=False,
+                                              autoscroll=False)
+                with gr.Tab("Tables"):
+                    tables = gr.Textbox(lines=TAB_LINES, label="Tables", value="", interactive=False,
+                                        autoscroll=False)
+                with gr.Tab("Chunks"):
+                    parsed_chunks = gr.Textbox(lines=TAB_LINES, label="Parsed   Chunks", value="", interactive=False,
+                                               autoscroll=False)
+                with gr.Tab("Metadata"):
+                    metadata = gr.Textbox(lines=TAB_LINES, label="Metadata", value="", interactive=False,
+                                          autoscroll=False)
+        scarpe_url_button.click(get_docs, inputs=url_input, outputs=[raw_page_content, page_content, tables,
+                                                                     metadata, parsed_chunks])
 if __name__ == "__main__":
+    demo.launch()

logo.png ADDED Viewed

requirements.txt CHANGED Viewed

	@@ -1 +1,8 @@
1	- ~~huggingface_hub==0.22.2~~

+gradio
+pandas
+langchain
+langchain-community
+langchain-text-splitters
+html2text
+lxml
+beautifulsoup4