Spaces:

xavierbarbier
/

rag_ngap

Sleeping

xavierbarbier commited on Aug 23, 2024

Commit

a3ad85c

verified ·

1 Parent(s): c9862ec

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -52,15 +52,29 @@ chunk_size = 2048
 # creating a pdf reader object
 print("Finish the model init process")
-dir_ = Path(__file__).parent
-p = pipeline(
-    "document-question-answering",
-    model="impira/layoutlm-document-qa",
-)
 def get_text_embedding(text):
@@ -68,24 +82,7 @@ def get_text_embedding(text):
 def qa(question: str, doc: str) -> str:
-    reader = PdfReader(doc)
-    text = []
-    for p in np.arange(0, len(reader.pages), 1):
-        page = reader.pages[int(p)]
-        # extracting text from page
-        text.append(page.extract_text())
-    text = ' '.join(text)
-    chunks = [text[i:i + chunk_size] for i in range(0, len(text), chunk_size)]
-    text_embeddings = np.array([get_text_embedding(chunk) for chunk in chunks])
-    d = text_embeddings.shape[1]
-    index = faiss.IndexFlatL2(d)
-    index.add(text_embeddings)
     question_embeddings = np.array([get_text_embedding(question)])
@@ -102,8 +99,8 @@ def qa(question: str, doc: str) -> str:
             [INST] Requête: {question} [/INST]
             Réponse:
                 """
-    outputs = model.generate(prompt=prompt, temp=0.5, top_k = 40, top_p = 1, max_tokens = max_new_tokens)
-    return "".join(outputs)
 demo = gr.Interface(

 # creating a pdf reader object
+reader = PdfReader("./resource/NGAP 01042024.pdf")
+text = []
+for p in np.arange(0, len(reader.pages), 1):
+    page = reader.pages[int(p)]
+    # extracting text from page
+    text.append(page.extract_text())
+text = ' '.join(text)
+chunks = [text[i:i + chunk_size] for i in range(0, len(text), chunk_size)]
+text_embeddings = np.array([get_text_embedding(chunk) for chunk in chunks])
+d = text_embeddings.shape[1]
+index = faiss.IndexFlatL2(d)
+index.add(text_embeddings)
 print("Finish the model init process")
 def get_text_embedding(text):
 def qa(question: str, doc: str) -> str:
     question_embeddings = np.array([get_text_embedding(question)])
             [INST] Requête: {question} [/INST]
             Réponse:
                 """
+    #outputs = model.generate(prompt=prompt, temp=0.5, top_k = 40, top_p = 1, max_tokens = max_new_tokens)
+    return prompt #"".join(outputs)
 demo = gr.Interface(