Spaces:

Omartificial-Intelligence-Space
/

Arabic-Wiki-RAG

Sleeping

App Files Files Community

Omartificial-Intelligence-Space commited on Jul 5, 2024

Commit

0b48057

verified ·

1 Parent(s): 2f622f3

upload rag.py

Browse files

Files changed (1) hide show

rag.py +69 -0

rag.py ADDED Viewed

	@@ -0,0 +1,69 @@

+from sentence_transformers import SentenceTransformer
+from wikipediaapi import Wikipedia
+import textwrap
+import numpy as np
+import openai
+from openai import OpenAI
+matryoshka_dim = 128
+model = SentenceTransformer("Omartificial-Intelligence-Space/Arabic-all-nli-triplet-Matryoshka", trust_remote_code=True , truncate_dim = matryoshka_dim)
+wiki = Wikipedia('RAGBot/0.0', 'ar')
+doc = wiki.page('جابر بن حيان').text
+paragraphs = doc.split('\n\n') # chunking
+for i, p in enumerate(paragraphs):
+  wrapped_text = textwrap.fill(p, width=100)
+  print("-----------------------------------------------------------------")
+  print(wrapped_text)
+  print("-----------------------------------------------------------------")
+  docs_embed = model.encode(paragraphs, normalize_embeddings=True)
+  docs_embed.shape
+  docs_embed[0]
+query = "من هو جابر بن حيان؟"
+query_embed = model.encode(query, normalize_embeddings=True)
+similarities = np.dot(docs_embed, query_embed.T)
+similarities.shape
+similarities
+top_3_idx = np.argsort(similarities, axis=0)[-3:][::-1].tolist()
+top_3_idx
+most_similar_documents = [paragraphs[idx] for idx in top_3_idx]
+CONTEXT = ""
+for i, p in enumerate(most_similar_documents):
+  wrapped_text = textwrap.fill(p, width=100)
+  print("-----------------------------------------------------------------")
+  print(wrapped_text)
+  print("-----------------------------------------------------------------")
+  CONTEXT += wrapped_text + "\n\n"
+prompt = f"""
+    use the following CONTEXT to answer the QUESTION at the end.
+    If you don't know the answer, just say that you don't know, don't try to make up an answer.
+    CONTEXT: {CONTEXT}
+    QUESTION: {query}
+"""
+client = OpenAI(api_key=userdata.get('OPENAI_API_KEY'))
+response = client.chat.completions.create(
+  model="gpt-4o",
+  messages=[
+    {"role": "user", "content": prompt},
+  ]
+)
+print(response.choices[0].message.content)