Spaces:

M17idd
/

army

Running

M17idd commited on Apr 27

Commit

e5ae991

1 Parent(s): 26608f4

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -46,29 +46,31 @@ def build_pdf_index():
         documents = [LangchainDocument(page_content=t) for t in texts]
-        # مدل‌های Embedding
         sentence_model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')
-        embeddings = []
-        # پروگرس بار اضافه می‌کنیم
         progress_bar = st.progress(0)
         total_docs = len(documents)
-        # فقط از SentenceTransformer استفاده می‌کنیم
-        for i, doc in enumerate(documents):
-            batch_embedding = sentence_model.encode(doc.page_content, convert_to_numpy=True)
-            embeddings.append(batch_embedding)
-            # به‌روزرسانی پروگرس بار
-            progress_bar.progress((i + 1) / total_docs)
-        # اطمینان از اینکه خروجی NumpyArray است
         embeddings = np.array(embeddings)
         return documents, embeddings
 # ----------------- تعریف LLM از Groq -----------------
 # groq_api_key = "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"

         documents = [LangchainDocument(page_content=t) for t in texts]
+        # مدل Embedding
         sentence_model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')
+        # پروگرس بار
         progress_bar = st.progress(0)
         total_docs = len(documents)
+        # آماده‌سازی داده‌ها
+        texts_to_encode = [doc.page_content for doc in documents]
+        # انکود بچی
+        batch_size = 32  # سایز دلخواه
+        embeddings = []
+        for i in range(0, total_docs, batch_size):
+            batch_texts = texts_to_encode[i:i+batch_size]
+            batch_embeddings = sentence_model.encode(batch_texts, convert_to_numpy=True)
+            embeddings.extend(batch_embeddings)
+            # بروزرسانی پروگرس بار
+            progress_bar.progress(min((i + batch_size) / total_docs, 1.0))
         embeddings = np.array(embeddings)
         return documents, embeddings
 # ----------------- تعریف LLM از Groq -----------------
 # groq_api_key = "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"