Spaces:

M17idd
/

army

Running

App Files Files Community

M17idd commited on 17 days ago

Commit

c673adf

1 Parent(s): 39f1557

Update app.py

Browse files

Files changed (1) hide show

app.py +97 -142

app.py CHANGED Viewed

@@ -500,20 +500,9 @@ st.markdown("""
     }
     </style>
 """, unsafe_allow_html=True)
-import os
-import re
-import docx
-import streamlit as st
-import concurrent.futures
-from hazm import Normalizer
-from rapidfuzz import fuzz
-from langchain.schema import SystemMessage, HumanMessage
 folder_path = '46'
 normalizer = Normalizer()
 @st.cache_data(show_spinner="در حال پردازش اسناد... لطفاً صبور باشید.")
 def load_and_process_documents(path):
@@ -521,43 +510,34 @@ def load_and_process_documents(path):
         try:
             full_path = os.path.join(path, filename)
             doc = docx.Document(full_path)
-            text = "\n".join([para.text for para in doc.paragraphs])
             normalized = normalizer.normalize(text)
-            return filename, normalized
         except Exception as e:
             print(f"Error processing {filename}: {e}")
-            return filename, ""
-    filenames = [f for f in os.listdir(path) if f.endswith(".docx")]
-    doc_texts = {}
     with concurrent.futures.ThreadPoolExecutor() as executor:
-        for filename, content in executor.map(process_docx, filenames):
-            doc_texts[filename] = content
-    return doc_texts
-doc_texts = load_and_process_documents(folder_path)
 def clean_text(text):
-    return re.sub(r'[^آ-ی۰-۹0-9،.؟!؛+\-* ]+', '', text)
-def find_closest_filenames(query, filenames, top_n=3):
-    scores = [(f, fuzz.partial_ratio(query, f)) for f in filenames]
-    scores.sort(key=lambda x: x[1], reverse=True)
-    return [score[0] for score in scores[:top_n]]
-import re
-import numpy as np
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.cluster import KMeans
-from nltk.tokenize import sent_tokenize
 from sklearn.metrics.pairwise import cosine_similarity
-# توابع کمکی
-def clean_text(text):
-    return re.sub(r'[^آ-ی۰-۹0-9،.؟!؛+\-* ]+', '', text)
 def summarize_text_with_kmeans(text, num_sentences=3):
     sentences = sent_tokenize(text)  # تقسیم متن به جملات
     tfidf_vectorizer = TfidfVectorizer()
@@ -575,122 +555,97 @@ def summarize_text_with_kmeans(text, num_sentences=3):
     summary = [sentences[i] for i in similar_sentences_indices]
     return ' '.join(summary)
-def find_best_answer(query, top_files, doc_texts):
-    best_match = None
-    best_score = 0
-    best_text = ""
-    for filename in top_files:
-        text = doc_texts[filename]
-        similarity = fuzz.partial_ratio(query, text)
-        if similarity > best_score:
-            best_score = similarity
-            best_match = filename
-            best_text = text
-    # خلاصه کردن متن با استفاده از KMeans
-    if best_text:
-        summary = summarize_text_with_kmeans(best_text)
-    else:
-        summary = "متنی برای خلاصه‌سازی پیدا نشد."
-    return best_match, summary
-# حالا این رو در کد اصلی استفاده می‌کنیم:
 if query:
-    # مرحله 1: درخواست از مدل برای بررسی وجود پاسخ در نام فایل‌ها
-    top_files = find_closest_filenames(query, list(doc_texts.keys()), top_n=3)
-    best_file, matched_text = find_best_answer(query, top_files, doc_texts)
-    if best_file:  # اگر پاسخ از اسم فایل‌ها پیدا شد
-        prompt_for_model_1 = f"""
-        لطفاً با توجه به سوال زیر و محتوای سند موجود، یک پاسخ نهایی حرفه‌ای، دقیق و روان تولید کن. فقط از متن سند استفاده کن. اگر اطلاعات کافی در متن وجود ندارد، صادقانه اعلام کن.
-        سوال:
-        {query}
-        محتوای سند:
-        {matched_text}
-        پاسخ نهایی:
-        """
-        response_model_1 = llm([
-            SystemMessage(content="You are a helpful assistant."),
-            HumanMessage(content=prompt_for_model_1)
-        ])
-        rewritten = clean_text(response_model_1.content.strip())
-        # مرحله 2: بررسی پاسخ مدل اول
-        prompt_for_model_2 = f"""
-        سوال:
-        {query}
-        آیا مدل اول به درستی جواب داده است؟
-        پاسخ مدل اول:
-        {rewritten}
-        لطفاً تایید کن که آیا این پاسخ مناسب است یا خیر. اگر مناسب نیست، لطفاً اطلاعات بیشتری از متن موجود در سند بده.
-        """
-        response_model_2 = llm([
-            SystemMessage(content="You are a helpful assistant."),
-            HumanMessage(content=prompt_for_model_2)
-        ])
-        answer_model_2 = clean_text(response_model_2.content.strip())
-        if "تایید" in answer_model_2:  # اگر تایید شد که پاسخ درست است
-            st.markdown(f'<div class="chat-message">{rewritten}</div>', unsafe_allow_html=True)
-        else:
-            # مرحله 3: جستجو در متن کل سندها
-            best_file_from_text = None
-            best_answer_from_text = ""
-            top_files_for_text = find_closest_filenames(query, list(doc_texts.keys()), top_n=3)
-            for filename in top_files_for_text:
-                text = doc_texts[filename]
-                similarity = fuzz.partial_ratio(query, text)
-                if similarity > 50:  # حداقل شباهت برای انتخاب پاسخ
-                    best_file_from_text = filename
-                    best_answer_from_text = text
-                    break  # اگر جواب خوبی پیدا شد، جستجو را متوقف می‌کنیم
-            if best_file_from_text:  # اگر جوابی از متن پیدا شد
-                prompt_for_model_3 = f"""
-                لطفاً با توجه به سوال زیر و محتوای سند موجود، یک پاسخ نهایی حرفه‌ای، دقیق و روان تولید کن. فقط از متن سند استفاده کن. اگر اطلاعات کافی در متن وجود ندارد، صادقانه اعلام کن.
                 سوال:
                 {query}
-                محتوای سند:
-                {best_answer_from_text}
                 پاسخ نهایی:
                 """
-                response_model_3 = llm([
                     SystemMessage(content="You are a helpful assistant."),
-                    HumanMessage(content=prompt_for_model_3)
                 ])
-                rewritten_model_3 = clean_text(response_model_3.content.strip())
-                # بررسی تایید مدل 2
-                prompt_for_model_4 = f"""
                 سوال:
                 {query}
-                آیا مدل دوم به درستی جواب داده است؟
-                پاسخ مدل دوم:
-                {rewritten_model_3}
-                لطفاً تایید کن که آیا این پاسخ مناسب است یا خیر.
                 """
-                response_model_4 = llm([
                     SystemMessage(content="You are a helpful assistant."),
-                    HumanMessage(content=prompt_for_model_4)
                 ])
-                answer_model_4 = clean_text(response_model_4.content.strip())
-                if "تایید" in answer_model_4:  # اگر تایید شد که پاسخ درست است
-                    st.markdown(f'<div class="chat-message">{rewritten_model_3}</div>', unsafe_allow_html=True)
-                else:
-                    # مرحله آخر: اگر تایید نشده بود، از دانش خود مدل استفاده کن
-                    prompt_for_model_5 = f"""
-                    سوال:
-                    {query}
-                    لطفاً جواب دقیقی از دانش خودت بده.
-                    """
-                    response_model_5 = llm([
-                        SystemMessage(content="You are a knowledgeable assistant."),
-                        HumanMessage(content=prompt_for_model_5)
-                    ])
-                    rewritten_model_5 = clean_text(response_model_5.content.strip())
-                    st.markdown(f'<div class="chat-message">{rewritten_model_5}</div>', unsafe_allow_html=True)

     }
     </style>
 """, unsafe_allow_html=True)
 folder_path = '46'
 normalizer = Normalizer()
+sentence_tokenizer = SentenceTokenizer()
 @st.cache_data(show_spinner="در حال پردازش اسناد... لطفاً صبور باشید.")
 def load_and_process_documents(path):
         try:
             full_path = os.path.join(path, filename)
             doc = docx.Document(full_path)
+            text = "\n".join([para.text for para in doc.paragraphs])  # استخراج متن
             normalized = normalizer.normalize(text)
+            sentences = normalized
+            return sentences
         except Exception as e:
             print(f"Error processing {filename}: {e}")
+            return []
     with concurrent.futures.ThreadPoolExecutor() as executor:
+        results = executor.map(process_docx, [f for f in os.listdir(path) if f.endswith(".docx")])
+    return list(results)
+all_sentences = load_and_process_documents(folder_path)
 def clean_text(text):
+    cleaned_text = re.sub(r'[^آ-ی۰-۹0-9،.؟!؛+\-* ]+', '', text)
+    return cleaned_text
+import string
+from hazm import word_tokenize, sent_tokenize
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.cluster import KMeans
 from sklearn.metrics.pairwise import cosine_similarity
+# تابع خلاصه‌سازی متن با استفاده از KMeans
 def summarize_text_with_kmeans(text, num_sentences=3):
     sentences = sent_tokenize(text)  # تقسیم متن به جملات
     tfidf_vectorizer = TfidfVectorizer()
     summary = [sentences[i] for i in similar_sentences_indices]
     return ' '.join(summary)
+# فرض بر این است که query و all_sentences قبلاً تعریف شده‌اند
 if query:
+    threshold = 75
+    keywords = extract_keywords(query)
+    # خلاصه‌سازی متن قبل از ارسال به LLM
+    text_to_summarize = "\n".join(all_sentences)  # تمام جملات را با هم ترکیب کنید
+    summarized_text = summarize_text_with_kmeans(text_to_summarize)
+    # استفاده از پردازش موازی برای افزایش سرعت fuzzy matching
+    with ThreadPoolExecutor(max_workers=8) as executor:
+        futures = [executor.submit(compute_similarity, sentence, query, threshold) for sentence in all_sentences]
+        matched_sentences = [future.result() for future in futures if future.result()]
+    if matched_sentences:
+        found_sentences = [sentence for sentence in matched_sentences if any(keyword in sentence for keyword in keywords)]
+        if found_sentences:
+            matched_text = "\n".join(found_sentences)
+            prompt = f"""
+            تعدادی پاسخ برای سوال زیر تولید شده است. لطفاً ابتدا این پاسخ‌ها را بررسی کن، سپس با در نظر گرفتن محتوای سوال و لحن آن، یک پاسخ نهایی حرفه‌ای، دقیق و روان از داخل پاسخ‌ها ارائه کن که هم به سوال پاسخ دهد و هم از نظر نگارشی و ساختاری در سطح بالایی باشد. پاسخ نهایی باید حداکثر 2048 کاراکتر و حداقل 512 باشد، خلاصه و واضح نوشته شود و فقط به زبان فارسی باشد. از تکرار اضافی پرهیز کن و فقط از پاسخ‌های زیر استفاده کن. در صورت نیاز، محتوای چند پاسخ را با هم ترکیب کن.
+            سوال:
+            {query}
+            پاسخ‌ها:
+            {summarized_text}
+            پاسخ نهایی حرفه‌ای بازنویسی‌شده:
+            """
+            response = llm([
+                SystemMessage(content="You are a helpful assistant."),
+                HumanMessage(content=prompt)
+            ])
+            rewritten = clean_text(response.content.strip())
+            review_prompt = f"""
+            لطفاً بررسی کن که آیا پاسخ زیر به سوال داده‌شده مرتبط، دقیق و معتبر است یا خیر. اگر پاسخ قابل قبول و دقیق است بنویس 'تأیید شد'. اگر متوسط است بنویس 'کمی خوب'. اگر بی‌ربط یا اشتباه است بنویس 'نیاز به اصلاح دارد'.
+            سوال:
+            {query}
+            پاسخ:
+            {rewritten}
+            """
+            review_response = llm([
+                SystemMessage(content="You are a helpful assistant."),
+                HumanMessage(content=review_prompt)
+            ])
+            review_result = review_response.content.strip()
+            if "تأیید شد" in review_result:
+                st.markdown(f'<div class="chat-message">{rewritten}</div>', unsafe_allow_html=True)
+            elif "کمی خوب" in review_result:
+                final_prompt = f"""
+                لطفاً برای سوال زیر پاسخی حرفه‌ای، دقیق و روان تولید کن که مرتبط و معتبر باشد. از زبانی جز فارسی استفاده نکن. از محتوای زیر استفاده کن و یک پاسخ نهایی خوب بنویس:
                 سوال:
                 {query}
+                پاسخ اولیه:
+                {rewritten}
                 پاسخ نهایی:
                 """
+                new_response = llm([
                     SystemMessage(content="You are a helpful assistant."),
+                    HumanMessage(content=final_prompt)
                 ])
+                final_answer = clean_text(new_response.content.strip())
+                st.markdown(f'<div class="chat-message">{final_answer}</div>', unsafe_allow_html=True)
+            else:
+                fallback_prompt = f"""
+                لطفاً برای سوال زیر پاسخی حرفه‌ای، دقیق و روان تولید کن که مرتبط و معتبر باشد. اگر اطلاعات کافی وجود ندارد، صادقانه بگو. فقط به زبان فارسی پاسخ بده:
                 سوال:
                 {query}
                 """
+                fallback_response = llm([
                     SystemMessage(content="You are a helpful assistant."),
+                    HumanMessage(content=fallback_prompt)
                 ])
+                final_fallback = clean_text(fallback_response.content.strip())
+                st.markdown(f'<div class="chat-message">{final_fallback}</div>', unsafe_allow_html=True)
+        else:
+            fallback_prompt = f"""
+            لطفاً برای سوال زیر یک متن مرتبط و معتبر تولید کن. اگر اطلاعات کافی وجود ندارد، صادقانه اعلام کن. فقط به زبان فارسی پاسخ بده:
+            سوال:
+            {query}
+            """
+            response = llm([
+                SystemMessage(content="You are a helpful assistant."),
+                HumanMessage(content=fallback_prompt)
+            ])
+            rewritten = clean_text(response.content.strip())
+            st.markdown(f'<div class="chat-message">{rewritten}</div>', unsafe_allow_html=True)
+            think.empty()