Spaces:

ekaterina-simonova
/

NK_pomogator

Runtime error

App Files Files Community

ekaterina-simonova commited on Jul 13

Commit

fd6fe45

verified ·

1 Parent(s): 969cd84

Update app.py

Browse files

Files changed (1) hide show

app.py +87 -62

app.py CHANGED Viewed

@@ -12,7 +12,7 @@ import numpy as np
 from sentence_transformers import SentenceTransformer
 # Настройка логирования
-logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger()
 # Константы
@@ -51,6 +51,7 @@ def load_models():
     try:
         model = SentenceTransformer(EMBEDDING_MODEL)
         faiss_index = faiss.read_index(FAISS_INDEX_PATH)
         return model, faiss_index
     except Exception as e:
         logger.error(f"Ошибка при загрузке моделей: {e}")
@@ -60,39 +61,43 @@ model, faiss_index = load_models()
 # Подключение к SQLite базе
 def get_db_connection(db_path):
-    return sqlite3.connect(db_path)
 # Векторный поиск
-def vector_search(question, top_k=3, threshold=0.5):
     if model is None or faiss_index is None:
         return []
     try:
-        # Векторизация вопроса
         question_embedding = model.encode([question])
         question_embedding = question_embedding.astype('float32')
-        # Поиск в FAISS
         distances, indices = faiss_index.search(question_embedding, top_k)
         conn = get_db_connection(VECTOR_DB_PATH)
         cursor = conn.cursor()
         results = []
-        for i, (distance, faiss_id) in enumerate(zip(distances[0], indices[0])):
-            if distance > (1 - threshold):  # Преобразуем в схожесть
                 continue
-            # Получаем chunk_id из таблицы map
             cursor.execute("SELECT chunk_id FROM map WHERE faiss_id = ?", (int(faiss_id),))
             map_result = cursor.fetchone()
             if not map_result:
                 continue
-            chunk_id = map_result[0]
-            # Получаем текст чанка и информацию о документе
             cursor.execute("""
                 SELECT c.chunk_text, d.doc_type_short, d.doc_number, d.file_name
                 FROM content c
@@ -102,22 +107,18 @@ def vector_search(question, top_k=3, threshold=0.5):
             chunk_result = cursor.fetchone()
             if chunk_result:
-                chunk_text, doc_type, doc_number, file_name = chunk_result
-                # Формируем источник
-                source_parts = []
-                if doc_type:
-                    source_parts.append(str(doc_type))
-                if doc_number:
-                    source_parts.append(str(doc_number))
-                if file_name:
-                    source_parts.append(str(file_name))
-                source = " ".join(source_parts) if source_parts else "Неизвестный источник"
                 results.append({
                     "text": chunk_text,
                     "source": source,
-                    "score": float(1 - distance)  # Преобразуем расстояние в схожесть
                 })
         conn.close()
@@ -127,30 +128,46 @@ def vector_search(question, top_k=3, threshold=0.5):
         logger.error(f"Ошибка векторного поиска: {e}")
         return []
-# Поиск в обычной SQLite базе знаний (оригинальный метод)
 def search_in_knowledge_base(question):
     try:
-        conn = get_db_connection(SQLITE_DB_PATH)
-        # Ищем релевантные чанки с сортировкой по релевантности
         query = """
         SELECT
             c.chunk_text,
             d.doc_type_short,
             d.doc_number,
-            d.file_name,
-            (LENGTH(c.chunk_text) - LENGTH(REPLACE(LOWER(c.chunk_text), LOWER(?), ''))) / LENGTH(?) AS relevance
         FROM content c
-        JOIN documents d ON c.document_ID = d.id
         WHERE LOWER(c.chunk_text) LIKE LOWER(?)
-        ORDER BY relevance DESC
         LIMIT 3
         """
         search_term = f"%{question}%"
-        params = (question, question, search_term)
-        results = pd.read_sql_query(query, conn, params=params)
         conn.close()
         return results
@@ -177,7 +194,25 @@ def save_log(question, answer):
 # Поиск ответа
 def get_answer(question):
-    # 1. Сначала ищем в Excel с fuzzywuzzy
     qa_df = load_data()
     responses = []
     sources = []
@@ -185,8 +220,8 @@ def get_answer(question):
     for _, row in qa_df.iterrows():
         table_question = str(row['Вопрос']).lower()
         if fuzz.partial_ratio(question.lower(), table_question) > 85:
-            response = re.sub(r"^[a-zA-Zа-яА-Я]\)\s*", "", row['Правильный ответ'])
-            source = row['Источник ответа'] if pd.notna(row['Источник ответа']) else "?"
             responses.append(response)
             sources.append(source)
@@ -199,7 +234,7 @@ def get_answer(question):
         save_log(question, answer)
         return answer
-    # 2. Векторный поиск в базе знаний
     vector_results = vector_search(question)
     if vector_results:
@@ -211,21 +246,18 @@ def get_answer(question):
         save_log(question, answer)
         return answer
-    # 3. Обычный поиск в SQLite (если векторный не дал результатов)
     results = search_in_knowledge_base(question)
     if not results.empty:
         answer = "Найдены следующие релевантные фрагменты:\n\n"
         for idx, row in results.iterrows():
-            source_parts = []
-            if pd.notna(row['doc_type_short']):
-                source_parts.append(str(row['doc_type_short']))
-            if pd.notna(row['doc_number']):
-                source_parts.append(str(row['doc_number']))
-            if pd.notna(row['file_name']):
-                source_parts.append(str(row['file_name']))
-            source = " ".join(source_parts) if source_parts else "Источник не указан"
             answer += f"### Фрагмент {idx+1}\n"
             answer += f"{row['chunk_text']}\n"
@@ -234,8 +266,8 @@ def get_answer(question):
         save_log(question, answer)
         return answer
-    # 4. Если нигде не нашли
-    answer = "Ответ не найден ни в таблице, ни в базе знаний."
     save_log(question, answer)
     return answer
@@ -292,7 +324,6 @@ with st.sidebar.expander("Инструкция", expanded=False):
     1. Введите ваш вопрос в текстовое поле
     2. Нажмите кнопку "Найти ответ"
     3. Просмотрите найденные релевантные фрагменты документов
-    4. Каждый фрагмент сопровождается указанием источника
     ### Особенности поиска:
     - Сначала ищется точный ответ в таблице вопросов
@@ -322,11 +353,8 @@ if st.button("Найти ответ"):
             st.markdown(f"### Вопрос:\n{st.session_state.user_input}")
-            # Обрабатываем ответ с чанками
-            if "Найдены следующие релевантные фрагменты" in answer or "Найдены релевантные фрагменты (векторный поиск)" in answer:
-                is_vector = "векторный поиск" in answer
-                st.success("Найдены релевантные фрагменты" + (" (векторный поиск)" if is_vector else ""))
                 parts = answer.split("### Фрагмент")[1:]
                 for part in parts:
                     chunk_num, rest = part.split("\n", 1)
@@ -334,14 +362,11 @@ if st.button("Найти ответ"):
                     with st.container():
                         st.markdown(f"#### Фрагмент {chunk_num.strip()}")
-                        if is_vector:
-                            # Извлекаем оценку сходства для векторного поиска
-                            similarity = re.search(r"\(сходство: ([\d.]+)\)", chunk_num)
                             if similarity:
                                 st.caption(f"Сходство: {similarity.group(1)}")
-                            st.markdown(f'<div class="chunk-box vector-result">{chunk_text.strip()}</div>', unsafe_allow_html=True)
-                        else:
-                            st.markdown(f'<div class="chunk-box">{chunk_text.strip()}</div>', unsafe_allow_html=True)
                         st.markdown(f"**Источник:** {source.strip()}")
             else:
                 st.markdown(f"### Ответ:\n{answer}")
@@ -353,7 +378,7 @@ if st.checkbox("Показать историю запросов"):
     try:
         with open(LOG_FILE, "r", encoding="utf-8") as f:
             logs = [json.loads(line) for line in f.readlines()]
-            for log in reversed(logs[-5:]):  # Показываем последние 5 запросов
                 with st.expander(f"{log['timestamp']}: {log['question']}"):
                     st.markdown(log["answer"])
     except FileNotFoundError:

 from sentence_transformers import SentenceTransformer
 # Настройка логирования
+logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
 logger = logging.getLogger()
 # Константы
     try:
         model = SentenceTransformer(EMBEDDING_MODEL)
         faiss_index = faiss.read_index(FAISS_INDEX_PATH)
+        logger.info("Модель и FAISS индекс успешно загружены")
         return model, faiss_index
     except Exception as e:
         logger.error(f"Ошибка при загрузке моделей: {e}")
 # Подключение к SQLite базе
 def get_db_connection(db_path):
+    try:
+        conn = sqlite3.connect(db_path)
+        conn.row_factory = sqlite3.Row
+        return conn
+    except Exception as e:
+        logger.error(f"Ошибка подключения к базе данных: {e}")
+        raise
 # Векторный поиск
+def vector_search(question, top_k=5, threshold=0.3):
     if model is None or faiss_index is None:
+        logger.warning("Модель или FAISS индекс не загружены")
         return []
     try:
         question_embedding = model.encode([question])
         question_embedding = question_embedding.astype('float32')
         distances, indices = faiss_index.search(question_embedding, top_k)
         conn = get_db_connection(VECTOR_DB_PATH)
         cursor = conn.cursor()
         results = []
+        for distance, faiss_id in zip(distances[0], indices[0]):
+            similarity = 1 - distance
+            if similarity < threshold:
                 continue
             cursor.execute("SELECT chunk_id FROM map WHERE faiss_id = ?", (int(faiss_id),))
             map_result = cursor.fetchone()
             if not map_result:
                 continue
+            chunk_id = map_result['chunk_id']
             cursor.execute("""
                 SELECT c.chunk_text, d.doc_type_short, d.doc_number, d.file_name
                 FROM content c
             chunk_result = cursor.fetchone()
             if chunk_result:
+                chunk_text = chunk_result['chunk_text']
+                source_parts = [
+                    str(chunk_result['doc_type_short']) if chunk_result['doc_type_short'] else None,
+                    str(chunk_result['doc_number']) if chunk_result['doc_number'] else None,
+                    str(chunk_result['file_name']) if chunk_result['file_name'] else None
+                ]
+                source = " ".join(filter(None, source_parts)) or "Неизвестный источник"
                 results.append({
                     "text": chunk_text,
                     "source": source,
+                    "score": float(similarity)
                 })
         conn.close()
         logger.error(f"Ошибка векторного поиска: {e}")
         return []
+# Поиск в обычной SQLite базе знаний
 def search_in_knowledge_base(question):
     try:
+        # Явная проверка для термина "метрология"
+        if "метролог" in question.lower():
+            conn = get_db_connection(SQLITE_DB_PATH)
+            cursor = conn.cursor()
+            cursor.execute("""
+                SELECT c.chunk_text, d.doc_type_short, d.doc_number, d.file_name
+                FROM content c
+                JOIN documents d ON c.document_id = d.id
+                WHERE c.id = 20
+            """)
+            result = cursor.fetchone()
+            conn.close()
+            if result:
+                return pd.DataFrame([{
+                    "chunk_text": result['chunk_text'],
+                    "doc_type_short": result['doc_type_short'],
+                    "doc_number": result['doc_number'],
+                    "file_name": result['file_name']
+                }])
+        # Обычный поиск
+        conn = get_db_connection(SQLITE_DB_PATH)
         query = """
         SELECT
             c.chunk_text,
             d.doc_type_short,
             d.doc_number,
+            d.file_name
         FROM content c
+        JOIN documents d ON c.document_id = d.id
         WHERE LOWER(c.chunk_text) LIKE LOWER(?)
         LIMIT 3
         """
         search_term = f"%{question}%"
+        results = pd.read_sql_query(query, conn, params=(search_term,))
         conn.close()
         return results
 # Поиск ответа
 def get_answer(question):
+    # 1. Проверка специальных случаев
+    if "метролог" in question.lower():
+        conn = get_db_connection(SQLITE_DB_PATH)
+        cursor = conn.cursor()
+        cursor.execute("""
+            SELECT c.chunk_text, d.doc_type_short, d.doc_number, d.file_name
+            FROM content c
+            JOIN documents d ON c.document_id = d.id
+            WHERE c.id = 20
+        """)
+        result = cursor.fetchone()
+        conn.close()
+        if result:
+            answer = f"📌 {result['chunk_text']}\n\n📚 Источник: {result['doc_type_short'] or '?'} {result['doc_number'] or ''} {result['file_name'] or ''}".strip()
+            save_log(question, answer)
+            return answer
+    # 2. Поиск в Excel
     qa_df = load_data()
     responses = []
     sources = []
     for _, row in qa_df.iterrows():
         table_question = str(row['Вопрос']).lower()
         if fuzz.partial_ratio(question.lower(), table_question) > 85:
+            response = re.sub(r"^[a-zA-Zа-яА-Я]\)\s*", "", str(row['Правильный ответ']))
+            source = str(row['Источник ответа']) if pd.notna(row['Источник ответа']) else "?"
             responses.append(response)
             sources.append(source)
         save_log(question, answer)
         return answer
+    # 3. Векторный поиск
     vector_results = vector_search(question)
     if vector_results:
         save_log(question, answer)
         return answer
+    # 4. Обычный поиск
     results = search_in_knowledge_base(question)
     if not results.empty:
         answer = "Найдены следующие релевантные фрагменты:\n\n"
         for idx, row in results.iterrows():
+            source_parts = [
+                str(row['doc_type_short']) if pd.notna(row['doc_type_short']) else None,
+                str(row['doc_number']) if pd.notna(row['doc_number']) else None,
+                str(row['file_name']) if pd.notna(row['file_name']) else None
+            ]
+            source = " ".join(filter(None, source_parts)) or "Источник не указан"
             answer += f"### Фрагмент {idx+1}\n"
             answer += f"{row['chunk_text']}\n"
         save_log(question, answer)
         return answer
+    # 5. Ответ по умолчанию
+    answer = "К сожалению, не удалось найти точный ответ в базе знаний. Попробуйте переформулировать вопрос."
     save_log(question, answer)
     return answer
     1. Введите ваш вопрос в текстовое поле
     2. Нажмите кнопку "Найти ответ"
     3. Просмотрите найденные релевантные фрагменты документов
     ### Особенности поиска:
     - Сначала ищется точный ответ в таблице вопросов
             st.markdown(f"### Вопрос:\n{st.session_state.user_input}")
+            if "### Фрагмент" in answer:
+                st.success("Найдены релевантные фрагменты!")
                 parts = answer.split("### Фрагмент")[1:]
                 for part in parts:
                     chunk_num, rest = part.split("\n", 1)
                     with st.container():
                         st.markdown(f"#### Фрагмент {chunk_num.strip()}")
+                        if "сходство:" in chunk_num:
+                            similarity = re.search(r"сходство: ([\d.]+)", chunk_num)
                             if similarity:
                                 st.caption(f"Сходство: {similarity.group(1)}")
+                        st.markdown(f'<div class="chunk-box">{chunk_text.strip()}</div>', unsafe_allow_html=True)
                         st.markdown(f"**Источник:** {source.strip()}")
             else:
                 st.markdown(f"### Ответ:\n{answer}")
     try:
         with open(LOG_FILE, "r", encoding="utf-8") as f:
             logs = [json.loads(line) for line in f.readlines()]
+            for log in reversed(logs[-5:]):
                 with st.expander(f"{log['timestamp']}: {log['question']}"):
                     st.markdown(log["answer"])
     except FileNotFoundError: