Spaces:

ekaterina-simonova
/

NK_pomogator

Runtime error

App Files Files Community

ekaterina-simonova commited on Jul 15

Commit

907aa22

verified ·

1 Parent(s): 82d9c01

Update app.py

Browse files

Files changed (1) hide show

app.py +44 -21

app.py CHANGED Viewed

@@ -52,8 +52,24 @@ except Exception as e:
     raise
 # 3. Инициализация NLTK
-nltk.download('punkt', quiet=True)
-nltk.download('stopwords', quiet=True)
 # 4. Константы
 XLSX_FILE_PATH = "Test_questions_from_diagnostpb (1).xlsx"
@@ -150,17 +166,10 @@ class HybridSearch:
         cursor = conn.cursor()
         try:
-            # Проверяем наличие необходимых таблиц
-            cursor.execute("SELECT name FROM sqlite_master WHERE type='table'")
-            tables = {row['name'] for row in cursor.fetchall()}
-            required_tables = {'content', 'map', 'documents'}
-            missing_tables = required_tables - tables
-            if missing_tables:
-                raise ValueError(f"Отсутствуют необходимые таблицы: {missing_tables}")
             cursor.execute("SELECT COUNT(*) FROM content")
             count = cursor.fetchone()[0]
             if count == 0:
                 raise ValueError("Таблица content пуста")
@@ -174,24 +183,28 @@ class HybridSearch:
                         continue
                     tokens = self._preprocess_text(text)
-                    if len(tokens) >= 2:
                         self.corpus.append(tokens)
                         self.doc_ids.append(row['id'])
                         valid_docs += 1
                 except Exception as e:
                     logger.warning(f"Ошибка обработки документа ID {row['id']}: {str(e)}")
             if valid_docs == 0:
                 raise ValueError("Нет пригодных документов после обработки")
             self.bm25 = BM25Okapi(self.corpus)
-            logger.info(f"BM25 инициализирован с {valid_docs} документами")
         except Exception as e:
             logger.error(f"Ошибка при инициализации BM25: {str(e)}")
             raise
         finally:
             conn.close()
     def _create_fallback_index(self):
         """Создаем минимальный резервный индекс"""
@@ -234,16 +247,26 @@ class HybridSearch:
                 return []
             text = re.sub(r"[^\w\s\-']", " ", text.lower())
             tokens = word_tokenize(text, language='russian')
-            return [
-                token for token in tokens
-                if token not in self.stop_words
-                and len(token) > 2
-                and not token.isdigit()
-            ]
         except Exception as e:
-            logger.warning(f"Ошибка обработки текста: {str(e)}")
-            return []
     def search(self, query, top_k=5):
         """Поиск с помощью BM25"""

     raise
 # 3. Инициализация NLTK
+try:
+    nltk.download('punkt', quiet=True)
+    nltk.download('stopwords', quiet=True)
+    nltk.download('punkt_tab', quiet=True)
+    nltk.download('punkt_tab/russian', quiet=True)
+    # Проверяем загрузку
+    from nltk.tokenize import word_tokenize
+    test_text = "тестовый текст"
+    tokens = word_tokenize(test_text, language='russian')
+    logger.info(f"NLTK успешно инициализирован. Тестовая токенизация: {tokens}")
+except Exception as e:
+    logger.error(f"Ошибка при инициализации NLTK: {str(e)}")
+    # Используем простую токенизацию как запасной вариант
+    def word_tokenize(text, language=None):
+        return text.lower().split()
+    logger.warning("Используется упрощенная токенизация")
 # 4. Константы
 XLSX_FILE_PATH = "Test_questions_from_diagnostpb (1).xlsx"
         cursor = conn.cursor()
         try:
             cursor.execute("SELECT COUNT(*) FROM content")
             count = cursor.fetchone()[0]
+            logger.info(f"Найдено {count} документов в таблице content")
             if count == 0:
                 raise ValueError("Таблица content пуста")
                         continue
                     tokens = self._preprocess_text(text)
+                    if tokens and len(tokens) >= 2:  # Проверяем, что токены не пустые
                         self.corpus.append(tokens)
                         self.doc_ids.append(row['id'])
                         valid_docs += 1
+                        if valid_docs % 1000 == 0:  # Логируем прогресс
+                            logger.info(f"Обработано {valid_docs} документов")
                 except Exception as e:
                     logger.warning(f"Ошибка обработки документа ID {row['id']}: {str(e)}")
             if valid_docs == 0:
                 raise ValueError("Нет пригодных документов после обработки")
+            logger.info(f"Создание BM25 индекса для {valid_docs} документов")
             self.bm25 = BM25Okapi(self.corpus)
+            logger.info(f"BM25 успешно инициализирован с {valid_docs} документами")
         except Exception as e:
             logger.error(f"Ошибка при инициализации BM25: {str(e)}")
             raise
         finally:
             conn.close()
     def _create_fallback_index(self):
         """Создаем минимальный резервный индекс"""
                 return []
             text = re.sub(r"[^\w\s\-']", " ", text.lower())
+        try:
+            # Пробуем использовать NLTK токенизацию
             tokens = word_tokenize(text, language='russian')
         except Exception as e:
+            # При ошибке используем простую токенизацию
+            logger.warning(f"Ошибка NLTK токенизации: {str(e)}")
+            tokens = text.split()
+        # Фильтруем токены
+        return [
+            token for token in tokens
+            if token not in self.stop_words
+            and len(token) > 2
+            and not token.isdigit()
+        ]
+    except Exception as e:
+        logger.warning(f"Ошибка обработки текста: {str(e)}")
+        # Возвращаем простую токенизацию как последнее средство
+        return [t for t in text.lower().split() if len(t) > 2]
     def search(self, query, top_k=5):
         """Поиск с помощью BM25"""