Spaces:

ekaterina-simonova
/

NK_pomogator

Runtime error

App Files Files Community

ekaterina-simonova commited on Jul 15

Commit

3f4faae

verified ·

1 Parent(s): 98e3f90

Update app.py

Browse files

Files changed (1) hide show

app.py +6 -27

app.py CHANGED Viewed

@@ -140,10 +140,10 @@ def setup_nltk():
     try:
         nltk.download('punkt', quiet=True)
         nltk.download('stopwords', quiet=True)
-        # Используем базовый токенизатор вместо русского
         from nltk.tokenize import word_tokenize
         test_text = "тестовый текст"
-        tokens = word_tokenize(test_text)
         logger.info(f"NLTK успешно инициализирован. Тестовая токенизация: {tokens}")
     except Exception as e:
         logger.warning(f"Ошибка инициализации NLTK: {e}")
@@ -473,6 +473,9 @@ def load_models():
         logger.info("="*80)
         logger.info(f"Начало загрузки модели: {EMBEDDING_MODEL}")
         device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
         model = SentenceTransformer(
             EMBEDDING_MODEL,
@@ -485,17 +488,6 @@ def load_models():
         with torch.no_grad():
             embeddings = model.encode(test_text)
-        logger.info(f"Модель загружена за {time.time()-start_time:.2f} сек")
-        logger.info(f"Размерность эмбеддингов: {model.get_sentence_embedding_dimension()}")
-        # 1. Загрузка SentenceTransformer
-        start_time = time.time()
-        device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
-        model = SentenceTransformer(
-            EMBEDDING_MODEL,
-            device=device,
-            cache_folder=os.path.expanduser("~/.cache/huggingface/hub")
-        ).to(device)
         logger.info(f"Модель загружена за {time.time()-start_time:.2f} сек")
         logger.info(f"Размерность эмбеддингов: {model.get_sentence_embedding_dimension()}")
@@ -526,19 +518,6 @@ def load_models():
             st.error("Файл базы данных пуст!")
             return model, faiss_index, None
-        # Проверка наличия таблицы content
-        try:
-            conn = sqlite3.connect(VECTOR_DB_PATH)
-            cursor = conn.cursor()
-            cursor.execute("SELECT COUNT(*) FROM content")
-            count = cursor.fetchone()[0]
-            conn.close()
-            logger.info(f"Таблица content содержит {count} записей")
-        except sqlite3.OperationalError as e:
-            logger.error(f"Ошибка при проверке таблицы content: {str(e)}")
-            st.error("В базе данных отсутствует необходимая таблица content")
-            return model, faiss_index, None
         hybrid_search = HybridSearch(VECTOR_DB_PATH)
         if hybrid_search and hybrid_search.bm25:
@@ -562,7 +541,7 @@ def load_models():
         2. Логи в model_loading.log
         3. Доступ к интернету для загрузки моделей
         """)
-        raise
 # Загружаем модели с логированием
 logger.info("="*80)

     try:
         nltk.download('punkt', quiet=True)
         nltk.download('stopwords', quiet=True)
+        # Используем базовый токенизатор без специфичных для языка ресурсов
         from nltk.tokenize import word_tokenize
         test_text = "тестовый текст"
+        tokens = word_tokenize(test_text)  # Убираем параметр language
         logger.info(f"NLTK успешно инициализирован. Тестовая токенизация: {tokens}")
     except Exception as e:
         logger.warning(f"Ошибка инициализации NLTK: {e}")
         logger.info("="*80)
         logger.info(f"Начало загрузки модели: {EMBEDDING_MODEL}")
+        # Добавляем определение start_time
+        start_time = time.time()
         device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
         model = SentenceTransformer(
             EMBEDDING_MODEL,
         with torch.no_grad():
             embeddings = model.encode(test_text)
         logger.info(f"Модель загружена за {time.time()-start_time:.2f} сек")
         logger.info(f"Размерность эмбеддингов: {model.get_sentence_embedding_dimension()}")
             st.error("Файл базы данных пуст!")
             return model, faiss_index, None
         hybrid_search = HybridSearch(VECTOR_DB_PATH)
         if hybrid_search and hybrid_search.bm25:
         2. Логи в model_loading.log
         3. Доступ к интернету для загрузки моделей
         """)
+        return None, None, None
 # Загружаем модели с логированием
 logger.info("="*80)