Spaces:

VladRet2026
/

ConvertAudioToJSON

Sleeping

App Files Files

Vlad Juracovschi commited on 19 days ago

Commit

44706f3

1 Parent(s): 8b892b9

OptimizedUserSearchWithMorph

Browse files

Files changed (2) hide show

app.py +1 -1
extractors/user_extractor.py +41 -20

app.py CHANGED Viewed

@@ -472,7 +472,7 @@ def process_audio():
     audio = request.files.get("audio")
     mode = (request.form.get("mode") or "expense").strip()
-    debug = ((request.form.get("debug") or request.args.get("debug") or "").strip().lower() in {"1", "true", "yes"})
     context = parse_context(request.form.get("context"))
     if audio is None:

     audio = request.files.get("audio")
     mode = (request.form.get("mode") or "expense").strip()
+    debug = (request.args.get("debug") == "1" or "")
     context = parse_context(request.form.get("context"))
     if audio is None:

extractors/user_extractor.py CHANGED Viewed

@@ -3,6 +3,7 @@
 from __future__ import annotations
 import re
 from typing import Any
 from extractors.supplier_extractor import ExpenseSupplierExtractor, normalize_text
@@ -22,38 +23,56 @@ class ExpenseUserExtractor:
         self.threshold = threshold
         self.supplier_terms = {normalize_text(supplier) for supplier in suppliers}
         self.user_matcher = ExpenseSupplierExtractor(suppliers=users)
-        self.user_terms = {
-            token
-            for user in users
-            for token in normalize_text(user).split()
-            if token and len(token) > 1 and not token.isdigit()
-        }
-    def _is_user_like_token(self, token: str, similarity_threshold: float = 0.50) -> bool:
-        if token in self.user_terms:
-            return True
-        return self.user_matcher.lexical_support(token) >= similarity_threshold
     def _build_user_candidate_text(
         self,
         normalized_text: str,
         supplier_phrase: str | None,
         date_phrase: str | None,
-    ) -> tuple[str, list[str]]:
         excluded_tokens: set[str] = set(self.user_matcher.noise_terms)
         if supplier_phrase:
             excluded_tokens.update(normalize_text(supplier_phrase).split())
         if date_phrase:
             excluded_tokens.update(normalize_text(date_phrase).split())
-        user_like_tokens: list[str] = []
         for token in normalized_text.split():
             if token in excluded_tokens or token.isdigit() or len(token) <= 1:
                 continue
-            if self._is_user_like_token(token):
-                user_like_tokens.append(token)
-        return " ".join(user_like_tokens), user_like_tokens
     def extract(
         self,
@@ -77,7 +96,7 @@ class ExpenseUserExtractor:
                 }
             return payload
-        candidate_text, user_like_tokens = self._build_user_candidate_text(
             normalized_text=normalized_text,
             supplier_phrase=supplier_phrase,
             date_phrase=date_phrase,
@@ -96,7 +115,8 @@ class ExpenseUserExtractor:
                     "excluded_supplier_phrase": supplier_phrase,
                     "normalized_text": normalized_text,
                     "candidate_text": candidate_text,
-                    "user_like_tokens": user_like_tokens,
                     "matcher_debug": None,
                 }
             return payload
@@ -123,7 +143,8 @@ class ExpenseUserExtractor:
                 "excluded_supplier_phrase": supplier_phrase,
                 "normalized_text": normalized_text,
                 "candidate_text": candidate_text,
-                "user_like_tokens": user_like_tokens,
                 "matcher_debug": match.get("supplier_debug"),
             }

 from __future__ import annotations
 import re
+import importlib
 from typing import Any
 from extractors.supplier_extractor import ExpenseSupplierExtractor, normalize_text
         self.threshold = threshold
         self.supplier_terms = {normalize_text(supplier) for supplier in suppliers}
         self.user_matcher = ExpenseSupplierExtractor(suppliers=users)
+        self.morph: Any = None
+        try:
+            pymorphy3_module = importlib.import_module("pymorphy3")
+            self.morph = pymorphy3_module.MorphAnalyzer()
+        except Exception:
+            self.morph = None
+    def _looks_like_person_token(self, token: str) -> tuple[bool, float, bool]:
+        lexical = self.user_matcher.lexical_support(token)
+        has_person_grammeme = False
+        if self.morph is not None:
+            parses = self.morph.parse(token)
+            has_person_grammeme = any(
+                {"Name", "Surn", "Patr"}.intersection(set(parse.tag.grammemes))
+                for parse in parses
+            )
+        # Сохраняем низкий порог для имён, но не пропускаем нарицательные слова.
+        accepted = lexical >= 0.40 or (has_person_grammeme and lexical >= 0.30)
+        return accepted, lexical, has_person_grammeme
     def _build_user_candidate_text(
         self,
         normalized_text: str,
         supplier_phrase: str | None,
         date_phrase: str | None,
+    ) -> tuple[str, list[str], list[dict[str, Any]]]:
         excluded_tokens: set[str] = set(self.user_matcher.noise_terms)
         if supplier_phrase:
             excluded_tokens.update(normalize_text(supplier_phrase).split())
         if date_phrase:
             excluded_tokens.update(normalize_text(date_phrase).split())
+        excluded_tokens.update(self.supplier_terms)
+        candidate_tokens: list[str] = []
+        candidate_debug: list[dict[str, Any]] = []
         for token in normalized_text.split():
             if token in excluded_tokens or token.isdigit() or len(token) <= 1:
                 continue
+            accepted, lexical, has_person_grammeme = self._looks_like_person_token(token)
+            candidate_debug.append({
+                "token": token,
+                "lexical_support": round(lexical, 4),
+                "has_person_grammeme": has_person_grammeme,
+                "accepted": accepted,
+            })
+            if accepted:
+                candidate_tokens.append(token)
+        return " ".join(candidate_tokens), candidate_tokens, candidate_debug
     def extract(
         self,
                 }
             return payload
+        candidate_text, candidate_tokens, candidate_debug = self._build_user_candidate_text(
             normalized_text=normalized_text,
             supplier_phrase=supplier_phrase,
             date_phrase=date_phrase,
                     "excluded_supplier_phrase": supplier_phrase,
                     "normalized_text": normalized_text,
                     "candidate_text": candidate_text,
+                    "candidate_tokens": candidate_tokens,
+                    "candidate_token_debug": candidate_debug,
                     "matcher_debug": None,
                 }
             return payload
                 "excluded_supplier_phrase": supplier_phrase,
                 "normalized_text": normalized_text,
                 "candidate_text": candidate_text,
+                "candidate_tokens": candidate_tokens,
+                "candidate_token_debug": candidate_debug,
                 "matcher_debug": match.get("supplier_debug"),
             }