Spaces:
Paused
Paused
| # utils.py | |
| import re | |
| from typing import List | |
| def tokenize_vi_simple(text: str) -> List[str]: | |
| """ | |
| Tokenize tiếng Việt một cách đơn giản cho các tác vụ như BM25. | |
| Chuyển thành chữ thường, loại bỏ dấu câu cơ bản và tách theo khoảng trắng. | |
| """ | |
| if not isinstance(text, str): | |
| return [] | |
| text = text.lower() | |
| # Loại bỏ các ký tự không phải chữ, số, hoặc khoảng trắng | |
| text = re.sub(r'[^\w\s]', '', text) | |
| return text.split() |