|
import re |
|
|
|
SYMBOLS_MAPPING = { |
|
"\n": ".", |
|
"β¦": ".", |
|
"β": "'", |
|
"β": "'", |
|
"β": "'", |
|
"β": "'", |
|
"γ": "", |
|
"γ": "", |
|
"[": "", |
|
"]": "", |
|
"οΌ": "", |
|
"οΌ": "", |
|
"(": "", |
|
")": "", |
|
"γ»": "", |
|
"Β·": "", |
|
"γ": "'", |
|
"γ": "'", |
|
"γ": "'", |
|
"γ": "'", |
|
"β": "", |
|
"ο½": "", |
|
"~": "", |
|
"οΌ": ",", |
|
"οΌ": ",", |
|
";": ",", |
|
":": ",", |
|
} |
|
|
|
REPLACE_SYMBOL_REGEX = re.compile( |
|
"|".join(re.escape(p) for p in SYMBOLS_MAPPING.keys()) |
|
) |
|
|
|
|
|
def clean_text(text): |
|
|
|
text = text.strip() |
|
|
|
|
|
text = REPLACE_SYMBOL_REGEX.sub(lambda x: SYMBOLS_MAPPING[x.group()], text) |
|
|
|
return text |
|
|