ukrainian-stt-et

Sleeping

Yurii Paniv commited on Apr 2, 2021

Commit

0659669

1 Parent(s): aa0bba0

Replace apostrophe

Files changed (2) hide show

scripts/extract_text_corpus.py CHANGED Viewed

@@ -11,7 +11,7 @@ text_file = open(OUT_FILE, mode="a")
 tokenizer = nltk.SpaceTokenizer()
 paranthesis_regex = re.compile(r'\(.*\)')
 allowed_chars = ["а", "б", "в", "г", "ґ", "д", "е", "є", "ж", "з", "и", "і", "ї", "й", "к", "л",
-                 "м", "н", "о", "п", "р", "с", "т", "у", "ф", "х", "ц", "ч", "ш", "щ", "ь", "ю", "я", "-", "'"]
 for subdir, dirs, files in os.walk(FOLDER):
     for file in files:
@@ -25,6 +25,7 @@ for subdir, dirs, files in os.walk(FOLDER):
             input_file = open(file_path, encoding="cp1251")
             cleaned_text = input_file.read()
         cleaned_text = cleaned_text.lower()
         cleaned_text = paranthesis_regex.sub('', cleaned_text)
         cleaned_text = cleaned_text.strip()
         cleaned_text = cleaned_text.split(".")

 tokenizer = nltk.SpaceTokenizer()
 paranthesis_regex = re.compile(r'\(.*\)')
 allowed_chars = ["а", "б", "в", "г", "ґ", "д", "е", "є", "ж", "з", "и", "і", "ї", "й", "к", "л",
+                 "м", "н", "о", "п", "р", "с", "т", "у", "ф", "х", "ц", "ч", "ш", "щ", "ь", "ю", "я", "-", "’"]
 for subdir, dirs, files in os.walk(FOLDER):
     for file in files:
             input_file = open(file_path, encoding="cp1251")
             cleaned_text = input_file.read()
         cleaned_text = cleaned_text.lower()
+        cleaned_text = cleaned_text.replace("'", "’")
         cleaned_text = paranthesis_regex.sub('', cleaned_text)
         cleaned_text = cleaned_text.strip()
         cleaned_text = cleaned_text.split(".")

scripts/wiki_import.py CHANGED Viewed

@@ -15,7 +15,7 @@ text_file = open(OUT_PATH, mode="a")
 tokenizer = nltk.SpaceTokenizer()
 paranthesis_regex = re.compile(r'\(.*\)')
 allowed_chars = ["а", "б", "в", "г", "ґ", "д", "е", "є", "ж", "з", "и", "і", "ї", "й", "к", "л",
-                 "м", "н", "о", "п", "р", "с", "т", "у", "ф", "х", "ц", "ч", "ш", "щ", "ь", "ю", "я", "-", "'"]
 cleaner = Cleaner()
 # iter = 0
@@ -27,6 +27,7 @@ for title, text in iterate('../data/ukwiki-20210320-pages-articles-multistream.x
     cleaned_text = cleaned_text.replace("н. е.", "нашої ери")
     cleaned_text = cleaned_text.replace("ім.", "імені")
     cleaned_text = cleaned_text.replace("див.", "дивись")
     cleaned_text = paranthesis_regex.sub('', cleaned_text)
     cleaned_text = cleaned_text.strip()
     cleaned_text = cleaned_text.split(".")

 tokenizer = nltk.SpaceTokenizer()
 paranthesis_regex = re.compile(r'\(.*\)')
 allowed_chars = ["а", "б", "в", "г", "ґ", "д", "е", "є", "ж", "з", "и", "і", "ї", "й", "к", "л",
+                 "м", "н", "о", "п", "р", "с", "т", "у", "ф", "х", "ц", "ч", "ш", "щ", "ь", "ю", "я", "-", "’"]
 cleaner = Cleaner()
 # iter = 0
     cleaned_text = cleaned_text.replace("н. е.", "нашої ери")
     cleaned_text = cleaned_text.replace("ім.", "імені")
     cleaned_text = cleaned_text.replace("див.", "дивись")
+    cleaned_text = cleaned_text.replace("'", "’")
     cleaned_text = paranthesis_regex.sub('', cleaned_text)
     cleaned_text = cleaned_text.strip()
     cleaned_text = cleaned_text.split(".")