Split words by spaces rather than regexp

Browse files

Files changed (2) hide show

README.md +1 -1
sbert-punc-case-ru/sbertpunccase.py +4 -20

README.md CHANGED Viewed

@@ -11,7 +11,7 @@ license: apache-2.0
 SbertPuncCase - модель восстановления пунктуации и регистра для русского языка. Модель способна расставлять точки, запятые и знаки вопроса;
 определять регистр - слово в нижнем регистре, слово с первой буквой в верхнем регистре, слово в верхнем регистре.
-Модель разработана для восстановления пунктуации и регистра после распознавания речи, поэтому работает со строками в нижнем регистре.
 В основу модели лег [sbert_large_nlu_ru](https://huggingface.co/sberbank-ai/sbert_large_nlu_ru).
 В качестве обучающих данных использованы текстовые расшифровки интервью.

 SbertPuncCase - модель восстановления пунктуации и регистра для русского языка. Модель способна расставлять точки, запятые и знаки вопроса;
 определять регистр - слово в нижнем регистре, слово с первой буквой в верхнем регистре, слово в верхнем регистре.
+Модель разработана для восстановления текста после распознавания речи, поэтому работает со строками в нижнем регистре.
 В основу модели лег [sbert_large_nlu_ru](https://huggingface.co/sberbank-ai/sbert_large_nlu_ru).
 В качестве обучающих данных использованы текстовые расшифровки интервью.

sbert-punc-case-ru/sbertpunccase.py CHANGED Viewed

@@ -6,26 +6,12 @@ import torch.nn as nn
 import numpy as np
 from transformers import AutoTokenizer, AutoModelForTokenClassification
-import re
-import string
-TOKEN_RE = re.compile(r'-?\d*\.\d+|[a-zа-яё]+|-?[\d\+\(\)\-]+|\S', re.I)
-"""
-Регулярка, для того чтобы выделять в отдельные токены знаки препинания, числа и слова. А именно:
-- Числа с плавающей точкой вида 123.23 выделяются в один токен. Десятичным разделителем рассматривается только точка
-- Число может быть отрицательным: иметь знак -123.4
-- Целой части числа может вовсе не быть: последовательности  -0.15 и −.15   означают одно и то же число.
-- При этом числа с нулевой дробной частью не допускаются:  строка "12345." будет разделена на два токена "12345" и "."
-- Идущие подряд знаки препинания выделяются каждый в отдельный токен.
-- Телефонные номера выделяются в один токен +7(999)164-20-69
-- Множество букв в словах ограничивается только кириллическим и англ алфавитом (33 буквы и 26 cоотв).
-"""
 # Прогнозируемые знаки препинания
 PUNK_MAPPING = {'.': 'PERIOD', ',': 'COMMA', '?': 'QUESTION'}
-# Прогнозируемый регистр LOWER - нижний регистр, UPPER - верхний регистр для первого символа, UPPER_TOTAL - верхний регистр для всех символов
 LABELS_CASE = ['LOWER', 'UPPER', 'UPPER_TOTAL']
 # Добавим в пунктуацию метку O означающий отсутсвие пунктуации
 LABELS_PUNC = ['O'] + list(PUNK_MAPPING.values())
@@ -107,10 +93,8 @@ class SbertPuncCase(nn.Module):
     def punctuate(self, text):
         text = text.strip().lower()
-        # Разобъем предложение на слова и знаки препинания
-        tokens = TOKEN_RE.findall(text)
-        # Удалим знаки препинания
-        words = [token for token in tokens if token not in string.punctuation]
         tokenizer_output = self.tokenizer(words, is_split_into_words=True)

 import numpy as np
 from transformers import AutoTokenizer, AutoModelForTokenClassification
 # Прогнозируемые знаки препинания
 PUNK_MAPPING = {'.': 'PERIOD', ',': 'COMMA', '?': 'QUESTION'}
+# Прогнозируемый регистр LOWER - нижний регистр, UPPER - верхний регистр для первого символа,
+# UPPER_TOTAL - верхний регистр для всех символов
 LABELS_CASE = ['LOWER', 'UPPER', 'UPPER_TOTAL']
 # Добавим в пунктуацию метку O означающий отсутсвие пунктуации
 LABELS_PUNC = ['O'] + list(PUNK_MAPPING.values())
     def punctuate(self, text):
         text = text.strip().lower()
+        # Разобъем предложение на слова
+        words = text.split()
         tokenizer_output = self.tokenizer(words, is_split_into_words=True)