Almira commited on
Commit
37f0390
1 Parent(s): 946dc24

Update readme

Browse files
Files changed (1) hide show
  1. README.md +43 -0
README.md CHANGED
@@ -1,3 +1,46 @@
1
  ---
 
 
 
 
 
2
  license: apache-2.0
3
  ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
+ language:
3
+ - ru
4
+ tags:
5
+ - PyTorch
6
+ - Transformers
7
  license: apache-2.0
8
  ---
9
+
10
+ # SbertPuncCase
11
+
12
+ SbertPuncCase - модель восстановления пунктуации и регистра для русского языка. Модель способна расставлять точки, запятые и знаки вопроса;
13
+ определять регистр - слово в нижнем регистре, слово с первой буквой в верхнем регистре, слово в верхнем регистре.
14
+ Модель разработана для восстановления пунктуации и регистра после распознавания речи, поэтому работает со строками в нижнем регистре.
15
+ В основу модели лег [sbert_large_nlu_ru](https://huggingface.co/sberbank-ai/sbert_large_nlu_ru).
16
+ В качестве обучающих данных использованы текстовые расшифровки интервью.
17
+
18
+ # Как это работает
19
+
20
+ 1. Текст переводится в нижний регистр и разбивается на слова.
21
+ 2. Слова разделяются на токены.
22
+ 3. Модель (по аналогии с задачей NER) предсказывает класс для каждого токена. Классификация на 12 классов: 3+1 знака препинания * 3 варианта регистра.
23
+ 4. Функция декодировки восстанавливает текст соответственно предсказанным классам.
24
+
25
+ # Как использовать
26
+
27
+ Код модели находится в файле `sbert-punc-case-ru/sbertpunccase.py`.
28
+
29
+ Для быстрой установки можно воспользоваться командой:
30
+
31
+ ```
32
+ pip install git+https://huggingface.co/kontur-ai/sbert-punc-case-ru
33
+ ```
34
+
35
+ Использование модели:
36
+ ```
37
+ from sbert-punc-case-ru import SbertPuncCase
38
+ model = SbertPuncCase()
39
+ model.punctuate("sbertpunccase расставляет точки запятые и знаки вопроса вам нравится")
40
+ ```
41
+
42
+ # Авторы
43
+
44
+ [Альмира Муртазина](https://github.com/almiradreamer)
45
+
46
+ [Александр Абугалиев](https://github.com/Squire-tomsk)