Den4ikAI commited on
Commit
a99c932
1 Parent(s): 0003f2a

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +37 -0
README.md CHANGED
@@ -1,3 +1,40 @@
1
  ---
2
  license: mit
 
 
 
 
 
 
 
 
3
  ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
  license: mit
3
+ datasets:
4
+ - inkoziev/incomplete_utterance_restoration
5
+ language:
6
+ - ru
7
+ widget:
8
+ - text: '- Как тебя зовут?\n- Иван #'
9
+ - text: '- А живешь где?\n- В Москве #'
10
+ pipeline_tag: text2text-generation
11
  ---
12
+ # Den4ikAI/ruT5-small-interpreter
13
+ Модель для восстановления фразы с помощью контекста диалога (анафора, эллипсисы, гэппинг), проверки орфографии и нормализации текста диалоговых реплик.
14
+
15
+ Больше о задаче [тут](https://huggingface.co/inkoziev/rugpt_interpreter).
16
+ # Пример использования
17
+ ```python
18
+ import torch
19
+ from transformers import T5ForConditionalGeneration, T5Tokenizer
20
+ model_name = 'Den4ikAI/ruT5-small-interpreter'
21
+ tokenizer = T5Tokenizer.from_pretrained(model_name)
22
+ device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
23
+ model = T5ForConditionalGeneration.from_pretrained(model_name)
24
+ model.eval()
25
+ t5_input = '''- Ты собак любишь?
26
+ - Не люблю я их #'''
27
+ input_ids = tokenizer(t5_input, return_tensors='pt').input_ids
28
+ out_ids = model.generate(input_ids=input_ids, max_length=100, eos_token_id=tokenizer.eos_token_id, early_stopping=True)
29
+ t5_output = tokenizer.decode(out_ids[0][1:])
30
+ print(t5_output)
31
+ ```
32
+ # Citation
33
+ ```
34
+ @MISC{Den4ikAI/ruT5-small-interpreter,
35
+ author = {Denis Petrov, Ilya Koziev},
36
+ title = {Russian conversations interpreter and normalizer},
37
+ url = {https://huggingface.co/Den4ikAI/ruT5-small-interpreter},
38
+ year = 2023
39
+ }
40
+ ```