Den4ikAI commited on
Commit
38dac29
1 Parent(s): 02f19a9

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +38 -0
README.md CHANGED
@@ -1,3 +1,41 @@
1
  ---
2
  license: mit
 
 
 
 
 
 
 
 
3
  ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
  license: mit
3
+ datasets:
4
+ - inkoziev/incomplete_utterance_restoration
5
+ language:
6
+ - ru
7
+ widget:
8
+ - text: '<SC1>- Как тебя зовут?\n- Джульетта Мао\nРазвернутый ответ: <extra_id_0>'
9
+ - text: '<SC1>- А живешь где?\n- В поясе астероидов\nРазвернутый ответ: <extra_id_0>'
10
+ pipeline_tag: text2text-generation
11
  ---
12
+ # Den4ikAI/FRED-T5-Large-interpreter
13
+ Модель для восстановления фразы с помощью контекста диалога (анафора, эллипсисы, гэппинг), проверки орфографии и нормализации текста диалоговых реплик.
14
+
15
+ Больше о задаче [тут](https://huggingface.co/inkoziev/rugpt_interpreter).
16
+ # Пример использования
17
+ ```python
18
+ import torch
19
+ from transformers import T5ForConditionalGeneration, GPT2Tokenizer
20
+ model_name = 'Den4ikAI/FRED-T5-Large-interpreter'
21
+ tokenizer = GPT2Tokenizer.from_pretrained(model_name)
22
+ device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
23
+ model = T5ForConditionalGeneration.from_pretrained(model_name)
24
+ model.eval()
25
+ t5_input = '''<SC1>- Ты собак любишь?
26
+ - Не люблю я их
27
+ Развернутый ответ: <extra_id_0>'''
28
+ input_ids = tokenizer(t5_input, return_tensors='pt').input_ids
29
+ out_ids = model.generate(input_ids=input_ids, max_length=100, eos_token_id=tokenizer.eos_token_id, early_stopping=True)
30
+ t5_output = tokenizer.decode(out_ids[0][1:])
31
+ print(t5_output)
32
+ ```
33
+ # Citation
34
+ ```
35
+ @MISC{FRED-T5-Large-interpreter,
36
+ author = {Denis Petrov, Ilya Koziev},
37
+ title = {Russian conversations interpreter and normalizer},
38
+ url = {https://huggingface.co/Den4ikAI/FRED-T5-Large-interpreter},
39
+ year = 2023
40
+ }
41
+ ```