Danil commited on
Commit
992552e
1 Parent(s): 0220143

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +21 -9
README.md CHANGED
@@ -14,18 +14,29 @@ widget:
14
  example_title: "Технологии"
15
  ---
16
  ## keyT5. Base (small) version
 
17
 
18
- [Large version](https://huggingface.co/0x7194633/keyt5-large)
19
 
20
- [Base version](https://huggingface.co/0x7194633/keyt5-base)
21
 
 
 
 
 
 
22
  Example usage (the code returns a list with keywords. duplicates are possible):
 
 
 
 
 
 
 
23
  ```python
24
  from itertools import groupby
25
  import torch
26
  from transformers import T5ForConditionalGeneration, T5Tokenizer
27
-
28
- model_name = "0x7194633/keyt5-base"
29
  tokenizer = T5Tokenizer.from_pretrained(model_name)
30
  model = T5ForConditionalGeneration.from_pretrained(model_name)
31
 
@@ -34,19 +45,20 @@ def generate(text, **kwargs):
34
  with torch.no_grad():
35
  hypotheses = model.generate(**inputs, num_beams=5, **kwargs)
36
  s = tokenizer.decode(hypotheses[0], skip_special_tokens=True)
37
- s = s.replace('; ', ';').replace(' ;', ';').lower().split(';')
38
  s = [el for el, _ in groupby(s)]
39
  return s
40
 
41
-
42
  article = """Reuters сообщил об отмене 3,6 тыс. авиарейсов из-за «омикрона» и погоды
43
  Наибольшее число отмен авиарейсов 2 января пришлось на американские авиакомпании
44
  SkyWest и Southwest, у каждой — более 400 отмененных рейсов. При этом среди
45
  отмененных 2 января авиарейсов — более 2,1 тыс. рейсов в США. Также свыше 6400
46
  рейсов были задержаны."""
47
 
48
-
49
  print(generate(article, top_p=1.0, max_length=64))
 
 
 
 
50
 
51
- # ['лабораторная диагностика', 'панкреатит', 'профилактика', 'профилактика заболеваний', 'научно-популярное', 'биотехнологии', 'здоровье']
52
- ```
 
14
  example_title: "Технологии"
15
  ---
16
  ## keyT5. Base (small) version
17
+ Supported languages: ru
18
 
19
+ Github - [text2keywords](https://github.com/0x7o/text2keywords/edit/main/README.md)
20
 
 
21
 
22
+ [Pretraining Large version](https://huggingface.co/0x7194633/keyt5-large)
23
+ |
24
+ [Pretraining Base version](https://huggingface.co/0x7194633/keyt5-base)
25
+
26
+ # Usage
27
  Example usage (the code returns a list with keywords. duplicates are possible):
28
+
29
+ [![Try Model Training In Colab!](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/0x7o/text2keywords/blob/main/example/keyT5_use.ipynb)
30
+
31
+ ```
32
+ pip install transformers sentencepiece
33
+ ```
34
+
35
  ```python
36
  from itertools import groupby
37
  import torch
38
  from transformers import T5ForConditionalGeneration, T5Tokenizer
39
+ model_name = "0x7194633/keyt5-large" # or 0x7194633/keyt5-base
 
40
  tokenizer = T5Tokenizer.from_pretrained(model_name)
41
  model = T5ForConditionalGeneration.from_pretrained(model_name)
42
 
 
45
  with torch.no_grad():
46
  hypotheses = model.generate(**inputs, num_beams=5, **kwargs)
47
  s = tokenizer.decode(hypotheses[0], skip_special_tokens=True)
48
+ s = s.replace('; ', ';').replace(' ;', ';').lower().split(';')[:-1]
49
  s = [el for el, _ in groupby(s)]
50
  return s
51
 
 
52
  article = """Reuters сообщил об отмене 3,6 тыс. авиарейсов из-за «омикрона» и погоды
53
  Наибольшее число отмен авиарейсов 2 января пришлось на американские авиакомпании
54
  SkyWest и Southwest, у каждой — более 400 отмененных рейсов. При этом среди
55
  отмененных 2 января авиарейсов — более 2,1 тыс. рейсов в США. Также свыше 6400
56
  рейсов были задержаны."""
57
 
 
58
  print(generate(article, top_p=1.0, max_length=64))
59
+ # ['авиаперевозки', 'отмена авиарейсов', 'отмена рейсов', 'отмена авиарейсов', 'отмена рейсов', 'отмена авиарейсов']
60
+ ```
61
+ # Training
62
+ Go to the training notebook and learn more about it:
63
 
64
+ [![Try Model Training In Colab!](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/0x7o/text2keywords/blob/main/example/keyT5_train.ipynb)