tgsc commited on
Commit
60e4c42
1 Parent(s): 9e00862

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +9 -9
README.md CHANGED
@@ -24,8 +24,8 @@ ULT5-pt é um modelo de arquitetura T5-v1.1 treinado com o framework UL2 - [Unif
24
 
25
  | Model | type | Parameters |
26
  | :-: | :-: | :-: |
27
- | [ult5-pt-small](https://huggingface.co/thacio/ult5-pt-small) | encoder-decoder | 82.4M |
28
- | [sentence-transformer-ult5-pt-small](https://huggingface.co/thacio/ult5-pt-small) | sentence-transformer | 51M |
29
 
30
 
31
  - **Developed by:** Thacio Garcia Scandaroli
@@ -42,7 +42,7 @@ Alguns datasets (algumas classificações ou score de similaridade) possuem melh
42
  ```python
43
  from transformers import AutoModelForSeq2SeqLM
44
 
45
- model = AutoModelForSeq2SeqLM.from_pretrained("thacio/ult5-pt-small",dropout_rate=0.0)
46
  ```
47
 
48
  ## Pretraining and model characteristics
@@ -87,8 +87,8 @@ Exemplo de geração de texto com top_k de 30
87
  ```python
88
  from transformers import GPT2TokenizerFast, AutoModelForSeq2SeqLM
89
 
90
- tokenizer = GPT2TokenizerFast.from_pretrained("thacio/ult5-pt-small")
91
- model = AutoModelForSeq2SeqLM.from_pretrained("thacio/ult5-pt-small")
92
 
93
  text='Um modelo de linguagem é um sistema de inteligência artificial que'
94
 
@@ -100,16 +100,16 @@ print('generated:',tokenizer.batch_decode(pred, skip_special_tokens=True))
100
  ```
101
 
102
 
103
- Embora seja possível obter embeddings com o modelo, melhores embeddings podem ser obtidos com o modelo [thacio/sentence-transformer-ult5-pt-small](https://huggingface.co/thacio/sentence-transformer-ult5-pt-small).
104
- *Altough you can get embeddings from this model, better embeddings can be obtained with [thacio/sentence-transformer-ult5-pt-small](https://huggingface.co/thacio/sentence-transformer-ult5-pt-small).*
105
 
106
  Embeddings:
107
 
108
  ```python
109
  from transformers import T5EncoderModel, GPT2TokenizerFast
110
 
111
- tokenizer = GPT2TokenizerFast.from_pretrained("thacio/ult5-pt-small")
112
- model = T5EncoderModel.from_pretrained("thacio/ult5-pt-small")
113
 
114
  text = 'Um modelo de linguagem é um sistema de inteligência artificial que aprende a gerar ou processar texto baseado em exemplos de treinamento.'
115
  input_ids = tokenizer(text, return_tensors="pt").input_ids
 
24
 
25
  | Model | type | Parameters |
26
  | :-: | :-: | :-: |
27
+ | [ult5-pt-small](https://huggingface.co/tgsc/ult5-pt-small) | encoder-decoder | 82.4M |
28
+ | [sentence-transformer-ult5-pt-small](https://huggingface.co/tgsc/ult5-pt-small) | sentence-transformer | 51M |
29
 
30
 
31
  - **Developed by:** Thacio Garcia Scandaroli
 
42
  ```python
43
  from transformers import AutoModelForSeq2SeqLM
44
 
45
+ model = AutoModelForSeq2SeqLM.from_pretrained("tgsc/ult5-pt-small",dropout_rate=0.0)
46
  ```
47
 
48
  ## Pretraining and model characteristics
 
87
  ```python
88
  from transformers import GPT2TokenizerFast, AutoModelForSeq2SeqLM
89
 
90
+ tokenizer = GPT2TokenizerFast.from_pretrained("tgsc/ult5-pt-small")
91
+ model = AutoModelForSeq2SeqLM.from_pretrained("tgsc/ult5-pt-small")
92
 
93
  text='Um modelo de linguagem é um sistema de inteligência artificial que'
94
 
 
100
  ```
101
 
102
 
103
+ Embora seja possível obter embeddings com o modelo, melhores embeddings podem ser obtidos com o modelo [tgsc/sentence-transformer-ult5-pt-small](https://huggingface.co/tgsc/sentence-transformer-ult5-pt-small).
104
+ *Altough you can get embeddings from this model, better embeddings can be obtained with [tgsc/sentence-transformer-ult5-pt-small](https://huggingface.co/tgsc/sentence-transformer-ult5-pt-small).*
105
 
106
  Embeddings:
107
 
108
  ```python
109
  from transformers import T5EncoderModel, GPT2TokenizerFast
110
 
111
+ tokenizer = GPT2TokenizerFast.from_pretrained("tgsc/ult5-pt-small")
112
+ model = T5EncoderModel.from_pretrained("tgsc/ult5-pt-small")
113
 
114
  text = 'Um modelo de linguagem é um sistema de inteligência artificial que aprende a gerar ou processar texto baseado em exemplos de treinamento.'
115
  input_ids = tokenizer(text, return_tensors="pt").input_ids