Update README.md
Browse files
README.md
CHANGED
@@ -24,8 +24,8 @@ ULT5-pt é um modelo de arquitetura T5-v1.1 treinado com o framework UL2 - [Unif
|
|
24 |
|
25 |
| Model | type | Parameters |
|
26 |
| :-: | :-: | :-: |
|
27 |
-
| [ult5-pt-small](https://huggingface.co/
|
28 |
-
| [sentence-transformer-ult5-pt-small](https://huggingface.co/
|
29 |
|
30 |
|
31 |
- **Developed by:** Thacio Garcia Scandaroli
|
@@ -42,7 +42,7 @@ Alguns datasets (algumas classificações ou score de similaridade) possuem melh
|
|
42 |
```python
|
43 |
from transformers import AutoModelForSeq2SeqLM
|
44 |
|
45 |
-
model = AutoModelForSeq2SeqLM.from_pretrained("
|
46 |
```
|
47 |
|
48 |
## Pretraining and model characteristics
|
@@ -87,8 +87,8 @@ Exemplo de geração de texto com top_k de 30
|
|
87 |
```python
|
88 |
from transformers import GPT2TokenizerFast, AutoModelForSeq2SeqLM
|
89 |
|
90 |
-
tokenizer = GPT2TokenizerFast.from_pretrained("
|
91 |
-
model = AutoModelForSeq2SeqLM.from_pretrained("
|
92 |
|
93 |
text='Um modelo de linguagem é um sistema de inteligência artificial que'
|
94 |
|
@@ -100,16 +100,16 @@ print('generated:',tokenizer.batch_decode(pred, skip_special_tokens=True))
|
|
100 |
```
|
101 |
|
102 |
|
103 |
-
Embora seja possível obter embeddings com o modelo, melhores embeddings podem ser obtidos com o modelo [
|
104 |
-
*Altough you can get embeddings from this model, better embeddings can be obtained with [
|
105 |
|
106 |
Embeddings:
|
107 |
|
108 |
```python
|
109 |
from transformers import T5EncoderModel, GPT2TokenizerFast
|
110 |
|
111 |
-
tokenizer = GPT2TokenizerFast.from_pretrained("
|
112 |
-
model = T5EncoderModel.from_pretrained("
|
113 |
|
114 |
text = 'Um modelo de linguagem é um sistema de inteligência artificial que aprende a gerar ou processar texto baseado em exemplos de treinamento.'
|
115 |
input_ids = tokenizer(text, return_tensors="pt").input_ids
|
|
|
24 |
|
25 |
| Model | type | Parameters |
|
26 |
| :-: | :-: | :-: |
|
27 |
+
| [ult5-pt-small](https://huggingface.co/tgsc/ult5-pt-small) | encoder-decoder | 82.4M |
|
28 |
+
| [sentence-transformer-ult5-pt-small](https://huggingface.co/tgsc/ult5-pt-small) | sentence-transformer | 51M |
|
29 |
|
30 |
|
31 |
- **Developed by:** Thacio Garcia Scandaroli
|
|
|
42 |
```python
|
43 |
from transformers import AutoModelForSeq2SeqLM
|
44 |
|
45 |
+
model = AutoModelForSeq2SeqLM.from_pretrained("tgsc/ult5-pt-small",dropout_rate=0.0)
|
46 |
```
|
47 |
|
48 |
## Pretraining and model characteristics
|
|
|
87 |
```python
|
88 |
from transformers import GPT2TokenizerFast, AutoModelForSeq2SeqLM
|
89 |
|
90 |
+
tokenizer = GPT2TokenizerFast.from_pretrained("tgsc/ult5-pt-small")
|
91 |
+
model = AutoModelForSeq2SeqLM.from_pretrained("tgsc/ult5-pt-small")
|
92 |
|
93 |
text='Um modelo de linguagem é um sistema de inteligência artificial que'
|
94 |
|
|
|
100 |
```
|
101 |
|
102 |
|
103 |
+
Embora seja possível obter embeddings com o modelo, melhores embeddings podem ser obtidos com o modelo [tgsc/sentence-transformer-ult5-pt-small](https://huggingface.co/tgsc/sentence-transformer-ult5-pt-small).
|
104 |
+
*Altough you can get embeddings from this model, better embeddings can be obtained with [tgsc/sentence-transformer-ult5-pt-small](https://huggingface.co/tgsc/sentence-transformer-ult5-pt-small).*
|
105 |
|
106 |
Embeddings:
|
107 |
|
108 |
```python
|
109 |
from transformers import T5EncoderModel, GPT2TokenizerFast
|
110 |
|
111 |
+
tokenizer = GPT2TokenizerFast.from_pretrained("tgsc/ult5-pt-small")
|
112 |
+
model = T5EncoderModel.from_pretrained("tgsc/ult5-pt-small")
|
113 |
|
114 |
text = 'Um modelo de linguagem é um sistema de inteligência artificial que aprende a gerar ou processar texto baseado em exemplos de treinamento.'
|
115 |
input_ids = tokenizer(text, return_tensors="pt").input_ids
|