tgsc
/

debertina-base-32k-vocab

Inference Endpoints

Model card Files Files and versions Community

tgsc commited on Oct 18, 2023

Commit

0116376

•

1 Parent(s): e45628f

Update README.md

Files changed (1) hide show

README.md +7 -4

README.md CHANGED Viewed

@@ -21,11 +21,14 @@ DeBERTina é um modelo [DeBERTa-v3](https://arxiv.org/abs/2111.09543) em portugu
 *DeBERTina is a portuguese [DeBERTa-v3](https://arxiv.org/abs/2111.09543) model trained electra-style [ELECTRA](https://arxiv.org/abs/2003.10555) (with Replaced Token Detection - RTD) and gradient-disentangled embedding sharing (GDES).*
-| Model                                    | type | Vocabulary | Parameters  |
 |                 :-:                      | :-: | :-: |   :-:   |
-| [ult5-pt-small](https://huggingface.co/tgsc/ult5-pt-small) | encoder-decoder | 65k |82.4M |
-| [sentence-transformer-ult5-pt-small](https://huggingface.co/tgsc/sentence-transformer-ult5-pt-small)  | sentence-transformer | 65k | 51M |
-| [DeBERTina-base](https://huggingface.co/tgsc/debertina-base) | encoder | 32k | 100M |
 - **Developed by:** Thacio Garcia Scandaroli
 - **Model type:** DeBERTa-v3

 *DeBERTina is a portuguese [DeBERTa-v3](https://arxiv.org/abs/2111.09543) model trained electra-style [ELECTRA](https://arxiv.org/abs/2003.10555) (with Replaced Token Detection - RTD) and gradient-disentangled embedding sharing (GDES).*
+| Model                                    | type | Vocabulary | Backbone + Embeddings = Total Parameters   |
 |                 :-:                      | :-: | :-: |   :-:   |
+| [ult5-pt-small](https://huggingface.co/tgsc/ult5-pt-small) | encoder-decoder | 65k | 56.6M + 25.8M = 82.4M |
+| [sentence-transformer-ult5-pt-small](https://huggingface.co/tgsc/sentence-transformer-ult5-pt-small)  | sentence-transformer | 65k | 25.2 + 25.8M = 51M |
+| [DeBERTina-base](https://huggingface.co/tgsc/debertina-base) | encoder | 32k | 85.5M + 24.6M = 110.0M |
+| [DeBERTina-base-128k-vocab](https://huggingface.co/tgsc/debertina-base-128k-vocab) | encoder | 128k | 85.5M + 98.3M = 183.8M |
+| [DeBERTina-large](https://huggingface.co/tgsc/debertina-large) | encoder | 128k | 348.4M + 98.3M = 433.9.0M |
+| [DeBERTina-xsmall](https://huggingface.co/tgsc/debertina-xsmall) | encoder | 128k | 21.5M + 49.2M = 70.6M |
 - **Developed by:** Thacio Garcia Scandaroli
 - **Model type:** DeBERTa-v3