keras
/

electra_large_discriminator_uncased_en

Feature Extraction

KerasHub

Model card Files Files and versions Community

mattdangerw commited on 2 days ago

Commit

37141ad

•

1 Parent(s): c1f7dc9

Update README.md with new model card content

Browse files

Files changed (1) hide show

README.md +3 -2

README.md CHANGED Viewed

@@ -2,7 +2,7 @@
 library_name: keras-hub
 pipeline_tag: feature-extraction
 ---
-## Model Overview
 ELECTRA model is a pretraining approach for language models published by Google. Two transformer models are trained, a generator and a discriminator. The generator replaces tokens in a sequence and is trained as a masked language model. The discriminator is trained to discern what tokens have been replaced. This method of pretraining is more efficient than comparable methods like masked language modeling, especially for small models.
 Weights are released under the [MIT License](https://opensource.org/license/mit). Keras model code is released under the [Apache 2 License](https://github.com/keras-team/keras-hub/blob/master/LICENSE).
@@ -36,4 +36,5 @@ The following model checkpoints are provided by the Keras team. Full code exampl
 | `electra_base_discriminator_uncased_en`   | 109.48M    | 12-layer base ELECTRA discriminator model. All inputs are lowercased. Trained on English Wikipedia + BooksCorpus.   |
 | `electra_base_generator_uncased_en`       | 33.58M     | 12-layer base ELECTRA generator model. All inputs are lowercased. Trained on English Wikipedia + BooksCorpus.       |
 | `electra_large_discriminator_uncased_en`  | 335.14M    | 24-layer large ELECTRA discriminator model. All inputs are lowercased. Trained on English Wikipedia + BooksCorpus.  |
-| `electra_large_generator_uncased_en`      | 51.07M     | 24-layer large ELECTRA generator model. All inputs are lowercased. Trained on English Wikipedia + BooksCorpus.      |

 library_name: keras-hub
 pipeline_tag: feature-extraction
 ---
+### Model Overview
 ELECTRA model is a pretraining approach for language models published by Google. Two transformer models are trained, a generator and a discriminator. The generator replaces tokens in a sequence and is trained as a masked language model. The discriminator is trained to discern what tokens have been replaced. This method of pretraining is more efficient than comparable methods like masked language modeling, especially for small models.
 Weights are released under the [MIT License](https://opensource.org/license/mit). Keras model code is released under the [Apache 2 License](https://github.com/keras-team/keras-hub/blob/master/LICENSE).
 | `electra_base_discriminator_uncased_en`   | 109.48M    | 12-layer base ELECTRA discriminator model. All inputs are lowercased. Trained on English Wikipedia + BooksCorpus.   |
 | `electra_base_generator_uncased_en`       | 33.58M     | 12-layer base ELECTRA generator model. All inputs are lowercased. Trained on English Wikipedia + BooksCorpus.       |
 | `electra_large_discriminator_uncased_en`  | 335.14M    | 24-layer large ELECTRA discriminator model. All inputs are lowercased. Trained on English Wikipedia + BooksCorpus.  |
+| `electra_large_generator_uncased_en`      | 51.07M     | 24-layer large ELECTRA generator model. All inputs are lowercased. Trained on English Wikipedia + BooksCorpus.      |