uer
/

t5-v1_1-small-chinese-cluecorpussmall

Text2Text Generation

Inference Endpoints

Model card Files Files and versions Community

uer commited on Apr 5, 2021

Commit

e3ff021

•

1 Parent(s): b5fe765

Update README.md

Files changed (1) hide show

README.md +3 -5

README.md CHANGED Viewed

@@ -72,9 +72,8 @@ python3 pretrain.py --dataset_path cluecorpussmall_t5-v1_1_seq128_dataset.pt \
                     --learning_rate 1e-3 --batch_size 64 \
                     --span_masking --span_geo_prob 0.3 --span_max_length 5 \
                     --embedding word --relative_position_embedding --remove_embedding_layernorm --tgt_embedding word \
-                    --encoder transformer --mask fully_visible --layernorm_positioning pre \
-                    --feed_forward gated --decoder transformer \
-                    --target t5 --tie_weights
 ```
@@ -100,8 +99,7 @@ python3 pretrain.py --dataset_path cluecorpussmall_t5-v1_1_seq512_dataset.pt \
                     --span_masking --span_geo_prob 0.3 --span_max_length 5 \
                     --embedding word --relative_position_embedding --remove_embedding_layernorm --tgt_embedding word \
                     --encoder transformer --mask fully_visible --layernorm_positioning pre \
-                    --feed_forward gated --decoder transformer \
-                    --target t5 --tie_weights
 ```
 Finally, we convert the pre-trained model into Huggingface's format:

                     --learning_rate 1e-3 --batch_size 64 \
                     --span_masking --span_geo_prob 0.3 --span_max_length 5 \
                     --embedding word --relative_position_embedding --remove_embedding_layernorm --tgt_embedding word \
+                    --encoder transformer --mask fully_visible --layernorm_positioning pre \
+                    --feed_forward gated --decoder transformer --target t5
 ```
                     --span_masking --span_geo_prob 0.3 --span_max_length 5 \
                     --embedding word --relative_position_embedding --remove_embedding_layernorm --tgt_embedding word \
                     --encoder transformer --mask fully_visible --layernorm_positioning pre \
+                    --feed_forward gated --decoder transformer --target t5
 ```
 Finally, we convert the pre-trained model into Huggingface's format: