versae
/

roberta-base-ncc-shampoo-exp1

Inference Endpoints

Model card Files Files and versions Metrics Training metrics Community

versae commited on Jan 16, 2022

Commit

934b127

•

1 Parent(s): 182f272

Train options

Files changed (1) hide show

train.128.sh +4 -3

train.128.sh CHANGED Viewed

@@ -5,7 +5,7 @@ python run_mlm_flax.py \
     --tokenizer_name="NbAiLab/nb-roberta-base" \
     --dataset_name="NbAiLab/NCC" \
     --max_seq_length="128" \
-    --weight_decay="0.01" \
     --per_device_train_batch_size="232" \
     --per_device_eval_batch_size="232" \
     --pad_to_max_length \
@@ -13,9 +13,10 @@ python run_mlm_flax.py \
     --warmup_steps="10000" \
     --overwrite_output_dir \
     --num_train_epochs="3" \
     --adam_beta1="0.9" \
-    --adam_beta2="0.98" \
-    --adam_epsilon="1e-6" \
     --logging_steps="1000" \
     --save_steps="1000" \
     --eval_steps="1000" \

     --tokenizer_name="NbAiLab/nb-roberta-base" \
     --dataset_name="NbAiLab/NCC" \
     --max_seq_length="128" \
+    --weight_decay="0.0" \
     --per_device_train_batch_size="232" \
     --per_device_eval_batch_size="232" \
     --pad_to_max_length \
     --warmup_steps="10000" \
     --overwrite_output_dir \
     --num_train_epochs="3" \
+    --distributed_shampoo  \
     --adam_beta1="0.9" \
+    --adam_beta2="0.99" \
+    --adam_epsilon="1e-10" \
     --logging_steps="1000" \
     --save_steps="1000" \
     --eval_steps="1000" \