Saving weights and logs of step 10000

Files changed (4) hide show

config.json CHANGED Viewed

@@ -7,6 +7,7 @@
   "bos_token_id": 0,
   "classifier_dropout": null,
   "eos_token_id": 2,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
   "hidden_size": 1024,
@@ -20,7 +21,7 @@
   "pad_token_id": 1,
   "position_embedding_type": "absolute",
   "torch_dtype": "float32",
-  "transformers_version": "4.11.0",
   "type_vocab_size": 1,
   "use_cache": true,
   "vocab_size": 50265

   "bos_token_id": 0,
   "classifier_dropout": null,
   "eos_token_id": 2,
+  "gradient_checkpointing": false,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
   "hidden_size": 1024,
   "pad_token_id": 1,
   "position_embedding_type": "absolute",
   "torch_dtype": "float32",
+  "transformers_version": "4.10.3",
   "type_vocab_size": 1,
   "use_cache": true,
   "vocab_size": 50265

events.out.tfevents.1638128224.t1v-n-8eba1090-w-0.1649448.0.v2 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:fb25bd08dd3f4745e12c4538e65ab164e2c38587885b7daac4782b14fa6f0141
+size 1470757

flax_model.msgpack CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a878489306599e17d93ae80b2eed555b4c6b13fbd306d4fd88c06b1c2b8e7a0
 size 1421662309

 version https://git-lfs.github.com/spec/v1
+oid sha256:0d9373d6e238915c1e24dcfb133a085828d33d2d935863497a7d2546b63c360c
 size 1421662309

start_train.sh CHANGED Viewed

@@ -8,11 +8,11 @@ python3 run_mlm_flax.py \
     --config_name="./" \
     --tokenizer_name="./" \
     --dataset_filepath="/researchdisk/training_dataset_full" \
-    --max_seq_length="128" \
     --pad_to_max_length \
     --preprocessing_num_workers="96" \
-    --per_device_train_batch_size="64" \
-    --per_device_eval_batch_size="64" \
     --adam_beta1="0.9" \
     --adam_beta2="0.98" \
     --adam_epsilon="1e-6" \
@@ -26,5 +26,6 @@ python3 run_mlm_flax.py \
     --eval_steps="10000" \
     --logging_steps="1000" \
     --dtype="bfloat16" \
     --push_to_hub \
-    --hub_model_id="Finnish-NLP/roberta-large-finnish-v2"

     --config_name="./" \
     --tokenizer_name="./" \
     --dataset_filepath="/researchdisk/training_dataset_full" \
+    --max_seq_length="512" \
     --pad_to_max_length \
     --preprocessing_num_workers="96" \
+    --per_device_train_batch_size="8" \
+    --per_device_eval_batch_size="8" \
     --adam_beta1="0.9" \
     --adam_beta2="0.98" \
     --adam_epsilon="1e-6" \
     --eval_steps="10000" \
     --logging_steps="1000" \
     --dtype="bfloat16" \
+    --adafactor \
     --push_to_hub \
+#    --hub_model_id="Finnish-NLP/roberta-large-finnish-v2"