Saving weights and logs of epoch 1

Files changed (4) hide show

.gitattributes CHANGED Viewed

@@ -14,3 +14,4 @@
 *.pb filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text

 *.pb filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

flax_model.msgpack ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:0e8baa516c885994cf9604ab457577b5d4cb18915f3d35ab67799f4be6cf4a11
+size 497764120

run_clm_flax.py ADDED Viewed

	@@ -0,0 +1 @@


1	+ /home/bayartsogtyadamsuren/transformers/examples/flax/language-modeling/run_clm_flax.py

train_clm.sh ADDED Viewed

+./run_clm_flax.py \
+	--output_dir="${MODEL_DIR}" \
+	--model_type="gpt2" \
+	--config_name="${MODEL_DIR}" \
+	--tokenizer_name="${MODEL_DIR}" \
+	--dataset_name="oscar" \
+	--dataset_config_name="unshuffled_deduplicated_mn" \
+	--do_train --do_eval \
+	--block_size="512" \
+	--per_device_train_batch_size="64" \
+	--per_device_eval_batch_size="64" \
+	--learning_rate="5e-3" --warmup_steps="1000" \
+	--adam_beta1="0.9" --adam_beta2="0.98" --weight_decay="0.01" \
+	--overwrite_output_dir \
+	--num_train_epochs="20" \
+	--push_to_hub