Saving weights and logs of epoch 1

Files changed (9) hide show

.gitattributes CHANGED Viewed

@@ -14,3 +14,4 @@
 *.pb filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text

 *.pb filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

config.json ADDED Viewed

+{
+  "architectures": [
+    "RobertaForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "transformers_version": "4.9.0.dev0",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 50265
+}

events.out.tfevents.1625460253.t1v-n-ca847b55-w-0.223752.3.v2 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:b14592f3d5c033ef71f8f184590d5601c7fb34ae48fd9ae2a42c146d6062b6a7
+size 110080

flax_model.msgpack ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:1492e9fabddf37e34be75ab81414b608e6e56ed031572e9b58b35baf1b9514a4
+size 498796983

run_config.py ADDED Viewed

+from transformers import RobertaConfig
+model_dir = "./"  # ${MODEL_DIR}
+config = RobertaConfig.from_pretrained("roberta-base")
+config.save_pretrained(model_dir)

run_mlm_flax.py ADDED Viewed

	@@ -0,0 +1 @@


1	+ /home/bayartsogtyadamsuren/transformers/examples/flax/language-modeling/run_mlm_flax.py

run_tokenizer.py ADDED Viewed

+from datasets import load_dataset
+from tokenizers import trainers, Tokenizer, normalizers, ByteLevelBPETokenizer
+model_dir = "./"  # ${MODEL_DIR}
+# load dataset
+dataset = load_dataset("oscar", "unshuffled_deduplicated_mn", split="train")
+# Instantiate tokenizer
+tokenizer = ByteLevelBPETokenizer()
+def batch_iterator(batch_size=1000):
+    for i in range(0, len(dataset), batch_size):
+        yield dataset[i: i + batch_size]["text"]
+# Customized training
+tokenizer.train_from_iterator(batch_iterator(), vocab_size=50265, min_frequency=2, special_tokens=[
+    "<s>",
+    "<pad>",
+    "</s>",
+    "<unk>",
+    "<mask>",
+])
+# Save files to disk
+tokenizer.save(f"{model_dir}/tokenizer.json")

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

train_mlm.sh ADDED Viewed

+./run_mlm_flax.py \
+	--output_dir="${MODEL_DIR}" \
+	--model_type="roberta" \
+	--config_name="${MODEL_DIR}" \
+	--tokenizer_name="${MODEL_DIR}" \
+	--dataset_name="oscar" \
+	--dataset_config_name="unshuffled_deduplicated_mn" \
+	--max_seq_length="128" \
+	--weight_decay="0.01" \
+	--per_device_train_batch_size="128" \
+	--per_device_eval_batch_size="128" \
+	--learning_rate="3e-4" \
+	--warmup_steps="1000" \
+	--overwrite_output_dir \
+	--pad_to_max_length \
+	--num_train_epochs="18" \
+	--adam_beta1="0.9" \
+	--adam_beta2="0.98" \
+	--push_to_hub