ahmedhassan7030 commited on 4 days ago

Commit

8e8e7cf

verified ·

1 Parent(s): 2436d5a

manual push

Browse files

Files changed (22) hide show

checkpoint-15000/config.json +55 -0
checkpoint-15000/generation_config.json +6 -0
checkpoint-15000/model.safetensors +3 -0
checkpoint-15000/optimizer.pt +3 -0
checkpoint-15000/rng_state.pth +3 -0
checkpoint-15000/scheduler.pt +3 -0
checkpoint-15000/special_tokens_map.json +16 -0
checkpoint-15000/tokenizer.json +0 -0
checkpoint-15000/tokenizer_config.json +50 -0
checkpoint-15000/trainer_state.json +492 -0
checkpoint-15000/training_args.bin +3 -0
checkpoint-15500/config.json +55 -0
checkpoint-15500/generation_config.json +6 -0
checkpoint-15500/model.safetensors +3 -0
checkpoint-15500/optimizer.pt +3 -0
checkpoint-15500/rng_state.pth +3 -0
checkpoint-15500/scheduler.pt +3 -0
checkpoint-15500/special_tokens_map.json +16 -0
checkpoint-15500/tokenizer.json +0 -0
checkpoint-15500/tokenizer_config.json +50 -0
checkpoint-15500/trainer_state.json +507 -0
checkpoint-15500/training_args.bin +3 -0

checkpoint-15000/config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "_name_or_path": "EleutherAI/gpt-neo-125M",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPTNeoForCausalLM"
+  ],
+  "attention_dropout": 0,
+  "attention_layers": [
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local"
+  ],
+  "attention_types": [
+    [
+      [
+        "global",
+        "local"
+      ],
+      6
+    ]
+  ],
+  "bos_token_id": 50256,
+  "classifier_dropout": 0.1,
+  "embed_dropout": 0,
+  "eos_token_id": 50256,
+  "gradient_checkpointing": false,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": null,
+  "layer_norm_epsilon": 1e-05,
+  "max_position_embeddings": 2048,
+  "model_type": "gpt_neo",
+  "num_heads": 12,
+  "num_layers": 12,
+  "resid_dropout": 0,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.48.3",
+  "use_cache": true,
+  "vocab_size": 257238,
+  "window_size": 256
+}

checkpoint-15000/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.48.3"
+}

checkpoint-15000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:90ab723d394f28fa745a98ae07732ae15b69818bbe764089cae3d86323d23a1f
+size 1136656968

checkpoint-15000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:446d8b45f226739d9c5599a85498f935910ae70abf9f130dcf55b0cc622a55bd
+size 2273414202

checkpoint-15000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:77e2db468cf60d8fb2122f7d5380f04e37793ade84998ab16f53a921f9367a15
+size 14244

checkpoint-15000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2879a1fca2065a16e812c6277b3f3df3d31f3218056973e54d01475a39330694
+size 1064

checkpoint-15000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-15000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-15000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,50 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "extra_special_tokens": {},
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "tokenizer_class": "PreTrainedTokenizerFast",
+  "unk_token": "[UNK]"
+}

checkpoint-15000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,492 @@

+{
+  "best_metric": 0.944929301738739,
+  "best_model_checkpoint": "./dhivehi_gpt_neo/checkpoint-15000",
+  "epoch": 0.524897644959233,
+  "eval_steps": 500,
+  "global_step": 15000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.017496588165307764,
+      "grad_norm": 0.6128062605857849,
+      "learning_rate": 9.960000000000001e-05,
+      "loss": 1.7949,
+      "step": 500
+    },
+    {
+      "epoch": 0.017496588165307764,
+      "eval_loss": 1.5562938451766968,
+      "eval_runtime": 1838.2839,
+      "eval_samples_per_second": 27.637,
+      "eval_steps_per_second": 3.455,
+      "step": 500
+    },
+    {
+      "epoch": 0.03499317633061553,
+      "grad_norm": 1.0217710733413696,
+      "learning_rate": 9.94157055531438e-05,
+      "loss": 1.4832,
+      "step": 1000
+    },
+    {
+      "epoch": 0.03499317633061553,
+      "eval_loss": 1.4455698728561401,
+      "eval_runtime": 1838.2342,
+      "eval_samples_per_second": 27.637,
+      "eval_steps_per_second": 3.455,
+      "step": 1000
+    },
+    {
+      "epoch": 0.0524897644959233,
+      "grad_norm": 0.7153336405754089,
+      "learning_rate": 9.882906454224403e-05,
+      "loss": 1.4091,
+      "step": 1500
+    },
+    {
+      "epoch": 0.0524897644959233,
+      "eval_loss": 1.3654062747955322,
+      "eval_runtime": 1838.7353,
+      "eval_samples_per_second": 27.63,
+      "eval_steps_per_second": 3.454,
+      "step": 1500
+    },
+    {
+      "epoch": 0.06998635266123106,
+      "grad_norm": 2.103127956390381,
+      "learning_rate": 9.824242353134423e-05,
+      "loss": 1.3518,
+      "step": 2000
+    },
+    {
+      "epoch": 0.06998635266123106,
+      "eval_loss": 1.303843379020691,
+      "eval_runtime": 1838.4453,
+      "eval_samples_per_second": 27.634,
+      "eval_steps_per_second": 3.455,
+      "step": 2000
+    },
+    {
+      "epoch": 0.08748294082653882,
+      "grad_norm": 0.7201130986213684,
+      "learning_rate": 9.765578252044444e-05,
+      "loss": 1.3079,
+      "step": 2500
+    },
+    {
+      "epoch": 0.08748294082653882,
+      "eval_loss": 1.255767583847046,
+      "eval_runtime": 1839.5413,
+      "eval_samples_per_second": 27.618,
+      "eval_steps_per_second": 3.452,
+      "step": 2500
+    },
+    {
+      "epoch": 0.1049795289918466,
+      "grad_norm": 1.7693496942520142,
+      "learning_rate": 9.706914150954466e-05,
+      "loss": 1.2781,
+      "step": 3000
+    },
+    {
+      "epoch": 0.1049795289918466,
+      "eval_loss": 1.222457766532898,
+      "eval_runtime": 1838.7539,
+      "eval_samples_per_second": 27.63,
+      "eval_steps_per_second": 3.454,
+      "step": 3000
+    },
+    {
+      "epoch": 0.12247611715715435,
+      "grad_norm": 1.739169716835022,
+      "learning_rate": 9.648250049864486e-05,
+      "loss": 1.1931,
+      "step": 3500
+    },
+    {
+      "epoch": 0.12247611715715435,
+      "eval_loss": 1.1909434795379639,
+      "eval_runtime": 1838.4303,
+      "eval_samples_per_second": 27.634,
+      "eval_steps_per_second": 3.455,
+      "step": 3500
+    },
+    {
+      "epoch": 0.13997270532246212,
+      "grad_norm": 1.2461516857147217,
+      "learning_rate": 9.589585948774507e-05,
+      "loss": 1.1771,
+      "step": 4000
+    },
+    {
+      "epoch": 0.13997270532246212,
+      "eval_loss": 1.1642112731933594,
+      "eval_runtime": 1839.7956,
+      "eval_samples_per_second": 27.614,
+      "eval_steps_per_second": 3.452,
+      "step": 4000
+    },
+    {
+      "epoch": 0.1574692934877699,
+      "grad_norm": 1.5028084516525269,
+      "learning_rate": 9.530921847684529e-05,
+      "loss": 1.1496,
+      "step": 4500
+    },
+    {
+      "epoch": 0.1574692934877699,
+      "eval_loss": 1.141344428062439,
+      "eval_runtime": 1839.6492,
+      "eval_samples_per_second": 27.616,
+      "eval_steps_per_second": 3.452,
+      "step": 4500
+    },
+    {
+      "epoch": 0.17496588165307764,
+      "grad_norm": 1.0963733196258545,
+      "learning_rate": 9.47225774659455e-05,
+      "loss": 1.1325,
+      "step": 5000
+    },
+    {
+      "epoch": 0.17496588165307764,
+      "eval_loss": 1.12198007106781,
+      "eval_runtime": 1840.0292,
+      "eval_samples_per_second": 27.61,
+      "eval_steps_per_second": 3.452,
+      "step": 5000
+    },
+    {
+      "epoch": 0.1924624698183854,
+      "grad_norm": 0.9784343838691711,
+      "learning_rate": 9.41359364550457e-05,
+      "loss": 1.1301,
+      "step": 5500
+    },
+    {
+      "epoch": 0.1924624698183854,
+      "eval_loss": 1.1025567054748535,
+      "eval_runtime": 1840.7493,
+      "eval_samples_per_second": 27.6,
+      "eval_steps_per_second": 3.45,
+      "step": 5500
+    },
+    {
+      "epoch": 0.2099590579836932,
+      "grad_norm": 1.8819756507873535,
+      "learning_rate": 9.354929544414591e-05,
+      "loss": 1.1118,
+      "step": 6000
+    },
+    {
+      "epoch": 0.2099590579836932,
+      "eval_loss": 1.0877833366394043,
+      "eval_runtime": 1840.7767,
+      "eval_samples_per_second": 27.599,
+      "eval_steps_per_second": 3.45,
+      "step": 6000
+    },
+    {
+      "epoch": 0.22745564614900093,
+      "grad_norm": 1.390010118484497,
+      "learning_rate": 9.296382771526793e-05,
+      "loss": 1.1046,
+      "step": 6500
+    },
+    {
+      "epoch": 0.22745564614900093,
+      "eval_loss": 1.0721691846847534,
+      "eval_runtime": 1840.2034,
+      "eval_samples_per_second": 27.608,
+      "eval_steps_per_second": 3.451,
+      "step": 6500
+    },
+    {
+      "epoch": 0.2449522343143087,
+      "grad_norm": 1.1395955085754395,
+      "learning_rate": 9.237718670436814e-05,
+      "loss": 1.071,
+      "step": 7000
+    },
+    {
+      "epoch": 0.2449522343143087,
+      "eval_loss": 1.0588288307189941,
+      "eval_runtime": 1841.3244,
+      "eval_samples_per_second": 27.591,
+      "eval_steps_per_second": 3.449,
+      "step": 7000
+    },
+    {
+      "epoch": 0.2624488224796165,
+      "grad_norm": 1.557716965675354,
+      "learning_rate": 9.179054569346835e-05,
+      "loss": 1.0578,
+      "step": 7500
+    },
+    {
+      "epoch": 0.2624488224796165,
+      "eval_loss": 1.0490485429763794,
+      "eval_runtime": 1841.5042,
+      "eval_samples_per_second": 27.588,
+      "eval_steps_per_second": 3.449,
+      "step": 7500
+    },
+    {
+      "epoch": 0.27994541064492423,
+      "grad_norm": 1.6820220947265625,
+      "learning_rate": 9.120390468256855e-05,
+      "loss": 1.0293,
+      "step": 8000
+    },
+    {
+      "epoch": 0.27994541064492423,
+      "eval_loss": 1.0374187231063843,
+      "eval_runtime": 1841.7893,
+      "eval_samples_per_second": 27.584,
+      "eval_steps_per_second": 3.448,
+      "step": 8000
+    },
+    {
+      "epoch": 0.297441998810232,
+      "grad_norm": 1.325988531112671,
+      "learning_rate": 9.061726367166876e-05,
+      "loss": 1.0229,
+      "step": 8500
+    },
+    {
+      "epoch": 0.297441998810232,
+      "eval_loss": 1.0274155139923096,
+      "eval_runtime": 1842.3456,
+      "eval_samples_per_second": 27.576,
+      "eval_steps_per_second": 3.447,
+      "step": 8500
+    },
+    {
+      "epoch": 0.3149385869755398,
+      "grad_norm": 1.0609859228134155,
+      "learning_rate": 9.003179594279078e-05,
+      "loss": 1.0345,
+      "step": 9000
+    },
+    {
+      "epoch": 0.3149385869755398,
+      "eval_loss": 1.0168765783309937,
+      "eval_runtime": 1843.5677,
+      "eval_samples_per_second": 27.557,
+      "eval_steps_per_second": 3.445,
+      "step": 9000
+    },
+    {
+      "epoch": 0.3324351751408475,
+      "grad_norm": 0.6549689173698425,
+      "learning_rate": 8.944515493189099e-05,
+      "loss": 1.0255,
+      "step": 9500
+    },
+    {
+      "epoch": 0.3324351751408475,
+      "eval_loss": 1.007939338684082,
+      "eval_runtime": 1841.3868,
+      "eval_samples_per_second": 27.59,
+      "eval_steps_per_second": 3.449,
+      "step": 9500
+    },
+    {
+      "epoch": 0.3499317633061553,
+      "grad_norm": 1.5119966268539429,
+      "learning_rate": 8.88585139209912e-05,
+      "loss": 1.0412,
+      "step": 10000
+    },
+    {
+      "epoch": 0.3499317633061553,
+      "eval_loss": 1.0019127130508423,
+      "eval_runtime": 1841.6495,
+      "eval_samples_per_second": 27.586,
+      "eval_steps_per_second": 3.449,
+      "step": 10000
+    },
+    {
+      "epoch": 0.3674283514714631,
+      "grad_norm": 1.2304165363311768,
+      "learning_rate": 8.82718729100914e-05,
+      "loss": 0.9972,
+      "step": 10500
+    },
+    {
+      "epoch": 0.3674283514714631,
+      "eval_loss": 0.9952266216278076,
+      "eval_runtime": 1841.7158,
+      "eval_samples_per_second": 27.585,
+      "eval_steps_per_second": 3.448,
+      "step": 10500
+    },
+    {
+      "epoch": 0.3849249396367708,
+      "grad_norm": 1.0097540616989136,
+      "learning_rate": 8.768640518121341e-05,
+      "loss": 0.9861,
+      "step": 11000
+    },
+    {
+      "epoch": 0.3849249396367708,
+      "eval_loss": 0.9871318936347961,
+      "eval_runtime": 1841.3777,
+      "eval_samples_per_second": 27.59,
+      "eval_steps_per_second": 3.449,
+      "step": 11000
+    },
+    {
+      "epoch": 0.40242152780207857,
+      "grad_norm": 1.4742999076843262,
+      "learning_rate": 8.709976417031363e-05,
+      "loss": 0.979,
+      "step": 11500
+    },
+    {
+      "epoch": 0.40242152780207857,
+      "eval_loss": 0.9808717370033264,
+      "eval_runtime": 1841.6224,
+      "eval_samples_per_second": 27.587,
+      "eval_steps_per_second": 3.449,
+      "step": 11500
+    },
+    {
+      "epoch": 0.4199181159673864,
+      "grad_norm": 1.0650264024734497,
+      "learning_rate": 8.651312315941384e-05,
+      "loss": 0.9968,
+      "step": 12000
+    },
+    {
+      "epoch": 0.4199181159673864,
+      "eval_loss": 0.9748508930206299,
+      "eval_runtime": 1841.2412,
+      "eval_samples_per_second": 27.592,
+      "eval_steps_per_second": 3.449,
+      "step": 12000
+    },
+    {
+      "epoch": 0.4374147041326941,
+      "grad_norm": 0.9701998233795166,
+      "learning_rate": 8.592648214851404e-05,
+      "loss": 0.978,
+      "step": 12500
+    },
+    {
+      "epoch": 0.4374147041326941,
+      "eval_loss": 0.9688844680786133,
+      "eval_runtime": 1841.3182,
+      "eval_samples_per_second": 27.591,
+      "eval_steps_per_second": 3.449,
+      "step": 12500
+    },
+    {
+      "epoch": 0.45491129229800187,
+      "grad_norm": 1.7642956972122192,
+      "learning_rate": 8.533984113761425e-05,
+      "loss": 0.9682,
+      "step": 13000
+    },
+    {
+      "epoch": 0.45491129229800187,
+      "eval_loss": 0.9631832838058472,
+      "eval_runtime": 1842.1886,
+      "eval_samples_per_second": 27.578,
+      "eval_steps_per_second": 3.448,
+      "step": 13000
+    },
+    {
+      "epoch": 0.47240788046330967,
+      "grad_norm": 1.9703904390335083,
+      "learning_rate": 8.475320012671446e-05,
+      "loss": 0.9594,
+      "step": 13500
+    },
+    {
+      "epoch": 0.47240788046330967,
+      "eval_loss": 0.9580743908882141,
+      "eval_runtime": 1841.8156,
+      "eval_samples_per_second": 27.584,
+      "eval_steps_per_second": 3.448,
+      "step": 13500
+    },
+    {
+      "epoch": 0.4899044686286174,
+      "grad_norm": 1.6822909116744995,
+      "learning_rate": 8.416655911581468e-05,
+      "loss": 0.9565,
+      "step": 14000
+    },
+    {
+      "epoch": 0.4899044686286174,
+      "eval_loss": 0.952092707157135,
+      "eval_runtime": 1841.6575,
+      "eval_samples_per_second": 27.586,
+      "eval_steps_per_second": 3.449,
+      "step": 14000
+    },
+    {
+      "epoch": 0.5074010567939252,
+      "grad_norm": 1.2567087411880493,
+      "learning_rate": 8.357991810491488e-05,
+      "loss": 0.9328,
+      "step": 14500
+    },
+    {
+      "epoch": 0.5074010567939252,
+      "eval_loss": 0.9498482346534729,
+      "eval_runtime": 1841.8538,
+      "eval_samples_per_second": 27.583,
+      "eval_steps_per_second": 3.448,
+      "step": 14500
+    },
+    {
+      "epoch": 0.524897644959233,
+      "grad_norm": 1.645724892616272,
+      "learning_rate": 8.299445037603689e-05,
+      "loss": 0.9612,
+      "step": 15000
+    },
+    {
+      "epoch": 0.524897644959233,
+      "eval_loss": 0.944929301738739,
+      "eval_runtime": 1841.6649,
+      "eval_samples_per_second": 27.586,
+      "eval_steps_per_second": 3.449,
+      "step": 15000
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 85731,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6.268970336256e+16,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-15000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d1174044396b4e2f4cc6381a71fd810c6b5d8fb1d414d61315c45be1a1a8533a
+size 5304

checkpoint-15500/config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "_name_or_path": "EleutherAI/gpt-neo-125M",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPTNeoForCausalLM"
+  ],
+  "attention_dropout": 0,
+  "attention_layers": [
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local"
+  ],
+  "attention_types": [
+    [
+      [
+        "global",
+        "local"
+      ],
+      6
+    ]
+  ],
+  "bos_token_id": 50256,
+  "classifier_dropout": 0.1,
+  "embed_dropout": 0,
+  "eos_token_id": 50256,
+  "gradient_checkpointing": false,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": null,
+  "layer_norm_epsilon": 1e-05,
+  "max_position_embeddings": 2048,
+  "model_type": "gpt_neo",
+  "num_heads": 12,
+  "num_layers": 12,
+  "resid_dropout": 0,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.48.3",
+  "use_cache": true,
+  "vocab_size": 257238,
+  "window_size": 256
+}

checkpoint-15500/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.48.3"
+}

checkpoint-15500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:76b001cfe4a152d5dcfa55e18d45cc53de7ad8dbf7e63a85604725daf7c2e418
+size 1136656968

checkpoint-15500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:beffaf7698d6c120d20764d20a5502c6486322b9b685e5247593d6eaaa6ddc77
+size 2273414202

checkpoint-15500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:27a79239f98d586c6d293becfe4724cb48ad892f743d1e770886cde54b3333d6
+size 14244

checkpoint-15500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3f3f55fb9dfd5c7efd324389470b763dda292d117c6f20c92a51034a7779553e
+size 1064

checkpoint-15500/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-15500/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-15500/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,50 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "extra_special_tokens": {},
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "tokenizer_class": "PreTrainedTokenizerFast",
+  "unk_token": "[UNK]"
+}

checkpoint-15500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,507 @@

+{
+  "best_metric": 0.9399999380111694,
+  "best_model_checkpoint": "./dhivehi_gpt_neo/checkpoint-15500",
+  "epoch": 0.5423942331245407,
+  "eval_steps": 500,
+  "global_step": 15500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.017496588165307764,
+      "grad_norm": 0.6128062605857849,
+      "learning_rate": 9.960000000000001e-05,
+      "loss": 1.7949,
+      "step": 500
+    },
+    {
+      "epoch": 0.017496588165307764,
+      "eval_loss": 1.5562938451766968,
+      "eval_runtime": 1838.2839,
+      "eval_samples_per_second": 27.637,
+      "eval_steps_per_second": 3.455,
+      "step": 500
+    },
+    {
+      "epoch": 0.03499317633061553,
+      "grad_norm": 1.0217710733413696,
+      "learning_rate": 9.94157055531438e-05,
+      "loss": 1.4832,
+      "step": 1000
+    },
+    {
+      "epoch": 0.03499317633061553,
+      "eval_loss": 1.4455698728561401,
+      "eval_runtime": 1838.2342,
+      "eval_samples_per_second": 27.637,
+      "eval_steps_per_second": 3.455,
+      "step": 1000
+    },
+    {
+      "epoch": 0.0524897644959233,
+      "grad_norm": 0.7153336405754089,
+      "learning_rate": 9.882906454224403e-05,
+      "loss": 1.4091,
+      "step": 1500
+    },
+    {
+      "epoch": 0.0524897644959233,
+      "eval_loss": 1.3654062747955322,
+      "eval_runtime": 1838.7353,
+      "eval_samples_per_second": 27.63,
+      "eval_steps_per_second": 3.454,
+      "step": 1500
+    },
+    {
+      "epoch": 0.06998635266123106,
+      "grad_norm": 2.103127956390381,
+      "learning_rate": 9.824242353134423e-05,
+      "loss": 1.3518,
+      "step": 2000
+    },
+    {
+      "epoch": 0.06998635266123106,
+      "eval_loss": 1.303843379020691,
+      "eval_runtime": 1838.4453,
+      "eval_samples_per_second": 27.634,
+      "eval_steps_per_second": 3.455,
+      "step": 2000
+    },
+    {
+      "epoch": 0.08748294082653882,
+      "grad_norm": 0.7201130986213684,
+      "learning_rate": 9.765578252044444e-05,
+      "loss": 1.3079,
+      "step": 2500
+    },
+    {
+      "epoch": 0.08748294082653882,
+      "eval_loss": 1.255767583847046,
+      "eval_runtime": 1839.5413,
+      "eval_samples_per_second": 27.618,
+      "eval_steps_per_second": 3.452,
+      "step": 2500
+    },
+    {
+      "epoch": 0.1049795289918466,
+      "grad_norm": 1.7693496942520142,
+      "learning_rate": 9.706914150954466e-05,
+      "loss": 1.2781,
+      "step": 3000
+    },
+    {
+      "epoch": 0.1049795289918466,
+      "eval_loss": 1.222457766532898,
+      "eval_runtime": 1838.7539,
+      "eval_samples_per_second": 27.63,
+      "eval_steps_per_second": 3.454,
+      "step": 3000
+    },
+    {
+      "epoch": 0.12247611715715435,
+      "grad_norm": 1.739169716835022,
+      "learning_rate": 9.648250049864486e-05,
+      "loss": 1.1931,
+      "step": 3500
+    },
+    {
+      "epoch": 0.12247611715715435,
+      "eval_loss": 1.1909434795379639,
+      "eval_runtime": 1838.4303,
+      "eval_samples_per_second": 27.634,
+      "eval_steps_per_second": 3.455,
+      "step": 3500
+    },
+    {
+      "epoch": 0.13997270532246212,
+      "grad_norm": 1.2461516857147217,
+      "learning_rate": 9.589585948774507e-05,
+      "loss": 1.1771,
+      "step": 4000
+    },
+    {
+      "epoch": 0.13997270532246212,
+      "eval_loss": 1.1642112731933594,
+      "eval_runtime": 1839.7956,
+      "eval_samples_per_second": 27.614,
+      "eval_steps_per_second": 3.452,
+      "step": 4000
+    },
+    {
+      "epoch": 0.1574692934877699,
+      "grad_norm": 1.5028084516525269,
+      "learning_rate": 9.530921847684529e-05,
+      "loss": 1.1496,
+      "step": 4500
+    },
+    {
+      "epoch": 0.1574692934877699,
+      "eval_loss": 1.141344428062439,
+      "eval_runtime": 1839.6492,
+      "eval_samples_per_second": 27.616,
+      "eval_steps_per_second": 3.452,
+      "step": 4500
+    },
+    {
+      "epoch": 0.17496588165307764,
+      "grad_norm": 1.0963733196258545,
+      "learning_rate": 9.47225774659455e-05,
+      "loss": 1.1325,
+      "step": 5000
+    },
+    {
+      "epoch": 0.17496588165307764,
+      "eval_loss": 1.12198007106781,
+      "eval_runtime": 1840.0292,
+      "eval_samples_per_second": 27.61,
+      "eval_steps_per_second": 3.452,
+      "step": 5000
+    },
+    {
+      "epoch": 0.1924624698183854,
+      "grad_norm": 0.9784343838691711,
+      "learning_rate": 9.41359364550457e-05,
+      "loss": 1.1301,
+      "step": 5500
+    },
+    {
+      "epoch": 0.1924624698183854,
+      "eval_loss": 1.1025567054748535,
+      "eval_runtime": 1840.7493,
+      "eval_samples_per_second": 27.6,
+      "eval_steps_per_second": 3.45,
+      "step": 5500
+    },
+    {
+      "epoch": 0.2099590579836932,
+      "grad_norm": 1.8819756507873535,
+      "learning_rate": 9.354929544414591e-05,
+      "loss": 1.1118,
+      "step": 6000
+    },
+    {
+      "epoch": 0.2099590579836932,
+      "eval_loss": 1.0877833366394043,
+      "eval_runtime": 1840.7767,
+      "eval_samples_per_second": 27.599,
+      "eval_steps_per_second": 3.45,
+      "step": 6000
+    },
+    {
+      "epoch": 0.22745564614900093,
+      "grad_norm": 1.390010118484497,
+      "learning_rate": 9.296382771526793e-05,
+      "loss": 1.1046,
+      "step": 6500
+    },
+    {
+      "epoch": 0.22745564614900093,
+      "eval_loss": 1.0721691846847534,
+      "eval_runtime": 1840.2034,
+      "eval_samples_per_second": 27.608,
+      "eval_steps_per_second": 3.451,
+      "step": 6500
+    },
+    {
+      "epoch": 0.2449522343143087,
+      "grad_norm": 1.1395955085754395,
+      "learning_rate": 9.237718670436814e-05,
+      "loss": 1.071,
+      "step": 7000
+    },
+    {
+      "epoch": 0.2449522343143087,
+      "eval_loss": 1.0588288307189941,
+      "eval_runtime": 1841.3244,
+      "eval_samples_per_second": 27.591,
+      "eval_steps_per_second": 3.449,
+      "step": 7000
+    },
+    {
+      "epoch": 0.2624488224796165,
+      "grad_norm": 1.557716965675354,
+      "learning_rate": 9.179054569346835e-05,
+      "loss": 1.0578,
+      "step": 7500
+    },
+    {
+      "epoch": 0.2624488224796165,
+      "eval_loss": 1.0490485429763794,
+      "eval_runtime": 1841.5042,
+      "eval_samples_per_second": 27.588,
+      "eval_steps_per_second": 3.449,
+      "step": 7500
+    },
+    {
+      "epoch": 0.27994541064492423,
+      "grad_norm": 1.6820220947265625,
+      "learning_rate": 9.120390468256855e-05,
+      "loss": 1.0293,
+      "step": 8000
+    },
+    {
+      "epoch": 0.27994541064492423,
+      "eval_loss": 1.0374187231063843,
+      "eval_runtime": 1841.7893,
+      "eval_samples_per_second": 27.584,
+      "eval_steps_per_second": 3.448,
+      "step": 8000
+    },
+    {
+      "epoch": 0.297441998810232,
+      "grad_norm": 1.325988531112671,
+      "learning_rate": 9.061726367166876e-05,
+      "loss": 1.0229,
+      "step": 8500
+    },
+    {
+      "epoch": 0.297441998810232,
+      "eval_loss": 1.0274155139923096,
+      "eval_runtime": 1842.3456,
+      "eval_samples_per_second": 27.576,
+      "eval_steps_per_second": 3.447,
+      "step": 8500
+    },
+    {
+      "epoch": 0.3149385869755398,
+      "grad_norm": 1.0609859228134155,
+      "learning_rate": 9.003179594279078e-05,
+      "loss": 1.0345,
+      "step": 9000
+    },
+    {
+      "epoch": 0.3149385869755398,
+      "eval_loss": 1.0168765783309937,
+      "eval_runtime": 1843.5677,
+      "eval_samples_per_second": 27.557,
+      "eval_steps_per_second": 3.445,
+      "step": 9000
+    },
+    {
+      "epoch": 0.3324351751408475,
+      "grad_norm": 0.6549689173698425,
+      "learning_rate": 8.944515493189099e-05,
+      "loss": 1.0255,
+      "step": 9500
+    },
+    {
+      "epoch": 0.3324351751408475,
+      "eval_loss": 1.007939338684082,
+      "eval_runtime": 1841.3868,
+      "eval_samples_per_second": 27.59,
+      "eval_steps_per_second": 3.449,
+      "step": 9500
+    },
+    {
+      "epoch": 0.3499317633061553,
+      "grad_norm": 1.5119966268539429,
+      "learning_rate": 8.88585139209912e-05,
+      "loss": 1.0412,
+      "step": 10000
+    },
+    {
+      "epoch": 0.3499317633061553,
+      "eval_loss": 1.0019127130508423,
+      "eval_runtime": 1841.6495,
+      "eval_samples_per_second": 27.586,
+      "eval_steps_per_second": 3.449,
+      "step": 10000
+    },
+    {
+      "epoch": 0.3674283514714631,
+      "grad_norm": 1.2304165363311768,
+      "learning_rate": 8.82718729100914e-05,
+      "loss": 0.9972,
+      "step": 10500
+    },
+    {
+      "epoch": 0.3674283514714631,
+      "eval_loss": 0.9952266216278076,
+      "eval_runtime": 1841.7158,
+      "eval_samples_per_second": 27.585,
+      "eval_steps_per_second": 3.448,
+      "step": 10500
+    },
+    {
+      "epoch": 0.3849249396367708,
+      "grad_norm": 1.0097540616989136,
+      "learning_rate": 8.768640518121341e-05,
+      "loss": 0.9861,
+      "step": 11000
+    },
+    {
+      "epoch": 0.3849249396367708,
+      "eval_loss": 0.9871318936347961,
+      "eval_runtime": 1841.3777,
+      "eval_samples_per_second": 27.59,
+      "eval_steps_per_second": 3.449,
+      "step": 11000
+    },
+    {
+      "epoch": 0.40242152780207857,
+      "grad_norm": 1.4742999076843262,
+      "learning_rate": 8.709976417031363e-05,
+      "loss": 0.979,
+      "step": 11500
+    },
+    {
+      "epoch": 0.40242152780207857,
+      "eval_loss": 0.9808717370033264,
+      "eval_runtime": 1841.6224,
+      "eval_samples_per_second": 27.587,
+      "eval_steps_per_second": 3.449,
+      "step": 11500
+    },
+    {
+      "epoch": 0.4199181159673864,
+      "grad_norm": 1.0650264024734497,
+      "learning_rate": 8.651312315941384e-05,
+      "loss": 0.9968,
+      "step": 12000
+    },
+    {
+      "epoch": 0.4199181159673864,
+      "eval_loss": 0.9748508930206299,
+      "eval_runtime": 1841.2412,
+      "eval_samples_per_second": 27.592,
+      "eval_steps_per_second": 3.449,
+      "step": 12000
+    },
+    {
+      "epoch": 0.4374147041326941,
+      "grad_norm": 0.9701998233795166,
+      "learning_rate": 8.592648214851404e-05,
+      "loss": 0.978,
+      "step": 12500
+    },
+    {
+      "epoch": 0.4374147041326941,
+      "eval_loss": 0.9688844680786133,
+      "eval_runtime": 1841.3182,
+      "eval_samples_per_second": 27.591,
+      "eval_steps_per_second": 3.449,
+      "step": 12500
+    },
+    {
+      "epoch": 0.45491129229800187,
+      "grad_norm": 1.7642956972122192,
+      "learning_rate": 8.533984113761425e-05,
+      "loss": 0.9682,
+      "step": 13000
+    },
+    {
+      "epoch": 0.45491129229800187,
+      "eval_loss": 0.9631832838058472,
+      "eval_runtime": 1842.1886,
+      "eval_samples_per_second": 27.578,
+      "eval_steps_per_second": 3.448,
+      "step": 13000
+    },
+    {
+      "epoch": 0.47240788046330967,
+      "grad_norm": 1.9703904390335083,
+      "learning_rate": 8.475320012671446e-05,
+      "loss": 0.9594,
+      "step": 13500
+    },
+    {
+      "epoch": 0.47240788046330967,
+      "eval_loss": 0.9580743908882141,
+      "eval_runtime": 1841.8156,
+      "eval_samples_per_second": 27.584,
+      "eval_steps_per_second": 3.448,
+      "step": 13500
+    },
+    {
+      "epoch": 0.4899044686286174,
+      "grad_norm": 1.6822909116744995,
+      "learning_rate": 8.416655911581468e-05,
+      "loss": 0.9565,
+      "step": 14000
+    },
+    {
+      "epoch": 0.4899044686286174,
+      "eval_loss": 0.952092707157135,
+      "eval_runtime": 1841.6575,
+      "eval_samples_per_second": 27.586,
+      "eval_steps_per_second": 3.449,
+      "step": 14000
+    },
+    {
+      "epoch": 0.5074010567939252,
+      "grad_norm": 1.2567087411880493,
+      "learning_rate": 8.357991810491488e-05,
+      "loss": 0.9328,
+      "step": 14500
+    },
+    {
+      "epoch": 0.5074010567939252,
+      "eval_loss": 0.9498482346534729,
+      "eval_runtime": 1841.8538,
+      "eval_samples_per_second": 27.583,
+      "eval_steps_per_second": 3.448,
+      "step": 14500
+    },
+    {
+      "epoch": 0.524897644959233,
+      "grad_norm": 1.645724892616272,
+      "learning_rate": 8.299445037603689e-05,
+      "loss": 0.9612,
+      "step": 15000
+    },
+    {
+      "epoch": 0.524897644959233,
+      "eval_loss": 0.944929301738739,
+      "eval_runtime": 1841.6649,
+      "eval_samples_per_second": 27.586,
+      "eval_steps_per_second": 3.449,
+      "step": 15000
+    },
+    {
+      "epoch": 0.5423942331245407,
+      "grad_norm": 1.0592772960662842,
+      "learning_rate": 8.24089826471589e-05,
+      "loss": 0.9532,
+      "step": 15500
+    },
+    {
+      "epoch": 0.5423942331245407,
+      "eval_loss": 0.9399999380111694,
+      "eval_runtime": 1841.4529,
+      "eval_samples_per_second": 27.589,
+      "eval_steps_per_second": 3.449,
+      "step": 15500
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 85731,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6.4779360141312e+16,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-15500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d1174044396b4e2f4cc6381a71fd810c6b5d8fb1d414d61315c45be1a1a8533a
+size 5304