Model save

Browse files

Files changed (14) hide show

last-checkpoint/config.json +0 -28
last-checkpoint/merges.txt +0 -0
last-checkpoint/optimizer.pt +0 -3
last-checkpoint/pytorch_model.bin +0 -3
last-checkpoint/rng_state.pth +0 -3
last-checkpoint/scheduler.pt +0 -3
last-checkpoint/special_tokens_map.json +0 -51
last-checkpoint/tokenizer.json +0 -0
last-checkpoint/tokenizer_config.json +0 -65
last-checkpoint/trainer_state.json +0 -982
last-checkpoint/training_args.bin +0 -3
last-checkpoint/vocab.json +0 -0
pytorch_model.bin +1 -1
runs/Feb05_20-23-46_turing/events.out.tfevents.1675625038.turing.943015.1 +2 -2

last-checkpoint/config.json DELETED Viewed

@@ -1,28 +0,0 @@
-{
-  "_name_or_path": "/home/pcjf/CESGA/works/lmodels/models/tiny",
-  "architectures": [
-    "RobertaForMaskedLM"
-  ],
-  "attention_probs_dropout_prob": 0.1,
-  "bos_token_id": 0,
-  "classifier_dropout": null,
-  "eos_token_id": 2,
-  "gradient_checkpointing": false,
-  "hidden_act": "gelu",
-  "hidden_dropout_prob": 0.1,
-  "hidden_size": 768,
-  "initializer_range": 0.02,
-  "intermediate_size": 3072,
-  "layer_norm_eps": 1e-12,
-  "max_position_embeddings": 514,
-  "model_type": "roberta",
-  "num_attention_heads": 12,
-  "num_hidden_layers": 6,
-  "pad_token_id": 1,
-  "position_embedding_type": "absolute",
-  "torch_dtype": "float32",
-  "transformers_version": "4.24.0",
-  "type_vocab_size": 1,
-  "use_cache": true,
-  "vocab_size": 31002
-}

last-checkpoint/merges.txt DELETED Viewed

The diff for this file is too large to render. See raw diff

last-checkpoint/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:c31deffa3cbd4ce7680c9f958b65badb5e318d2f77aa59f3a9adaeda5aa198bd
-size 538943941

last-checkpoint/pytorch_model.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:8fb1bec33c4431f9607772bf7db9d5ab7b3cddb8480fac34b5229ab54e6b0616
-size 269468281

last-checkpoint/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:6354b3a5422c28a3a5a73b71565a42829474a3c347615e37c20c87de92d294e2
-size 14575

last-checkpoint/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:0ff1be153872ceab362bc8f896bf3f611b155e54edf151eccfc448653a32209d
-size 627

last-checkpoint/special_tokens_map.json DELETED Viewed

@@ -1,51 +0,0 @@
-{
-  "bos_token": {
-    "content": "<s>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "cls_token": {
-    "content": "<s>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "eos_token": {
-    "content": "</s>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "mask_token": {
-    "content": "<mask>",
-    "lstrip": true,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": {
-    "content": "<pad>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "sep_token": {
-    "content": "</s>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "unk_token": {
-    "content": "<unk>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  }
-}

last-checkpoint/tokenizer.json DELETED Viewed

The diff for this file is too large to render. See raw diff

last-checkpoint/tokenizer_config.json DELETED Viewed

@@ -1,65 +0,0 @@
-{
-  "add_prefix_space": false,
-  "bos_token": {
-    "__type": "AddedToken",
-    "content": "<s>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "cls_token": {
-    "__type": "AddedToken",
-    "content": "<s>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "eos_token": {
-    "__type": "AddedToken",
-    "content": "</s>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "errors": "replace",
-  "mask_token": {
-    "__type": "AddedToken",
-    "content": "<mask>",
-    "lstrip": true,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "max_len": 512,
-  "name_or_path": "/home/pcjf/CESGA/works/lmodels/models/tiny",
-  "pad_token": {
-    "__type": "AddedToken",
-    "content": "<pad>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "sep_token": {
-    "__type": "AddedToken",
-    "content": "</s>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "special_tokens_map_file": null,
-  "tokenizer_class": "RobertaTokenizer",
-  "trim_offsets": true,
-  "unk_token": {
-    "__type": "AddedToken",
-    "content": "<unk>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  }
-}

last-checkpoint/trainer_state.json DELETED Viewed

@@ -1,982 +0,0 @@
-{
-  "best_metric": 1.4411557912826538,
-  "best_model_checkpoint": "/home/pcjf/CESGA/works/lmodels/models/tiny/checkpoint-1500",
-  "epoch": 14.902730598086016,
-  "global_step": 103500,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.22,
-      "learning_rate": 9.856011519078475e-06,
-      "loss": 1.5017,
-      "step": 1500
-    },
-    {
-      "epoch": 0.22,
-      "eval_loss": 1.4411557912826538,
-      "eval_runtime": 28.0714,
-      "eval_samples_per_second": 646.423,
-      "eval_steps_per_second": 80.83,
-      "step": 1500
-    },
-    {
-      "epoch": 0.43,
-      "learning_rate": 9.712023038156948e-06,
-      "loss": 1.5201,
-      "step": 3000
-    },
-    {
-      "epoch": 0.43,
-      "eval_loss": 1.4574847221374512,
-      "eval_runtime": 28.0255,
-      "eval_samples_per_second": 647.481,
-      "eval_steps_per_second": 80.962,
-      "step": 3000
-    },
-    {
-      "epoch": 0.65,
-      "learning_rate": 9.568034557235422e-06,
-      "loss": 1.5413,
-      "step": 4500
-    },
-    {
-      "epoch": 0.65,
-      "eval_loss": 1.4590709209442139,
-      "eval_runtime": 28.3842,
-      "eval_samples_per_second": 639.299,
-      "eval_steps_per_second": 79.939,
-      "step": 4500
-    },
-    {
-      "epoch": 0.86,
-      "learning_rate": 9.424046076313895e-06,
-      "loss": 1.5538,
-      "step": 6000
-    },
-    {
-      "epoch": 0.86,
-      "eval_loss": 1.4813467264175415,
-      "eval_runtime": 28.197,
-      "eval_samples_per_second": 643.543,
-      "eval_steps_per_second": 80.469,
-      "step": 6000
-    },
-    {
-      "epoch": 1.08,
-      "learning_rate": 9.28005759539237e-06,
-      "loss": 1.5678,
-      "step": 7500
-    },
-    {
-      "epoch": 1.08,
-      "eval_loss": 1.4866962432861328,
-      "eval_runtime": 28.5007,
-      "eval_samples_per_second": 636.687,
-      "eval_steps_per_second": 79.612,
-      "step": 7500
-    },
-    {
-      "epoch": 1.3,
-      "learning_rate": 9.136069114470844e-06,
-      "loss": 1.5764,
-      "step": 9000
-    },
-    {
-      "epoch": 1.3,
-      "eval_loss": 1.513939619064331,
-      "eval_runtime": 29.225,
-      "eval_samples_per_second": 620.907,
-      "eval_steps_per_second": 77.639,
-      "step": 9000
-    },
-    {
-      "epoch": 1.51,
-      "learning_rate": 8.992080633549316e-06,
-      "loss": 1.5846,
-      "step": 10500
-    },
-    {
-      "epoch": 1.51,
-      "eval_loss": 1.5256775617599487,
-      "eval_runtime": 29.0447,
-      "eval_samples_per_second": 624.761,
-      "eval_steps_per_second": 78.121,
-      "step": 10500
-    },
-    {
-      "epoch": 1.73,
-      "learning_rate": 8.84809215262779e-06,
-      "loss": 1.5979,
-      "step": 12000
-    },
-    {
-      "epoch": 1.73,
-      "eval_loss": 1.5338753461837769,
-      "eval_runtime": 28.1783,
-      "eval_samples_per_second": 643.97,
-      "eval_steps_per_second": 80.523,
-      "step": 12000
-    },
-    {
-      "epoch": 1.94,
-      "learning_rate": 8.704103671706265e-06,
-      "loss": 1.6076,
-      "step": 13500
-    },
-    {
-      "epoch": 1.94,
-      "eval_loss": 1.5177161693572998,
-      "eval_runtime": 28.0148,
-      "eval_samples_per_second": 647.728,
-      "eval_steps_per_second": 80.993,
-      "step": 13500
-    },
-    {
-      "epoch": 2.16,
-      "learning_rate": 8.560115190784738e-06,
-      "loss": 1.6124,
-      "step": 15000
-    },
-    {
-      "epoch": 2.16,
-      "eval_loss": 1.535063624382019,
-      "eval_runtime": 27.7415,
-      "eval_samples_per_second": 654.111,
-      "eval_steps_per_second": 81.791,
-      "step": 15000
-    },
-    {
-      "epoch": 2.38,
-      "learning_rate": 8.416126709863212e-06,
-      "loss": 1.6205,
-      "step": 16500
-    },
-    {
-      "epoch": 2.38,
-      "eval_loss": 1.5186307430267334,
-      "eval_runtime": 31.4398,
-      "eval_samples_per_second": 577.166,
-      "eval_steps_per_second": 72.17,
-      "step": 16500
-    },
-    {
-      "epoch": 2.59,
-      "learning_rate": 8.272138228941685e-06,
-      "loss": 1.63,
-      "step": 18000
-    },
-    {
-      "epoch": 2.59,
-      "eval_loss": 1.5418357849121094,
-      "eval_runtime": 32.7447,
-      "eval_samples_per_second": 554.166,
-      "eval_steps_per_second": 69.294,
-      "step": 18000
-    },
-    {
-      "epoch": 2.81,
-      "learning_rate": 8.12814974802016e-06,
-      "loss": 1.6344,
-      "step": 19500
-    },
-    {
-      "epoch": 2.81,
-      "eval_loss": 1.5568139553070068,
-      "eval_runtime": 36.2173,
-      "eval_samples_per_second": 501.032,
-      "eval_steps_per_second": 62.65,
-      "step": 19500
-    },
-    {
-      "epoch": 3.02,
-      "learning_rate": 7.984161267098632e-06,
-      "loss": 1.6422,
-      "step": 21000
-    },
-    {
-      "epoch": 3.02,
-      "eval_loss": 1.5598657131195068,
-      "eval_runtime": 36.4049,
-      "eval_samples_per_second": 498.45,
-      "eval_steps_per_second": 62.327,
-      "step": 21000
-    },
-    {
-      "epoch": 3.24,
-      "learning_rate": 7.840172786177106e-06,
-      "loss": 1.645,
-      "step": 22500
-    },
-    {
-      "epoch": 3.24,
-      "eval_loss": 1.5735074281692505,
-      "eval_runtime": 35.5905,
-      "eval_samples_per_second": 509.856,
-      "eval_steps_per_second": 63.753,
-      "step": 22500
-    },
-    {
-      "epoch": 3.46,
-      "learning_rate": 7.69618430525558e-06,
-      "loss": 1.6501,
-      "step": 24000
-    },
-    {
-      "epoch": 3.46,
-      "eval_loss": 1.5522310733795166,
-      "eval_runtime": 32.903,
-      "eval_samples_per_second": 551.499,
-      "eval_steps_per_second": 68.96,
-      "step": 24000
-    },
-    {
-      "epoch": 3.67,
-      "learning_rate": 7.552195824334054e-06,
-      "loss": 1.6549,
-      "step": 25500
-    },
-    {
-      "epoch": 3.67,
-      "eval_loss": 1.5705277919769287,
-      "eval_runtime": 37.9709,
-      "eval_samples_per_second": 477.893,
-      "eval_steps_per_second": 59.756,
-      "step": 25500
-    },
-    {
-      "epoch": 3.89,
-      "learning_rate": 7.408207343412528e-06,
-      "loss": 1.6613,
-      "step": 27000
-    },
-    {
-      "epoch": 3.89,
-      "eval_loss": 1.571619987487793,
-      "eval_runtime": 30.4083,
-      "eval_samples_per_second": 596.745,
-      "eval_steps_per_second": 74.618,
-      "step": 27000
-    },
-    {
-      "epoch": 4.1,
-      "learning_rate": 7.264218862491001e-06,
-      "loss": 1.6694,
-      "step": 28500
-    },
-    {
-      "epoch": 4.1,
-      "eval_loss": 1.5655138492584229,
-      "eval_runtime": 35.5369,
-      "eval_samples_per_second": 510.624,
-      "eval_steps_per_second": 63.849,
-      "step": 28500
-    },
-    {
-      "epoch": 4.32,
-      "learning_rate": 7.1202303815694755e-06,
-      "loss": 1.6698,
-      "step": 30000
-    },
-    {
-      "epoch": 4.32,
-      "eval_loss": 1.5825392007827759,
-      "eval_runtime": 31.4716,
-      "eval_samples_per_second": 576.584,
-      "eval_steps_per_second": 72.097,
-      "step": 30000
-    },
-    {
-      "epoch": 4.54,
-      "learning_rate": 6.976241900647949e-06,
-      "loss": 1.6723,
-      "step": 31500
-    },
-    {
-      "epoch": 4.54,
-      "eval_loss": 1.5868340730667114,
-      "eval_runtime": 27.534,
-      "eval_samples_per_second": 659.039,
-      "eval_steps_per_second": 82.407,
-      "step": 31500
-    },
-    {
-      "epoch": 4.75,
-      "learning_rate": 6.8322534197264226e-06,
-      "loss": 1.6763,
-      "step": 33000
-    },
-    {
-      "epoch": 4.75,
-      "eval_loss": 1.58354914188385,
-      "eval_runtime": 27.5271,
-      "eval_samples_per_second": 659.204,
-      "eval_steps_per_second": 82.428,
-      "step": 33000
-    },
-    {
-      "epoch": 4.97,
-      "learning_rate": 6.688264938804896e-06,
-      "loss": 1.6802,
-      "step": 34500
-    },
-    {
-      "epoch": 4.97,
-      "eval_loss": 1.589853286743164,
-      "eval_runtime": 27.5963,
-      "eval_samples_per_second": 657.553,
-      "eval_steps_per_second": 82.221,
-      "step": 34500
-    },
-    {
-      "epoch": 5.18,
-      "learning_rate": 6.54427645788337e-06,
-      "loss": 1.6831,
-      "step": 36000
-    },
-    {
-      "epoch": 5.18,
-      "eval_loss": 1.5898144245147705,
-      "eval_runtime": 27.7596,
-      "eval_samples_per_second": 653.684,
-      "eval_steps_per_second": 81.737,
-      "step": 36000
-    },
-    {
-      "epoch": 5.4,
-      "learning_rate": 6.400287976961843e-06,
-      "loss": 1.686,
-      "step": 37500
-    },
-    {
-      "epoch": 5.4,
-      "eval_loss": 1.60897696018219,
-      "eval_runtime": 28.0066,
-      "eval_samples_per_second": 647.918,
-      "eval_steps_per_second": 81.017,
-      "step": 37500
-    },
-    {
-      "epoch": 5.62,
-      "learning_rate": 6.2562994960403175e-06,
-      "loss": 1.6908,
-      "step": 39000
-    },
-    {
-      "epoch": 5.62,
-      "eval_loss": 1.5985779762268066,
-      "eval_runtime": 28.4873,
-      "eval_samples_per_second": 636.986,
-      "eval_steps_per_second": 79.65,
-      "step": 39000
-    },
-    {
-      "epoch": 5.83,
-      "learning_rate": 6.112311015118791e-06,
-      "loss": 1.696,
-      "step": 40500
-    },
-    {
-      "epoch": 5.83,
-      "eval_loss": 1.5870490074157715,
-      "eval_runtime": 28.3305,
-      "eval_samples_per_second": 640.511,
-      "eval_steps_per_second": 80.09,
-      "step": 40500
-    },
-    {
-      "epoch": 6.05,
-      "learning_rate": 5.968322534197265e-06,
-      "loss": 1.6947,
-      "step": 42000
-    },
-    {
-      "epoch": 6.05,
-      "eval_loss": 1.6037499904632568,
-      "eval_runtime": 28.3691,
-      "eval_samples_per_second": 639.639,
-      "eval_steps_per_second": 79.981,
-      "step": 42000
-    },
-    {
-      "epoch": 6.26,
-      "learning_rate": 5.824334053275739e-06,
-      "loss": 1.6989,
-      "step": 43500
-    },
-    {
-      "epoch": 6.26,
-      "eval_loss": 1.6043579578399658,
-      "eval_runtime": 28.3097,
-      "eval_samples_per_second": 640.983,
-      "eval_steps_per_second": 80.149,
-      "step": 43500
-    },
-    {
-      "epoch": 6.48,
-      "learning_rate": 5.6803455723542124e-06,
-      "loss": 1.6996,
-      "step": 45000
-    },
-    {
-      "epoch": 6.48,
-      "eval_loss": 1.6131685972213745,
-      "eval_runtime": 28.2412,
-      "eval_samples_per_second": 642.536,
-      "eval_steps_per_second": 80.344,
-      "step": 45000
-    },
-    {
-      "epoch": 6.7,
-      "learning_rate": 5.536357091432686e-06,
-      "loss": 1.7022,
-      "step": 46500
-    },
-    {
-      "epoch": 6.7,
-      "eval_loss": 1.6012641191482544,
-      "eval_runtime": 28.4538,
-      "eval_samples_per_second": 637.736,
-      "eval_steps_per_second": 79.743,
-      "step": 46500
-    },
-    {
-      "epoch": 6.91,
-      "learning_rate": 5.3923686105111595e-06,
-      "loss": 1.7063,
-      "step": 48000
-    },
-    {
-      "epoch": 6.91,
-      "eval_loss": 1.6121569871902466,
-      "eval_runtime": 28.5191,
-      "eval_samples_per_second": 636.275,
-      "eval_steps_per_second": 79.561,
-      "step": 48000
-    },
-    {
-      "epoch": 7.13,
-      "learning_rate": 5.248380129589633e-06,
-      "loss": 1.7081,
-      "step": 49500
-    },
-    {
-      "epoch": 7.13,
-      "eval_loss": 1.611207127571106,
-      "eval_runtime": 28.6681,
-      "eval_samples_per_second": 632.969,
-      "eval_steps_per_second": 79.147,
-      "step": 49500
-    },
-    {
-      "epoch": 7.34,
-      "learning_rate": 5.1043916486681065e-06,
-      "loss": 1.7124,
-      "step": 51000
-    },
-    {
-      "epoch": 7.34,
-      "eval_loss": 1.6293696165084839,
-      "eval_runtime": 28.5537,
-      "eval_samples_per_second": 635.504,
-      "eval_steps_per_second": 79.464,
-      "step": 51000
-    },
-    {
-      "epoch": 7.56,
-      "learning_rate": 4.960403167746581e-06,
-      "loss": 1.711,
-      "step": 52500
-    },
-    {
-      "epoch": 7.56,
-      "eval_loss": 1.620770812034607,
-      "eval_runtime": 28.4979,
-      "eval_samples_per_second": 636.75,
-      "eval_steps_per_second": 79.62,
-      "step": 52500
-    },
-    {
-      "epoch": 7.78,
-      "learning_rate": 4.8164146868250544e-06,
-      "loss": 1.7139,
-      "step": 54000
-    },
-    {
-      "epoch": 7.78,
-      "eval_loss": 1.6238549947738647,
-      "eval_runtime": 28.7129,
-      "eval_samples_per_second": 631.98,
-      "eval_steps_per_second": 79.024,
-      "step": 54000
-    },
-    {
-      "epoch": 7.99,
-      "learning_rate": 4.672426205903528e-06,
-      "loss": 1.7166,
-      "step": 55500
-    },
-    {
-      "epoch": 7.99,
-      "eval_loss": 1.61404550075531,
-      "eval_runtime": 28.7524,
-      "eval_samples_per_second": 631.112,
-      "eval_steps_per_second": 78.915,
-      "step": 55500
-    },
-    {
-      "epoch": 8.21,
-      "learning_rate": 4.5284377249820015e-06,
-      "loss": 1.7133,
-      "step": 57000
-    },
-    {
-      "epoch": 8.21,
-      "eval_loss": 1.6073957681655884,
-      "eval_runtime": 28.4507,
-      "eval_samples_per_second": 637.804,
-      "eval_steps_per_second": 79.752,
-      "step": 57000
-    },
-    {
-      "epoch": 8.42,
-      "learning_rate": 4.384449244060476e-06,
-      "loss": 1.7193,
-      "step": 58500
-    },
-    {
-      "epoch": 8.42,
-      "eval_loss": 1.6162116527557373,
-      "eval_runtime": 32.1502,
-      "eval_samples_per_second": 564.413,
-      "eval_steps_per_second": 70.575,
-      "step": 58500
-    },
-    {
-      "epoch": 8.64,
-      "learning_rate": 4.240460763138949e-06,
-      "loss": 1.7206,
-      "step": 60000
-    },
-    {
-      "epoch": 8.64,
-      "eval_loss": 1.6276147365570068,
-      "eval_runtime": 29.6834,
-      "eval_samples_per_second": 611.319,
-      "eval_steps_per_second": 76.44,
-      "step": 60000
-    },
-    {
-      "epoch": 8.86,
-      "learning_rate": 4.096472282217423e-06,
-      "loss": 1.7209,
-      "step": 61500
-    },
-    {
-      "epoch": 8.86,
-      "eval_loss": 1.6199073791503906,
-      "eval_runtime": 28.6726,
-      "eval_samples_per_second": 632.869,
-      "eval_steps_per_second": 79.135,
-      "step": 61500
-    },
-    {
-      "epoch": 9.07,
-      "learning_rate": 3.952483801295896e-06,
-      "loss": 1.7207,
-      "step": 63000
-    },
-    {
-      "epoch": 9.07,
-      "eval_loss": 1.6250064373016357,
-      "eval_runtime": 29.0567,
-      "eval_samples_per_second": 624.503,
-      "eval_steps_per_second": 78.089,
-      "step": 63000
-    },
-    {
-      "epoch": 9.29,
-      "learning_rate": 3.8084953203743704e-06,
-      "loss": 1.722,
-      "step": 64500
-    },
-    {
-      "epoch": 9.29,
-      "eval_loss": 1.622145175933838,
-      "eval_runtime": 28.9996,
-      "eval_samples_per_second": 625.733,
-      "eval_steps_per_second": 78.242,
-      "step": 64500
-    },
-    {
-      "epoch": 9.5,
-      "learning_rate": 3.664506839452844e-06,
-      "loss": 1.7268,
-      "step": 66000
-    },
-    {
-      "epoch": 9.5,
-      "eval_loss": 1.623546838760376,
-      "eval_runtime": 28.675,
-      "eval_samples_per_second": 632.815,
-      "eval_steps_per_second": 79.128,
-      "step": 66000
-    },
-    {
-      "epoch": 9.72,
-      "learning_rate": 3.520518358531318e-06,
-      "loss": 1.7255,
-      "step": 67500
-    },
-    {
-      "epoch": 9.72,
-      "eval_loss": 1.6309912204742432,
-      "eval_runtime": 28.5477,
-      "eval_samples_per_second": 635.637,
-      "eval_steps_per_second": 79.481,
-      "step": 67500
-    },
-    {
-      "epoch": 9.94,
-      "learning_rate": 3.3765298776097914e-06,
-      "loss": 1.7295,
-      "step": 69000
-    },
-    {
-      "epoch": 9.94,
-      "eval_loss": 1.6271131038665771,
-      "eval_runtime": 28.8046,
-      "eval_samples_per_second": 629.968,
-      "eval_steps_per_second": 78.772,
-      "step": 69000
-    },
-    {
-      "epoch": 10.15,
-      "learning_rate": 3.2325413966882653e-06,
-      "loss": 1.7267,
-      "step": 70500
-    },
-    {
-      "epoch": 10.15,
-      "eval_loss": 1.6185855865478516,
-      "eval_runtime": 28.5157,
-      "eval_samples_per_second": 636.351,
-      "eval_steps_per_second": 79.57,
-      "step": 70500
-    },
-    {
-      "epoch": 10.37,
-      "learning_rate": 3.088552915766739e-06,
-      "loss": 1.7238,
-      "step": 72000
-    },
-    {
-      "epoch": 10.37,
-      "eval_loss": 1.6290473937988281,
-      "eval_runtime": 28.937,
-      "eval_samples_per_second": 627.087,
-      "eval_steps_per_second": 78.412,
-      "step": 72000
-    },
-    {
-      "epoch": 10.58,
-      "learning_rate": 2.9445644348452123e-06,
-      "loss": 1.7272,
-      "step": 73500
-    },
-    {
-      "epoch": 10.58,
-      "eval_loss": 1.6252139806747437,
-      "eval_runtime": 28.8164,
-      "eval_samples_per_second": 629.71,
-      "eval_steps_per_second": 78.74,
-      "step": 73500
-    },
-    {
-      "epoch": 10.8,
-      "learning_rate": 2.8005759539236867e-06,
-      "loss": 1.7316,
-      "step": 75000
-    },
-    {
-      "epoch": 10.8,
-      "eval_loss": 1.6189124584197998,
-      "eval_runtime": 28.4148,
-      "eval_samples_per_second": 638.611,
-      "eval_steps_per_second": 79.853,
-      "step": 75000
-    },
-    {
-      "epoch": 11.02,
-      "learning_rate": 2.6565874730021602e-06,
-      "loss": 1.7335,
-      "step": 76500
-    },
-    {
-      "epoch": 11.02,
-      "eval_loss": 1.6274147033691406,
-      "eval_runtime": 28.5118,
-      "eval_samples_per_second": 636.438,
-      "eval_steps_per_second": 79.581,
-      "step": 76500
-    },
-    {
-      "epoch": 11.23,
-      "learning_rate": 2.5125989920806338e-06,
-      "loss": 1.7327,
-      "step": 78000
-    },
-    {
-      "epoch": 11.23,
-      "eval_loss": 1.6355476379394531,
-      "eval_runtime": 28.5252,
-      "eval_samples_per_second": 636.138,
-      "eval_steps_per_second": 79.544,
-      "step": 78000
-    },
-    {
-      "epoch": 11.45,
-      "learning_rate": 2.3686105111591073e-06,
-      "loss": 1.7332,
-      "step": 79500
-    },
-    {
-      "epoch": 11.45,
-      "eval_loss": 1.6285896301269531,
-      "eval_runtime": 28.4389,
-      "eval_samples_per_second": 638.069,
-      "eval_steps_per_second": 79.785,
-      "step": 79500
-    },
-    {
-      "epoch": 11.66,
-      "learning_rate": 2.2246220302375812e-06,
-      "loss": 1.7311,
-      "step": 81000
-    },
-    {
-      "epoch": 11.66,
-      "eval_loss": 1.6327883005142212,
-      "eval_runtime": 28.5404,
-      "eval_samples_per_second": 635.8,
-      "eval_steps_per_second": 79.501,
-      "step": 81000
-    },
-    {
-      "epoch": 11.88,
-      "learning_rate": 2.0806335493160548e-06,
-      "loss": 1.7359,
-      "step": 82500
-    },
-    {
-      "epoch": 11.88,
-      "eval_loss": 1.6401711702346802,
-      "eval_runtime": 28.2502,
-      "eval_samples_per_second": 642.331,
-      "eval_steps_per_second": 80.318,
-      "step": 82500
-    },
-    {
-      "epoch": 12.1,
-      "learning_rate": 1.9366450683945287e-06,
-      "loss": 1.7393,
-      "step": 84000
-    },
-    {
-      "epoch": 12.1,
-      "eval_loss": 1.6506874561309814,
-      "eval_runtime": 28.3732,
-      "eval_samples_per_second": 639.547,
-      "eval_steps_per_second": 79.97,
-      "step": 84000
-    },
-    {
-      "epoch": 12.31,
-      "learning_rate": 1.7926565874730022e-06,
-      "loss": 1.7337,
-      "step": 85500
-    },
-    {
-      "epoch": 12.31,
-      "eval_loss": 1.640535593032837,
-      "eval_runtime": 28.3112,
-      "eval_samples_per_second": 640.947,
-      "eval_steps_per_second": 80.145,
-      "step": 85500
-    },
-    {
-      "epoch": 12.53,
-      "learning_rate": 1.648668106551476e-06,
-      "loss": 1.7346,
-      "step": 87000
-    },
-    {
-      "epoch": 12.53,
-      "eval_loss": 1.635541558265686,
-      "eval_runtime": 28.5411,
-      "eval_samples_per_second": 635.785,
-      "eval_steps_per_second": 79.499,
-      "step": 87000
-    },
-    {
-      "epoch": 12.74,
-      "learning_rate": 1.5046796256299497e-06,
-      "loss": 1.7371,
-      "step": 88500
-    },
-    {
-      "epoch": 12.74,
-      "eval_loss": 1.6363788843154907,
-      "eval_runtime": 28.2122,
-      "eval_samples_per_second": 643.197,
-      "eval_steps_per_second": 80.426,
-      "step": 88500
-    },
-    {
-      "epoch": 12.96,
-      "learning_rate": 1.3606911447084234e-06,
-      "loss": 1.7374,
-      "step": 90000
-    },
-    {
-      "epoch": 12.96,
-      "eval_loss": 1.6403627395629883,
-      "eval_runtime": 28.3587,
-      "eval_samples_per_second": 639.875,
-      "eval_steps_per_second": 80.011,
-      "step": 90000
-    },
-    {
-      "epoch": 13.17,
-      "learning_rate": 1.2167026637868972e-06,
-      "loss": 1.7365,
-      "step": 91500
-    },
-    {
-      "epoch": 13.17,
-      "eval_loss": 1.639408826828003,
-      "eval_runtime": 28.3926,
-      "eval_samples_per_second": 639.111,
-      "eval_steps_per_second": 79.915,
-      "step": 91500
-    },
-    {
-      "epoch": 13.39,
-      "learning_rate": 1.072714182865371e-06,
-      "loss": 1.7356,
-      "step": 93000
-    },
-    {
-      "epoch": 13.39,
-      "eval_loss": 1.6273094415664673,
-      "eval_runtime": 28.5221,
-      "eval_samples_per_second": 636.208,
-      "eval_steps_per_second": 79.552,
-      "step": 93000
-    },
-    {
-      "epoch": 13.61,
-      "learning_rate": 9.287257019438446e-07,
-      "loss": 1.7364,
-      "step": 94500
-    },
-    {
-      "epoch": 13.61,
-      "eval_loss": 1.6499429941177368,
-      "eval_runtime": 28.4528,
-      "eval_samples_per_second": 637.758,
-      "eval_steps_per_second": 79.746,
-      "step": 94500
-    },
-    {
-      "epoch": 13.82,
-      "learning_rate": 7.847372210223183e-07,
-      "loss": 1.7395,
-      "step": 96000
-    },
-    {
-      "epoch": 13.82,
-      "eval_loss": 1.6389094591140747,
-      "eval_runtime": 28.3271,
-      "eval_samples_per_second": 640.588,
-      "eval_steps_per_second": 80.1,
-      "step": 96000
-    },
-    {
-      "epoch": 14.04,
-      "learning_rate": 6.40748740100792e-07,
-      "loss": 1.7369,
-      "step": 97500
-    },
-    {
-      "epoch": 14.04,
-      "eval_loss": 1.6465275287628174,
-      "eval_runtime": 28.5374,
-      "eval_samples_per_second": 635.866,
-      "eval_steps_per_second": 79.51,
-      "step": 97500
-    },
-    {
-      "epoch": 14.25,
-      "learning_rate": 4.967602591792657e-07,
-      "loss": 1.7371,
-      "step": 99000
-    },
-    {
-      "epoch": 14.25,
-      "eval_loss": 1.6305017471313477,
-      "eval_runtime": 28.4576,
-      "eval_samples_per_second": 637.651,
-      "eval_steps_per_second": 79.733,
-      "step": 99000
-    },
-    {
-      "epoch": 14.47,
-      "learning_rate": 3.5277177825773936e-07,
-      "loss": 1.7376,
-      "step": 100500
-    },
-    {
-      "epoch": 14.47,
-      "eval_loss": 1.6379024982452393,
-      "eval_runtime": 28.9349,
-      "eval_samples_per_second": 627.131,
-      "eval_steps_per_second": 78.417,
-      "step": 100500
-    },
-    {
-      "epoch": 14.69,
-      "learning_rate": 2.0878329733621312e-07,
-      "loss": 1.7377,
-      "step": 102000
-    },
-    {
-      "epoch": 14.69,
-      "eval_loss": 1.6268378496170044,
-      "eval_runtime": 28.3974,
-      "eval_samples_per_second": 639.001,
-      "eval_steps_per_second": 79.902,
-      "step": 102000
-    },
-    {
-      "epoch": 14.9,
-      "learning_rate": 6.479481641468683e-08,
-      "loss": 1.7343,
-      "step": 103500
-    },
-    {
-      "epoch": 14.9,
-      "eval_loss": 1.6236845254898071,
-      "eval_runtime": 28.5403,
-      "eval_samples_per_second": 635.804,
-      "eval_steps_per_second": 79.502,
-      "step": 103500
-    }
-  ],
-  "max_steps": 104175,
-  "num_train_epochs": 15,
-  "total_flos": 6.475717648203267e+17,
-  "trial_name": null,
-  "trial_params": null
-}

last-checkpoint/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:bf00dfba82d3ac10ad9debd6763f43bf6a5b78e8b7425c40a36ad3d1be98fc26
-size 3451

last-checkpoint/vocab.json DELETED Viewed

The diff for this file is too large to render. See raw diff

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8fb1bec33c4431f9607772bf7db9d5ab7b3cddb8480fac34b5229ab54e6b0616
 size 269468281

 version https://git-lfs.github.com/spec/v1
+oid sha256:f0692640dbdac167fdc61252012f23bef86652860782cce1435700a221f51750
 size 269468281

runs/Feb05_20-23-46_turing/events.out.tfevents.1675625038.turing.943015.1 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:28d15ccd7adf8cc11c43ddd3883cd5b4db9fb9c299c465b71f22e4d982c16614
-size 33952

 version https://git-lfs.github.com/spec/v1
+oid sha256:a9b4ef88fbbbd48cb525f3e17e116c1b3b386e61cbc450b777dec805e86bc2d0
+size 34312