Model save

Browse files

Files changed (14) hide show

last-checkpoint/config.json +0 -28
last-checkpoint/merges.txt +0 -0
last-checkpoint/optimizer.pt +0 -3
last-checkpoint/pytorch_model.bin +0 -3
last-checkpoint/rng_state.pth +0 -3
last-checkpoint/scheduler.pt +0 -3
last-checkpoint/special_tokens_map.json +0 -51
last-checkpoint/tokenizer.json +0 -0
last-checkpoint/tokenizer_config.json +0 -65
last-checkpoint/trainer_state.json +0 -982
last-checkpoint/training_args.bin +0 -3
last-checkpoint/vocab.json +0 -0
pytorch_model.bin +1 -1
runs/Feb07_11-46-56_turing/events.out.tfevents.1675766828.turing.1045087.1 +2 -2

last-checkpoint/config.json DELETED Viewed

@@ -1,28 +0,0 @@
-{
-  "_name_or_path": "/home/pcjf/CESGA/works/lmodels/models/tiny",
-  "architectures": [
-    "RobertaForMaskedLM"
-  ],
-  "attention_probs_dropout_prob": 0.1,
-  "bos_token_id": 0,
-  "classifier_dropout": null,
-  "eos_token_id": 2,
-  "gradient_checkpointing": false,
-  "hidden_act": "gelu",
-  "hidden_dropout_prob": 0.1,
-  "hidden_size": 768,
-  "initializer_range": 0.02,
-  "intermediate_size": 3072,
-  "layer_norm_eps": 1e-12,
-  "max_position_embeddings": 514,
-  "model_type": "roberta",
-  "num_attention_heads": 12,
-  "num_hidden_layers": 6,
-  "pad_token_id": 1,
-  "position_embedding_type": "absolute",
-  "torch_dtype": "float32",
-  "transformers_version": "4.24.0",
-  "type_vocab_size": 1,
-  "use_cache": true,
-  "vocab_size": 31002
-}

last-checkpoint/merges.txt DELETED Viewed

The diff for this file is too large to render. See raw diff

last-checkpoint/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:b2cfe56d5d4409b47893b4520846ba211ccadf119b94d737232a5fda1170af33
-size 538943941

last-checkpoint/pytorch_model.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:c0f6d7dfce7499a39f72cf6615b36e67ad548848682144813bc3f2dd834f0220
-size 269468281

last-checkpoint/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:6354b3a5422c28a3a5a73b71565a42829474a3c347615e37c20c87de92d294e2
-size 14575

last-checkpoint/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:0ff1be153872ceab362bc8f896bf3f611b155e54edf151eccfc448653a32209d
-size 627

last-checkpoint/special_tokens_map.json DELETED Viewed

@@ -1,51 +0,0 @@
-{
-  "bos_token": {
-    "content": "<s>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "cls_token": {
-    "content": "<s>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "eos_token": {
-    "content": "</s>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "mask_token": {
-    "content": "<mask>",
-    "lstrip": true,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": {
-    "content": "<pad>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "sep_token": {
-    "content": "</s>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "unk_token": {
-    "content": "<unk>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  }
-}

last-checkpoint/tokenizer.json DELETED Viewed

The diff for this file is too large to render. See raw diff

last-checkpoint/tokenizer_config.json DELETED Viewed

@@ -1,65 +0,0 @@
-{
-  "add_prefix_space": false,
-  "bos_token": {
-    "__type": "AddedToken",
-    "content": "<s>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "cls_token": {
-    "__type": "AddedToken",
-    "content": "<s>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "eos_token": {
-    "__type": "AddedToken",
-    "content": "</s>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "errors": "replace",
-  "mask_token": {
-    "__type": "AddedToken",
-    "content": "<mask>",
-    "lstrip": true,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "max_len": 512,
-  "name_or_path": "/home/pcjf/CESGA/works/lmodels/models/tiny",
-  "pad_token": {
-    "__type": "AddedToken",
-    "content": "<pad>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "sep_token": {
-    "__type": "AddedToken",
-    "content": "</s>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "special_tokens_map_file": null,
-  "tokenizer_class": "RobertaTokenizer",
-  "trim_offsets": true,
-  "unk_token": {
-    "__type": "AddedToken",
-    "content": "<unk>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  }
-}

last-checkpoint/trainer_state.json DELETED Viewed

@@ -1,982 +0,0 @@
-{
-  "best_metric": 1.4634919166564941,
-  "best_model_checkpoint": "/home/pcjf/CESGA/works/lmodels/models/tiny/checkpoint-1500",
-  "epoch": 14.902730598086016,
-  "global_step": 103500,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.22,
-      "learning_rate": 9.856011519078475e-06,
-      "loss": 1.4486,
-      "step": 1500
-    },
-    {
-      "epoch": 0.22,
-      "eval_loss": 1.4634919166564941,
-      "eval_runtime": 31.815,
-      "eval_samples_per_second": 570.36,
-      "eval_steps_per_second": 71.319,
-      "step": 1500
-    },
-    {
-      "epoch": 0.43,
-      "learning_rate": 9.712023038156948e-06,
-      "loss": 1.5424,
-      "step": 3000
-    },
-    {
-      "epoch": 0.43,
-      "eval_loss": 1.473360300064087,
-      "eval_runtime": 36.4429,
-      "eval_samples_per_second": 497.929,
-      "eval_steps_per_second": 62.262,
-      "step": 3000
-    },
-    {
-      "epoch": 0.65,
-      "learning_rate": 9.568034557235422e-06,
-      "loss": 1.5598,
-      "step": 4500
-    },
-    {
-      "epoch": 0.65,
-      "eval_loss": 1.4726251363754272,
-      "eval_runtime": 28.71,
-      "eval_samples_per_second": 632.044,
-      "eval_steps_per_second": 79.032,
-      "step": 4500
-    },
-    {
-      "epoch": 0.86,
-      "learning_rate": 9.424046076313895e-06,
-      "loss": 1.5698,
-      "step": 6000
-    },
-    {
-      "epoch": 0.86,
-      "eval_loss": 1.4929977655410767,
-      "eval_runtime": 28.7672,
-      "eval_samples_per_second": 630.789,
-      "eval_steps_per_second": 78.875,
-      "step": 6000
-    },
-    {
-      "epoch": 1.08,
-      "learning_rate": 9.28005759539237e-06,
-      "loss": 1.5818,
-      "step": 7500
-    },
-    {
-      "epoch": 1.08,
-      "eval_loss": 1.4972467422485352,
-      "eval_runtime": 28.7771,
-      "eval_samples_per_second": 630.57,
-      "eval_steps_per_second": 78.847,
-      "step": 7500
-    },
-    {
-      "epoch": 1.3,
-      "learning_rate": 9.136069114470844e-06,
-      "loss": 1.5887,
-      "step": 9000
-    },
-    {
-      "epoch": 1.3,
-      "eval_loss": 1.5235066413879395,
-      "eval_runtime": 28.8715,
-      "eval_samples_per_second": 628.509,
-      "eval_steps_per_second": 78.59,
-      "step": 9000
-    },
-    {
-      "epoch": 1.51,
-      "learning_rate": 8.992080633549316e-06,
-      "loss": 1.5958,
-      "step": 10500
-    },
-    {
-      "epoch": 1.51,
-      "eval_loss": 1.5344377756118774,
-      "eval_runtime": 28.3499,
-      "eval_samples_per_second": 640.073,
-      "eval_steps_per_second": 80.036,
-      "step": 10500
-    },
-    {
-      "epoch": 1.73,
-      "learning_rate": 8.84809215262779e-06,
-      "loss": 1.6083,
-      "step": 12000
-    },
-    {
-      "epoch": 1.73,
-      "eval_loss": 1.5420113801956177,
-      "eval_runtime": 28.6377,
-      "eval_samples_per_second": 633.641,
-      "eval_steps_per_second": 79.231,
-      "step": 12000
-    },
-    {
-      "epoch": 1.94,
-      "learning_rate": 8.704103671706265e-06,
-      "loss": 1.6173,
-      "step": 13500
-    },
-    {
-      "epoch": 1.94,
-      "eval_loss": 1.525267243385315,
-      "eval_runtime": 28.6529,
-      "eval_samples_per_second": 633.305,
-      "eval_steps_per_second": 79.189,
-      "step": 13500
-    },
-    {
-      "epoch": 2.16,
-      "learning_rate": 8.560115190784738e-06,
-      "loss": 1.6215,
-      "step": 15000
-    },
-    {
-      "epoch": 2.16,
-      "eval_loss": 1.5423375368118286,
-      "eval_runtime": 28.5473,
-      "eval_samples_per_second": 635.647,
-      "eval_steps_per_second": 79.482,
-      "step": 15000
-    },
-    {
-      "epoch": 2.38,
-      "learning_rate": 8.416126709863212e-06,
-      "loss": 1.629,
-      "step": 16500
-    },
-    {
-      "epoch": 2.38,
-      "eval_loss": 1.5254136323928833,
-      "eval_runtime": 28.2417,
-      "eval_samples_per_second": 642.525,
-      "eval_steps_per_second": 80.342,
-      "step": 16500
-    },
-    {
-      "epoch": 2.59,
-      "learning_rate": 8.272138228941685e-06,
-      "loss": 1.6382,
-      "step": 18000
-    },
-    {
-      "epoch": 2.59,
-      "eval_loss": 1.54853355884552,
-      "eval_runtime": 28.4675,
-      "eval_samples_per_second": 637.43,
-      "eval_steps_per_second": 79.705,
-      "step": 18000
-    },
-    {
-      "epoch": 2.81,
-      "learning_rate": 8.12814974802016e-06,
-      "loss": 1.6422,
-      "step": 19500
-    },
-    {
-      "epoch": 2.81,
-      "eval_loss": 1.562892198562622,
-      "eval_runtime": 28.1975,
-      "eval_samples_per_second": 643.532,
-      "eval_steps_per_second": 80.468,
-      "step": 19500
-    },
-    {
-      "epoch": 3.02,
-      "learning_rate": 7.984161267098632e-06,
-      "loss": 1.6497,
-      "step": 21000
-    },
-    {
-      "epoch": 3.02,
-      "eval_loss": 1.5657176971435547,
-      "eval_runtime": 28.3817,
-      "eval_samples_per_second": 639.355,
-      "eval_steps_per_second": 79.946,
-      "step": 21000
-    },
-    {
-      "epoch": 3.24,
-      "learning_rate": 7.840172786177106e-06,
-      "loss": 1.6521,
-      "step": 22500
-    },
-    {
-      "epoch": 3.24,
-      "eval_loss": 1.5792163610458374,
-      "eval_runtime": 28.6284,
-      "eval_samples_per_second": 633.846,
-      "eval_steps_per_second": 79.257,
-      "step": 22500
-    },
-    {
-      "epoch": 3.46,
-      "learning_rate": 7.69618430525558e-06,
-      "loss": 1.657,
-      "step": 24000
-    },
-    {
-      "epoch": 3.46,
-      "eval_loss": 1.5577658414840698,
-      "eval_runtime": 28.7026,
-      "eval_samples_per_second": 632.207,
-      "eval_steps_per_second": 79.052,
-      "step": 24000
-    },
-    {
-      "epoch": 3.67,
-      "learning_rate": 7.552195824334054e-06,
-      "loss": 1.6614,
-      "step": 25500
-    },
-    {
-      "epoch": 3.67,
-      "eval_loss": 1.5757924318313599,
-      "eval_runtime": 28.4551,
-      "eval_samples_per_second": 637.708,
-      "eval_steps_per_second": 79.74,
-      "step": 25500
-    },
-    {
-      "epoch": 3.89,
-      "learning_rate": 7.408207343412528e-06,
-      "loss": 1.6676,
-      "step": 27000
-    },
-    {
-      "epoch": 3.89,
-      "eval_loss": 1.5766253471374512,
-      "eval_runtime": 28.7151,
-      "eval_samples_per_second": 631.932,
-      "eval_steps_per_second": 79.018,
-      "step": 27000
-    },
-    {
-      "epoch": 4.1,
-      "learning_rate": 7.264218862491001e-06,
-      "loss": 1.6755,
-      "step": 28500
-    },
-    {
-      "epoch": 4.1,
-      "eval_loss": 1.5704692602157593,
-      "eval_runtime": 28.1595,
-      "eval_samples_per_second": 644.401,
-      "eval_steps_per_second": 80.577,
-      "step": 28500
-    },
-    {
-      "epoch": 4.32,
-      "learning_rate": 7.1202303815694755e-06,
-      "loss": 1.6758,
-      "step": 30000
-    },
-    {
-      "epoch": 4.32,
-      "eval_loss": 1.587284803390503,
-      "eval_runtime": 29.4826,
-      "eval_samples_per_second": 615.482,
-      "eval_steps_per_second": 76.961,
-      "step": 30000
-    },
-    {
-      "epoch": 4.54,
-      "learning_rate": 6.976241900647949e-06,
-      "loss": 1.678,
-      "step": 31500
-    },
-    {
-      "epoch": 4.54,
-      "eval_loss": 1.591480016708374,
-      "eval_runtime": 28.324,
-      "eval_samples_per_second": 640.658,
-      "eval_steps_per_second": 80.109,
-      "step": 31500
-    },
-    {
-      "epoch": 4.75,
-      "learning_rate": 6.8322534197264226e-06,
-      "loss": 1.6818,
-      "step": 33000
-    },
-    {
-      "epoch": 4.75,
-      "eval_loss": 1.5879828929901123,
-      "eval_runtime": 29.4058,
-      "eval_samples_per_second": 617.089,
-      "eval_steps_per_second": 77.162,
-      "step": 33000
-    },
-    {
-      "epoch": 4.97,
-      "learning_rate": 6.688264938804896e-06,
-      "loss": 1.6857,
-      "step": 34500
-    },
-    {
-      "epoch": 4.97,
-      "eval_loss": 1.5941790342330933,
-      "eval_runtime": 28.3554,
-      "eval_samples_per_second": 639.948,
-      "eval_steps_per_second": 80.02,
-      "step": 34500
-    },
-    {
-      "epoch": 5.18,
-      "learning_rate": 6.54427645788337e-06,
-      "loss": 1.6884,
-      "step": 36000
-    },
-    {
-      "epoch": 5.18,
-      "eval_loss": 1.5941451787948608,
-      "eval_runtime": 28.5176,
-      "eval_samples_per_second": 636.309,
-      "eval_steps_per_second": 79.565,
-      "step": 36000
-    },
-    {
-      "epoch": 5.4,
-      "learning_rate": 6.400287976961843e-06,
-      "loss": 1.6911,
-      "step": 37500
-    },
-    {
-      "epoch": 5.4,
-      "eval_loss": 1.6129869222640991,
-      "eval_runtime": 28.3069,
-      "eval_samples_per_second": 641.045,
-      "eval_steps_per_second": 80.157,
-      "step": 37500
-    },
-    {
-      "epoch": 5.62,
-      "learning_rate": 6.2562994960403175e-06,
-      "loss": 1.6958,
-      "step": 39000
-    },
-    {
-      "epoch": 5.62,
-      "eval_loss": 1.602686882019043,
-      "eval_runtime": 28.3684,
-      "eval_samples_per_second": 639.656,
-      "eval_steps_per_second": 79.983,
-      "step": 39000
-    },
-    {
-      "epoch": 5.83,
-      "learning_rate": 6.112311015118791e-06,
-      "loss": 1.7009,
-      "step": 40500
-    },
-    {
-      "epoch": 5.83,
-      "eval_loss": 1.5910372734069824,
-      "eval_runtime": 28.4126,
-      "eval_samples_per_second": 638.659,
-      "eval_steps_per_second": 79.859,
-      "step": 40500
-    },
-    {
-      "epoch": 6.05,
-      "learning_rate": 5.968322534197265e-06,
-      "loss": 1.6995,
-      "step": 42000
-    },
-    {
-      "epoch": 6.05,
-      "eval_loss": 1.607581377029419,
-      "eval_runtime": 28.5017,
-      "eval_samples_per_second": 636.665,
-      "eval_steps_per_second": 79.609,
-      "step": 42000
-    },
-    {
-      "epoch": 6.26,
-      "learning_rate": 5.824334053275739e-06,
-      "loss": 1.7036,
-      "step": 43500
-    },
-    {
-      "epoch": 6.26,
-      "eval_loss": 1.608154296875,
-      "eval_runtime": 28.3159,
-      "eval_samples_per_second": 640.841,
-      "eval_steps_per_second": 80.132,
-      "step": 43500
-    },
-    {
-      "epoch": 6.48,
-      "learning_rate": 5.6803455723542124e-06,
-      "loss": 1.7042,
-      "step": 45000
-    },
-    {
-      "epoch": 6.48,
-      "eval_loss": 1.6170202493667603,
-      "eval_runtime": 28.3,
-      "eval_samples_per_second": 641.202,
-      "eval_steps_per_second": 80.177,
-      "step": 45000
-    },
-    {
-      "epoch": 6.7,
-      "learning_rate": 5.536357091432686e-06,
-      "loss": 1.7067,
-      "step": 46500
-    },
-    {
-      "epoch": 6.7,
-      "eval_loss": 1.6049327850341797,
-      "eval_runtime": 28.1995,
-      "eval_samples_per_second": 643.486,
-      "eval_steps_per_second": 80.462,
-      "step": 46500
-    },
-    {
-      "epoch": 6.91,
-      "learning_rate": 5.3923686105111595e-06,
-      "loss": 1.7108,
-      "step": 48000
-    },
-    {
-      "epoch": 6.91,
-      "eval_loss": 1.6157801151275635,
-      "eval_runtime": 28.3319,
-      "eval_samples_per_second": 640.481,
-      "eval_steps_per_second": 80.087,
-      "step": 48000
-    },
-    {
-      "epoch": 7.13,
-      "learning_rate": 5.248380129589633e-06,
-      "loss": 1.7125,
-      "step": 49500
-    },
-    {
-      "epoch": 7.13,
-      "eval_loss": 1.6146913766860962,
-      "eval_runtime": 28.3126,
-      "eval_samples_per_second": 640.917,
-      "eval_steps_per_second": 80.141,
-      "step": 49500
-    },
-    {
-      "epoch": 7.34,
-      "learning_rate": 5.1043916486681065e-06,
-      "loss": 1.7166,
-      "step": 51000
-    },
-    {
-      "epoch": 7.34,
-      "eval_loss": 1.6328694820404053,
-      "eval_runtime": 28.3985,
-      "eval_samples_per_second": 638.977,
-      "eval_steps_per_second": 79.898,
-      "step": 51000
-    },
-    {
-      "epoch": 7.56,
-      "learning_rate": 4.960403167746581e-06,
-      "loss": 1.7152,
-      "step": 52500
-    },
-    {
-      "epoch": 7.56,
-      "eval_loss": 1.6241958141326904,
-      "eval_runtime": 28.4178,
-      "eval_samples_per_second": 638.543,
-      "eval_steps_per_second": 79.844,
-      "step": 52500
-    },
-    {
-      "epoch": 7.78,
-      "learning_rate": 4.8164146868250544e-06,
-      "loss": 1.718,
-      "step": 54000
-    },
-    {
-      "epoch": 7.78,
-      "eval_loss": 1.6272053718566895,
-      "eval_runtime": 28.607,
-      "eval_samples_per_second": 634.32,
-      "eval_steps_per_second": 79.316,
-      "step": 54000
-    },
-    {
-      "epoch": 7.99,
-      "learning_rate": 4.672426205903528e-06,
-      "loss": 1.7206,
-      "step": 55500
-    },
-    {
-      "epoch": 7.99,
-      "eval_loss": 1.61719810962677,
-      "eval_runtime": 28.3806,
-      "eval_samples_per_second": 639.381,
-      "eval_steps_per_second": 79.949,
-      "step": 55500
-    },
-    {
-      "epoch": 8.21,
-      "learning_rate": 4.5284377249820015e-06,
-      "loss": 1.7172,
-      "step": 57000
-    },
-    {
-      "epoch": 8.21,
-      "eval_loss": 1.6106241941452026,
-      "eval_runtime": 28.4803,
-      "eval_samples_per_second": 637.141,
-      "eval_steps_per_second": 79.669,
-      "step": 57000
-    },
-    {
-      "epoch": 8.42,
-      "learning_rate": 4.384449244060476e-06,
-      "loss": 1.7232,
-      "step": 58500
-    },
-    {
-      "epoch": 8.42,
-      "eval_loss": 1.6194111108779907,
-      "eval_runtime": 29.8037,
-      "eval_samples_per_second": 608.851,
-      "eval_steps_per_second": 76.131,
-      "step": 58500
-    },
-    {
-      "epoch": 8.64,
-      "learning_rate": 4.240460763138949e-06,
-      "loss": 1.7245,
-      "step": 60000
-    },
-    {
-      "epoch": 8.64,
-      "eval_loss": 1.6307227611541748,
-      "eval_runtime": 28.3851,
-      "eval_samples_per_second": 639.28,
-      "eval_steps_per_second": 79.936,
-      "step": 60000
-    },
-    {
-      "epoch": 8.86,
-      "learning_rate": 4.096472282217423e-06,
-      "loss": 1.7246,
-      "step": 61500
-    },
-    {
-      "epoch": 8.86,
-      "eval_loss": 1.6230413913726807,
-      "eval_runtime": 28.1883,
-      "eval_samples_per_second": 643.741,
-      "eval_steps_per_second": 80.494,
-      "step": 61500
-    },
-    {
-      "epoch": 9.07,
-      "learning_rate": 3.952483801295896e-06,
-      "loss": 1.7244,
-      "step": 63000
-    },
-    {
-      "epoch": 9.07,
-      "eval_loss": 1.6280677318572998,
-      "eval_runtime": 28.3706,
-      "eval_samples_per_second": 639.607,
-      "eval_steps_per_second": 79.977,
-      "step": 63000
-    },
-    {
-      "epoch": 9.29,
-      "learning_rate": 3.8084953203743704e-06,
-      "loss": 1.7257,
-      "step": 64500
-    },
-    {
-      "epoch": 9.29,
-      "eval_loss": 1.6250897645950317,
-      "eval_runtime": 28.4547,
-      "eval_samples_per_second": 637.715,
-      "eval_steps_per_second": 79.741,
-      "step": 64500
-    },
-    {
-      "epoch": 9.5,
-      "learning_rate": 3.664506839452844e-06,
-      "loss": 1.7304,
-      "step": 66000
-    },
-    {
-      "epoch": 9.5,
-      "eval_loss": 1.626404881477356,
-      "eval_runtime": 28.4535,
-      "eval_samples_per_second": 637.743,
-      "eval_steps_per_second": 79.744,
-      "step": 66000
-    },
-    {
-      "epoch": 9.72,
-      "learning_rate": 3.520518358531318e-06,
-      "loss": 1.729,
-      "step": 67500
-    },
-    {
-      "epoch": 9.72,
-      "eval_loss": 1.6339225769042969,
-      "eval_runtime": 28.8358,
-      "eval_samples_per_second": 629.287,
-      "eval_steps_per_second": 78.687,
-      "step": 67500
-    },
-    {
-      "epoch": 9.94,
-      "learning_rate": 3.3765298776097914e-06,
-      "loss": 1.7331,
-      "step": 69000
-    },
-    {
-      "epoch": 9.94,
-      "eval_loss": 1.6299844980239868,
-      "eval_runtime": 28.7305,
-      "eval_samples_per_second": 631.594,
-      "eval_steps_per_second": 78.975,
-      "step": 69000
-    },
-    {
-      "epoch": 10.15,
-      "learning_rate": 3.2325413966882653e-06,
-      "loss": 1.7302,
-      "step": 70500
-    },
-    {
-      "epoch": 10.15,
-      "eval_loss": 1.6214041709899902,
-      "eval_runtime": 28.4725,
-      "eval_samples_per_second": 637.317,
-      "eval_steps_per_second": 79.691,
-      "step": 70500
-    },
-    {
-      "epoch": 10.37,
-      "learning_rate": 3.088552915766739e-06,
-      "loss": 1.7272,
-      "step": 72000
-    },
-    {
-      "epoch": 10.37,
-      "eval_loss": 1.6317757368087769,
-      "eval_runtime": 28.623,
-      "eval_samples_per_second": 633.966,
-      "eval_steps_per_second": 79.272,
-      "step": 72000
-    },
-    {
-      "epoch": 10.58,
-      "learning_rate": 2.9445644348452123e-06,
-      "loss": 1.7306,
-      "step": 73500
-    },
-    {
-      "epoch": 10.58,
-      "eval_loss": 1.6280230283737183,
-      "eval_runtime": 28.4735,
-      "eval_samples_per_second": 637.294,
-      "eval_steps_per_second": 79.688,
-      "step": 73500
-    },
-    {
-      "epoch": 10.8,
-      "learning_rate": 2.8005759539236867e-06,
-      "loss": 1.735,
-      "step": 75000
-    },
-    {
-      "epoch": 10.8,
-      "eval_loss": 1.6216455698013306,
-      "eval_runtime": 28.5783,
-      "eval_samples_per_second": 634.957,
-      "eval_steps_per_second": 79.396,
-      "step": 75000
-    },
-    {
-      "epoch": 11.02,
-      "learning_rate": 2.6565874730021602e-06,
-      "loss": 1.7368,
-      "step": 76500
-    },
-    {
-      "epoch": 11.02,
-      "eval_loss": 1.6300657987594604,
-      "eval_runtime": 29.3173,
-      "eval_samples_per_second": 618.952,
-      "eval_steps_per_second": 77.395,
-      "step": 76500
-    },
-    {
-      "epoch": 11.23,
-      "learning_rate": 2.5125989920806338e-06,
-      "loss": 1.736,
-      "step": 78000
-    },
-    {
-      "epoch": 11.23,
-      "eval_loss": 1.6382640600204468,
-      "eval_runtime": 29.0698,
-      "eval_samples_per_second": 624.221,
-      "eval_steps_per_second": 78.053,
-      "step": 78000
-    },
-    {
-      "epoch": 11.45,
-      "learning_rate": 2.3686105111591073e-06,
-      "loss": 1.7364,
-      "step": 79500
-    },
-    {
-      "epoch": 11.45,
-      "eval_loss": 1.6312644481658936,
-      "eval_runtime": 28.6275,
-      "eval_samples_per_second": 633.866,
-      "eval_steps_per_second": 79.259,
-      "step": 79500
-    },
-    {
-      "epoch": 11.66,
-      "learning_rate": 2.2246220302375812e-06,
-      "loss": 1.7343,
-      "step": 81000
-    },
-    {
-      "epoch": 11.66,
-      "eval_loss": 1.6355253458023071,
-      "eval_runtime": 28.6773,
-      "eval_samples_per_second": 632.765,
-      "eval_steps_per_second": 79.122,
-      "step": 81000
-    },
-    {
-      "epoch": 11.88,
-      "learning_rate": 2.0806335493160548e-06,
-      "loss": 1.7391,
-      "step": 82500
-    },
-    {
-      "epoch": 11.88,
-      "eval_loss": 1.6428338289260864,
-      "eval_runtime": 28.8154,
-      "eval_samples_per_second": 629.733,
-      "eval_steps_per_second": 78.743,
-      "step": 82500
-    },
-    {
-      "epoch": 12.1,
-      "learning_rate": 1.9366450683945287e-06,
-      "loss": 1.7425,
-      "step": 84000
-    },
-    {
-      "epoch": 12.1,
-      "eval_loss": 1.6533492803573608,
-      "eval_runtime": 28.8739,
-      "eval_samples_per_second": 628.457,
-      "eval_steps_per_second": 78.583,
-      "step": 84000
-    },
-    {
-      "epoch": 12.31,
-      "learning_rate": 1.7926565874730022e-06,
-      "loss": 1.7369,
-      "step": 85500
-    },
-    {
-      "epoch": 12.31,
-      "eval_loss": 1.6431362628936768,
-      "eval_runtime": 28.7145,
-      "eval_samples_per_second": 631.946,
-      "eval_steps_per_second": 79.019,
-      "step": 85500
-    },
-    {
-      "epoch": 12.53,
-      "learning_rate": 1.648668106551476e-06,
-      "loss": 1.7377,
-      "step": 87000
-    },
-    {
-      "epoch": 12.53,
-      "eval_loss": 1.6380741596221924,
-      "eval_runtime": 28.5841,
-      "eval_samples_per_second": 634.828,
-      "eval_steps_per_second": 79.38,
-      "step": 87000
-    },
-    {
-      "epoch": 12.74,
-      "learning_rate": 1.5046796256299497e-06,
-      "loss": 1.7403,
-      "step": 88500
-    },
-    {
-      "epoch": 12.74,
-      "eval_loss": 1.6389954090118408,
-      "eval_runtime": 29.0449,
-      "eval_samples_per_second": 624.756,
-      "eval_steps_per_second": 78.12,
-      "step": 88500
-    },
-    {
-      "epoch": 12.96,
-      "learning_rate": 1.3606911447084234e-06,
-      "loss": 1.7405,
-      "step": 90000
-    },
-    {
-      "epoch": 12.96,
-      "eval_loss": 1.6429226398468018,
-      "eval_runtime": 28.6205,
-      "eval_samples_per_second": 634.022,
-      "eval_steps_per_second": 79.279,
-      "step": 90000
-    },
-    {
-      "epoch": 13.17,
-      "learning_rate": 1.2167026637868972e-06,
-      "loss": 1.7395,
-      "step": 91500
-    },
-    {
-      "epoch": 13.17,
-      "eval_loss": 1.641994833946228,
-      "eval_runtime": 28.6175,
-      "eval_samples_per_second": 634.088,
-      "eval_steps_per_second": 79.287,
-      "step": 91500
-    },
-    {
-      "epoch": 13.39,
-      "learning_rate": 1.072714182865371e-06,
-      "loss": 1.7387,
-      "step": 93000
-    },
-    {
-      "epoch": 13.39,
-      "eval_loss": 1.6299211978912354,
-      "eval_runtime": 28.8353,
-      "eval_samples_per_second": 629.298,
-      "eval_steps_per_second": 78.688,
-      "step": 93000
-    },
-    {
-      "epoch": 13.61,
-      "learning_rate": 9.287257019438446e-07,
-      "loss": 1.7394,
-      "step": 94500
-    },
-    {
-      "epoch": 13.61,
-      "eval_loss": 1.652402639389038,
-      "eval_runtime": 31.7277,
-      "eval_samples_per_second": 571.929,
-      "eval_steps_per_second": 71.515,
-      "step": 94500
-    },
-    {
-      "epoch": 13.82,
-      "learning_rate": 7.847372210223183e-07,
-      "loss": 1.7425,
-      "step": 96000
-    },
-    {
-      "epoch": 13.82,
-      "eval_loss": 1.6413946151733398,
-      "eval_runtime": 31.26,
-      "eval_samples_per_second": 580.487,
-      "eval_steps_per_second": 72.585,
-      "step": 96000
-    },
-    {
-      "epoch": 14.04,
-      "learning_rate": 6.40748740100792e-07,
-      "loss": 1.74,
-      "step": 97500
-    },
-    {
-      "epoch": 14.04,
-      "eval_loss": 1.6491047143936157,
-      "eval_runtime": 29.6448,
-      "eval_samples_per_second": 612.115,
-      "eval_steps_per_second": 76.54,
-      "step": 97500
-    },
-    {
-      "epoch": 14.25,
-      "learning_rate": 4.967602591792657e-07,
-      "loss": 1.7402,
-      "step": 99000
-    },
-    {
-      "epoch": 14.25,
-      "eval_loss": 1.6329963207244873,
-      "eval_runtime": 28.9348,
-      "eval_samples_per_second": 627.134,
-      "eval_steps_per_second": 78.418,
-      "step": 99000
-    },
-    {
-      "epoch": 14.47,
-      "learning_rate": 3.5277177825773936e-07,
-      "loss": 1.7407,
-      "step": 100500
-    },
-    {
-      "epoch": 14.47,
-      "eval_loss": 1.640425682067871,
-      "eval_runtime": 28.3457,
-      "eval_samples_per_second": 640.168,
-      "eval_steps_per_second": 80.048,
-      "step": 100500
-    },
-    {
-      "epoch": 14.69,
-      "learning_rate": 2.0878329733621312e-07,
-      "loss": 1.7408,
-      "step": 102000
-    },
-    {
-      "epoch": 14.69,
-      "eval_loss": 1.6292715072631836,
-      "eval_runtime": 28.5084,
-      "eval_samples_per_second": 636.514,
-      "eval_steps_per_second": 79.591,
-      "step": 102000
-    },
-    {
-      "epoch": 14.9,
-      "learning_rate": 6.479481641468683e-08,
-      "loss": 1.7374,
-      "step": 103500
-    },
-    {
-      "epoch": 14.9,
-      "eval_loss": 1.6261721849441528,
-      "eval_runtime": 28.3539,
-      "eval_samples_per_second": 639.982,
-      "eval_steps_per_second": 80.024,
-      "step": 103500
-    }
-  ],
-  "max_steps": 104175,
-  "num_train_epochs": 15,
-  "total_flos": 6.475717648203267e+17,
-  "trial_name": null,
-  "trial_params": null
-}

last-checkpoint/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:a3bdab85c49770ae0a845ff26fd6e9d1edb800500dfa4828e9f9980bf589232e
-size 3451

last-checkpoint/vocab.json DELETED Viewed

The diff for this file is too large to render. See raw diff

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c0f6d7dfce7499a39f72cf6615b36e67ad548848682144813bc3f2dd834f0220
 size 269468281

 version https://git-lfs.github.com/spec/v1
+oid sha256:08899eedd1ea87c0a4b54195fb6cfdd988c267131f790bf2b7941a057bebf231
 size 269468281

runs/Feb07_11-46-56_turing/events.out.tfevents.1675766828.turing.1045087.1 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d88c3e433aa5a7ecc321f462fd9a2f66a3c65e468a9b4a83a1836da7e40002e
-size 33952

 version https://git-lfs.github.com/spec/v1
+oid sha256:b39ef39aa285d0107f9c5ca86e64b3ee99bf7f1ad216cb653d28ce90de75ae0b
+size 34312