Training in progress, step 300, checkpoint

Browse files

Files changed (7) hide show

checkpoint-300/optimizer.pt +2 -2
checkpoint-300/pytorch_model.bin +1 -1
checkpoint-300/rng_state.pth +1 -1
checkpoint-300/scheduler.pt +1 -1
checkpoint-300/tokenizer.json +2 -16
checkpoint-300/trainer_state.json +66 -248
checkpoint-300/training_args.bin +1 -1

checkpoint-300/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6949cc5fe128ea77a8763aca2ba7fdd5811717c63b706afff87623840b7b32f6
-size 4747538

 version https://git-lfs.github.com/spec/v1
+oid sha256:9ee96670e1d9bcd7adca0282c0d39735bad3e967dc000e558f5d43e17298ebfd
+size 997351674

checkpoint-300/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:83f15c0f78f1c98015347f8a787c00850813657b8617f853bc200d97f023d094
 size 498661166

 version https://git-lfs.github.com/spec/v1
+oid sha256:67cab1134b2799d45e89fb3f0bbe82e6e8445934df94f82146a3bd71bdfa6bc0
 size 498661166

checkpoint-300/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:167002ff49683fca0d12268d9b1d429ff2ab9c99e6a928fa8557947bce839be0
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:71102892e2bac0b0446e50f1e8632e478a48cf16c2298ba62ce6df9fa16b4503
 size 14244

checkpoint-300/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b1215f332ab24bebfcc1a307cc4f2884f6afb056bdd9310ee11423db2271cea0
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5e18669e28aa3a789dda6aed95ba77214761ae88a8f3463ce62d22ffd7afab00
 size 1064

checkpoint-300/tokenizer.json CHANGED Viewed

@@ -1,21 +1,7 @@
 {
   "version": "1.0",
-  "truncation": {
-    "direction": "Right",
-    "max_length": 512,
-    "strategy": "LongestFirst",
-    "stride": 0
-  },
-  "padding": {
-    "strategy": {
-      "Fixed": 512
-    },
-    "direction": "Right",
-    "pad_to_multiple_of": null,
-    "pad_id": 1,
-    "pad_type_id": 0,
-    "pad_token": "<pad>"
-  },
   "added_tokens": [
     {
       "id": 0,

 {
   "version": "1.0",
+  "truncation": null,
+  "padding": null,
   "added_tokens": [
     {
       "id": 0,

checkpoint-300/trainer_state.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 1.5957446808510638,
-  "eval_steps": 20,
   "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
@@ -10,364 +10,182 @@
   "log_history": [
     {
       "epoch": 0.05,
-      "learning_rate": 0.0004995563442768412,
-      "loss": 1.2913,
       "step": 10
     },
     {
       "epoch": 0.11,
-      "learning_rate": 0.0004986690328305235,
-      "loss": 1.1578,
-      "step": 20
-    },
-    {
-      "epoch": 0.11,
-      "eval_accuracy": 0.7386666666666667,
-      "eval_combined_score": 0.6626504648943422,
-      "eval_f1": 0.6276400817995911,
-      "eval_loss": 0.7813256978988647,
-      "eval_precision": 0.5456284444444445,
-      "eval_recall": 0.7386666666666667,
-      "eval_runtime": 5.7155,
-      "eval_samples_per_second": 262.444,
-      "eval_steps_per_second": 8.223,
       "step": 20
     },
     {
       "epoch": 0.16,
-      "learning_rate": 0.0004977817213842058,
-      "loss": 0.8742,
       "step": 30
     },
     {
       "epoch": 0.21,
-      "learning_rate": 0.0004968944099378882,
-      "loss": 0.7537,
-      "step": 40
-    },
-    {
-      "epoch": 0.21,
-      "eval_accuracy": 0.7386666666666667,
-      "eval_combined_score": 0.6626504648943422,
-      "eval_f1": 0.6276400817995911,
-      "eval_loss": 0.792127251625061,
-      "eval_precision": 0.5456284444444445,
-      "eval_recall": 0.7386666666666667,
-      "eval_runtime": 5.6846,
-      "eval_samples_per_second": 263.869,
-      "eval_steps_per_second": 8.268,
       "step": 40
     },
     {
       "epoch": 0.27,
-      "learning_rate": 0.0004960070984915705,
-      "loss": 0.8076,
       "step": 50
     },
     {
       "epoch": 0.32,
-      "learning_rate": 0.0004951197870452529,
-      "loss": 0.7436,
-      "step": 60
-    },
-    {
-      "epoch": 0.32,
-      "eval_accuracy": 0.7386666666666667,
-      "eval_combined_score": 0.6626504648943422,
-      "eval_f1": 0.6276400817995911,
-      "eval_loss": 0.7419535517692566,
-      "eval_precision": 0.5456284444444445,
-      "eval_recall": 0.7386666666666667,
-      "eval_runtime": 5.7977,
-      "eval_samples_per_second": 258.725,
-      "eval_steps_per_second": 8.107,
       "step": 60
     },
     {
       "epoch": 0.37,
-      "learning_rate": 0.0004942324755989353,
-      "loss": 0.7465,
       "step": 70
     },
     {
       "epoch": 0.43,
-      "learning_rate": 0.0004933451641526176,
-      "loss": 0.6516,
-      "step": 80
-    },
-    {
-      "epoch": 0.43,
-      "eval_accuracy": 0.7386666666666667,
-      "eval_combined_score": 0.6626504648943422,
-      "eval_f1": 0.6276400817995911,
-      "eval_loss": 0.7484750747680664,
-      "eval_precision": 0.5456284444444445,
-      "eval_recall": 0.7386666666666667,
-      "eval_runtime": 5.7051,
-      "eval_samples_per_second": 262.923,
-      "eval_steps_per_second": 8.238,
       "step": 80
     },
     {
       "epoch": 0.48,
-      "learning_rate": 0.0004924578527063,
-      "loss": 0.9634,
       "step": 90
     },
     {
       "epoch": 0.53,
-      "learning_rate": 0.0004915705412599822,
-      "loss": 0.8011,
-      "step": 100
-    },
-    {
-      "epoch": 0.53,
-      "eval_accuracy": 0.7386666666666667,
-      "eval_combined_score": 0.6626504648943422,
-      "eval_f1": 0.6276400817995911,
-      "eval_loss": 0.7428026795387268,
-      "eval_precision": 0.5456284444444445,
-      "eval_recall": 0.7386666666666667,
-      "eval_runtime": 5.7042,
-      "eval_samples_per_second": 262.962,
-      "eval_steps_per_second": 8.239,
       "step": 100
     },
     {
       "epoch": 0.59,
-      "learning_rate": 0.0004906832298136646,
-      "loss": 0.8691,
       "step": 110
     },
     {
       "epoch": 0.64,
-      "learning_rate": 0.0004897959183673469,
-      "loss": 0.8761,
-      "step": 120
-    },
-    {
-      "epoch": 0.64,
-      "eval_accuracy": 0.7386666666666667,
-      "eval_combined_score": 0.6626504648943422,
-      "eval_f1": 0.6276400817995911,
-      "eval_loss": 0.7458600997924805,
-      "eval_precision": 0.5456284444444445,
-      "eval_recall": 0.7386666666666667,
-      "eval_runtime": 5.6685,
-      "eval_samples_per_second": 264.622,
-      "eval_steps_per_second": 8.292,
       "step": 120
     },
     {
       "epoch": 0.69,
-      "learning_rate": 0.0004889086069210293,
-      "loss": 0.828,
       "step": 130
     },
     {
       "epoch": 0.74,
-      "learning_rate": 0.00048802129547471164,
-      "loss": 0.8708,
-      "step": 140
-    },
-    {
-      "epoch": 0.74,
-      "eval_accuracy": 0.7386666666666667,
-      "eval_combined_score": 0.6626504648943422,
-      "eval_f1": 0.6276400817995911,
-      "eval_loss": 0.7820696830749512,
-      "eval_precision": 0.5456284444444445,
-      "eval_recall": 0.7386666666666667,
-      "eval_runtime": 5.6616,
-      "eval_samples_per_second": 264.945,
-      "eval_steps_per_second": 8.302,
       "step": 140
     },
     {
       "epoch": 0.8,
-      "learning_rate": 0.000487133984028394,
-      "loss": 0.7489,
       "step": 150
     },
     {
       "epoch": 0.85,
-      "learning_rate": 0.0004862466725820763,
-      "loss": 0.9504,
-      "step": 160
-    },
-    {
-      "epoch": 0.85,
-      "eval_accuracy": 0.7386666666666667,
-      "eval_combined_score": 0.6626504648943422,
-      "eval_f1": 0.6276400817995911,
-      "eval_loss": 0.7716627717018127,
-      "eval_precision": 0.5456284444444445,
-      "eval_recall": 0.7386666666666667,
-      "eval_runtime": 5.6993,
-      "eval_samples_per_second": 263.189,
-      "eval_steps_per_second": 8.247,
       "step": 160
     },
     {
       "epoch": 0.9,
-      "learning_rate": 0.0004853593611357587,
-      "loss": 0.5649,
       "step": 170
     },
     {
       "epoch": 0.96,
-      "learning_rate": 0.00048447204968944104,
-      "loss": 1.1222,
-      "step": 180
-    },
-    {
-      "epoch": 0.96,
-      "eval_accuracy": 0.7386666666666667,
-      "eval_combined_score": 0.6626504648943422,
-      "eval_f1": 0.6276400817995911,
-      "eval_loss": 0.9907371401786804,
-      "eval_precision": 0.5456284444444445,
-      "eval_recall": 0.7386666666666667,
-      "eval_runtime": 5.6565,
-      "eval_samples_per_second": 265.181,
-      "eval_steps_per_second": 8.309,
       "step": 180
     },
     {
       "epoch": 1.01,
-      "learning_rate": 0.00048358473824312333,
-      "loss": 0.9109,
       "step": 190
     },
     {
       "epoch": 1.06,
-      "learning_rate": 0.00048269742679680566,
-      "loss": 0.7528,
-      "step": 200
-    },
-    {
-      "epoch": 1.06,
-      "eval_accuracy": 0.7386666666666667,
-      "eval_combined_score": 0.6626504648943422,
-      "eval_f1": 0.6276400817995911,
-      "eval_loss": 0.7575691938400269,
-      "eval_precision": 0.5456284444444445,
-      "eval_recall": 0.7386666666666667,
-      "eval_runtime": 5.6695,
-      "eval_samples_per_second": 264.575,
-      "eval_steps_per_second": 8.29,
       "step": 200
     },
     {
       "epoch": 1.12,
-      "learning_rate": 0.000481810115350488,
-      "loss": 0.7253,
       "step": 210
     },
     {
       "epoch": 1.17,
-      "learning_rate": 0.0004809228039041704,
-      "loss": 0.7923,
-      "step": 220
-    },
-    {
-      "epoch": 1.17,
-      "eval_accuracy": 0.7386666666666667,
-      "eval_combined_score": 0.6626504648943422,
-      "eval_f1": 0.6276400817995911,
-      "eval_loss": 0.767310380935669,
-      "eval_precision": 0.5456284444444445,
-      "eval_recall": 0.7386666666666667,
-      "eval_runtime": 5.6737,
-      "eval_samples_per_second": 264.377,
-      "eval_steps_per_second": 8.284,
       "step": 220
     },
     {
       "epoch": 1.22,
-      "learning_rate": 0.00048003549245785273,
-      "loss": 0.7464,
       "step": 230
     },
     {
       "epoch": 1.28,
-      "learning_rate": 0.00047914818101153507,
-      "loss": 0.7993,
-      "step": 240
-    },
-    {
-      "epoch": 1.28,
-      "eval_accuracy": 0.7386666666666667,
-      "eval_combined_score": 0.6626504648943422,
-      "eval_f1": 0.6276400817995911,
-      "eval_loss": 0.7693590521812439,
-      "eval_precision": 0.5456284444444445,
-      "eval_recall": 0.7386666666666667,
-      "eval_runtime": 5.6632,
-      "eval_samples_per_second": 264.868,
-      "eval_steps_per_second": 8.299,
       "step": 240
     },
     {
       "epoch": 1.33,
-      "learning_rate": 0.0004782608695652174,
-      "loss": 0.6849,
       "step": 250
     },
     {
       "epoch": 1.38,
-      "learning_rate": 0.00047737355811889974,
-      "loss": 0.8644,
-      "step": 260
-    },
-    {
-      "epoch": 1.38,
-      "eval_accuracy": 0.7386666666666667,
-      "eval_combined_score": 0.6626504648943422,
-      "eval_f1": 0.6276400817995911,
-      "eval_loss": 0.7374696731567383,
-      "eval_precision": 0.5456284444444445,
-      "eval_recall": 0.7386666666666667,
-      "eval_runtime": 5.6531,
-      "eval_samples_per_second": 265.339,
-      "eval_steps_per_second": 8.314,
       "step": 260
     },
     {
       "epoch": 1.44,
-      "learning_rate": 0.00047648624667258213,
-      "loss": 0.7324,
       "step": 270
     },
     {
       "epoch": 1.49,
-      "learning_rate": 0.0004755989352262644,
-      "loss": 0.7368,
-      "step": 280
-    },
-    {
-      "epoch": 1.49,
-      "eval_accuracy": 0.7386666666666667,
-      "eval_combined_score": 0.6626504648943422,
-      "eval_f1": 0.6276400817995911,
-      "eval_loss": 0.7444203495979309,
-      "eval_precision": 0.5456284444444445,
-      "eval_recall": 0.7386666666666667,
-      "eval_runtime": 5.6457,
-      "eval_samples_per_second": 265.688,
-      "eval_steps_per_second": 8.325,
       "step": 280
     },
     {
       "epoch": 1.54,
-      "learning_rate": 0.00047471162377994675,
-      "loss": 0.6645,
       "step": 290
     },
     {
       "epoch": 1.6,
-      "learning_rate": 0.0004738243123336291,
-      "loss": 0.7621,
       "step": 300
     },
     {
@@ -375,19 +193,19 @@
       "eval_accuracy": 0.7386666666666667,
       "eval_combined_score": 0.6626504648943422,
       "eval_f1": 0.6276400817995911,
-      "eval_loss": 0.7361482977867126,
       "eval_precision": 0.5456284444444445,
       "eval_recall": 0.7386666666666667,
-      "eval_runtime": 5.6438,
-      "eval_samples_per_second": 265.777,
-      "eval_steps_per_second": 8.328,
       "step": 300
     }
   ],
   "logging_steps": 10,
   "max_steps": 5640,
   "num_train_epochs": 30,
-  "save_steps": 100,
   "total_flos": 630419726794752.0,
   "trial_name": null,
   "trial_params": null

   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 1.5957446808510638,
+  "eval_steps": 300,
   "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "log_history": [
     {
       "epoch": 0.05,
+      "learning_rate": 5e-07,
+      "loss": 1.0874,
       "step": 10
     },
     {
       "epoch": 0.11,
+      "learning_rate": 1e-06,
+      "loss": 0.9487,
       "step": 20
     },
     {
       "epoch": 0.16,
+      "learning_rate": 1.5e-06,
+      "loss": 0.7586,
       "step": 30
     },
     {
       "epoch": 0.21,
+      "learning_rate": 2e-06,
+      "loss": 0.7225,
       "step": 40
     },
     {
       "epoch": 0.27,
+      "learning_rate": 2.5e-06,
+      "loss": 0.7364,
       "step": 50
     },
     {
       "epoch": 0.32,
+      "learning_rate": 3e-06,
+      "loss": 0.7265,
       "step": 60
     },
     {
       "epoch": 0.37,
+      "learning_rate": 3.5e-06,
+      "loss": 0.7267,
       "step": 70
     },
     {
       "epoch": 0.43,
+      "learning_rate": 4e-06,
+      "loss": 0.5697,
       "step": 80
     },
     {
       "epoch": 0.48,
+      "learning_rate": 4.5e-06,
+      "loss": 1.018,
       "step": 90
     },
     {
       "epoch": 0.53,
+      "learning_rate": 5e-06,
+      "loss": 0.7875,
       "step": 100
     },
     {
       "epoch": 0.59,
+      "learning_rate": 5.5e-06,
+      "loss": 0.8242,
       "step": 110
     },
     {
       "epoch": 0.64,
+      "learning_rate": 6e-06,
+      "loss": 0.8034,
       "step": 120
     },
     {
       "epoch": 0.69,
+      "learning_rate": 6.5e-06,
+      "loss": 0.7717,
       "step": 130
     },
     {
       "epoch": 0.74,
+      "learning_rate": 7e-06,
+      "loss": 0.8337,
       "step": 140
     },
     {
       "epoch": 0.8,
+      "learning_rate": 7.5e-06,
+      "loss": 0.6884,
       "step": 150
     },
     {
       "epoch": 0.85,
+      "learning_rate": 8e-06,
+      "loss": 0.9129,
       "step": 160
     },
     {
       "epoch": 0.9,
+      "learning_rate": 8.500000000000002e-06,
+      "loss": 0.5637,
       "step": 170
     },
     {
       "epoch": 0.96,
+      "learning_rate": 9e-06,
+      "loss": 1.0458,
       "step": 180
     },
     {
       "epoch": 1.01,
+      "learning_rate": 9.5e-06,
+      "loss": 0.9414,
       "step": 190
     },
     {
       "epoch": 1.06,
+      "learning_rate": 1e-05,
+      "loss": 0.6379,
       "step": 200
     },
     {
       "epoch": 1.12,
+      "learning_rate": 1.0500000000000001e-05,
+      "loss": 0.9249,
       "step": 210
     },
     {
       "epoch": 1.17,
+      "learning_rate": 1.1e-05,
+      "loss": 0.6944,
       "step": 220
     },
     {
       "epoch": 1.22,
+      "learning_rate": 1.15e-05,
+      "loss": 0.9221,
       "step": 230
     },
     {
       "epoch": 1.28,
+      "learning_rate": 1.2e-05,
+      "loss": 0.6475,
       "step": 240
     },
     {
       "epoch": 1.33,
+      "learning_rate": 1.25e-05,
+      "loss": 0.7748,
       "step": 250
     },
     {
       "epoch": 1.38,
+      "learning_rate": 1.3e-05,
+      "loss": 0.8705,
       "step": 260
     },
     {
       "epoch": 1.44,
+      "learning_rate": 1.35e-05,
+      "loss": 0.7737,
       "step": 270
     },
     {
       "epoch": 1.49,
+      "learning_rate": 1.4e-05,
+      "loss": 0.8643,
       "step": 280
     },
     {
       "epoch": 1.54,
+      "learning_rate": 1.4500000000000002e-05,
+      "loss": 0.8428,
       "step": 290
     },
     {
       "epoch": 1.6,
+      "learning_rate": 1.5e-05,
+      "loss": 0.6785,
       "step": 300
     },
     {
       "eval_accuracy": 0.7386666666666667,
       "eval_combined_score": 0.6626504648943422,
       "eval_f1": 0.6276400817995911,
+      "eval_loss": 0.7930460572242737,
       "eval_precision": 0.5456284444444445,
       "eval_recall": 0.7386666666666667,
+      "eval_runtime": 6.0663,
+      "eval_samples_per_second": 247.266,
+      "eval_steps_per_second": 7.748,
       "step": 300
     }
   ],
   "logging_steps": 10,
   "max_steps": 5640,
   "num_train_epochs": 30,
+  "save_steps": 300,
   "total_flos": 630419726794752.0,
   "trial_name": null,
   "trial_params": null

checkpoint-300/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:94f7cf02005ce236de7bb1fda33a06f2c3053bafb778c1f449d2ec5279f3a3ec
 size 4472

 version https://git-lfs.github.com/spec/v1
+oid sha256:05b42247af1886e7e4142c2daf8d1dc0efc9906f62aab884f8ebe56da5f0ce3e
 size 4472