Model save

Browse files

Files changed (9) hide show

README.md +1 -1
all_results.json +11 -11
eval_results.json +6 -6
model.safetensors +1 -1
runs/Dec13_17-25-51_f86c45587747/events.out.tfevents.1702489100.f86c45587747.2060.1 +3 -0
runs/Dec13_17-40-47_f86c45587747/events.out.tfevents.1702489257.f86c45587747.2060.2 +3 -0
train_results.json +6 -6
trainer_state.json +491 -173
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -40,7 +40,7 @@ The following hyperparameters were used during training:
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- num_epochs: 4
 - mixed_precision_training: Native AMP
 ### Training results

 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- num_epochs: 10
 - mixed_precision_training: Native AMP
 ### Training results

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 2.0,
-    "eval_accuracy": 0.8812949640287769,
-    "eval_loss": 0.4103582799434662,
-    "eval_runtime": 15.1855,
-    "eval_samples_per_second": 73.228,
-    "eval_steps_per_second": 9.153,
-    "total_flos": 6.887981879958897e+17,
-    "train_loss": 0.8073481788738168,
-    "train_runtime": 211.1785,
-    "train_samples_per_second": 42.088,
-    "train_steps_per_second": 2.633
 }

 {
+    "epoch": 4.0,
+    "eval_accuracy": 0.8712962962962963,
+    "eval_loss": 0.45238634943962097,
+    "eval_runtime": 15.5817,
+    "eval_samples_per_second": 69.312,
+    "eval_steps_per_second": 8.664,
+    "total_flos": 1.339145591637934e+18,
+    "train_loss": 0.6042599819324634,
+    "train_runtime": 412.4773,
+    "train_samples_per_second": 41.893,
+    "train_steps_per_second": 2.618
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 2.0,
-    "eval_accuracy": 0.8812949640287769,
-    "eval_loss": 0.4103582799434662,
-    "eval_runtime": 15.1855,
-    "eval_samples_per_second": 73.228,
-    "eval_steps_per_second": 9.153
 }

 {
+    "epoch": 4.0,
+    "eval_accuracy": 0.8712962962962963,
+    "eval_loss": 0.45238634943962097,
+    "eval_runtime": 15.5817,
+    "eval_samples_per_second": 69.312,
+    "eval_steps_per_second": 8.664
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5cd19c50b656e731cb9fd57b204546bedc536a7b2f2cddd11c22d2ee4078094b
 size 343245508

 version https://git-lfs.github.com/spec/v1
+oid sha256:19e9e589da45f267b74543fb3cf71a3e64ae7573f9ffbf643d2128ab848f036b
 size 343245508

runs/Dec13_17-25-51_f86c45587747/events.out.tfevents.1702489100.f86c45587747.2060.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6ce540e1558284f9793fdfb4eff509c6495bb11a69321047444e8790d82a4996
+size 411

runs/Dec13_17-40-47_f86c45587747/events.out.tfevents.1702489257.f86c45587747.2060.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:95f23499f1e81cdfb1efd1a6cc7bd92a67c13ff9980cacd5bbdd4bcc1a14fa17
+size 47230

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 2.0,
-    "total_flos": 6.887981879958897e+17,
-    "train_loss": 0.8073481788738168,
-    "train_runtime": 211.1785,
-    "train_samples_per_second": 42.088,
-    "train_steps_per_second": 2.633
 }

 {
+    "epoch": 4.0,
+    "total_flos": 1.339145591637934e+18,
+    "train_loss": 0.6042599819324634,
+    "train_runtime": 412.4773,
+    "train_samples_per_second": 41.893,
+    "train_steps_per_second": 2.618
 }

trainer_state.json CHANGED Viewed

@@ -1,358 +1,676 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0,
   "eval_steps": 3000,
-  "global_step": 556,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.04,
-      "learning_rate": 0.00019640287769784174,
-      "loss": 2.1468,
       "step": 10
     },
     {
       "epoch": 0.07,
-      "learning_rate": 0.00019280575539568347,
-      "loss": 1.9709,
       "step": 20
     },
     {
       "epoch": 0.11,
-      "learning_rate": 0.00018920863309352518,
-      "loss": 1.8468,
       "step": 30
     },
     {
-      "epoch": 0.14,
-      "learning_rate": 0.0001856115107913669,
-      "loss": 1.6942,
       "step": 40
     },
     {
-      "epoch": 0.18,
-      "learning_rate": 0.00018201438848920864,
-      "loss": 1.4989,
       "step": 50
     },
     {
       "epoch": 0.22,
-      "learning_rate": 0.00017841726618705037,
-      "loss": 1.3514,
       "step": 60
     },
     {
-      "epoch": 0.25,
-      "learning_rate": 0.0001748201438848921,
-      "loss": 1.3165,
       "step": 70
     },
     {
-      "epoch": 0.29,
-      "learning_rate": 0.00017122302158273383,
-      "loss": 1.2268,
       "step": 80
     },
     {
-      "epoch": 0.32,
-      "learning_rate": 0.00016762589928057554,
-      "loss": 1.3164,
       "step": 90
     },
     {
-      "epoch": 0.36,
-      "learning_rate": 0.00016402877697841727,
-      "loss": 1.3179,
       "step": 100
     },
     {
-      "epoch": 0.4,
-      "learning_rate": 0.000160431654676259,
-      "loss": 1.2648,
       "step": 110
     },
     {
-      "epoch": 0.43,
-      "learning_rate": 0.00015683453237410073,
-      "loss": 1.178,
       "step": 120
     },
     {
-      "epoch": 0.47,
-      "learning_rate": 0.00015323741007194246,
-      "loss": 1.1558,
       "step": 130
     },
     {
-      "epoch": 0.5,
-      "learning_rate": 0.0001496402877697842,
-      "loss": 1.0114,
       "step": 140
     },
     {
-      "epoch": 0.54,
-      "learning_rate": 0.0001460431654676259,
-      "loss": 0.8844,
       "step": 150
     },
     {
-      "epoch": 0.58,
-      "learning_rate": 0.00014244604316546763,
-      "loss": 0.9118,
       "step": 160
     },
     {
-      "epoch": 0.61,
-      "learning_rate": 0.00013884892086330936,
-      "loss": 1.0269,
       "step": 170
     },
     {
-      "epoch": 0.65,
-      "learning_rate": 0.0001352517985611511,
-      "loss": 0.9542,
       "step": 180
     },
     {
-      "epoch": 0.68,
-      "learning_rate": 0.00013165467625899283,
-      "loss": 0.8281,
       "step": 190
     },
     {
-      "epoch": 0.72,
-      "learning_rate": 0.00012805755395683453,
-      "loss": 0.8024,
       "step": 200
     },
     {
-      "epoch": 0.76,
-      "learning_rate": 0.00012446043165467626,
-      "loss": 0.8185,
       "step": 210
     },
     {
-      "epoch": 0.79,
-      "learning_rate": 0.00012086330935251799,
-      "loss": 1.099,
       "step": 220
     },
     {
-      "epoch": 0.83,
-      "learning_rate": 0.00011726618705035972,
-      "loss": 0.8726,
       "step": 230
     },
     {
-      "epoch": 0.86,
-      "learning_rate": 0.00011366906474820144,
-      "loss": 0.7907,
       "step": 240
     },
     {
-      "epoch": 0.9,
-      "learning_rate": 0.00011007194244604317,
-      "loss": 0.9099,
       "step": 250
     },
     {
-      "epoch": 0.94,
-      "learning_rate": 0.0001064748201438849,
-      "loss": 0.7301,
       "step": 260
     },
     {
-      "epoch": 0.97,
-      "learning_rate": 0.00010287769784172662,
-      "loss": 0.772,
       "step": 270
     },
     {
-      "epoch": 1.01,
-      "learning_rate": 9.928057553956835e-05,
-      "loss": 0.7936,
       "step": 280
     },
     {
-      "epoch": 1.04,
-      "learning_rate": 9.568345323741009e-05,
-      "loss": 0.6623,
       "step": 290
     },
     {
-      "epoch": 1.08,
-      "learning_rate": 9.20863309352518e-05,
-      "loss": 0.5091,
       "step": 300
     },
     {
-      "epoch": 1.12,
-      "learning_rate": 8.848920863309353e-05,
-      "loss": 0.4996,
       "step": 310
     },
     {
-      "epoch": 1.15,
-      "learning_rate": 8.489208633093527e-05,
-      "loss": 0.5529,
       "step": 320
     },
     {
-      "epoch": 1.19,
-      "learning_rate": 8.129496402877698e-05,
-      "loss": 0.6094,
       "step": 330
     },
     {
-      "epoch": 1.22,
-      "learning_rate": 7.769784172661872e-05,
-      "loss": 0.4422,
       "step": 340
     },
     {
-      "epoch": 1.26,
-      "learning_rate": 7.410071942446043e-05,
-      "loss": 0.4468,
       "step": 350
     },
     {
-      "epoch": 1.29,
-      "learning_rate": 7.050359712230215e-05,
-      "loss": 0.4673,
       "step": 360
     },
     {
-      "epoch": 1.33,
-      "learning_rate": 6.690647482014388e-05,
-      "loss": 0.4746,
       "step": 370
     },
     {
-      "epoch": 1.37,
-      "learning_rate": 6.366906474820145e-05,
-      "loss": 0.4601,
       "step": 380
     },
     {
-      "epoch": 1.4,
-      "learning_rate": 6.007194244604317e-05,
-      "loss": 0.4793,
       "step": 390
     },
     {
-      "epoch": 1.44,
-      "learning_rate": 5.64748201438849e-05,
-      "loss": 0.5919,
       "step": 400
     },
     {
-      "epoch": 1.47,
-      "learning_rate": 5.287769784172663e-05,
-      "loss": 0.4313,
       "step": 410
     },
     {
-      "epoch": 1.51,
-      "learning_rate": 4.9280575539568345e-05,
-      "loss": 0.4715,
       "step": 420
     },
     {
-      "epoch": 1.55,
-      "learning_rate": 4.5683453237410076e-05,
-      "loss": 0.3263,
       "step": 430
     },
     {
-      "epoch": 1.58,
-      "learning_rate": 4.20863309352518e-05,
-      "loss": 0.4526,
       "step": 440
     },
     {
-      "epoch": 1.62,
-      "learning_rate": 3.8489208633093525e-05,
-      "loss": 0.4379,
       "step": 450
     },
     {
-      "epoch": 1.65,
-      "learning_rate": 3.489208633093525e-05,
-      "loss": 0.5083,
       "step": 460
     },
     {
-      "epoch": 1.69,
-      "learning_rate": 3.129496402877698e-05,
-      "loss": 0.5373,
       "step": 470
     },
     {
-      "epoch": 1.73,
-      "learning_rate": 2.7697841726618706e-05,
-      "loss": 0.3303,
       "step": 480
     },
     {
-      "epoch": 1.76,
-      "learning_rate": 2.4100719424460434e-05,
-      "loss": 0.3214,
       "step": 490
     },
     {
-      "epoch": 1.8,
-      "learning_rate": 2.050359712230216e-05,
-      "loss": 0.4343,
       "step": 500
     },
     {
-      "epoch": 1.83,
-      "learning_rate": 1.6906474820143887e-05,
-      "loss": 0.314,
       "step": 510
     },
     {
-      "epoch": 1.87,
-      "learning_rate": 1.3309352517985613e-05,
-      "loss": 0.3727,
       "step": 520
     },
     {
-      "epoch": 1.91,
-      "learning_rate": 9.71223021582734e-06,
-      "loss": 0.2798,
       "step": 530
     },
     {
-      "epoch": 1.94,
-      "learning_rate": 6.115107913669065e-06,
-      "loss": 0.4031,
       "step": 540
     },
     {
-      "epoch": 1.98,
-      "learning_rate": 2.5179856115107916e-06,
-      "loss": 0.3542,
       "step": 550
     },
     {
-      "epoch": 2.0,
-      "step": 556,
-      "total_flos": 6.887981879958897e+17,
-      "train_loss": 0.8073481788738168,
-      "train_runtime": 211.1785,
-      "train_samples_per_second": 42.088,
-      "train_steps_per_second": 2.633
     }
   ],
   "logging_steps": 10,
-  "max_steps": 556,
-  "num_train_epochs": 2,
   "save_steps": 3000,
-  "total_flos": 6.887981879958897e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.0,
   "eval_steps": 3000,
+  "global_step": 1080,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.04,
+      "learning_rate": 0.00019814814814814814,
+      "loss": 2.1983,
       "step": 10
     },
     {
       "epoch": 0.07,
+      "learning_rate": 0.0001962962962962963,
+      "loss": 2.1208,
       "step": 20
     },
     {
       "epoch": 0.11,
+      "learning_rate": 0.00019444444444444446,
+      "loss": 1.8985,
       "step": 30
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 0.0001925925925925926,
+      "loss": 1.726,
       "step": 40
     },
     {
+      "epoch": 0.19,
+      "learning_rate": 0.00019074074074074075,
+      "loss": 1.6799,
       "step": 50
     },
     {
       "epoch": 0.22,
+      "learning_rate": 0.00018888888888888888,
+      "loss": 1.5807,
       "step": 60
     },
     {
+      "epoch": 0.26,
+      "learning_rate": 0.00018703703703703704,
+      "loss": 1.5165,
       "step": 70
     },
     {
+      "epoch": 0.3,
+      "learning_rate": 0.0001851851851851852,
+      "loss": 1.4893,
       "step": 80
     },
     {
+      "epoch": 0.33,
+      "learning_rate": 0.00018333333333333334,
+      "loss": 1.24,
       "step": 90
     },
     {
+      "epoch": 0.37,
+      "learning_rate": 0.0001814814814814815,
+      "loss": 1.2977,
       "step": 100
     },
     {
+      "epoch": 0.41,
+      "learning_rate": 0.00017962962962962963,
+      "loss": 1.2492,
       "step": 110
     },
     {
+      "epoch": 0.44,
+      "learning_rate": 0.00017777777777777779,
+      "loss": 1.1566,
       "step": 120
     },
     {
+      "epoch": 0.48,
+      "learning_rate": 0.00017592592592592595,
+      "loss": 1.3443,
       "step": 130
     },
     {
+      "epoch": 0.52,
+      "learning_rate": 0.00017407407407407408,
+      "loss": 1.2112,
       "step": 140
     },
     {
+      "epoch": 0.56,
+      "learning_rate": 0.00017222222222222224,
+      "loss": 1.0302,
       "step": 150
     },
     {
+      "epoch": 0.59,
+      "learning_rate": 0.00017037037037037037,
+      "loss": 1.1856,
       "step": 160
     },
     {
+      "epoch": 0.63,
+      "learning_rate": 0.00016851851851851853,
+      "loss": 1.1745,
       "step": 170
     },
     {
+      "epoch": 0.67,
+      "learning_rate": 0.0001666666666666667,
+      "loss": 1.0659,
       "step": 180
     },
     {
+      "epoch": 0.7,
+      "learning_rate": 0.00016481481481481482,
+      "loss": 1.0134,
       "step": 190
     },
     {
+      "epoch": 0.74,
+      "learning_rate": 0.00016296296296296295,
+      "loss": 0.9692,
       "step": 200
     },
     {
+      "epoch": 0.78,
+      "learning_rate": 0.0001611111111111111,
+      "loss": 0.8877,
       "step": 210
     },
     {
+      "epoch": 0.81,
+      "learning_rate": 0.00015925925925925927,
+      "loss": 0.8419,
       "step": 220
     },
     {
+      "epoch": 0.85,
+      "learning_rate": 0.00015740740740740743,
+      "loss": 0.9147,
       "step": 230
     },
     {
+      "epoch": 0.89,
+      "learning_rate": 0.00015555555555555556,
+      "loss": 1.0111,
       "step": 240
     },
     {
+      "epoch": 0.93,
+      "learning_rate": 0.0001537037037037037,
+      "loss": 0.9457,
       "step": 250
     },
     {
+      "epoch": 0.96,
+      "learning_rate": 0.00015185185185185185,
+      "loss": 0.9867,
       "step": 260
     },
     {
+      "epoch": 1.0,
+      "learning_rate": 0.00015000000000000001,
+      "loss": 1.1366,
       "step": 270
     },
     {
+      "epoch": 1.04,
+      "learning_rate": 0.00014814814814814815,
+      "loss": 0.7648,
       "step": 280
     },
     {
+      "epoch": 1.07,
+      "learning_rate": 0.0001462962962962963,
+      "loss": 0.8693,
       "step": 290
     },
     {
+      "epoch": 1.11,
+      "learning_rate": 0.00014444444444444444,
+      "loss": 0.8179,
       "step": 300
     },
     {
+      "epoch": 1.15,
+      "learning_rate": 0.0001425925925925926,
+      "loss": 0.8077,
       "step": 310
     },
     {
+      "epoch": 1.19,
+      "learning_rate": 0.00014074074074074076,
+      "loss": 0.941,
       "step": 320
     },
     {
+      "epoch": 1.22,
+      "learning_rate": 0.0001388888888888889,
+      "loss": 0.8906,
       "step": 330
     },
     {
+      "epoch": 1.26,
+      "learning_rate": 0.00013703703703703705,
+      "loss": 0.8433,
       "step": 340
     },
     {
+      "epoch": 1.3,
+      "learning_rate": 0.00013518518518518518,
+      "loss": 0.7654,
       "step": 350
     },
     {
+      "epoch": 1.33,
+      "learning_rate": 0.00013333333333333334,
+      "loss": 0.7217,
       "step": 360
     },
     {
+      "epoch": 1.37,
+      "learning_rate": 0.0001314814814814815,
+      "loss": 0.8744,
       "step": 370
     },
     {
+      "epoch": 1.41,
+      "learning_rate": 0.00012962962962962963,
+      "loss": 0.6337,
       "step": 380
     },
     {
+      "epoch": 1.44,
+      "learning_rate": 0.00012777777777777776,
+      "loss": 0.6369,
       "step": 390
     },
     {
+      "epoch": 1.48,
+      "learning_rate": 0.00012592592592592592,
+      "loss": 0.5268,
       "step": 400
     },
     {
+      "epoch": 1.52,
+      "learning_rate": 0.00012407407407407408,
+      "loss": 0.8015,
       "step": 410
     },
     {
+      "epoch": 1.56,
+      "learning_rate": 0.00012222222222222224,
+      "loss": 0.5013,
       "step": 420
     },
     {
+      "epoch": 1.59,
+      "learning_rate": 0.00012037037037037037,
+      "loss": 0.6063,
       "step": 430
     },
     {
+      "epoch": 1.63,
+      "learning_rate": 0.00011851851851851852,
+      "loss": 0.7767,
       "step": 440
     },
     {
+      "epoch": 1.67,
+      "learning_rate": 0.00011666666666666668,
+      "loss": 0.5174,
       "step": 450
     },
     {
+      "epoch": 1.7,
+      "learning_rate": 0.00011481481481481482,
+      "loss": 0.6391,
       "step": 460
     },
     {
+      "epoch": 1.74,
+      "learning_rate": 0.00011296296296296296,
+      "loss": 0.4966,
       "step": 470
     },
     {
+      "epoch": 1.78,
+      "learning_rate": 0.00011111111111111112,
+      "loss": 0.5991,
       "step": 480
     },
     {
+      "epoch": 1.81,
+      "learning_rate": 0.00010925925925925926,
+      "loss": 0.5499,
       "step": 490
     },
     {
+      "epoch": 1.85,
+      "learning_rate": 0.00010740740740740742,
+      "loss": 0.5488,
       "step": 500
     },
     {
+      "epoch": 1.89,
+      "learning_rate": 0.00010555555555555557,
+      "loss": 0.5834,
       "step": 510
     },
     {
+      "epoch": 1.93,
+      "learning_rate": 0.0001037037037037037,
+      "loss": 0.6238,
       "step": 520
     },
     {
+      "epoch": 1.96,
+      "learning_rate": 0.00010185185185185186,
+      "loss": 0.6365,
       "step": 530
     },
     {
+      "epoch": 2.0,
+      "learning_rate": 0.0001,
+      "loss": 0.5337,
       "step": 540
     },
     {
+      "epoch": 2.04,
+      "learning_rate": 9.814814814814815e-05,
+      "loss": 0.4326,
       "step": 550
     },
     {
+      "epoch": 2.07,
+      "learning_rate": 9.62962962962963e-05,
+      "loss": 0.4197,
+      "step": 560
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 9.444444444444444e-05,
+      "loss": 0.3268,
+      "step": 570
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 9.25925925925926e-05,
+      "loss": 0.3066,
+      "step": 580
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 9.074074074074075e-05,
+      "loss": 0.4737,
+      "step": 590
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 8.888888888888889e-05,
+      "loss": 0.3185,
+      "step": 600
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 8.703703703703704e-05,
+      "loss": 0.4233,
+      "step": 610
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 8.518518518518518e-05,
+      "loss": 0.3377,
+      "step": 620
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 8.333333333333334e-05,
+      "loss": 0.3957,
+      "step": 630
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 8.148148148148148e-05,
+      "loss": 0.3915,
+      "step": 640
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 7.962962962962964e-05,
+      "loss": 0.3025,
+      "step": 650
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 7.777777777777778e-05,
+      "loss": 0.2896,
+      "step": 660
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 7.592592592592593e-05,
+      "loss": 0.2558,
+      "step": 670
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 7.407407407407407e-05,
+      "loss": 0.3477,
+      "step": 680
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 7.222222222222222e-05,
+      "loss": 0.2111,
+      "step": 690
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 7.037037037037038e-05,
+      "loss": 0.2885,
+      "step": 700
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 6.851851851851852e-05,
+      "loss": 0.2953,
+      "step": 710
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 6.666666666666667e-05,
+      "loss": 0.2415,
+      "step": 720
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 6.481481481481482e-05,
+      "loss": 0.3242,
+      "step": 730
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 6.296296296296296e-05,
+      "loss": 0.2616,
+      "step": 740
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 6.111111111111112e-05,
+      "loss": 0.2853,
+      "step": 750
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 5.925925925925926e-05,
+      "loss": 0.2828,
+      "step": 760
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 5.740740740740741e-05,
+      "loss": 0.2382,
+      "step": 770
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 5.555555555555556e-05,
+      "loss": 0.3508,
+      "step": 780
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 5.370370370370371e-05,
+      "loss": 0.2794,
+      "step": 790
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 5.185185185185185e-05,
+      "loss": 0.3247,
+      "step": 800
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 5e-05,
+      "loss": 0.2753,
+      "step": 810
+    },
+    {
+      "epoch": 3.04,
+      "learning_rate": 4.814814814814815e-05,
+      "loss": 0.1453,
+      "step": 820
+    },
+    {
+      "epoch": 3.07,
+      "learning_rate": 4.62962962962963e-05,
+      "loss": 0.1666,
+      "step": 830
+    },
+    {
+      "epoch": 3.11,
+      "learning_rate": 4.4444444444444447e-05,
+      "loss": 0.1369,
+      "step": 840
+    },
+    {
+      "epoch": 3.15,
+      "learning_rate": 4.259259259259259e-05,
+      "loss": 0.1086,
+      "step": 850
+    },
+    {
+      "epoch": 3.19,
+      "learning_rate": 4.074074074074074e-05,
+      "loss": 0.0967,
+      "step": 860
+    },
+    {
+      "epoch": 3.22,
+      "learning_rate": 3.888888888888889e-05,
+      "loss": 0.1327,
+      "step": 870
+    },
+    {
+      "epoch": 3.26,
+      "learning_rate": 3.7037037037037037e-05,
+      "loss": 0.0848,
+      "step": 880
+    },
+    {
+      "epoch": 3.3,
+      "learning_rate": 3.518518518518519e-05,
+      "loss": 0.1173,
+      "step": 890
+    },
+    {
+      "epoch": 3.33,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.135,
+      "step": 900
+    },
+    {
+      "epoch": 3.37,
+      "learning_rate": 3.148148148148148e-05,
+      "loss": 0.1979,
+      "step": 910
+    },
+    {
+      "epoch": 3.41,
+      "learning_rate": 2.962962962962963e-05,
+      "loss": 0.1181,
+      "step": 920
+    },
+    {
+      "epoch": 3.44,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 0.0957,
+      "step": 930
+    },
+    {
+      "epoch": 3.48,
+      "learning_rate": 2.5925925925925925e-05,
+      "loss": 0.0927,
+      "step": 940
+    },
+    {
+      "epoch": 3.52,
+      "learning_rate": 2.4074074074074074e-05,
+      "loss": 0.094,
+      "step": 950
+    },
+    {
+      "epoch": 3.56,
+      "learning_rate": 2.2222222222222223e-05,
+      "loss": 0.1197,
+      "step": 960
+    },
+    {
+      "epoch": 3.59,
+      "learning_rate": 2.037037037037037e-05,
+      "loss": 0.0927,
+      "step": 970
+    },
+    {
+      "epoch": 3.63,
+      "learning_rate": 1.8518518518518518e-05,
+      "loss": 0.1523,
+      "step": 980
+    },
+    {
+      "epoch": 3.67,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.2582,
+      "step": 990
+    },
+    {
+      "epoch": 3.7,
+      "learning_rate": 1.4814814814814815e-05,
+      "loss": 0.1101,
+      "step": 1000
+    },
+    {
+      "epoch": 3.74,
+      "learning_rate": 1.2962962962962962e-05,
+      "loss": 0.1582,
+      "step": 1010
+    },
+    {
+      "epoch": 3.78,
+      "learning_rate": 1.1111111111111112e-05,
+      "loss": 0.0504,
+      "step": 1020
+    },
+    {
+      "epoch": 3.81,
+      "learning_rate": 9.259259259259259e-06,
+      "loss": 0.0788,
+      "step": 1030
+    },
+    {
+      "epoch": 3.85,
+      "learning_rate": 7.4074074074074075e-06,
+      "loss": 0.0607,
+      "step": 1040
+    },
+    {
+      "epoch": 3.89,
+      "learning_rate": 5.555555555555556e-06,
+      "loss": 0.1061,
+      "step": 1050
+    },
+    {
+      "epoch": 3.93,
+      "learning_rate": 3.7037037037037037e-06,
+      "loss": 0.0645,
+      "step": 1060
+    },
+    {
+      "epoch": 3.96,
+      "learning_rate": 1.8518518518518519e-06,
+      "loss": 0.0971,
+      "step": 1070
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 0.0,
+      "loss": 0.128,
+      "step": 1080
+    },
+    {
+      "epoch": 4.0,
+      "step": 1080,
+      "total_flos": 1.339145591637934e+18,
+      "train_loss": 0.6042599819324634,
+      "train_runtime": 412.4773,
+      "train_samples_per_second": 41.893,
+      "train_steps_per_second": 2.618
     }
   ],
   "logging_steps": 10,
+  "max_steps": 1080,
+  "num_train_epochs": 4,
   "save_steps": 3000,
+  "total_flos": 1.339145591637934e+18,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:238f025878ae397afe0eea0dd655a189bf936105b7e4ad96f34b4cef925b5a61
 size 4536

 version https://git-lfs.github.com/spec/v1
+oid sha256:ce8c248f033e489c055bf6bb31f2e28906b79dad7e44578cd117fc71cea6f0e4
 size 4536