Training in progress, step 200

Browse files

Files changed (12) hide show

all_results.json +11 -9
eval_results.json +6 -5
pytorch_model.bin +1 -1
runs/Feb04_14-11-22_node1/events.out.tfevents.1643955164.node1 +2 -2
runs/Feb04_14-11-22_node1/events.out.tfevents.1643956292.node1 +3 -0
runs/Feb04_15-11-13_node1/1643958728.2887642/events.out.tfevents.1643958728.node1 +3 -0
runs/Feb04_15-11-13_node1/events.out.tfevents.1643958728.node1 +0 -0
runs/Feb04_15-12-45_node1/1643958806.2282734/events.out.tfevents.1643958806.node1 +3 -0
runs/Feb04_15-12-45_node1/events.out.tfevents.1643958806.node1 +3 -0
train_results.json +5 -5
trainer_state.json +227 -227
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,18 +1,20 @@
 {
     "epoch": 3.0,
-    "eval_accuracy": 60.099999999999994,
     "eval_average_metrics": 60.099999999999994,
-    "eval_loss": 0.2783910036087036,
-    "eval_runtime": 3.2954,
-    "eval_samples_per_second": 303.458,
     "test_accuracy": 58.142201834862384,
     "test_average_metrics": 58.142201834862384,
     "test_loss": 0.2752912938594818,
     "test_runtime": 3.1391,
     "test_samples_per_second": 277.783,
-    "train_loss": 0.5804944922785328,
-    "train_runtime": 1254.7674,
-    "train_samples": 66349,
-    "train_samples_per_second": 158.633,
-    "train_steps_per_second": 4.959
 }

 {
     "epoch": 3.0,
+    "eval_accuracy": 0.5091743119266054,
     "eval_average_metrics": 60.099999999999994,
+    "eval_loss": 1.2113580703735352,
+    "eval_runtime": 1.554,
+    "eval_samples": 872,
+    "eval_samples_per_second": 561.145,
+    "eval_steps_per_second": 18.018,
     "test_accuracy": 58.142201834862384,
     "test_average_metrics": 58.142201834862384,
     "test_loss": 0.2752912938594818,
     "test_runtime": 3.1391,
     "test_samples_per_second": 277.783,
+    "train_loss": 1.4194242838348365,
+    "train_runtime": 1125.0881,
+    "train_samples": 67349,
+    "train_samples_per_second": 179.583,
+    "train_steps_per_second": 5.613
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,9 @@
 {
     "epoch": 3.0,
-    "eval_accuracy": 60.099999999999994,
-    "eval_average_metrics": 60.099999999999994,
-    "eval_loss": 0.2783910036087036,
-    "eval_runtime": 3.2954,
-    "eval_samples_per_second": 303.458
 }

 {
     "epoch": 3.0,
+    "eval_accuracy": 0.5091743119266054,
+    "eval_loss": 1.2113580703735352,
+    "eval_runtime": 1.554,
+    "eval_samples": 872,
+    "eval_samples_per_second": 561.145,
+    "eval_steps_per_second": 18.018
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7842d20545bcabe4b98d674b50da3e13ee5b408dbef04774239b4781492a26f
 size 2689947

 version https://git-lfs.github.com/spec/v1
+oid sha256:d66c7f9b099a66a04dcaad319be6a93dfcf2679ffed5bdf4e70359d11b2c956a
 size 2689947

runs/Feb04_14-11-22_node1/events.out.tfevents.1643955164.node1 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e9e33cafb4299a5322a137f39cccc7d8b49b131e5c731e18c6d2247db2de6df
-size 15084

 version https://git-lfs.github.com/spec/v1
+oid sha256:f112c6541849182722b1bb7175853ebfe627cc2099e78761e4df5e90ef17c54b
+size 15761

runs/Feb04_14-11-22_node1/events.out.tfevents.1643956292.node1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ee95864e1610ba183094760086f440e3ce2b2c500428fafdeafbc2e5a839e754
+size 363

runs/Feb04_15-11-13_node1/1643958728.2887642/events.out.tfevents.1643958728.node1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:73cf69db58d660cb644b4168e987a0c9f19b5e69a2e51ad932d02596b168ab08
+size 4603

runs/Feb04_15-11-13_node1/events.out.tfevents.1643958728.node1 ADDED Viewed

File without changes

runs/Feb04_15-12-45_node1/1643958806.2282734/events.out.tfevents.1643958806.node1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:429feea9998dd3a9cdcd92945b7bd6c90a9d7f2389cb04d032912a15b754f4cc
+size 4603

runs/Feb04_15-12-45_node1/events.out.tfevents.1643958806.node1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e34f1394d89b293f9fe801f9a956911275e13ab260d67cd6da44330d550510ec
+size 3510

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 3.0,
-    "train_loss": 0.5804944922785328,
-    "train_runtime": 1254.7674,
-    "train_samples": 66349,
-    "train_samples_per_second": 158.633,
-    "train_steps_per_second": 4.959
 }

 {
     "epoch": 3.0,
+    "train_loss": 1.4194242838348365,
+    "train_runtime": 1125.0881,
+    "train_samples": 67349,
+    "train_samples_per_second": 179.583,
+    "train_steps_per_second": 5.613
 }

trainer_state.json CHANGED Viewed

@@ -1,376 +1,376 @@
 {
-  "best_metric": 60.099999999999994,
-  "best_model_checkpoint": "outputs/soft_prompt/t5-base/sst2/checkpoint-5800",
   "epoch": 3.0,
-  "global_step": 6222,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.1,
-      "eval_accuracy": 0.0,
-      "eval_average_metrics": 0.0,
-      "eval_loss": 1.9322336912155151,
-      "eval_runtime": 9.7016,
-      "eval_samples_per_second": 103.076,
       "step": 200
     },
     {
       "epoch": 0.19,
-      "eval_accuracy": 51.0,
-      "eval_average_metrics": 51.0,
-      "eval_loss": 0.7396745681762695,
-      "eval_runtime": 3.3022,
-      "eval_samples_per_second": 302.832,
       "step": 400
     },
     {
       "epoch": 0.24,
-      "learning_rate": 0.00027589199614271937,
-      "loss": 2.5059,
       "step": 500
     },
     {
       "epoch": 0.29,
-      "eval_accuracy": 55.2,
-      "eval_average_metrics": 55.2,
-      "eval_loss": 0.5560445785522461,
-      "eval_runtime": 3.2155,
-      "eval_samples_per_second": 310.993,
       "step": 600
     },
     {
-      "epoch": 0.39,
-      "eval_accuracy": 55.300000000000004,
-      "eval_average_metrics": 55.300000000000004,
-      "eval_loss": 0.463209867477417,
-      "eval_runtime": 3.1314,
-      "eval_samples_per_second": 319.345,
       "step": 800
     },
     {
       "epoch": 0.48,
-      "learning_rate": 0.0002517839922854387,
-      "loss": 0.7329,
       "step": 1000
     },
     {
       "epoch": 0.48,
-      "eval_accuracy": 55.300000000000004,
-      "eval_average_metrics": 55.300000000000004,
-      "eval_loss": 0.4116092920303345,
-      "eval_runtime": 3.3786,
-      "eval_samples_per_second": 295.977,
       "step": 1000
     },
     {
-      "epoch": 0.58,
-      "eval_accuracy": 55.300000000000004,
-      "eval_average_metrics": 55.300000000000004,
-      "eval_loss": 0.38179224729537964,
-      "eval_runtime": 3.2857,
-      "eval_samples_per_second": 304.351,
       "step": 1200
     },
     {
-      "epoch": 0.68,
-      "eval_accuracy": 55.300000000000004,
-      "eval_average_metrics": 55.300000000000004,
-      "eval_loss": 0.35022690892219543,
-      "eval_runtime": 2.8293,
-      "eval_samples_per_second": 353.443,
       "step": 1400
     },
     {
-      "epoch": 0.72,
-      "learning_rate": 0.00022767598842815813,
-      "loss": 0.4828,
       "step": 1500
     },
     {
-      "epoch": 0.77,
-      "eval_accuracy": 55.300000000000004,
-      "eval_average_metrics": 55.300000000000004,
-      "eval_loss": 0.3595990538597107,
-      "eval_runtime": 3.2567,
-      "eval_samples_per_second": 307.055,
       "step": 1600
     },
     {
-      "epoch": 0.87,
-      "eval_accuracy": 55.300000000000004,
-      "eval_average_metrics": 55.300000000000004,
-      "eval_loss": 0.3511555790901184,
-      "eval_runtime": 3.0816,
-      "eval_samples_per_second": 324.506,
       "step": 1800
     },
     {
-      "epoch": 0.96,
-      "learning_rate": 0.00020356798457087753,
-      "loss": 0.421,
       "step": 2000
     },
     {
-      "epoch": 0.96,
-      "eval_accuracy": 55.300000000000004,
-      "eval_average_metrics": 55.300000000000004,
-      "eval_loss": 0.3314475417137146,
-      "eval_runtime": 2.522,
-      "eval_samples_per_second": 396.513,
       "step": 2000
     },
     {
-      "epoch": 1.06,
-      "eval_accuracy": 55.300000000000004,
-      "eval_average_metrics": 55.300000000000004,
-      "eval_loss": 0.3108561336994171,
-      "eval_runtime": 2.7063,
-      "eval_samples_per_second": 369.512,
       "step": 2200
     },
     {
-      "epoch": 1.16,
-      "eval_accuracy": 55.7,
-      "eval_average_metrics": 55.7,
-      "eval_loss": 0.2974016070365906,
-      "eval_runtime": 3.5599,
-      "eval_samples_per_second": 280.91,
       "step": 2400
     },
     {
-      "epoch": 1.21,
-      "learning_rate": 0.0001794599807135969,
-      "loss": 0.3931,
       "step": 2500
     },
     {
-      "epoch": 1.25,
-      "eval_accuracy": 55.7,
-      "eval_average_metrics": 55.7,
-      "eval_loss": 0.3047039210796356,
-      "eval_runtime": 3.0837,
-      "eval_samples_per_second": 324.282,
       "step": 2600
     },
     {
-      "epoch": 1.35,
-      "eval_accuracy": 55.900000000000006,
-      "eval_average_metrics": 55.900000000000006,
-      "eval_loss": 0.2895060181617737,
-      "eval_runtime": 3.9994,
-      "eval_samples_per_second": 250.039,
       "step": 2800
     },
     {
-      "epoch": 1.45,
-      "learning_rate": 0.00015535197685631627,
-      "loss": 0.3777,
       "step": 3000
     },
     {
-      "epoch": 1.45,
-      "eval_accuracy": 56.2,
-      "eval_average_metrics": 56.2,
-      "eval_loss": 0.28209826350212097,
-      "eval_runtime": 3.5924,
-      "eval_samples_per_second": 278.366,
       "step": 3000
     },
     {
-      "epoch": 1.54,
-      "eval_accuracy": 57.4,
-      "eval_average_metrics": 57.4,
-      "eval_loss": 0.2806238532066345,
-      "eval_runtime": 3.1947,
-      "eval_samples_per_second": 313.019,
       "step": 3200
     },
     {
-      "epoch": 1.64,
-      "eval_accuracy": 56.699999999999996,
-      "eval_average_metrics": 56.699999999999996,
-      "eval_loss": 0.2809857428073883,
-      "eval_runtime": 3.3046,
-      "eval_samples_per_second": 302.612,
       "step": 3400
     },
     {
-      "epoch": 1.69,
-      "learning_rate": 0.00013124397299903566,
-      "loss": 0.372,
       "step": 3500
     },
     {
-      "epoch": 1.74,
-      "eval_accuracy": 56.89999999999999,
-      "eval_average_metrics": 56.89999999999999,
-      "eval_loss": 0.2799268066883087,
-      "eval_runtime": 3.5652,
-      "eval_samples_per_second": 280.491,
       "step": 3600
     },
     {
-      "epoch": 1.83,
-      "eval_accuracy": 56.599999999999994,
-      "eval_average_metrics": 56.599999999999994,
-      "eval_loss": 0.2795256972312927,
-      "eval_runtime": 3.5541,
-      "eval_samples_per_second": 281.363,
       "step": 3800
     },
     {
-      "epoch": 1.93,
-      "learning_rate": 0.00010713596914175504,
-      "loss": 0.3629,
       "step": 4000
     },
     {
-      "epoch": 1.93,
-      "eval_accuracy": 57.099999999999994,
-      "eval_average_metrics": 57.099999999999994,
-      "eval_loss": 0.27900928258895874,
-      "eval_runtime": 3.42,
-      "eval_samples_per_second": 292.396,
       "step": 4000
     },
     {
-      "epoch": 2.03,
-      "eval_accuracy": 57.699999999999996,
-      "eval_average_metrics": 57.699999999999996,
-      "eval_loss": 0.27878034114837646,
-      "eval_runtime": 3.38,
-      "eval_samples_per_second": 295.859,
       "step": 4200
     },
     {
-      "epoch": 2.12,
-      "eval_accuracy": 57.699999999999996,
-      "eval_average_metrics": 57.699999999999996,
-      "eval_loss": 0.27947279810905457,
-      "eval_runtime": 3.1427,
-      "eval_samples_per_second": 318.196,
       "step": 4400
     },
     {
-      "epoch": 2.17,
-      "learning_rate": 8.302796528447444e-05,
-      "loss": 0.3597,
       "step": 4500
     },
     {
-      "epoch": 2.22,
-      "eval_accuracy": 57.99999999999999,
-      "eval_average_metrics": 57.99999999999999,
-      "eval_loss": 0.2773045599460602,
-      "eval_runtime": 3.1388,
-      "eval_samples_per_second": 318.593,
       "step": 4600
     },
     {
-      "epoch": 2.31,
-      "eval_accuracy": 59.8,
-      "eval_average_metrics": 59.8,
-      "eval_loss": 0.2791491448879242,
-      "eval_runtime": 3.8832,
-      "eval_samples_per_second": 257.519,
       "step": 4800
     },
     {
-      "epoch": 2.41,
-      "learning_rate": 5.891996142719383e-05,
-      "loss": 0.3555,
       "step": 5000
     },
     {
-      "epoch": 2.41,
-      "eval_accuracy": 59.4,
-      "eval_average_metrics": 59.4,
-      "eval_loss": 0.2792259454727173,
-      "eval_runtime": 3.3994,
-      "eval_samples_per_second": 294.169,
       "step": 5000
     },
     {
-      "epoch": 2.51,
-      "eval_accuracy": 59.3,
-      "eval_average_metrics": 59.3,
-      "eval_loss": 0.27831217646598816,
-      "eval_runtime": 3.2184,
-      "eval_samples_per_second": 310.718,
       "step": 5200
     },
     {
-      "epoch": 2.6,
-      "eval_accuracy": 59.199999999999996,
-      "eval_average_metrics": 59.199999999999996,
-      "eval_loss": 0.2772988975048065,
-      "eval_runtime": 3.2951,
-      "eval_samples_per_second": 303.485,
       "step": 5400
     },
     {
-      "epoch": 2.65,
-      "learning_rate": 3.481195756991321e-05,
-      "loss": 0.3528,
       "step": 5500
     },
     {
-      "epoch": 2.7,
-      "eval_accuracy": 59.9,
-      "eval_average_metrics": 59.9,
-      "eval_loss": 0.2777373790740967,
-      "eval_runtime": 3.3995,
-      "eval_samples_per_second": 294.161,
       "step": 5600
     },
     {
-      "epoch": 2.8,
-      "eval_accuracy": 60.099999999999994,
-      "eval_average_metrics": 60.099999999999994,
-      "eval_loss": 0.2783910036087036,
-      "eval_runtime": 3.8322,
-      "eval_samples_per_second": 260.948,
       "step": 5800
     },
     {
-      "epoch": 2.89,
-      "learning_rate": 1.0703953712632592e-05,
-      "loss": 0.3503,
       "step": 6000
     },
     {
-      "epoch": 2.89,
-      "eval_accuracy": 59.699999999999996,
-      "eval_average_metrics": 59.699999999999996,
-      "eval_loss": 0.27744776010513306,
-      "eval_runtime": 3.3726,
-      "eval_samples_per_second": 296.511,
       "step": 6000
     },
     {
-      "epoch": 2.99,
-      "eval_accuracy": 59.9,
-      "eval_average_metrics": 59.9,
-      "eval_loss": 0.27743667364120483,
-      "eval_runtime": 3.6434,
-      "eval_samples_per_second": 274.47,
       "step": 6200
     },
     {
       "epoch": 3.0,
-      "step": 6222,
-      "total_flos": 1.316605032958464e+16,
-      "train_loss": 0.5804944922785328,
-      "train_runtime": 1254.7674,
-      "train_samples_per_second": 158.633,
-      "train_steps_per_second": 4.959
     }
   ],
-  "max_steps": 6222,
   "num_train_epochs": 3,
-  "total_flos": 1.316605032958464e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.5091743119266054,
+  "best_model_checkpoint": "outputs/soft_prompt/roberta-base/sst2/checkpoint-200",
   "epoch": 3.0,
+  "global_step": 6315,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.1,
+      "eval_accuracy": 0.5091743119266054,
+      "eval_loss": 1.2113580703735352,
+      "eval_runtime": 1.5734,
+      "eval_samples_per_second": 554.211,
+      "eval_steps_per_second": 17.796,
       "step": 200
     },
     {
       "epoch": 0.19,
+      "eval_accuracy": 0.5091743119266054,
+      "eval_loss": 1.1833394765853882,
+      "eval_runtime": 1.3274,
+      "eval_samples_per_second": 656.934,
+      "eval_steps_per_second": 21.094,
       "step": 400
     },
     {
       "epoch": 0.24,
+      "learning_rate": 0.027624703087885987,
+      "loss": 1.7048,
       "step": 500
     },
     {
       "epoch": 0.29,
+      "eval_accuracy": 0.5091743119266054,
+      "eval_loss": 1.4068197011947632,
+      "eval_runtime": 1.6024,
+      "eval_samples_per_second": 544.198,
+      "eval_steps_per_second": 17.474,
       "step": 600
     },
     {
+      "epoch": 0.38,
+      "eval_accuracy": 0.5091743119266054,
+      "eval_loss": 1.2358722686767578,
+      "eval_runtime": 1.3312,
+      "eval_samples_per_second": 655.031,
+      "eval_steps_per_second": 21.033,
       "step": 800
     },
     {
       "epoch": 0.48,
+      "learning_rate": 0.02524940617577197,
+      "loss": 1.4721,
       "step": 1000
     },
     {
       "epoch": 0.48,
+      "eval_accuracy": 0.4908256880733945,
+      "eval_loss": 1.5192540884017944,
+      "eval_runtime": 1.4576,
+      "eval_samples_per_second": 598.233,
+      "eval_steps_per_second": 19.209,
       "step": 1000
     },
     {
+      "epoch": 0.57,
+      "eval_accuracy": 0.4908256880733945,
+      "eval_loss": 1.0336543321609497,
+      "eval_runtime": 1.7394,
+      "eval_samples_per_second": 501.315,
+      "eval_steps_per_second": 16.097,
       "step": 1200
     },
     {
+      "epoch": 0.67,
+      "eval_accuracy": 0.5091743119266054,
+      "eval_loss": 2.6292548179626465,
+      "eval_runtime": 1.5911,
+      "eval_samples_per_second": 548.047,
+      "eval_steps_per_second": 17.598,
       "step": 1400
     },
     {
+      "epoch": 0.71,
+      "learning_rate": 0.022874109263657957,
+      "loss": 1.821,
       "step": 1500
     },
     {
+      "epoch": 0.76,
+      "eval_accuracy": 0.4908256880733945,
+      "eval_loss": 1.309380054473877,
+      "eval_runtime": 1.4381,
+      "eval_samples_per_second": 606.369,
+      "eval_steps_per_second": 19.471,
       "step": 1600
     },
     {
+      "epoch": 0.86,
+      "eval_accuracy": 0.4908256880733945,
+      "eval_loss": 1.0032501220703125,
+      "eval_runtime": 1.3929,
+      "eval_samples_per_second": 626.051,
+      "eval_steps_per_second": 20.103,
       "step": 1800
     },
     {
+      "epoch": 0.95,
+      "learning_rate": 0.02049881235154394,
+      "loss": 1.6669,
       "step": 2000
     },
     {
+      "epoch": 0.95,
+      "eval_accuracy": 0.5091743119266054,
+      "eval_loss": 2.3615148067474365,
+      "eval_runtime": 1.4549,
+      "eval_samples_per_second": 599.336,
+      "eval_steps_per_second": 19.245,
       "step": 2000
     },
     {
+      "epoch": 1.05,
+      "eval_accuracy": 0.4908256880733945,
+      "eval_loss": 1.1986268758773804,
+      "eval_runtime": 1.518,
+      "eval_samples_per_second": 574.444,
+      "eval_steps_per_second": 18.445,
       "step": 2200
     },
     {
+      "epoch": 1.14,
+      "eval_accuracy": 0.4908256880733945,
+      "eval_loss": 0.9300673007965088,
+      "eval_runtime": 1.4024,
+      "eval_samples_per_second": 621.772,
+      "eval_steps_per_second": 19.965,
       "step": 2400
     },
     {
+      "epoch": 1.19,
+      "learning_rate": 0.01812351543942993,
+      "loss": 1.5726,
       "step": 2500
     },
     {
+      "epoch": 1.24,
+      "eval_accuracy": 0.4908256880733945,
+      "eval_loss": 1.1378525495529175,
+      "eval_runtime": 1.3734,
+      "eval_samples_per_second": 634.927,
+      "eval_steps_per_second": 20.388,
       "step": 2600
     },
     {
+      "epoch": 1.33,
+      "eval_accuracy": 0.4908256880733945,
+      "eval_loss": 0.8935280442237854,
+      "eval_runtime": 1.4758,
+      "eval_samples_per_second": 590.85,
+      "eval_steps_per_second": 18.972,
       "step": 2800
     },
     {
+      "epoch": 1.43,
+      "learning_rate": 0.015748218527315914,
+      "loss": 2.2264,
       "step": 3000
     },
     {
+      "epoch": 1.43,
+      "eval_accuracy": 0.4908256880733945,
+      "eval_loss": 0.8003481030464172,
+      "eval_runtime": 1.4567,
+      "eval_samples_per_second": 598.601,
+      "eval_steps_per_second": 19.221,
       "step": 3000
     },
     {
+      "epoch": 1.52,
+      "eval_accuracy": 0.5091743119266054,
+      "eval_loss": 1.1951367855072021,
+      "eval_runtime": 1.2323,
+      "eval_samples_per_second": 707.612,
+      "eval_steps_per_second": 22.721,
       "step": 3200
     },
     {
+      "epoch": 1.62,
+      "eval_accuracy": 0.5091743119266054,
+      "eval_loss": 1.1763222217559814,
+      "eval_runtime": 1.3939,
+      "eval_samples_per_second": 625.563,
+      "eval_steps_per_second": 20.087,
       "step": 3400
     },
     {
+      "epoch": 1.66,
+      "learning_rate": 0.0133729216152019,
+      "loss": 1.5653,
       "step": 3500
     },
     {
+      "epoch": 1.71,
+      "eval_accuracy": 0.5091743119266054,
+      "eval_loss": 1.1043964624404907,
+      "eval_runtime": 1.3672,
+      "eval_samples_per_second": 637.781,
+      "eval_steps_per_second": 20.479,
       "step": 3600
     },
     {
+      "epoch": 1.81,
+      "eval_accuracy": 0.4908256880733945,
+      "eval_loss": 2.281111717224121,
+      "eval_runtime": 1.6251,
+      "eval_samples_per_second": 536.597,
+      "eval_steps_per_second": 17.23,
       "step": 3800
     },
     {
+      "epoch": 1.9,
+      "learning_rate": 0.010997624703087886,
+      "loss": 1.3918,
       "step": 4000
     },
     {
+      "epoch": 1.9,
+      "eval_accuracy": 0.4908256880733945,
+      "eval_loss": 1.7353538274765015,
+      "eval_runtime": 1.3011,
+      "eval_samples_per_second": 670.193,
+      "eval_steps_per_second": 21.52,
       "step": 4000
     },
     {
+      "epoch": 2.0,
+      "eval_accuracy": 0.5091743119266054,
+      "eval_loss": 2.1966099739074707,
+      "eval_runtime": 1.3231,
+      "eval_samples_per_second": 659.044,
+      "eval_steps_per_second": 21.162,
       "step": 4200
     },
     {
+      "epoch": 2.09,
+      "eval_accuracy": 0.5091743119266054,
+      "eval_loss": 0.9623039364814758,
+      "eval_runtime": 1.428,
+      "eval_samples_per_second": 610.649,
+      "eval_steps_per_second": 19.608,
       "step": 4400
     },
     {
+      "epoch": 2.14,
+      "learning_rate": 0.008622327790973872,
+      "loss": 1.3465,
       "step": 4500
     },
     {
+      "epoch": 2.19,
+      "eval_accuracy": 0.5091743119266054,
+      "eval_loss": 0.7837328314781189,
+      "eval_runtime": 1.6722,
+      "eval_samples_per_second": 521.453,
+      "eval_steps_per_second": 16.744,
       "step": 4600
     },
     {
+      "epoch": 2.28,
+      "eval_accuracy": 0.4908256880733945,
+      "eval_loss": 0.6955246329307556,
+      "eval_runtime": 1.5518,
+      "eval_samples_per_second": 561.939,
+      "eval_steps_per_second": 18.044,
       "step": 4800
     },
     {
+      "epoch": 2.38,
+      "learning_rate": 0.006247030878859857,
+      "loss": 1.0154,
       "step": 5000
     },
     {
+      "epoch": 2.38,
+      "eval_accuracy": 0.5091743119266054,
+      "eval_loss": 1.5205951929092407,
+      "eval_runtime": 1.4264,
+      "eval_samples_per_second": 611.325,
+      "eval_steps_per_second": 19.63,
       "step": 5000
     },
     {
+      "epoch": 2.47,
+      "eval_accuracy": 0.4908256880733945,
+      "eval_loss": 1.8486016988754272,
+      "eval_runtime": 1.5808,
+      "eval_samples_per_second": 551.633,
+      "eval_steps_per_second": 17.713,
       "step": 5200
     },
     {
+      "epoch": 2.57,
+      "eval_accuracy": 0.5091743119266054,
+      "eval_loss": 0.806239128112793,
+      "eval_runtime": 1.0228,
+      "eval_samples_per_second": 852.573,
+      "eval_steps_per_second": 27.376,
       "step": 5400
     },
     {
+      "epoch": 2.61,
+      "learning_rate": 0.003871733966745843,
+      "loss": 0.892,
       "step": 5500
     },
     {
+      "epoch": 2.66,
+      "eval_accuracy": 0.4908256880733945,
+      "eval_loss": 0.7133888602256775,
+      "eval_runtime": 1.4851,
+      "eval_samples_per_second": 587.161,
+      "eval_steps_per_second": 18.854,
       "step": 5600
     },
     {
+      "epoch": 2.76,
+      "eval_accuracy": 0.5091743119266054,
+      "eval_loss": 0.8787677884101868,
+      "eval_runtime": 1.0808,
+      "eval_samples_per_second": 806.785,
+      "eval_steps_per_second": 25.906,
       "step": 5800
     },
     {
+      "epoch": 2.85,
+      "learning_rate": 0.001496437054631829,
+      "loss": 0.784,
       "step": 6000
     },
     {
+      "epoch": 2.85,
+      "eval_accuracy": 0.4908256880733945,
+      "eval_loss": 0.8426281809806824,
+      "eval_runtime": 1.6584,
+      "eval_samples_per_second": 525.823,
+      "eval_steps_per_second": 16.884,
       "step": 6000
     },
     {
+      "epoch": 2.95,
+      "eval_accuracy": 0.5091743119266054,
+      "eval_loss": 0.8049508333206177,
+      "eval_runtime": 1.4457,
+      "eval_samples_per_second": 603.185,
+      "eval_steps_per_second": 19.368,
       "step": 6200
     },
     {
       "epoch": 3.0,
+      "step": 6315,
+      "total_flos": 1.330211706755328e+16,
+      "train_loss": 1.4194242838348365,
+      "train_runtime": 1125.0881,
+      "train_samples_per_second": 179.583,
+      "train_steps_per_second": 5.613
     }
   ],
+  "max_steps": 6315,
   "num_train_epochs": 3,
+  "total_flos": 1.330211706755328e+16,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9d72f4c7c6062c88abd835c946b7409f441092b2698f3944f4b7a39d66d2d227
 size 2991

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b3769ee0a305c80db1cd5058c9c7de24f2be4d1b4b9595712035cd9e60137ff
 size 2991