loss 2.7

Browse files

Files changed (5) hide show

optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +213 -3

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc9f6fe010e512320a90ce220ed55a10ff624f259e8a75c32268b9132a34e934
 size 352532601

 version https://git-lfs.github.com/spec/v1
+oid sha256:9cde460e97bad04f84a56ae7ff816ff1cdeff3b03a09474465cd292b7b6c31a4
 size 352532601

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e576da7e6d3188bac283997ec40b96be395c180937d3e0cd64a81c475eee7f5a
 size 688496379

 version https://git-lfs.github.com/spec/v1
+oid sha256:9bb094630c57c0076f7966d01611056cb86c230bb1ce7b15571b9741513a969a
 size 688496379

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4137b71a9c6c90a0b8880aa5775cd23b0f08ddb88acac61c8656a0072ea5157c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:8da5ab5e4c8996c9e9ca7255e01ed8f4458a8c14e30fe5aa54d259faeef742fb
 size 14503

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f4fc6a6f383126201b9ed524a41f33bc30e031454336d5411887b80a7f125f0c
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:ffecd9835fe8fdd7e333d29c70739f7ca849a8c7b68d33c0cc301eaacafda24e
 size 623

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 6.3538515843492895,
-  "global_step": 58500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3516,11 +3516,221 @@
       "learning_rate": 3.6461388074291305e-05,
       "loss": 2.7954,
       "step": 58500
     }
   ],
   "max_steps": 92070,
   "num_train_epochs": 10,
-  "total_flos": 1.1996750282539008e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 6.73398680387738,
+  "global_step": 62000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 3.6461388074291305e-05,
       "loss": 2.7954,
       "step": 58500
+    },
+    {
+      "epoch": 6.36,
+      "learning_rate": 3.6352775062452485e-05,
+      "loss": 2.7937,
+      "step": 58600
+    },
+    {
+      "epoch": 6.38,
+      "learning_rate": 3.6244162050613665e-05,
+      "loss": 2.7426,
+      "step": 58700
+    },
+    {
+      "epoch": 6.39,
+      "learning_rate": 3.6135549038774845e-05,
+      "loss": 2.8019,
+      "step": 58800
+    },
+    {
+      "epoch": 6.4,
+      "learning_rate": 3.602693602693603e-05,
+      "loss": 2.7112,
+      "step": 58900
+    },
+    {
+      "epoch": 6.41,
+      "learning_rate": 3.591832301509721e-05,
+      "loss": 2.809,
+      "step": 59000
+    },
+    {
+      "epoch": 6.42,
+      "learning_rate": 3.580971000325839e-05,
+      "loss": 2.7244,
+      "step": 59100
+    },
+    {
+      "epoch": 6.43,
+      "learning_rate": 3.570109699141958e-05,
+      "loss": 2.7719,
+      "step": 59200
+    },
+    {
+      "epoch": 6.44,
+      "learning_rate": 3.559248397958075e-05,
+      "loss": 2.9352,
+      "step": 59300
+    },
+    {
+      "epoch": 6.45,
+      "learning_rate": 3.548387096774194e-05,
+      "loss": 2.711,
+      "step": 59400
+    },
+    {
+      "epoch": 6.46,
+      "learning_rate": 3.537525795590312e-05,
+      "loss": 2.7434,
+      "step": 59500
+    },
+    {
+      "epoch": 6.47,
+      "learning_rate": 3.5266644944064304e-05,
+      "loss": 2.7573,
+      "step": 59600
+    },
+    {
+      "epoch": 6.48,
+      "learning_rate": 3.5158031932225484e-05,
+      "loss": 2.6963,
+      "step": 59700
+    },
+    {
+      "epoch": 6.5,
+      "learning_rate": 3.5049418920386664e-05,
+      "loss": 2.8267,
+      "step": 59800
+    },
+    {
+      "epoch": 6.51,
+      "learning_rate": 3.4940805908547844e-05,
+      "loss": 2.7864,
+      "step": 59900
+    },
+    {
+      "epoch": 6.52,
+      "learning_rate": 3.4832192896709024e-05,
+      "loss": 2.7585,
+      "step": 60000
+    },
+    {
+      "epoch": 6.53,
+      "learning_rate": 3.472357988487021e-05,
+      "loss": 2.714,
+      "step": 60100
+    },
+    {
+      "epoch": 6.54,
+      "learning_rate": 3.461496687303139e-05,
+      "loss": 2.7202,
+      "step": 60200
+    },
+    {
+      "epoch": 6.55,
+      "learning_rate": 3.450635386119258e-05,
+      "loss": 2.8636,
+      "step": 60300
+    },
+    {
+      "epoch": 6.56,
+      "learning_rate": 3.439774084935376e-05,
+      "loss": 2.8138,
+      "step": 60400
+    },
+    {
+      "epoch": 6.57,
+      "learning_rate": 3.428912783751494e-05,
+      "loss": 2.74,
+      "step": 60500
+    },
+    {
+      "epoch": 6.58,
+      "learning_rate": 3.418051482567612e-05,
+      "loss": 2.7704,
+      "step": 60600
+    },
+    {
+      "epoch": 6.59,
+      "learning_rate": 3.40719018138373e-05,
+      "loss": 2.7326,
+      "step": 60700
+    },
+    {
+      "epoch": 6.6,
+      "learning_rate": 3.396328880199848e-05,
+      "loss": 2.7531,
+      "step": 60800
+    },
+    {
+      "epoch": 6.61,
+      "learning_rate": 3.385467579015966e-05,
+      "loss": 2.67,
+      "step": 60900
+    },
+    {
+      "epoch": 6.63,
+      "learning_rate": 3.374606277832085e-05,
+      "loss": 2.7537,
+      "step": 61000
+    },
+    {
+      "epoch": 6.64,
+      "learning_rate": 3.363744976648203e-05,
+      "loss": 2.7866,
+      "step": 61100
+    },
+    {
+      "epoch": 6.65,
+      "learning_rate": 3.35288367546432e-05,
+      "loss": 2.7174,
+      "step": 61200
+    },
+    {
+      "epoch": 6.66,
+      "learning_rate": 3.342022374280439e-05,
+      "loss": 2.7214,
+      "step": 61300
+    },
+    {
+      "epoch": 6.67,
+      "learning_rate": 3.331161073096557e-05,
+      "loss": 2.7205,
+      "step": 61400
+    },
+    {
+      "epoch": 6.68,
+      "learning_rate": 3.3202997719126756e-05,
+      "loss": 2.8244,
+      "step": 61500
+    },
+    {
+      "epoch": 6.69,
+      "learning_rate": 3.3094384707287936e-05,
+      "loss": 2.7776,
+      "step": 61600
+    },
+    {
+      "epoch": 6.7,
+      "learning_rate": 3.2985771695449116e-05,
+      "loss": 2.7184,
+      "step": 61700
+    },
+    {
+      "epoch": 6.71,
+      "learning_rate": 3.2877158683610296e-05,
+      "loss": 2.7534,
+      "step": 61800
+    },
+    {
+      "epoch": 6.72,
+      "learning_rate": 3.2768545671771476e-05,
+      "loss": 2.7492,
+      "step": 61900
+    },
+    {
+      "epoch": 6.73,
+      "learning_rate": 3.265993265993266e-05,
+      "loss": 2.7351,
+      "step": 62000
     }
   ],
   "max_steps": 92070,
   "num_train_epochs": 10,
+  "total_flos": 1.2714223024540877e+17,
   "trial_name": null,
   "trial_params": null
 }