Training in progress, step 3600, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +116 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:25ba111dd83279dabb0d19e7d4e8585af8e57bae04b236555189b549cfcfd971
 size 6832520

 version https://git-lfs.github.com/spec/v1
+oid sha256:1cadaf5fbfd4e6aee40554c146ca75dc1f95cbd1b5133ac28d790b5d9edc490b
 size 6832520

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f0e29c4c6a37e6d71db5da8939c18bc60a1bc43441cb1e059da6fc84bc0b009
 size 13739450

 version https://git-lfs.github.com/spec/v1
+oid sha256:d77f59571dc19ec2ae97f48b762fc9c7104b450b1dd4f4f44c20086f61be99a4
 size 13739450

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:25fc5c5fd85eab708d82da53acf51c735610623a3928c8f6735fd352feda164f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:61f9e60c11be639e03bf81d78cbe30bf20382df1ba6584029adec3134d967f6d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:237c7f92f9adb36b78a572488f13feee11b6568d1f9b3d2334cf9a8a16d76d71
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:cea58db64ba456c38a9f8ab6236e784932b8260cdaa3af8426d157163570e03c
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 1.9334535598754883,
   "best_model_checkpoint": "./output/checkpoint-1500",
-  "epoch": 4.406130268199234,
   "eval_steps": 150,
-  "global_step": 3450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2606,6 +2606,119 @@
       "eval_samples_per_second": 20.4,
       "eval_steps_per_second": 20.4,
       "step": 3450
     }
   ],
   "logging_steps": 10,
@@ -2625,7 +2738,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.782792928016794e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 1.9334535598754883,
   "best_model_checkpoint": "./output/checkpoint-1500",
+  "epoch": 4.597701149425287,
   "eval_steps": 150,
+  "global_step": 3600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 20.4,
       "eval_steps_per_second": 20.4,
       "step": 3450
+    },
+    {
+      "epoch": 4.41890166028097,
+      "grad_norm": 2.3654282093048096,
+      "learning_rate": 3.0975050967969045e-06,
+      "loss": 1.7632,
+      "step": 3460
+    },
+    {
+      "epoch": 4.431673052362708,
+      "grad_norm": 2.546827793121338,
+      "learning_rate": 3.097407623305086e-06,
+      "loss": 1.7426,
+      "step": 3470
+    },
+    {
+      "epoch": 4.444444444444445,
+      "grad_norm": 2.499905824661255,
+      "learning_rate": 3.0972451720296086e-06,
+      "loss": 1.7915,
+      "step": 3480
+    },
+    {
+      "epoch": 4.457215836526181,
+      "grad_norm": 2.484066963195801,
+      "learning_rate": 3.097017749786602e-06,
+      "loss": 1.7089,
+      "step": 3490
+    },
+    {
+      "epoch": 4.469987228607918,
+      "grad_norm": 2.5977776050567627,
+      "learning_rate": 3.096725366118249e-06,
+      "loss": 1.7957,
+      "step": 3500
+    },
+    {
+      "epoch": 4.482758620689655,
+      "grad_norm": 2.3807027339935303,
+      "learning_rate": 3.096368033292382e-06,
+      "loss": 1.7295,
+      "step": 3510
+    },
+    {
+      "epoch": 4.495530012771392,
+      "grad_norm": 2.4631288051605225,
+      "learning_rate": 3.095945766301971e-06,
+      "loss": 1.7719,
+      "step": 3520
+    },
+    {
+      "epoch": 4.508301404853129,
+      "grad_norm": 2.4563748836517334,
+      "learning_rate": 3.095458582864493e-06,
+      "loss": 1.7191,
+      "step": 3530
+    },
+    {
+      "epoch": 4.521072796934866,
+      "grad_norm": 2.3577940464019775,
+      "learning_rate": 3.09490650342119e-06,
+      "loss": 1.725,
+      "step": 3540
+    },
+    {
+      "epoch": 4.533844189016603,
+      "grad_norm": 2.4217264652252197,
+      "learning_rate": 3.0942895511362085e-06,
+      "loss": 1.7284,
+      "step": 3550
+    },
+    {
+      "epoch": 4.54661558109834,
+      "grad_norm": 2.335932493209839,
+      "learning_rate": 3.093607751895632e-06,
+      "loss": 1.7966,
+      "step": 3560
+    },
+    {
+      "epoch": 4.559386973180077,
+      "grad_norm": 2.4453847408294678,
+      "learning_rate": 3.0928611343063904e-06,
+      "loss": 1.787,
+      "step": 3570
+    },
+    {
+      "epoch": 4.572158365261814,
+      "grad_norm": 2.350062608718872,
+      "learning_rate": 3.092049729695062e-06,
+      "loss": 1.7184,
+      "step": 3580
+    },
+    {
+      "epoch": 4.58492975734355,
+      "grad_norm": 2.446969985961914,
+      "learning_rate": 3.091173572106561e-06,
+      "loss": 1.8097,
+      "step": 3590
+    },
+    {
+      "epoch": 4.597701149425287,
+      "grad_norm": 2.3991920948028564,
+      "learning_rate": 3.090232698302703e-06,
+      "loss": 1.7007,
+      "step": 3600
+    },
+    {
+      "epoch": 4.597701149425287,
+      "eval_loss": 1.9395427703857422,
+      "eval_runtime": 24.7084,
+      "eval_samples_per_second": 20.236,
+      "eval_steps_per_second": 20.236,
+      "step": 3600
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 4.988587672549786e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null