Training in progress, step 9000, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/config.json +1 -1
last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +100 -5

last-checkpoint/config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "roberta-base",
   "architectures": [
     "RobertaForSequenceClassification"
   ],

 {
+  "_name_or_path": "Francesco0101/FRABERT-roberta-base-TRAIN",
   "architectures": [
     "RobertaForSequenceClassification"
   ],

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f681568b3e5f0dc0b8662337967bea6bcc2a1b337d087b4393a53bd748f1550
 size 498615900

 version https://git-lfs.github.com/spec/v1
+oid sha256:e99cddd0ac2d7edc610f7607512228252c93a4caa3507b3463098de6905c1c69
 size 498615900

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4bb81114b5d0b803046d64d44b543ca971de0505793d404486e4fae1e75bb73f
 size 997351674

 version https://git-lfs.github.com/spec/v1
+oid sha256:30f4e389125f4872cd78d66b4efb2018db43c5d09d7224e6bf00daffae85e926
 size 997351674

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d1aab4d25312c697f24e79aca383328a702077888f66748d1caa0693f08bf5df
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5400241b4c95ff3b84d00fd89b6a224c699d4017436df08b80ba5e01a0fc88e
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:934377a13b65a28f5105294df26e4fe3b57c4d88e0a4908173ecc003fa91b9bb
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:39893f8b6ee435640978da157dad268e2888562745141a95ed487427fd81ebb5
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.7341503634182242,
-  "best_model_checkpoint": "training_dir/checkpoint-2000",
-  "epoch": 0.6263701847792045,
   "eval_steps": 1000,
-  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -83,6 +83,101 @@
       "eval_samples_per_second": 50.569,
       "eval_steps_per_second": 6.321,
       "step": 4000
     }
   ],
   "logging_steps": 1000,
@@ -102,7 +197,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8197088860811088.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.7496885984237682,
+  "best_model_checkpoint": "training_dir/checkpoint-7000",
+  "epoch": 1.4093329157532102,
   "eval_steps": 1000,
+  "global_step": 9000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 50.569,
       "eval_steps_per_second": 6.321,
       "step": 4000
+    },
+    {
+      "epoch": 0.7829627309740056,
+      "grad_norm": 44.1195182800293,
+      "learning_rate": 9.289772727272728e-06,
+      "loss": 0.4542,
+      "step": 5000
+    },
+    {
+      "epoch": 0.7829627309740056,
+      "eval_accuracy": 0.7517482517482518,
+      "eval_f1": 0.7410787462847774,
+      "eval_loss": 0.8051876425743103,
+      "eval_precision": 0.750223869921944,
+      "eval_recall": 0.7517482517482518,
+      "eval_runtime": 49.8353,
+      "eval_samples_per_second": 45.911,
+      "eval_steps_per_second": 5.739,
+      "step": 5000
+    },
+    {
+      "epoch": 0.9395552771688067,
+      "grad_norm": 120.46759796142578,
+      "learning_rate": 9.131944444444445e-06,
+      "loss": 0.4268,
+      "step": 6000
+    },
+    {
+      "epoch": 0.9395552771688067,
+      "eval_accuracy": 0.7556818181818182,
+      "eval_f1": 0.748088378029472,
+      "eval_loss": 0.9902251958847046,
+      "eval_precision": 0.757243064686842,
+      "eval_recall": 0.7556818181818182,
+      "eval_runtime": 49.224,
+      "eval_samples_per_second": 46.481,
+      "eval_steps_per_second": 5.81,
+      "step": 6000
+    },
+    {
+      "epoch": 1.096147823363608,
+      "grad_norm": 60.6891975402832,
+      "learning_rate": 8.974116161616161e-06,
+      "loss": 0.4014,
+      "step": 7000
+    },
+    {
+      "epoch": 1.096147823363608,
+      "eval_accuracy": 0.7574300699300699,
+      "eval_f1": 0.7496885984237682,
+      "eval_loss": 0.9940707087516785,
+      "eval_precision": 0.7543068859180688,
+      "eval_recall": 0.7574300699300699,
+      "eval_runtime": 49.3422,
+      "eval_samples_per_second": 46.37,
+      "eval_steps_per_second": 5.796,
+      "step": 7000
+    },
+    {
+      "epoch": 1.252740369558409,
+      "grad_norm": 43.56020736694336,
+      "learning_rate": 8.816287878787879e-06,
+      "loss": 0.4071,
+      "step": 8000
+    },
+    {
+      "epoch": 1.252740369558409,
+      "eval_accuracy": 0.7390734265734266,
+      "eval_f1": 0.7219289922874507,
+      "eval_loss": 0.9887688755989075,
+      "eval_precision": 0.738468925570974,
+      "eval_recall": 0.7390734265734266,
+      "eval_runtime": 49.3611,
+      "eval_samples_per_second": 46.352,
+      "eval_steps_per_second": 5.794,
+      "step": 8000
+    },
+    {
+      "epoch": 1.4093329157532102,
+      "grad_norm": 11.064676284790039,
+      "learning_rate": 8.658459595959596e-06,
+      "loss": 0.392,
+      "step": 9000
+    },
+    {
+      "epoch": 1.4093329157532102,
+      "eval_accuracy": 0.7460664335664335,
+      "eval_f1": 0.7321628808235685,
+      "eval_loss": 0.9361704587936401,
+      "eval_precision": 0.746771852734093,
+      "eval_recall": 0.7460664335664335,
+      "eval_runtime": 49.422,
+      "eval_samples_per_second": 46.295,
+      "eval_steps_per_second": 5.787,
+      "step": 9000
     }
   ],
   "logging_steps": 1000,
       "attributes": {}
     }
   },
+  "total_flos": 1.8433656156522096e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null