best distilbert model finetuned on ner

Browse files

Files changed (7) hide show

all_results.json +13 -13
config.json +1 -1
eval_results.json +9 -9
pytorch_model.bin +1 -1
train_results.json +5 -5
trainer_state.json +62 -182
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,17 +1,17 @@
 {
-    "epoch": 3.0,
-    "eval_accuracy": 0.9588502561789063,
-    "eval_f1": 0.7950245791747356,
-    "eval_loss": 0.1408379226922989,
-    "eval_precision": 0.7840458351696783,
-    "eval_recall": 0.806315153346427,
-    "eval_runtime": 2.5786,
     "eval_samples": 1916,
-    "eval_samples_per_second": 743.035,
-    "eval_steps_per_second": 23.268,
-    "train_loss": 0.1423617688175362,
-    "train_runtime": 92.3444,
     "train_samples": 8324,
-    "train_samples_per_second": 270.423,
-    "train_steps_per_second": 8.479
 }

 {
+    "epoch": 4.0,
+    "eval_accuracy": 0.9594786195340445,
+    "eval_f1": 0.7985358930305521,
+    "eval_loss": 0.13593988120555878,
+    "eval_precision": 0.7897458628841607,
+    "eval_recall": 0.8075237951352168,
+    "eval_runtime": 1.7993,
     "eval_samples": 1916,
+    "eval_samples_per_second": 1064.862,
+    "eval_steps_per_second": 16.673,
+    "train_loss": 0.15398232195213551,
+    "train_runtime": 729.0203,
     "train_samples": 8324,
+    "train_samples_per_second": 45.672,
+    "train_steps_per_second": 0.719
 }

config.json CHANGED Viewed

@@ -42,6 +42,6 @@
   "sinusoidal_pos_embds": true,
   "tie_weights_": true,
   "torch_dtype": "float32",
-  "transformers_version": "4.12.5",
   "vocab_size": 31002
 }

   "sinusoidal_pos_embds": true,
   "tie_weights_": true,
   "torch_dtype": "float32",
+  "transformers_version": "4.11.3",
   "vocab_size": 31002
 }

eval_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "epoch": 3.0,
-    "eval_accuracy": 0.9588502561789063,
-    "eval_f1": 0.7950245791747356,
-    "eval_loss": 0.1408379226922989,
-    "eval_precision": 0.7840458351696783,
-    "eval_recall": 0.806315153346427,
-    "eval_runtime": 2.5786,
     "eval_samples": 1916,
-    "eval_samples_per_second": 743.035,
-    "eval_steps_per_second": 23.268
 }

 {
+    "epoch": 4.0,
+    "eval_accuracy": 0.9594786195340445,
+    "eval_f1": 0.7985358930305521,
+    "eval_loss": 0.13593988120555878,
+    "eval_precision": 0.7897458628841607,
+    "eval_recall": 0.8075237951352168,
+    "eval_runtime": 1.7993,
     "eval_samples": 1916,
+    "eval_samples_per_second": 1064.862,
+    "eval_steps_per_second": 16.673
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0e340a699c2f2b281fda6911bad55462fee484fac4e0f8866a865aec42fab948
 size 266993141

 version https://git-lfs.github.com/spec/v1
+oid sha256:083671a454bbf6cbbc4fdcf622aff00db11b1d22960c843e85cf0c48e883448e
 size 266993141

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 3.0,
-    "train_loss": 0.1423617688175362,
-    "train_runtime": 92.3444,
     "train_samples": 8324,
-    "train_samples_per_second": 270.423,
-    "train_steps_per_second": 8.479
 }

 {
+    "epoch": 4.0,
+    "train_loss": 0.15398232195213551,
+    "train_runtime": 729.0203,
     "train_samples": 8324,
+    "train_samples_per_second": 45.672,
+    "train_steps_per_second": 0.719
 }

trainer_state.json CHANGED Viewed

@@ -1,211 +1,91 @@
 {
-  "best_metric": 0.1408379226922989,
-  "best_model_checkpoint": "/home/sdonoso/data/all_results/ner-c/distillbeto/epochs_3_bs_32_lr_5e-5/checkpoint-650",
-  "epoch": 3.0,
-  "global_step": 783,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.19,
-      "eval_accuracy": 0.91270582927851,
-      "eval_f1": 0.5330463206569401,
-      "eval_loss": 0.30788546800613403,
-      "eval_precision": 0.5643146522619852,
-      "eval_recall": 0.5050611874905575,
-      "eval_runtime": 2.4975,
-      "eval_samples_per_second": 767.156,
-      "eval_steps_per_second": 24.024,
-      "step": 50
-    },
-    {
-      "epoch": 0.38,
-      "eval_accuracy": 0.9365030773692521,
-      "eval_f1": 0.6476262245666917,
-      "eval_loss": 0.21293185651302338,
-      "eval_precision": 0.6460682604119681,
-      "eval_recall": 0.6491917208037468,
-      "eval_runtime": 2.2575,
-      "eval_samples_per_second": 848.725,
-      "eval_steps_per_second": 26.578,
       "step": 100
     },
     {
-      "epoch": 0.57,
-      "eval_accuracy": 0.944736248509651,
-      "eval_f1": 0.699864396564713,
-      "eval_loss": 0.18722735345363617,
-      "eval_precision": 0.6979714500375658,
-      "eval_recall": 0.7017676386161051,
-      "eval_runtime": 2.3182,
-      "eval_samples_per_second": 826.488,
-      "eval_steps_per_second": 25.882,
-      "step": 150
-    },
-    {
-      "epoch": 0.77,
-      "eval_accuracy": 0.9477975058808366,
-      "eval_f1": 0.7246957554170377,
-      "eval_loss": 0.17380821704864502,
-      "eval_precision": 0.7121190024792183,
-      "eval_recall": 0.7377247318326031,
-      "eval_runtime": 2.3996,
-      "eval_samples_per_second": 798.478,
-      "eval_steps_per_second": 25.005,
       "step": 200
     },
     {
-      "epoch": 0.96,
-      "eval_accuracy": 0.9545644958592466,
-      "eval_f1": 0.7617755671113121,
-      "eval_loss": 0.15325294435024261,
-      "eval_precision": 0.76,
-      "eval_recall": 0.7635594500679861,
-      "eval_runtime": 1.8255,
-      "eval_samples_per_second": 1049.569,
-      "eval_steps_per_second": 32.867,
-      "step": 250
-    },
-    {
-      "epoch": 1.15,
-      "eval_accuracy": 0.9546450552637515,
-      "eval_f1": 0.7736564335092545,
-      "eval_loss": 0.14816872775554657,
-      "eval_precision": 0.7614866842259291,
-      "eval_recall": 0.7862214836077958,
-      "eval_runtime": 2.4706,
-      "eval_samples_per_second": 775.515,
-      "eval_steps_per_second": 24.285,
       "step": 300
     },
     {
-      "epoch": 1.34,
-      "eval_accuracy": 0.9547578384300583,
-      "eval_f1": 0.7661177165645078,
-      "eval_loss": 0.15087640285491943,
-      "eval_precision": 0.7493498988731581,
-      "eval_recall": 0.7836531198066173,
-      "eval_runtime": 2.4417,
-      "eval_samples_per_second": 784.692,
-      "eval_steps_per_second": 24.573,
-      "step": 350
-    },
-    {
-      "epoch": 1.53,
-      "eval_accuracy": 0.9578996552057487,
-      "eval_f1": 0.7852530409971468,
-      "eval_loss": 0.14353066682815552,
-      "eval_precision": 0.780564263322884,
-      "eval_recall": 0.789998489197764,
-      "eval_runtime": 2.5039,
-      "eval_samples_per_second": 765.209,
-      "eval_steps_per_second": 23.963,
       "step": 400
     },
     {
-      "epoch": 1.72,
-      "eval_accuracy": 0.9558856700931266,
-      "eval_f1": 0.7782641509433962,
-      "eval_loss": 0.14613068103790283,
-      "eval_precision": 0.7775599457095461,
-      "eval_recall": 0.7789696328750566,
-      "eval_runtime": 2.4226,
-      "eval_samples_per_second": 790.884,
-      "eval_steps_per_second": 24.767,
-      "step": 450
-    },
-    {
-      "epoch": 1.92,
-      "learning_rate": 1.826309067688378e-05,
-      "loss": 0.1857,
       "step": 500
     },
     {
-      "epoch": 1.92,
-      "eval_accuracy": 0.9570457255179969,
-      "eval_f1": 0.7807983224743502,
-      "eval_loss": 0.14462997019290924,
-      "eval_precision": 0.7741312741312741,
-      "eval_recall": 0.7875812056201843,
-      "eval_runtime": 1.851,
-      "eval_samples_per_second": 1035.138,
-      "eval_steps_per_second": 32.416,
       "step": 500
     },
     {
-      "epoch": 2.11,
-      "eval_accuracy": 0.9570618373988979,
-      "eval_f1": 0.7854627201198952,
-      "eval_loss": 0.14743077754974365,
-      "eval_precision": 0.77921498661909,
-      "eval_recall": 0.7918114518809488,
-      "eval_runtime": 1.8311,
-      "eval_samples_per_second": 1046.348,
-      "eval_steps_per_second": 32.767,
-      "step": 550
-    },
-    {
-      "epoch": 2.3,
-      "eval_accuracy": 0.9581413334192633,
-      "eval_f1": 0.7868118752797255,
-      "eval_loss": 0.14506658911705017,
-      "eval_precision": 0.7770738175924562,
-      "eval_recall": 0.7967970992597069,
-      "eval_runtime": 2.5694,
-      "eval_samples_per_second": 745.706,
-      "eval_steps_per_second": 23.352,
-      "step": 600
-    },
-    {
-      "epoch": 2.49,
-      "eval_accuracy": 0.9588502561789063,
-      "eval_f1": 0.7950245791747356,
-      "eval_loss": 0.1408379226922989,
-      "eval_precision": 0.7840458351696783,
-      "eval_recall": 0.806315153346427,
-      "eval_runtime": 2.2646,
-      "eval_samples_per_second": 846.054,
-      "eval_steps_per_second": 26.494,
-      "step": 650
-    },
-    {
-      "epoch": 2.68,
-      "eval_accuracy": 0.9592047175587278,
-      "eval_f1": 0.799455741174692,
-      "eval_loss": 0.14132483303546906,
-      "eval_precision": 0.8,
-      "eval_recall": 0.7989122223900892,
-      "eval_runtime": 2.2902,
-      "eval_samples_per_second": 836.619,
-      "eval_steps_per_second": 26.199,
-      "step": 700
-    },
-    {
-      "epoch": 2.87,
-      "eval_accuracy": 0.9591886056778268,
-      "eval_f1": 0.798218464558013,
-      "eval_loss": 0.14295388758182526,
-      "eval_precision": 0.7976765238382619,
-      "eval_recall": 0.7987611421664904,
-      "eval_runtime": 2.1296,
-      "eval_samples_per_second": 899.69,
-      "eval_steps_per_second": 28.174,
-      "step": 750
-    },
-    {
-      "epoch": 3.0,
-      "step": 783,
-      "total_flos": 630881172395712.0,
-      "train_loss": 0.1423617688175362,
-      "train_runtime": 92.3444,
-      "train_samples_per_second": 270.423,
-      "train_steps_per_second": 8.479
     }
   ],
-  "max_steps": 783,
-  "num_train_epochs": 3,
-  "total_flos": 630881172395712.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.13593988120555878,
+  "best_model_checkpoint": "/home/sdonoso/data/all_results/ner-c/distillbert/epochs_4_bs_64_lr_5e-5/checkpoint-500",
+  "epoch": 4.0,
+  "global_step": 524,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.76,
+      "eval_accuracy": 0.9476202751909258,
+      "eval_f1": 0.7172177028136428,
+      "eval_loss": 0.1729145497083664,
+      "eval_precision": 0.7087020648967551,
+      "eval_recall": 0.7259404743919021,
+      "eval_runtime": 1.7788,
+      "eval_samples_per_second": 1077.132,
+      "eval_steps_per_second": 16.865,
       "step": 100
     },
     {
+      "epoch": 1.53,
+      "eval_accuracy": 0.9522766087713079,
+      "eval_f1": 0.7523824162311713,
+      "eval_loss": 0.1584220975637436,
+      "eval_precision": 0.765681213827624,
+      "eval_recall": 0.7395376945157879,
+      "eval_runtime": 1.776,
+      "eval_samples_per_second": 1078.832,
+      "eval_steps_per_second": 16.892,
       "step": 200
     },
     {
+      "epoch": 2.29,
+      "eval_accuracy": 0.9581574453001643,
+      "eval_f1": 0.7900313386061781,
+      "eval_loss": 0.13973243534564972,
+      "eval_precision": 0.7804806132979507,
+      "eval_recall": 0.7998187037316815,
+      "eval_runtime": 1.7908,
+      "eval_samples_per_second": 1069.888,
+      "eval_steps_per_second": 16.752,
       "step": 300
     },
     {
+      "epoch": 3.05,
+      "eval_accuracy": 0.9592047175587278,
+      "eval_f1": 0.7948698717467937,
+      "eval_loss": 0.1360633671283722,
+      "eval_precision": 0.7892463509085493,
+      "eval_recall": 0.8005741048496752,
+      "eval_runtime": 1.7307,
+      "eval_samples_per_second": 1107.051,
+      "eval_steps_per_second": 17.334,
       "step": 400
     },
     {
+      "epoch": 3.82,
+      "learning_rate": 2.5763358778625957e-06,
+      "loss": 0.1581,
       "step": 500
     },
     {
+      "epoch": 3.82,
+      "eval_accuracy": 0.9594786195340445,
+      "eval_f1": 0.7985358930305521,
+      "eval_loss": 0.13593988120555878,
+      "eval_precision": 0.7897458628841607,
+      "eval_recall": 0.8075237951352168,
+      "eval_runtime": 1.769,
+      "eval_samples_per_second": 1083.1,
+      "eval_steps_per_second": 16.959,
       "step": 500
     },
     {
+      "epoch": 4.0,
+      "step": 524,
+      "total_flos": 997670842354368.0,
+      "train_loss": 0.15398232195213551,
+      "train_runtime": 729.0203,
+      "train_samples_per_second": 45.672,
+      "train_steps_per_second": 0.719
     }
   ],
+  "max_steps": 524,
+  "num_train_epochs": 4,
+  "total_flos": 997670842354368.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2e9e0d49e93a9c1d8cd83593ab4e7b528f7ce2eae90f3212a798e9af265a22af
 size 2863

 version https://git-lfs.github.com/spec/v1
+oid sha256:14accc8dc446d473155620c0432148b8817472fb76e901132b3159466838521a
 size 2863