Ehsanl
/

e5-large-v2-bertje-old-syn-filt_2ng_lr_1e5

@@ -6,7 +6,7 @@
   "attention_probs_dropout_prob": 0.1,
   "classifier_dropout": null,
   "cls_token_id": 1,
-  "dtype": "bfloat16",
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
   "hidden_size": 1024,

   "attention_probs_dropout_prob": 0.1,
   "classifier_dropout": null,
   "cls_token_id": 1,
+  "dtype": "float32",
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
   "hidden_size": 1024,

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ef45eddf8de63b8d94c4ad643951c33ba47582e7a21116db3c54bbb912987848
-size 690656

 version https://git-lfs.github.com/spec/v1
+oid sha256:f01bdaa4b46823cc9e998d4aceda02d6239ec88146554a6e308ef39a1d46e7c8
+size 1338773320

trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.5004906771344455,
   "eval_steps": 500,
-  "global_step": 510,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -365,6 +365,181 @@
       "learning_rate": 1e-05,
       "loss": 2.3051,
       "step": 510
     }
   ],
   "logging_steps": 10,

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.7507360157016683,
   "eval_steps": 500,
+  "global_step": 765,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1e-05,
       "loss": 2.3051,
       "step": 510
+    },
+    {
+      "epoch": 0.5103042198233563,
+      "grad_norm": 4.162623882293701,
+      "learning_rate": 1e-05,
+      "loss": 2.5193,
+      "step": 520
+    },
+    {
+      "epoch": 0.5201177625122669,
+      "grad_norm": 3.865851879119873,
+      "learning_rate": 1e-05,
+      "loss": 2.1113,
+      "step": 530
+    },
+    {
+      "epoch": 0.5299313052011776,
+      "grad_norm": 3.6652672290802,
+      "learning_rate": 1e-05,
+      "loss": 2.605,
+      "step": 540
+    },
+    {
+      "epoch": 0.5397448478900884,
+      "grad_norm": 1123418.0,
+      "learning_rate": 1e-05,
+      "loss": 2.367,
+      "step": 550
+    },
+    {
+      "epoch": 0.549558390578999,
+      "grad_norm": 3.206057071685791,
+      "learning_rate": 1e-05,
+      "loss": 0.9706,
+      "step": 560
+    },
+    {
+      "epoch": 0.5593719332679097,
+      "grad_norm": 3.8300833702087402,
+      "learning_rate": 1e-05,
+      "loss": 1.6688,
+      "step": 570
+    },
+    {
+      "epoch": 0.5691854759568205,
+      "grad_norm": 3.4160726070404053,
+      "learning_rate": 1e-05,
+      "loss": 1.8959,
+      "step": 580
+    },
+    {
+      "epoch": 0.5789990186457311,
+      "grad_norm": 6.991641044616699,
+      "learning_rate": 1e-05,
+      "loss": 2.8449,
+      "step": 590
+    },
+    {
+      "epoch": 0.5888125613346418,
+      "grad_norm": 3.89111065864563,
+      "learning_rate": 1e-05,
+      "loss": 2.8364,
+      "step": 600
+    },
+    {
+      "epoch": 0.5986261040235525,
+      "grad_norm": 12.52274227142334,
+      "learning_rate": 1e-05,
+      "loss": 2.3841,
+      "step": 610
+    },
+    {
+      "epoch": 0.6084396467124632,
+      "grad_norm": 1124655.25,
+      "learning_rate": 1e-05,
+      "loss": 2.8931,
+      "step": 620
+    },
+    {
+      "epoch": 0.6182531894013739,
+      "grad_norm": 2132181.75,
+      "learning_rate": 1e-05,
+      "loss": 1.8265,
+      "step": 630
+    },
+    {
+      "epoch": 0.6280667320902846,
+      "grad_norm": 3.21681547164917,
+      "learning_rate": 1e-05,
+      "loss": 0.8137,
+      "step": 640
+    },
+    {
+      "epoch": 0.6378802747791953,
+      "grad_norm": 1385230.375,
+      "learning_rate": 1e-05,
+      "loss": 1.2742,
+      "step": 650
+    },
+    {
+      "epoch": 0.647693817468106,
+      "grad_norm": 10.80539321899414,
+      "learning_rate": 1e-05,
+      "loss": 3.0502,
+      "step": 660
+    },
+    {
+      "epoch": 0.6575073601570167,
+      "grad_norm": 1592570.0,
+      "learning_rate": 1e-05,
+      "loss": 1.9121,
+      "step": 670
+    },
+    {
+      "epoch": 0.6673209028459274,
+      "grad_norm": 985591.5625,
+      "learning_rate": 1e-05,
+      "loss": 1.8159,
+      "step": 680
+    },
+    {
+      "epoch": 0.677134445534838,
+      "grad_norm": 1119573.375,
+      "learning_rate": 1e-05,
+      "loss": 1.9695,
+      "step": 690
+    },
+    {
+      "epoch": 0.6869479882237488,
+      "grad_norm": 3.928929090499878,
+      "learning_rate": 1e-05,
+      "loss": 2.1545,
+      "step": 700
+    },
+    {
+      "epoch": 0.6967615309126595,
+      "grad_norm": 998297.4375,
+      "learning_rate": 1e-05,
+      "loss": 1.2963,
+      "step": 710
+    },
+    {
+      "epoch": 0.7065750736015701,
+      "grad_norm": 3.8201591968536377,
+      "learning_rate": 1e-05,
+      "loss": 0.9735,
+      "step": 720
+    },
+    {
+      "epoch": 0.7163886162904809,
+      "grad_norm": 3.7799386978149414,
+      "learning_rate": 1e-05,
+      "loss": 1.5274,
+      "step": 730
+    },
+    {
+      "epoch": 0.7262021589793916,
+      "grad_norm": 3.718870162963867,
+      "learning_rate": 1e-05,
+      "loss": 2.9676,
+      "step": 740
+    },
+    {
+      "epoch": 0.7360157016683022,
+      "grad_norm": 4.023947715759277,
+      "learning_rate": 1e-05,
+      "loss": 1.3345,
+      "step": 750
+    },
+    {
+      "epoch": 0.745829244357213,
+      "grad_norm": 14.283628463745117,
+      "learning_rate": 1e-05,
+      "loss": 2.7141,
+      "step": 760
     }
   ],
   "logging_steps": 10,