indiejoseph
/

bert-base-cantonese

@@ -1,4 +1,5 @@
 ---
 tags:
 - generated_from_trainer
 model-index:
@@ -11,7 +12,7 @@ should probably proofread and complete it, then remove this comment. -->
 # bert-base-cantonese
-This model was trained from scratch on an unknown dataset.
 ## Model description

 ---
+base_model: /notebooks/cantonese/bert-base-cantonese
 tags:
 - generated_from_trainer
 model-index:
 # bert-base-cantonese
+This model is a fine-tuned version of [/notebooks/cantonese/bert-base-cantonese](https://huggingface.co//notebooks/cantonese/bert-base-cantonese) on an unknown dataset.
 ## Model description

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 3.0,
-    "train_loss": 1.327384843945802,
-    "train_runtime": 12602.7945,
-    "train_samples": 212813,
-    "train_samples_per_second": 50.659,
-    "train_steps_per_second": 0.791
 }

 {
+    "epoch": 7.0,
+    "train_loss": 1.6127097251780127,
+    "train_runtime": 8839.4407,
+    "train_samples": 91601,
+    "train_samples_per_second": 72.539,
+    "train_steps_per_second": 0.378
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 3.0,
-    "train_loss": 1.327384843945802,
-    "train_runtime": 12602.7945,
-    "train_samples": 212813,
-    "train_samples_per_second": 50.659,
-    "train_steps_per_second": 0.791
 }

 {
+    "epoch": 7.0,
+    "train_loss": 1.6127097251780127,
+    "train_runtime": 8839.4407,
+    "train_samples": 91601,
+    "train_samples_per_second": 72.539,
+    "train_steps_per_second": 0.378
 }

trainer_state.json CHANGED Viewed

@@ -1,142 +1,226 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.999774453048643,
   "eval_steps": 500,
-  "global_step": 9975,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.15,
-      "learning_rate": 9.49874686716792e-05,
-      "loss": 2.1878,
       "step": 500
     },
     {
-      "epoch": 0.3,
-      "learning_rate": 8.99749373433584e-05,
-      "loss": 1.5576,
       "step": 1000
     },
     {
-      "epoch": 0.45,
-      "learning_rate": 8.49624060150376e-05,
-      "loss": 1.4644,
       "step": 1500
     },
     {
-      "epoch": 0.6,
-      "learning_rate": 7.994987468671679e-05,
-      "loss": 1.4131,
-      "step": 2000
     },
     {
-      "epoch": 0.75,
-      "learning_rate": 7.4937343358396e-05,
-      "loss": 1.3789,
-      "step": 2500
     },
     {
-      "epoch": 0.9,
-      "learning_rate": 6.99248120300752e-05,
-      "loss": 1.3443,
-      "step": 3000
     },
     {
-      "epoch": 1.05,
-      "learning_rate": 6.49122807017544e-05,
-      "loss": 1.3263,
-      "step": 3500
     },
     {
-      "epoch": 1.2,
-      "learning_rate": 5.989974937343359e-05,
-      "loss": 1.2983,
-      "step": 4000
     },
     {
-      "epoch": 1.35,
-      "learning_rate": 5.4887218045112786e-05,
-      "loss": 1.2849,
-      "step": 4500
     },
     {
-      "epoch": 1.5,
-      "learning_rate": 4.987468671679198e-05,
-      "loss": 1.2644,
-      "step": 5000
     },
     {
-      "epoch": 1.65,
-      "learning_rate": 4.486215538847118e-05,
-      "loss": 1.2527,
-      "step": 5500
     },
     {
-      "epoch": 1.8,
-      "learning_rate": 3.9849624060150376e-05,
-      "loss": 1.241,
-      "step": 6000
     },
     {
-      "epoch": 1.95,
-      "learning_rate": 3.483709273182957e-05,
-      "loss": 1.2278,
-      "step": 6500
     },
     {
-      "epoch": 2.11,
-      "learning_rate": 2.9824561403508772e-05,
-      "loss": 1.2116,
-      "step": 7000
     },
     {
-      "epoch": 2.26,
-      "learning_rate": 2.4812030075187968e-05,
-      "loss": 1.1994,
-      "step": 7500
     },
     {
-      "epoch": 2.41,
-      "learning_rate": 1.9799498746867168e-05,
-      "loss": 1.1933,
-      "step": 8000
     },
     {
-      "epoch": 2.56,
-      "learning_rate": 1.4786967418546366e-05,
-      "loss": 1.1796,
-      "step": 8500
     },
     {
-      "epoch": 2.71,
-      "learning_rate": 9.774436090225564e-06,
-      "loss": 1.1787,
-      "step": 9000
     },
     {
-      "epoch": 2.86,
-      "learning_rate": 4.7619047619047615e-06,
-      "loss": 1.1672,
-      "step": 9500
     },
     {
-      "epoch": 3.0,
-      "step": 9975,
-      "total_flos": 1.6801282333309133e+17,
-      "train_loss": 1.327384843945802,
-      "train_runtime": 12602.7945,
-      "train_samples_per_second": 50.659,
-      "train_steps_per_second": 0.791
     }
   ],
-  "logging_steps": 500,
-  "max_steps": 9975,
-  "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 1.6801282333309133e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 6.9981660990306525,
   "eval_steps": 500,
+  "global_step": 3339,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.21,
+      "learning_rate": 4.8502545672356995e-05,
+      "loss": 4.386,
+      "step": 100
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 4.700509134471399e-05,
+      "loss": 2.3961,
+      "step": 200
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 4.550763701707098e-05,
+      "loss": 2.0441,
+      "step": 300
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 4.401018268942798e-05,
+      "loss": 1.8911,
+      "step": 400
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 4.251272836178497e-05,
+      "loss": 1.8026,
       "step": 500
     },
     {
+      "epoch": 1.26,
+      "learning_rate": 4.101527403414196e-05,
+      "loss": 1.7257,
+      "step": 600
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 3.9517819706498955e-05,
+      "loss": 1.6764,
+      "step": 700
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 3.802036537885595e-05,
+      "loss": 1.6339,
+      "step": 800
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 3.652291105121294e-05,
+      "loss": 1.6142,
+      "step": 900
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 3.502545672356993e-05,
+      "loss": 1.5706,
       "step": 1000
     },
     {
+      "epoch": 2.31,
+      "learning_rate": 3.352800239592693e-05,
+      "loss": 1.5514,
+      "step": 1100
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 3.2030548068283916e-05,
+      "loss": 1.5279,
+      "step": 1200
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 3.053309374064091e-05,
+      "loss": 1.521,
+      "step": 1300
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 2.9035639412997907e-05,
+      "loss": 1.4941,
+      "step": 1400
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 2.75381850853549e-05,
+      "loss": 1.4752,
       "step": 1500
     },
     {
+      "epoch": 3.35,
+      "learning_rate": 2.604073075771189e-05,
+      "loss": 1.4605,
+      "step": 1600
     },
     {
+      "epoch": 3.56,
+      "learning_rate": 2.4543276430068884e-05,
+      "loss": 1.4337,
+      "step": 1700
     },
     {
+      "epoch": 3.77,
+      "learning_rate": 2.3045822102425876e-05,
+      "loss": 1.4441,
+      "step": 1800
     },
     {
+      "epoch": 3.98,
+      "learning_rate": 2.154836777478287e-05,
+      "loss": 1.4323,
+      "step": 1900
     },
     {
+      "epoch": 4.19,
+      "learning_rate": 2.0050913447139864e-05,
+      "loss": 1.4108,
+      "step": 2000
     },
     {
+      "epoch": 4.4,
+      "learning_rate": 1.8553459119496856e-05,
+      "loss": 1.4184,
+      "step": 2100
     },
     {
+      "epoch": 4.61,
+      "learning_rate": 1.7056004791853848e-05,
+      "loss": 1.3959,
+      "step": 2200
     },
     {
+      "epoch": 4.82,
+      "learning_rate": 1.555855046421084e-05,
+      "loss": 1.3924,
+      "step": 2300
     },
     {
+      "epoch": 5.03,
+      "learning_rate": 1.4061096136567836e-05,
+      "loss": 1.3933,
+      "step": 2400
     },
     {
+      "epoch": 5.24,
+      "learning_rate": 1.2563641808924828e-05,
+      "loss": 1.3788,
+      "step": 2500
     },
     {
+      "epoch": 5.45,
+      "learning_rate": 1.1066187481281822e-05,
+      "loss": 1.3677,
+      "step": 2600
     },
     {
+      "epoch": 5.66,
+      "learning_rate": 9.568733153638814e-06,
+      "loss": 1.3602,
+      "step": 2700
     },
     {
+      "epoch": 5.87,
+      "learning_rate": 8.071278825995808e-06,
+      "loss": 1.3592,
+      "step": 2800
+    },
+    {
+      "epoch": 6.08,
+      "learning_rate": 6.5738244983528e-06,
+      "loss": 1.3522,
+      "step": 2900
+    },
+    {
+      "epoch": 6.29,
+      "learning_rate": 5.0763701707097935e-06,
+      "loss": 1.3586,
+      "step": 3000
     },
     {
+      "epoch": 6.5,
+      "learning_rate": 3.5789158430667866e-06,
+      "loss": 1.3571,
+      "step": 3100
     },
     {
+      "epoch": 6.71,
+      "learning_rate": 2.0814615154237796e-06,
+      "loss": 1.3572,
+      "step": 3200
     },
     {
+      "epoch": 6.92,
+      "learning_rate": 5.840071877807727e-07,
+      "loss": 1.3452,
+      "step": 3300
     },
     {
+      "epoch": 7.0,
+      "step": 3339,
+      "total_flos": 1.0075939996832611e+17,
+      "train_loss": 1.6127097251780127,
+      "train_runtime": 8839.4407,
+      "train_samples_per_second": 72.539,
+      "train_steps_per_second": 0.378
     }
   ],
+  "logging_steps": 100,
+  "max_steps": 3339,
+  "num_train_epochs": 7,
   "save_steps": 500,
+  "total_flos": 1.0075939996832611e+17,
   "trial_name": null,
   "trial_params": null
 }