indiejoseph
/

bert-base-cantonese

@@ -1,8 +1,8 @@
 {
-    "epoch": 3.0,
-    "train_loss": 1.2394252794231484,
-    "train_runtime": 3602.0389,
     "train_samples": 128272,
-    "train_samples_per_second": 106.833,
-    "train_steps_per_second": 0.835
 }

 {
+    "epoch": 5.0,
+    "train_loss": 0.3749944605037362,
+    "train_runtime": 1805.8732,
     "train_samples": 128272,
+    "train_samples_per_second": 355.152,
+    "train_steps_per_second": 2.774
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 3.0,
-    "train_loss": 1.2394252794231484,
-    "train_runtime": 3602.0389,
     "train_samples": 128272,
-    "train_samples_per_second": 106.833,
-    "train_steps_per_second": 0.835
 }

 {
+    "epoch": 5.0,
+    "train_loss": 0.3749944605037362,
+    "train_runtime": 1805.8732,
     "train_samples": 128272,
+    "train_samples_per_second": 355.152,
+    "train_steps_per_second": 2.774
 }

trainer_state.json CHANGED Viewed

@@ -1,208 +1,328 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.9996257951852314,
   "eval_steps": 500,
-  "global_step": 3006,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.1,
-      "learning_rate": 4.833666001330672e-05,
-      "loss": 1.4437,
       "step": 100
     },
     {
-      "epoch": 0.2,
-      "learning_rate": 4.6673320026613444e-05,
-      "loss": 1.3823,
       "step": 200
     },
     {
-      "epoch": 0.3,
-      "learning_rate": 4.5009980039920164e-05,
-      "loss": 1.3499,
       "step": 300
     },
     {
-      "epoch": 0.4,
-      "learning_rate": 4.3346640053226885e-05,
-      "loss": 1.3187,
       "step": 400
     },
     {
-      "epoch": 0.5,
-      "learning_rate": 4.1683300066533606e-05,
-      "loss": 1.3217,
       "step": 500
     },
     {
-      "epoch": 0.6,
-      "learning_rate": 4.0019960079840326e-05,
-      "loss": 1.3004,
       "step": 600
     },
     {
-      "epoch": 0.7,
-      "learning_rate": 3.835662009314704e-05,
-      "loss": 1.2892,
       "step": 700
     },
     {
-      "epoch": 0.8,
-      "learning_rate": 3.669328010645376e-05,
-      "loss": 1.2834,
       "step": 800
     },
     {
-      "epoch": 0.9,
-      "learning_rate": 3.502994011976048e-05,
-      "loss": 1.274,
       "step": 900
     },
     {
-      "epoch": 1.0,
-      "learning_rate": 3.33666001330672e-05,
-      "loss": 1.2676,
       "step": 1000
     },
     {
-      "epoch": 1.1,
-      "learning_rate": 3.170326014637392e-05,
-      "loss": 1.2393,
       "step": 1100
     },
     {
-      "epoch": 1.2,
-      "learning_rate": 3.003992015968064e-05,
-      "loss": 1.2381,
       "step": 1200
     },
     {
-      "epoch": 1.3,
-      "learning_rate": 2.837658017298736e-05,
-      "loss": 1.2341,
       "step": 1300
     },
     {
-      "epoch": 1.4,
-      "learning_rate": 2.671324018629408e-05,
-      "loss": 1.2248,
       "step": 1400
     },
     {
-      "epoch": 1.5,
-      "learning_rate": 2.5049900199600802e-05,
-      "loss": 1.213,
       "step": 1500
     },
     {
-      "epoch": 1.6,
-      "learning_rate": 2.338656021290752e-05,
-      "loss": 1.2051,
       "step": 1600
     },
     {
-      "epoch": 1.7,
-      "learning_rate": 2.172322022621424e-05,
-      "loss": 1.2271,
       "step": 1700
     },
     {
-      "epoch": 1.8,
-      "learning_rate": 2.0059880239520957e-05,
-      "loss": 1.2158,
       "step": 1800
     },
     {
-      "epoch": 1.9,
-      "learning_rate": 1.8396540252827678e-05,
-      "loss": 1.2037,
       "step": 1900
     },
     {
-      "epoch": 2.0,
-      "learning_rate": 1.67332002661344e-05,
-      "loss": 1.1981,
       "step": 2000
     },
     {
-      "epoch": 2.1,
-      "learning_rate": 1.506986027944112e-05,
-      "loss": 1.1968,
       "step": 2100
     },
     {
-      "epoch": 2.2,
-      "learning_rate": 1.3406520292747837e-05,
-      "loss": 1.1906,
       "step": 2200
     },
     {
-      "epoch": 2.3,
-      "learning_rate": 1.1743180306054557e-05,
-      "loss": 1.1746,
       "step": 2300
     },
     {
-      "epoch": 2.39,
-      "learning_rate": 1.0079840319361278e-05,
-      "loss": 1.1874,
       "step": 2400
     },
     {
-      "epoch": 2.49,
-      "learning_rate": 8.416500332667999e-06,
-      "loss": 1.1763,
       "step": 2500
     },
     {
-      "epoch": 2.59,
-      "learning_rate": 6.753160345974717e-06,
-      "loss": 1.1672,
       "step": 2600
     },
     {
-      "epoch": 2.69,
-      "learning_rate": 5.0898203592814375e-06,
-      "loss": 1.1709,
       "step": 2700
     },
     {
-      "epoch": 2.79,
-      "learning_rate": 3.4264803725881573e-06,
-      "loss": 1.1677,
       "step": 2800
     },
     {
-      "epoch": 2.89,
-      "learning_rate": 1.7631403858948771e-06,
-      "loss": 1.1616,
       "step": 2900
     },
     {
-      "epoch": 2.99,
-      "learning_rate": 9.98003992015968e-08,
-      "loss": 1.1609,
       "step": 3000
     },
     {
-      "epoch": 3.0,
-      "step": 3006,
-      "total_flos": 5.378670905076864e+16,
-      "train_loss": 1.2394252794231484,
-      "train_runtime": 3602.0389,
-      "train_samples_per_second": 106.833,
-      "train_steps_per_second": 0.835
     }
   ],
   "logging_steps": 100,
-  "max_steps": 3006,
-  "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 5.378670905076864e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.999750530123488,
   "eval_steps": 500,
+  "global_step": 5010,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.02,
+      "learning_rate": 4.9731096052490054e-05,
+      "loss": 1.7709,
       "step": 100
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 4.9462192104980105e-05,
+      "loss": 1.6756,
       "step": 200
     },
     {
+      "epoch": 0.05,
+      "learning_rate": 4.919328815747015e-05,
+      "loss": 1.6585,
       "step": 300
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 4.892438420996021e-05,
+      "loss": 1.6405,
       "step": 400
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 4.865548026245025e-05,
+      "loss": 1.5871,
       "step": 500
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 4.838657631494031e-05,
+      "loss": 1.5809,
       "step": 600
     },
     {
+      "epoch": 0.11,
+      "learning_rate": 4.8117672367430355e-05,
+      "loss": 1.5877,
       "step": 700
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 4.7848768419920406e-05,
+      "loss": 1.5475,
       "step": 800
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 4.757986447241046e-05,
+      "loss": 1.5461,
       "step": 900
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 4.731096052490051e-05,
+      "loss": 1.5553,
       "step": 1000
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 4.704205657739056e-05,
+      "loss": 1.543,
       "step": 1100
     },
     {
+      "epoch": 0.19,
+      "learning_rate": 4.6773152629880605e-05,
+      "loss": 1.5603,
       "step": 1200
     },
     {
+      "epoch": 0.21,
+      "learning_rate": 4.650424868237066e-05,
+      "loss": 1.5441,
       "step": 1300
     },
     {
+      "epoch": 0.23,
+      "learning_rate": 4.623534473486071e-05,
+      "loss": 1.5416,
       "step": 1400
     },
     {
+      "epoch": 0.24,
+      "learning_rate": 4.596644078735076e-05,
+      "loss": 1.5159,
       "step": 1500
     },
     {
+      "epoch": 0.26,
+      "learning_rate": 4.569753683984081e-05,
+      "loss": 1.5225,
       "step": 1600
     },
     {
+      "epoch": 0.27,
+      "learning_rate": 4.542863289233086e-05,
+      "loss": 1.5281,
       "step": 1700
     },
     {
+      "epoch": 0.29,
+      "learning_rate": 4.515972894482091e-05,
+      "loss": 1.5128,
       "step": 1800
     },
     {
+      "epoch": 0.31,
+      "learning_rate": 4.4890824997310964e-05,
+      "loss": 1.5215,
       "step": 1900
     },
     {
+      "epoch": 0.32,
+      "learning_rate": 4.4621921049801015e-05,
+      "loss": 1.4975,
       "step": 2000
     },
     {
+      "epoch": 0.34,
+      "learning_rate": 4.435301710229106e-05,
+      "loss": 1.4772,
       "step": 2100
     },
     {
+      "epoch": 0.35,
+      "learning_rate": 4.408411315478112e-05,
+      "loss": 1.4776,
       "step": 2200
     },
     {
+      "epoch": 0.37,
+      "learning_rate": 4.381520920727116e-05,
+      "loss": 1.5157,
       "step": 2300
     },
     {
+      "epoch": 0.39,
+      "learning_rate": 4.3546305259761214e-05,
+      "loss": 1.4968,
       "step": 2400
     },
     {
+      "epoch": 0.4,
+      "learning_rate": 4.3277401312251265e-05,
+      "loss": 1.4835,
       "step": 2500
     },
     {
+      "epoch": 0.42,
+      "learning_rate": 4.3008497364741317e-05,
+      "loss": 1.4805,
       "step": 2600
     },
     {
+      "epoch": 0.44,
+      "learning_rate": 4.273959341723137e-05,
+      "loss": 1.4892,
       "step": 2700
     },
     {
+      "epoch": 0.45,
+      "learning_rate": 4.247068946972142e-05,
+      "loss": 1.4705,
       "step": 2800
     },
     {
+      "epoch": 0.47,
+      "learning_rate": 4.220178552221147e-05,
+      "loss": 1.4829,
       "step": 2900
     },
     {
+      "epoch": 0.48,
+      "learning_rate": 4.193288157470152e-05,
+      "loss": 1.4688,
       "step": 3000
     },
     {
+      "epoch": 0.5,
+      "learning_rate": 4.1663977627191566e-05,
+      "loss": 1.4711,
+      "step": 3100
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 4.139507367968162e-05,
+      "loss": 1.4813,
+      "step": 3200
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 4.112616973217167e-05,
+      "loss": 1.4541,
+      "step": 3300
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 4.085726578466172e-05,
+      "loss": 1.4574,
+      "step": 3400
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 4.058836183715177e-05,
+      "loss": 1.4634,
+      "step": 3500
+    },
+    {
+      "epoch": 3.59,
+      "learning_rate": 1.407185628742515e-05,
+      "loss": 1.2902,
+      "step": 3600
+    },
+    {
+      "epoch": 3.69,
+      "learning_rate": 1.3073852295409184e-05,
+      "loss": 1.2773,
+      "step": 3700
+    },
+    {
+      "epoch": 3.79,
+      "learning_rate": 1.2075848303393214e-05,
+      "loss": 1.2647,
+      "step": 3800
+    },
+    {
+      "epoch": 3.89,
+      "learning_rate": 1.1077844311377246e-05,
+      "loss": 1.2524,
+      "step": 3900
+    },
+    {
+      "epoch": 3.99,
+      "learning_rate": 1.0079840319361278e-05,
+      "loss": 1.2543,
+      "step": 4000
+    },
+    {
+      "epoch": 4.09,
+      "learning_rate": 9.08183632734531e-06,
+      "loss": 1.2499,
+      "step": 4100
+    },
+    {
+      "epoch": 4.19,
+      "learning_rate": 8.083832335329342e-06,
+      "loss": 1.2418,
+      "step": 4200
+    },
+    {
+      "epoch": 4.29,
+      "learning_rate": 7.085828343313373e-06,
+      "loss": 1.2379,
+      "step": 4300
+    },
+    {
+      "epoch": 4.39,
+      "learning_rate": 6.0878243512974054e-06,
+      "loss": 1.2325,
+      "step": 4400
+    },
+    {
+      "epoch": 4.49,
+      "learning_rate": 5.0898203592814375e-06,
+      "loss": 1.2246,
+      "step": 4500
+    },
+    {
+      "epoch": 4.59,
+      "learning_rate": 4.091816367265469e-06,
+      "loss": 1.2331,
+      "step": 4600
+    },
+    {
+      "epoch": 4.69,
+      "learning_rate": 3.093812375249501e-06,
+      "loss": 1.2236,
+      "step": 4700
+    },
+    {
+      "epoch": 4.79,
+      "learning_rate": 2.095808383233533e-06,
+      "loss": 1.2281,
+      "step": 4800
+    },
+    {
+      "epoch": 4.89,
+      "learning_rate": 1.097804391217565e-06,
+      "loss": 1.2254,
+      "step": 4900
+    },
+    {
+      "epoch": 4.99,
+      "learning_rate": 9.98003992015968e-08,
+      "loss": 1.225,
+      "step": 5000
+    },
+    {
+      "epoch": 5.0,
+      "step": 5010,
+      "total_flos": 8.106812063308723e+16,
+      "train_loss": 0.3749944605037362,
+      "train_runtime": 1805.8732,
+      "train_samples_per_second": 355.152,
+      "train_steps_per_second": 2.774
     }
   ],
   "logging_steps": 100,
+  "max_steps": 5010,
+  "num_train_epochs": 5,
   "save_steps": 500,
+  "total_flos": 8.106812063308723e+16,
   "trial_name": null,
   "trial_params": null
 }