Upload 10 files

Browse files

Files changed (5) hide show

model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +365 -5

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:839ae9db2ef12cb6c28652cf78e1ace0b5b2f613a977c1320527320e6f07713e
 size 20061432

 version https://git-lfs.github.com/spec/v1
+oid sha256:6d0a1a2ebc0f1f1e6bae76f519dbcc21bb42eeb93020fab49ae955c26480b74e
 size 20061432

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79edf6307ec6399546f9a8ac635261711014b1bd4fd5cbef6a7d900714059c58
 size 40205626

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a5ea25c6472ccaf3b15d44dfb9cfe3f95c2d03ee19001eee198898ac6253a32
 size 40205626

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:66fb3a85294ea76c6df4c9ebd3efd6802b5ffdd578d627b2aab67d064e04d612
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c83fbbf7f760f16043b0c1585d6a2a676ee048a2decb272da8f2e2127ffb79b3
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6d4b6bb09f465063fd299be83fa63c3c3ba3f85f39eabdef7061b52b4e97bc68
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d78a469aae0653b14dcccaea45eb52458c95afae1649e5d894a88bcf0a974d36
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.610386610031128,
-  "best_model_checkpoint": "/home/nlplab5/Desktop/roberta-pretrain/ckpt/roberta/pretrain/medium/checkpoint-11880",
-  "epoch": 8.72136323160366,
   "eval_steps": 90,
-  "global_step": 11970,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -9583,6 +9583,366 @@
       "eval_samples_per_second": 457.867,
       "eval_steps_per_second": 2.045,
       "step": 11970
     }
   ],
   "logging_steps": 10,
@@ -9590,7 +9950,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 90,
-  "total_flos": 1.2438771143111148e+18,
   "train_batch_size": 192,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.6068978309631348,
+  "best_model_checkpoint": "/home/nlplab5/Desktop/roberta-pretrain/ckpt/roberta/pretrain/medium/checkpoint-12420",
+  "epoch": 9.049218813243746,
   "eval_steps": 90,
+  "global_step": 12420,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 457.867,
       "eval_steps_per_second": 2.045,
       "step": 11970
+    },
+    {
+      "epoch": 8.73,
+      "grad_norm": 0.289413720369339,
+      "learning_rate": 5.1485148514851485e-05,
+      "loss": 1.758,
+      "step": 11980
+    },
+    {
+      "epoch": 8.74,
+      "grad_norm": 0.2739205062389374,
+      "learning_rate": 5.0495049504950497e-05,
+      "loss": 1.7579,
+      "step": 11990
+    },
+    {
+      "epoch": 8.74,
+      "grad_norm": 0.26597511768341064,
+      "learning_rate": 4.950495049504951e-05,
+      "loss": 1.7568,
+      "step": 12000
+    },
+    {
+      "epoch": 8.75,
+      "grad_norm": 0.24635004997253418,
+      "learning_rate": 4.851485148514852e-05,
+      "loss": 1.7584,
+      "step": 12010
+    },
+    {
+      "epoch": 8.76,
+      "grad_norm": 0.2534136474132538,
+      "learning_rate": 4.7524752475247525e-05,
+      "loss": 1.7602,
+      "step": 12020
+    },
+    {
+      "epoch": 8.77,
+      "grad_norm": 0.26007363200187683,
+      "learning_rate": 4.653465346534654e-05,
+      "loss": 1.7567,
+      "step": 12030
+    },
+    {
+      "epoch": 8.77,
+      "grad_norm": 0.2807808816432953,
+      "learning_rate": 4.554455445544554e-05,
+      "loss": 1.7566,
+      "step": 12040
+    },
+    {
+      "epoch": 8.78,
+      "grad_norm": 0.2677513360977173,
+      "learning_rate": 4.455445544554455e-05,
+      "loss": 1.7567,
+      "step": 12050
+    },
+    {
+      "epoch": 8.79,
+      "grad_norm": 0.2691977620124817,
+      "learning_rate": 4.3564356435643565e-05,
+      "loss": 1.757,
+      "step": 12060
+    },
+    {
+      "epoch": 8.79,
+      "eval_accuracy": 0.6521601327172856,
+      "eval_loss": 1.60829758644104,
+      "eval_runtime": 1089.928,
+      "eval_samples_per_second": 458.177,
+      "eval_steps_per_second": 2.046,
+      "step": 12060
+    },
+    {
+      "epoch": 8.79,
+      "grad_norm": 0.2577356696128845,
+      "learning_rate": 4.257425742574258e-05,
+      "loss": 1.7584,
+      "step": 12070
+    },
+    {
+      "epoch": 8.8,
+      "grad_norm": 0.2654874324798584,
+      "learning_rate": 4.158415841584159e-05,
+      "loss": 1.7571,
+      "step": 12080
+    },
+    {
+      "epoch": 8.81,
+      "grad_norm": 0.25344353914260864,
+      "learning_rate": 4.0594059405940594e-05,
+      "loss": 1.7581,
+      "step": 12090
+    },
+    {
+      "epoch": 8.82,
+      "grad_norm": 0.25865158438682556,
+      "learning_rate": 3.9603960396039605e-05,
+      "loss": 1.7552,
+      "step": 12100
+    },
+    {
+      "epoch": 8.82,
+      "grad_norm": 0.28875982761383057,
+      "learning_rate": 3.861386138613862e-05,
+      "loss": 1.757,
+      "step": 12110
+    },
+    {
+      "epoch": 8.83,
+      "grad_norm": 0.2697414755821228,
+      "learning_rate": 3.762376237623762e-05,
+      "loss": 1.7579,
+      "step": 12120
+    },
+    {
+      "epoch": 8.84,
+      "grad_norm": 0.2786589562892914,
+      "learning_rate": 3.6633663366336634e-05,
+      "loss": 1.7583,
+      "step": 12130
+    },
+    {
+      "epoch": 8.85,
+      "grad_norm": 0.258486270904541,
+      "learning_rate": 3.564356435643564e-05,
+      "loss": 1.7581,
+      "step": 12140
+    },
+    {
+      "epoch": 8.85,
+      "grad_norm": 0.2595365345478058,
+      "learning_rate": 3.465346534653466e-05,
+      "loss": 1.757,
+      "step": 12150
+    },
+    {
+      "epoch": 8.85,
+      "eval_accuracy": 0.652040482066107,
+      "eval_loss": 1.6086018085479736,
+      "eval_runtime": 1089.5635,
+      "eval_samples_per_second": 458.33,
+      "eval_steps_per_second": 2.047,
+      "step": 12150
+    },
+    {
+      "epoch": 8.86,
+      "grad_norm": 0.25674012303352356,
+      "learning_rate": 3.366336633663367e-05,
+      "loss": 1.7595,
+      "step": 12160
+    },
+    {
+      "epoch": 8.87,
+      "grad_norm": 0.23194921016693115,
+      "learning_rate": 3.2673267326732674e-05,
+      "loss": 1.7574,
+      "step": 12170
+    },
+    {
+      "epoch": 8.87,
+      "grad_norm": 0.2626875936985016,
+      "learning_rate": 3.1683168316831686e-05,
+      "loss": 1.7571,
+      "step": 12180
+    },
+    {
+      "epoch": 8.88,
+      "grad_norm": 0.2361476868391037,
+      "learning_rate": 3.069306930693069e-05,
+      "loss": 1.7573,
+      "step": 12190
+    },
+    {
+      "epoch": 8.89,
+      "grad_norm": 0.2606755793094635,
+      "learning_rate": 2.9702970297029702e-05,
+      "loss": 1.7567,
+      "step": 12200
+    },
+    {
+      "epoch": 8.9,
+      "grad_norm": 0.27499887347221375,
+      "learning_rate": 2.8712871287128714e-05,
+      "loss": 1.7579,
+      "step": 12210
+    },
+    {
+      "epoch": 8.9,
+      "grad_norm": 0.24832656979560852,
+      "learning_rate": 2.7722772277227722e-05,
+      "loss": 1.7566,
+      "step": 12220
+    },
+    {
+      "epoch": 8.91,
+      "grad_norm": 0.24898388981819153,
+      "learning_rate": 2.6732673267326734e-05,
+      "loss": 1.7544,
+      "step": 12230
+    },
+    {
+      "epoch": 8.92,
+      "grad_norm": 0.24266423285007477,
+      "learning_rate": 2.5742574257425742e-05,
+      "loss": 1.7559,
+      "step": 12240
+    },
+    {
+      "epoch": 8.92,
+      "eval_accuracy": 0.6522573824099933,
+      "eval_loss": 1.6079708337783813,
+      "eval_runtime": 1089.9176,
+      "eval_samples_per_second": 458.181,
+      "eval_steps_per_second": 2.046,
+      "step": 12240
+    },
+    {
+      "epoch": 8.93,
+      "grad_norm": 0.2438860386610031,
+      "learning_rate": 2.4752475247524754e-05,
+      "loss": 1.7554,
+      "step": 12250
+    },
+    {
+      "epoch": 8.93,
+      "grad_norm": 0.22911418974399567,
+      "learning_rate": 2.3762376237623762e-05,
+      "loss": 1.7547,
+      "step": 12260
+    },
+    {
+      "epoch": 8.94,
+      "grad_norm": 0.2550877034664154,
+      "learning_rate": 2.277227722772277e-05,
+      "loss": 1.7567,
+      "step": 12270
+    },
+    {
+      "epoch": 8.95,
+      "grad_norm": 0.2409505546092987,
+      "learning_rate": 2.1782178217821783e-05,
+      "loss": 1.7556,
+      "step": 12280
+    },
+    {
+      "epoch": 8.95,
+      "grad_norm": 0.23632997274398804,
+      "learning_rate": 2.0792079207920794e-05,
+      "loss": 1.7573,
+      "step": 12290
+    },
+    {
+      "epoch": 8.96,
+      "grad_norm": 0.22292740643024445,
+      "learning_rate": 1.9801980198019803e-05,
+      "loss": 1.757,
+      "step": 12300
+    },
+    {
+      "epoch": 8.97,
+      "grad_norm": 0.2350420504808426,
+      "learning_rate": 1.881188118811881e-05,
+      "loss": 1.756,
+      "step": 12310
+    },
+    {
+      "epoch": 8.98,
+      "grad_norm": 0.22938278317451477,
+      "learning_rate": 1.782178217821782e-05,
+      "loss": 1.7562,
+      "step": 12320
+    },
+    {
+      "epoch": 8.98,
+      "grad_norm": 0.2246268391609192,
+      "learning_rate": 1.6831683168316834e-05,
+      "loss": 1.7556,
+      "step": 12330
+    },
+    {
+      "epoch": 8.98,
+      "eval_accuracy": 0.652376308176148,
+      "eval_loss": 1.6073620319366455,
+      "eval_runtime": 1088.9818,
+      "eval_samples_per_second": 458.575,
+      "eval_steps_per_second": 2.048,
+      "step": 12330
+    },
+    {
+      "epoch": 8.99,
+      "grad_norm": 0.22820483148097992,
+      "learning_rate": 1.5841584158415843e-05,
+      "loss": 1.7564,
+      "step": 12340
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 0.2315167486667633,
+      "learning_rate": 1.4851485148514851e-05,
+      "loss": 1.7558,
+      "step": 12350
+    },
+    {
+      "epoch": 9.01,
+      "grad_norm": 0.21513350307941437,
+      "learning_rate": 1.3861386138613861e-05,
+      "loss": 1.757,
+      "step": 12360
+    },
+    {
+      "epoch": 9.01,
+      "grad_norm": 0.21538245677947998,
+      "learning_rate": 1.2871287128712871e-05,
+      "loss": 1.7527,
+      "step": 12370
+    },
+    {
+      "epoch": 9.02,
+      "grad_norm": 0.22796376049518585,
+      "learning_rate": 1.1881188118811881e-05,
+      "loss": 1.7549,
+      "step": 12380
+    },
+    {
+      "epoch": 9.03,
+      "grad_norm": 0.21846508979797363,
+      "learning_rate": 1.0891089108910891e-05,
+      "loss": 1.7527,
+      "step": 12390
+    },
+    {
+      "epoch": 9.03,
+      "grad_norm": 0.2252340316772461,
+      "learning_rate": 9.900990099009901e-06,
+      "loss": 1.757,
+      "step": 12400
+    },
+    {
+      "epoch": 9.04,
+      "grad_norm": 0.22679966688156128,
+      "learning_rate": 8.91089108910891e-06,
+      "loss": 1.7547,
+      "step": 12410
+    },
+    {
+      "epoch": 9.05,
+      "grad_norm": 0.21749068796634674,
+      "learning_rate": 7.920792079207921e-06,
+      "loss": 1.755,
+      "step": 12420
+    },
+    {
+      "epoch": 9.05,
+      "eval_accuracy": 0.6525192559694988,
+      "eval_loss": 1.6068978309631348,
+      "eval_runtime": 1087.147,
+      "eval_samples_per_second": 459.349,
+      "eval_steps_per_second": 2.051,
+      "step": 12420
     }
   ],
   "logging_steps": 10,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 90,
+  "total_flos": 1.28938481325833e+18,
   "train_batch_size": 192,
   "trial_name": null,
   "trial_params": null