ddevaul
/

desformers-pretrain-mask-problem

Model card Files Files and versions Community

ddevaul commited on Apr 1, 2024

Commit

12bc446

•

1 Parent(s): 49cbc02

Upload 6 files

Browse files

Files changed (6) hide show

checkpoint-116994/my_custom_model.pth +3 -0
checkpoint-116994/optimizer.pt +3 -0
checkpoint-116994/rng_state.pth +3 -0
checkpoint-116994/scheduler.pt +3 -0
checkpoint-116994/trainer_state.json +1055 -0
checkpoint-116994/training_args.bin +3 -0

checkpoint-116994/my_custom_model.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9b89d605c5e94325b01af0b03336ae434f8871638df687b94c03b36e578eb537
+size 502285990

checkpoint-116994/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0dadcf92f66401229b0fc3840c1f23a6ac82170364711ed8e2c8589b73b60153
+size 1004571002

checkpoint-116994/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:47d953e44ced351a19079428860d71a230e5396163b3698ac93402f8343bb63e
+size 14244

checkpoint-116994/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a8360e10dc7b9180c15d3d1c8f7d7f766e80a7dc9f5bac7df9a3f22e31ea497b
+size 1064

checkpoint-116994/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1055 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 36.98830224470439,
+  "eval_steps": 1581,
+  "global_step": 116994,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.5,
+      "learning_rate": 4.995001580777743e-05,
+      "loss": 3.0674,
+      "step": 1581
+    },
+    {
+      "epoch": 0.5,
+      "eval_loss": 3.00907301902771,
+      "eval_runtime": 732.5252,
+      "eval_samples_per_second": 44.214,
+      "eval_steps_per_second": 1.383,
+      "step": 1581
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 4.990003161555485e-05,
+      "loss": 2.8959,
+      "step": 3162
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 2.149791717529297,
+      "eval_runtime": 732.3378,
+      "eval_samples_per_second": 44.225,
+      "eval_steps_per_second": 1.383,
+      "step": 3162
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 4.985004742333228e-05,
+      "loss": 1.5763,
+      "step": 4743
+    },
+    {
+      "epoch": 1.5,
+      "eval_loss": 1.1582367420196533,
+      "eval_runtime": 732.2588,
+      "eval_samples_per_second": 44.23,
+      "eval_steps_per_second": 1.383,
+      "step": 4743
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 4.9800063231109704e-05,
+      "loss": 1.072,
+      "step": 6324
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.8775840401649475,
+      "eval_runtime": 733.2045,
+      "eval_samples_per_second": 44.173,
+      "eval_steps_per_second": 1.382,
+      "step": 6324
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 4.975007903888714e-05,
+      "loss": 0.8663,
+      "step": 7905
+    },
+    {
+      "epoch": 2.5,
+      "eval_loss": 0.7342700958251953,
+      "eval_runtime": 729.9421,
+      "eval_samples_per_second": 44.371,
+      "eval_steps_per_second": 1.388,
+      "step": 7905
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 4.970009484666456e-05,
+      "loss": 0.7491,
+      "step": 9486
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.652782678604126,
+      "eval_runtime": 730.2341,
+      "eval_samples_per_second": 44.353,
+      "eval_steps_per_second": 1.387,
+      "step": 9486
+    },
+    {
+      "epoch": 3.5,
+      "learning_rate": 4.965011065444199e-05,
+      "loss": 0.6797,
+      "step": 11067
+    },
+    {
+      "epoch": 3.5,
+      "eval_loss": 0.5981677174568176,
+      "eval_runtime": 731.2047,
+      "eval_samples_per_second": 44.294,
+      "eval_steps_per_second": 1.385,
+      "step": 11067
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 4.960012646221941e-05,
+      "loss": 0.6299,
+      "step": 12648
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.558130145072937,
+      "eval_runtime": 731.0787,
+      "eval_samples_per_second": 44.302,
+      "eval_steps_per_second": 1.386,
+      "step": 12648
+    },
+    {
+      "epoch": 4.5,
+      "learning_rate": 4.955014226999684e-05,
+      "loss": 0.592,
+      "step": 14229
+    },
+    {
+      "epoch": 4.5,
+      "eval_loss": 0.5258910655975342,
+      "eval_runtime": 731.2669,
+      "eval_samples_per_second": 44.29,
+      "eval_steps_per_second": 1.385,
+      "step": 14229
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 4.950015807777427e-05,
+      "loss": 0.5608,
+      "step": 15810
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 0.500377357006073,
+      "eval_runtime": 730.6976,
+      "eval_samples_per_second": 44.325,
+      "eval_steps_per_second": 1.386,
+      "step": 15810
+    },
+    {
+      "epoch": 5.5,
+      "learning_rate": 4.945017388555169e-05,
+      "loss": 0.5358,
+      "step": 17391
+    },
+    {
+      "epoch": 5.5,
+      "eval_loss": 0.4785815179347992,
+      "eval_runtime": 730.9055,
+      "eval_samples_per_second": 44.312,
+      "eval_steps_per_second": 1.386,
+      "step": 17391
+    },
+    {
+      "epoch": 6.0,
+      "learning_rate": 4.940018969332912e-05,
+      "loss": 0.5145,
+      "step": 18972
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 0.4611227214336395,
+      "eval_runtime": 731.1857,
+      "eval_samples_per_second": 44.295,
+      "eval_steps_per_second": 1.385,
+      "step": 18972
+    },
+    {
+      "epoch": 6.5,
+      "learning_rate": 4.935020550110654e-05,
+      "loss": 0.496,
+      "step": 20553
+    },
+    {
+      "epoch": 6.5,
+      "eval_loss": 0.44416335225105286,
+      "eval_runtime": 731.3727,
+      "eval_samples_per_second": 44.284,
+      "eval_steps_per_second": 1.385,
+      "step": 20553
+    },
+    {
+      "epoch": 7.0,
+      "learning_rate": 4.930022130888398e-05,
+      "loss": 0.4802,
+      "step": 22134
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 0.4299512505531311,
+      "eval_runtime": 731.2898,
+      "eval_samples_per_second": 44.289,
+      "eval_steps_per_second": 1.385,
+      "step": 22134
+    },
+    {
+      "epoch": 7.5,
+      "learning_rate": 4.92502371166614e-05,
+      "loss": 0.4651,
+      "step": 23715
+    },
+    {
+      "epoch": 7.5,
+      "eval_loss": 0.4183834195137024,
+      "eval_runtime": 731.1247,
+      "eval_samples_per_second": 44.299,
+      "eval_steps_per_second": 1.386,
+      "step": 23715
+    },
+    {
+      "epoch": 8.0,
+      "learning_rate": 4.920025292443883e-05,
+      "loss": 0.453,
+      "step": 25296
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 0.40729984641075134,
+      "eval_runtime": 730.8948,
+      "eval_samples_per_second": 44.313,
+      "eval_steps_per_second": 1.386,
+      "step": 25296
+    },
+    {
+      "epoch": 8.5,
+      "learning_rate": 4.915026873221625e-05,
+      "loss": 0.4415,
+      "step": 26877
+    },
+    {
+      "epoch": 8.5,
+      "eval_loss": 0.39817574620246887,
+      "eval_runtime": 731.174,
+      "eval_samples_per_second": 44.296,
+      "eval_steps_per_second": 1.385,
+      "step": 26877
+    },
+    {
+      "epoch": 9.0,
+      "learning_rate": 4.910028453999368e-05,
+      "loss": 0.4306,
+      "step": 28458
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 0.3896329998970032,
+      "eval_runtime": 730.8703,
+      "eval_samples_per_second": 44.314,
+      "eval_steps_per_second": 1.386,
+      "step": 28458
+    },
+    {
+      "epoch": 9.5,
+      "learning_rate": 4.905030034777111e-05,
+      "loss": 0.4209,
+      "step": 30039
+    },
+    {
+      "epoch": 9.5,
+      "eval_loss": 0.3798244297504425,
+      "eval_runtime": 731.1006,
+      "eval_samples_per_second": 44.3,
+      "eval_steps_per_second": 1.386,
+      "step": 30039
+    },
+    {
+      "epoch": 10.0,
+      "learning_rate": 4.900031615554853e-05,
+      "loss": 0.4129,
+      "step": 31620
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 0.3725457489490509,
+      "eval_runtime": 731.3194,
+      "eval_samples_per_second": 44.287,
+      "eval_steps_per_second": 1.385,
+      "step": 31620
+    },
+    {
+      "epoch": 10.5,
+      "learning_rate": 4.895033196332596e-05,
+      "loss": 0.4043,
+      "step": 33201
+    },
+    {
+      "epoch": 10.5,
+      "eval_loss": 0.3666287660598755,
+      "eval_runtime": 730.8225,
+      "eval_samples_per_second": 44.317,
+      "eval_steps_per_second": 1.386,
+      "step": 33201
+    },
+    {
+      "epoch": 11.0,
+      "learning_rate": 4.890034777110338e-05,
+      "loss": 0.3972,
+      "step": 34782
+    },
+    {
+      "epoch": 11.0,
+      "eval_loss": 0.35826411843299866,
+      "eval_runtime": 731.1962,
+      "eval_samples_per_second": 44.295,
+      "eval_steps_per_second": 1.385,
+      "step": 34782
+    },
+    {
+      "epoch": 11.5,
+      "learning_rate": 4.885036357888081e-05,
+      "loss": 0.39,
+      "step": 36363
+    },
+    {
+      "epoch": 11.5,
+      "eval_loss": 0.3527071177959442,
+      "eval_runtime": 730.1333,
+      "eval_samples_per_second": 44.359,
+      "eval_steps_per_second": 1.387,
+      "step": 36363
+    },
+    {
+      "epoch": 12.0,
+      "learning_rate": 4.880037938665824e-05,
+      "loss": 0.3835,
+      "step": 37944
+    },
+    {
+      "epoch": 12.0,
+      "eval_loss": 0.3478526175022125,
+      "eval_runtime": 731.1852,
+      "eval_samples_per_second": 44.295,
+      "eval_steps_per_second": 1.385,
+      "step": 37944
+    },
+    {
+      "epoch": 12.5,
+      "learning_rate": 4.875039519443567e-05,
+      "loss": 0.3771,
+      "step": 39525
+    },
+    {
+      "epoch": 12.5,
+      "eval_loss": 0.341802179813385,
+      "eval_runtime": 730.7567,
+      "eval_samples_per_second": 44.321,
+      "eval_steps_per_second": 1.386,
+      "step": 39525
+    },
+    {
+      "epoch": 13.0,
+      "learning_rate": 4.870041100221309e-05,
+      "loss": 0.3717,
+      "step": 41106
+    },
+    {
+      "epoch": 13.0,
+      "eval_loss": 0.33608582615852356,
+      "eval_runtime": 731.8327,
+      "eval_samples_per_second": 44.256,
+      "eval_steps_per_second": 1.384,
+      "step": 41106
+    },
+    {
+      "epoch": 13.5,
+      "learning_rate": 4.865042680999052e-05,
+      "loss": 0.3658,
+      "step": 42687
+    },
+    {
+      "epoch": 13.5,
+      "eval_loss": 0.3327673375606537,
+      "eval_runtime": 730.5115,
+      "eval_samples_per_second": 44.336,
+      "eval_steps_per_second": 1.387,
+      "step": 42687
+    },
+    {
+      "epoch": 14.0,
+      "learning_rate": 4.860044261776795e-05,
+      "loss": 0.3611,
+      "step": 44268
+    },
+    {
+      "epoch": 14.0,
+      "eval_loss": 0.3284221887588501,
+      "eval_runtime": 730.7314,
+      "eval_samples_per_second": 44.323,
+      "eval_steps_per_second": 1.386,
+      "step": 44268
+    },
+    {
+      "epoch": 14.5,
+      "learning_rate": 4.855045842554537e-05,
+      "loss": 0.3561,
+      "step": 45849
+    },
+    {
+      "epoch": 14.5,
+      "eval_loss": 0.3230164051055908,
+      "eval_runtime": 731.0925,
+      "eval_samples_per_second": 44.301,
+      "eval_steps_per_second": 1.386,
+      "step": 45849
+    },
+    {
+      "epoch": 15.0,
+      "learning_rate": 4.85004742333228e-05,
+      "loss": 0.3512,
+      "step": 47430
+    },
+    {
+      "epoch": 15.0,
+      "eval_loss": 0.31766462326049805,
+      "eval_runtime": 730.5299,
+      "eval_samples_per_second": 44.335,
+      "eval_steps_per_second": 1.387,
+      "step": 47430
+    },
+    {
+      "epoch": 15.5,
+      "learning_rate": 4.845049004110022e-05,
+      "loss": 0.3464,
+      "step": 49011
+    },
+    {
+      "epoch": 15.5,
+      "eval_loss": 0.31685832142829895,
+      "eval_runtime": 730.0764,
+      "eval_samples_per_second": 44.362,
+      "eval_steps_per_second": 1.388,
+      "step": 49011
+    },
+    {
+      "epoch": 15.99,
+      "learning_rate": 4.840050584887765e-05,
+      "loss": 0.3426,
+      "step": 50592
+    },
+    {
+      "epoch": 15.99,
+      "eval_loss": 0.31031087040901184,
+      "eval_runtime": 729.7311,
+      "eval_samples_per_second": 44.383,
+      "eval_steps_per_second": 1.388,
+      "step": 50592
+    },
+    {
+      "epoch": 16.49,
+      "learning_rate": 4.835052165665508e-05,
+      "loss": 0.3385,
+      "step": 52173
+    },
+    {
+      "epoch": 16.49,
+      "eval_loss": 0.30902454257011414,
+      "eval_runtime": 730.6826,
+      "eval_samples_per_second": 44.326,
+      "eval_steps_per_second": 1.386,
+      "step": 52173
+    },
+    {
+      "epoch": 16.99,
+      "learning_rate": 4.8300537464432506e-05,
+      "loss": 0.3347,
+      "step": 53754
+    },
+    {
+      "epoch": 16.99,
+      "eval_loss": 0.30510178208351135,
+      "eval_runtime": 731.2599,
+      "eval_samples_per_second": 44.291,
+      "eval_steps_per_second": 1.385,
+      "step": 53754
+    },
+    {
+      "epoch": 17.49,
+      "learning_rate": 4.825055327220993e-05,
+      "loss": 0.3309,
+      "step": 55335
+    },
+    {
+      "epoch": 17.49,
+      "eval_loss": 0.301559180021286,
+      "eval_runtime": 730.9908,
+      "eval_samples_per_second": 44.307,
+      "eval_steps_per_second": 1.386,
+      "step": 55335
+    },
+    {
+      "epoch": 17.99,
+      "learning_rate": 4.8200569079987357e-05,
+      "loss": 0.3278,
+      "step": 56916
+    },
+    {
+      "epoch": 17.99,
+      "eval_loss": 0.29871445894241333,
+      "eval_runtime": 730.5796,
+      "eval_samples_per_second": 44.332,
+      "eval_steps_per_second": 1.387,
+      "step": 56916
+    },
+    {
+      "epoch": 18.49,
+      "learning_rate": 4.8150584887764785e-05,
+      "loss": 0.3241,
+      "step": 58497
+    },
+    {
+      "epoch": 18.49,
+      "eval_loss": 0.29653671383857727,
+      "eval_runtime": 730.4163,
+      "eval_samples_per_second": 44.342,
+      "eval_steps_per_second": 1.387,
+      "step": 58497
+    },
+    {
+      "epoch": 18.99,
+      "learning_rate": 4.810060069554221e-05,
+      "loss": 0.3213,
+      "step": 60078
+    },
+    {
+      "epoch": 18.99,
+      "eval_loss": 0.29158106446266174,
+      "eval_runtime": 731.4216,
+      "eval_samples_per_second": 44.281,
+      "eval_steps_per_second": 1.385,
+      "step": 60078
+    },
+    {
+      "epoch": 19.49,
+      "learning_rate": 4.8050616503319636e-05,
+      "loss": 0.3171,
+      "step": 61659
+    },
+    {
+      "epoch": 19.49,
+      "eval_loss": 0.2904985845088959,
+      "eval_runtime": 731.2299,
+      "eval_samples_per_second": 44.292,
+      "eval_steps_per_second": 1.385,
+      "step": 61659
+    },
+    {
+      "epoch": 19.99,
+      "learning_rate": 4.800063231109706e-05,
+      "loss": 0.3144,
+      "step": 63240
+    },
+    {
+      "epoch": 19.99,
+      "eval_loss": 0.28789228200912476,
+      "eval_runtime": 731.0148,
+      "eval_samples_per_second": 44.306,
+      "eval_steps_per_second": 1.386,
+      "step": 63240
+    },
+    {
+      "epoch": 20.49,
+      "learning_rate": 4.795064811887449e-05,
+      "loss": 0.3118,
+      "step": 64821
+    },
+    {
+      "epoch": 20.49,
+      "eval_loss": 0.2837814390659332,
+      "eval_runtime": 731.7352,
+      "eval_samples_per_second": 44.262,
+      "eval_steps_per_second": 1.384,
+      "step": 64821
+    },
+    {
+      "epoch": 20.99,
+      "learning_rate": 4.7900663926651916e-05,
+      "loss": 0.3095,
+      "step": 66402
+    },
+    {
+      "epoch": 20.99,
+      "eval_loss": 0.2827259302139282,
+      "eval_runtime": 731.0522,
+      "eval_samples_per_second": 44.303,
+      "eval_steps_per_second": 1.386,
+      "step": 66402
+    },
+    {
+      "epoch": 21.49,
+      "learning_rate": 4.7850679734429344e-05,
+      "loss": 0.306,
+      "step": 67983
+    },
+    {
+      "epoch": 21.49,
+      "eval_loss": 0.2803361415863037,
+      "eval_runtime": 730.6173,
+      "eval_samples_per_second": 44.33,
+      "eval_steps_per_second": 1.386,
+      "step": 67983
+    },
+    {
+      "epoch": 21.99,
+      "learning_rate": 4.7800695542206766e-05,
+      "loss": 0.3041,
+      "step": 69564
+    },
+    {
+      "epoch": 21.99,
+      "eval_loss": 0.27723076939582825,
+      "eval_runtime": 730.7403,
+      "eval_samples_per_second": 44.322,
+      "eval_steps_per_second": 1.386,
+      "step": 69564
+    },
+    {
+      "epoch": 22.49,
+      "learning_rate": 4.7750711349984195e-05,
+      "loss": 0.3008,
+      "step": 71145
+    },
+    {
+      "epoch": 22.49,
+      "eval_loss": 0.27573683857917786,
+      "eval_runtime": 731.0262,
+      "eval_samples_per_second": 44.305,
+      "eval_steps_per_second": 1.386,
+      "step": 71145
+    },
+    {
+      "epoch": 22.99,
+      "learning_rate": 4.7700727157761624e-05,
+      "loss": 0.2988,
+      "step": 72726
+    },
+    {
+      "epoch": 22.99,
+      "eval_loss": 0.27441859245300293,
+      "eval_runtime": 730.8932,
+      "eval_samples_per_second": 44.313,
+      "eval_steps_per_second": 1.386,
+      "step": 72726
+    },
+    {
+      "epoch": 23.49,
+      "learning_rate": 4.7650742965539046e-05,
+      "loss": 0.2962,
+      "step": 74307
+    },
+    {
+      "epoch": 23.49,
+      "eval_loss": 0.271846204996109,
+      "eval_runtime": 730.9499,
+      "eval_samples_per_second": 44.309,
+      "eval_steps_per_second": 1.386,
+      "step": 74307
+    },
+    {
+      "epoch": 23.99,
+      "learning_rate": 4.7600758773316475e-05,
+      "loss": 0.2942,
+      "step": 75888
+    },
+    {
+      "epoch": 23.99,
+      "eval_loss": 0.26958543062210083,
+      "eval_runtime": 730.8234,
+      "eval_samples_per_second": 44.317,
+      "eval_steps_per_second": 1.386,
+      "step": 75888
+    },
+    {
+      "epoch": 24.49,
+      "learning_rate": 4.75507745810939e-05,
+      "loss": 0.2917,
+      "step": 77469
+    },
+    {
+      "epoch": 24.49,
+      "eval_loss": 0.26596799492836,
+      "eval_runtime": 730.7217,
+      "eval_samples_per_second": 44.323,
+      "eval_steps_per_second": 1.386,
+      "step": 77469
+    },
+    {
+      "epoch": 24.99,
+      "learning_rate": 4.7500790388871325e-05,
+      "loss": 0.2896,
+      "step": 79050
+    },
+    {
+      "epoch": 24.99,
+      "eval_loss": 0.26481589674949646,
+      "eval_runtime": 731.0551,
+      "eval_samples_per_second": 44.303,
+      "eval_steps_per_second": 1.386,
+      "step": 79050
+    },
+    {
+      "epoch": 25.49,
+      "learning_rate": 4.7450806196648754e-05,
+      "loss": 0.2873,
+      "step": 80631
+    },
+    {
+      "epoch": 25.49,
+      "eval_loss": 0.26311883330345154,
+      "eval_runtime": 730.6956,
+      "eval_samples_per_second": 44.325,
+      "eval_steps_per_second": 1.386,
+      "step": 80631
+    },
+    {
+      "epoch": 25.99,
+      "learning_rate": 4.740082200442618e-05,
+      "loss": 0.2853,
+      "step": 82212
+    },
+    {
+      "epoch": 25.99,
+      "eval_loss": 0.26103758811950684,
+      "eval_runtime": 731.3509,
+      "eval_samples_per_second": 44.285,
+      "eval_steps_per_second": 1.385,
+      "step": 82212
+    },
+    {
+      "epoch": 26.49,
+      "learning_rate": 4.7350837812203605e-05,
+      "loss": 0.2834,
+      "step": 83793
+    },
+    {
+      "epoch": 26.49,
+      "eval_loss": 0.25927209854125977,
+      "eval_runtime": 731.6353,
+      "eval_samples_per_second": 44.268,
+      "eval_steps_per_second": 1.385,
+      "step": 83793
+    },
+    {
+      "epoch": 26.99,
+      "learning_rate": 4.7300853619981034e-05,
+      "loss": 0.282,
+      "step": 85374
+    },
+    {
+      "epoch": 26.99,
+      "eval_loss": 0.2577729821205139,
+      "eval_runtime": 730.4389,
+      "eval_samples_per_second": 44.34,
+      "eval_steps_per_second": 1.387,
+      "step": 85374
+    },
+    {
+      "epoch": 27.49,
+      "learning_rate": 4.725086942775846e-05,
+      "loss": 0.2788,
+      "step": 86955
+    },
+    {
+      "epoch": 27.49,
+      "eval_loss": 0.25541242957115173,
+      "eval_runtime": 730.4208,
+      "eval_samples_per_second": 44.342,
+      "eval_steps_per_second": 1.387,
+      "step": 86955
+    },
+    {
+      "epoch": 27.99,
+      "learning_rate": 4.7200885235535884e-05,
+      "loss": 0.2781,
+      "step": 88536
+    },
+    {
+      "epoch": 27.99,
+      "eval_loss": 0.2544184625148773,
+      "eval_runtime": 730.365,
+      "eval_samples_per_second": 44.345,
+      "eval_steps_per_second": 1.387,
+      "step": 88536
+    },
+    {
+      "epoch": 28.49,
+      "learning_rate": 4.715090104331331e-05,
+      "loss": 0.2755,
+      "step": 90117
+    },
+    {
+      "epoch": 28.49,
+      "eval_loss": 0.25301480293273926,
+      "eval_runtime": 730.3814,
+      "eval_samples_per_second": 44.344,
+      "eval_steps_per_second": 1.387,
+      "step": 90117
+    },
+    {
+      "epoch": 28.99,
+      "learning_rate": 4.7100916851090735e-05,
+      "loss": 0.2742,
+      "step": 91698
+    },
+    {
+      "epoch": 28.99,
+      "eval_loss": 0.24893982708454132,
+      "eval_runtime": 730.5139,
+      "eval_samples_per_second": 44.336,
+      "eval_steps_per_second": 1.387,
+      "step": 91698
+    },
+    {
+      "epoch": 29.49,
+      "learning_rate": 4.7050932658868164e-05,
+      "loss": 0.2723,
+      "step": 93279
+    },
+    {
+      "epoch": 29.49,
+      "eval_loss": 0.24909181892871857,
+      "eval_runtime": 729.9952,
+      "eval_samples_per_second": 44.367,
+      "eval_steps_per_second": 1.388,
+      "step": 93279
+    },
+    {
+      "epoch": 29.99,
+      "learning_rate": 4.700094846664559e-05,
+      "loss": 0.2709,
+      "step": 94860
+    },
+    {
+      "epoch": 29.99,
+      "eval_loss": 0.248749241232872,
+      "eval_runtime": 730.3489,
+      "eval_samples_per_second": 44.346,
+      "eval_steps_per_second": 1.387,
+      "step": 94860
+    },
+    {
+      "epoch": 30.49,
+      "learning_rate": 4.695096427442302e-05,
+      "loss": 0.2689,
+      "step": 96441
+    },
+    {
+      "epoch": 30.49,
+      "eval_loss": 0.24696363508701324,
+      "eval_runtime": 730.2536,
+      "eval_samples_per_second": 44.352,
+      "eval_steps_per_second": 1.387,
+      "step": 96441
+    },
+    {
+      "epoch": 30.99,
+      "learning_rate": 4.6900980082200443e-05,
+      "loss": 0.2671,
+      "step": 98022
+    },
+    {
+      "epoch": 30.99,
+      "eval_loss": 0.2443317025899887,
+      "eval_runtime": 730.6664,
+      "eval_samples_per_second": 44.327,
+      "eval_steps_per_second": 1.386,
+      "step": 98022
+    },
+    {
+      "epoch": 31.49,
+      "learning_rate": 4.685099588997787e-05,
+      "loss": 0.2659,
+      "step": 99603
+    },
+    {
+      "epoch": 31.49,
+      "eval_loss": 0.24296976625919342,
+      "eval_runtime": 730.1073,
+      "eval_samples_per_second": 44.361,
+      "eval_steps_per_second": 1.387,
+      "step": 99603
+    },
+    {
+      "epoch": 31.99,
+      "learning_rate": 4.68010116977553e-05,
+      "loss": 0.2641,
+      "step": 101184
+    },
+    {
+      "epoch": 31.99,
+      "eval_loss": 0.2419230043888092,
+      "eval_runtime": 730.5564,
+      "eval_samples_per_second": 44.333,
+      "eval_steps_per_second": 1.387,
+      "step": 101184
+    },
+    {
+      "epoch": 32.49,
+      "learning_rate": 4.675102750553272e-05,
+      "loss": 0.2624,
+      "step": 102765
+    },
+    {
+      "epoch": 32.49,
+      "eval_loss": 0.24093250930309296,
+      "eval_runtime": 729.8364,
+      "eval_samples_per_second": 44.377,
+      "eval_steps_per_second": 1.388,
+      "step": 102765
+    },
+    {
+      "epoch": 32.99,
+      "learning_rate": 4.670104331331015e-05,
+      "loss": 0.2616,
+      "step": 104346
+    },
+    {
+      "epoch": 32.99,
+      "eval_loss": 0.24029986560344696,
+      "eval_runtime": 729.4415,
+      "eval_samples_per_second": 44.401,
+      "eval_steps_per_second": 1.389,
+      "step": 104346
+    },
+    {
+      "epoch": 33.49,
+      "learning_rate": 4.6651059121087574e-05,
+      "loss": 0.2603,
+      "step": 105927
+    },
+    {
+      "epoch": 33.49,
+      "eval_loss": 0.23759804666042328,
+      "eval_runtime": 729.4526,
+      "eval_samples_per_second": 44.4,
+      "eval_steps_per_second": 1.389,
+      "step": 105927
+    },
+    {
+      "epoch": 33.99,
+      "learning_rate": 4.6601074928865e-05,
+      "loss": 0.2582,
+      "step": 107508
+    },
+    {
+      "epoch": 33.99,
+      "eval_loss": 0.23841261863708496,
+      "eval_runtime": 730.3906,
+      "eval_samples_per_second": 44.343,
+      "eval_steps_per_second": 1.387,
+      "step": 107508
+    },
+    {
+      "epoch": 34.49,
+      "learning_rate": 4.6551090736642425e-05,
+      "loss": 0.2568,
+      "step": 109089
+    },
+    {
+      "epoch": 34.49,
+      "eval_loss": 0.23516328632831573,
+      "eval_runtime": 730.065,
+      "eval_samples_per_second": 44.363,
+      "eval_steps_per_second": 1.388,
+      "step": 109089
+    },
+    {
+      "epoch": 34.99,
+      "learning_rate": 4.650110654441986e-05,
+      "loss": 0.2554,
+      "step": 110670
+    },
+    {
+      "epoch": 34.99,
+      "eval_loss": 0.2346547394990921,
+      "eval_runtime": 729.7863,
+      "eval_samples_per_second": 44.38,
+      "eval_steps_per_second": 1.388,
+      "step": 110670
+    },
+    {
+      "epoch": 35.49,
+      "learning_rate": 4.645112235219728e-05,
+      "loss": 0.2538,
+      "step": 112251
+    },
+    {
+      "epoch": 35.49,
+      "eval_loss": 0.23422306776046753,
+      "eval_runtime": 729.5559,
+      "eval_samples_per_second": 44.394,
+      "eval_steps_per_second": 1.389,
+      "step": 112251
+    },
+    {
+      "epoch": 35.99,
+      "learning_rate": 4.640113815997471e-05,
+      "loss": 0.253,
+      "step": 113832
+    },
+    {
+      "epoch": 35.99,
+      "eval_loss": 0.2336236983537674,
+      "eval_runtime": 729.8583,
+      "eval_samples_per_second": 44.376,
+      "eval_steps_per_second": 1.388,
+      "step": 113832
+    },
+    {
+      "epoch": 36.49,
+      "learning_rate": 4.635115396775214e-05,
+      "loss": 0.2517,
+      "step": 115413
+    },
+    {
+      "epoch": 36.49,
+      "eval_loss": 0.23158451914787292,
+      "eval_runtime": 730.2735,
+      "eval_samples_per_second": 44.351,
+      "eval_steps_per_second": 1.387,
+      "step": 115413
+    },
+    {
+      "epoch": 36.99,
+      "learning_rate": 4.630116977552956e-05,
+      "loss": 0.25,
+      "step": 116994
+    },
+    {
+      "epoch": 36.99,
+      "eval_loss": 0.2291453778743744,
+      "eval_runtime": 730.6072,
+      "eval_samples_per_second": 44.33,
+      "eval_steps_per_second": 1.387,
+      "step": 116994
+    }
+  ],
+  "logging_steps": 1581,
+  "max_steps": 1581500,
+  "num_train_epochs": 500,
+  "save_steps": 1581,
+  "total_flos": 7.944349100547981e+18,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-116994/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2621a21fd43f188955ba955f7f93eab840a7c1ee63d8e4944a528c04059638ce
+size 4600