Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

config.json +1 -1
model.safetensors +1 -1
optimizer.pt +1 -1
scheduler.pt +1 -1
test.py +1 -1
trainer_state.json +205 -805
training_args.bin +1 -1

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "retnet-tinystories/checkpoint-2000",
   "activation_dropout": 0.0,
   "activation_fn": "swish",
   "architectures": [

 {
+  "_name_or_path": "retnet-tinystories/checkpoint-1000",
   "activation_dropout": 0.0,
   "activation_fn": "swish",
   "architectures": [

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a4476df93c13330ac9bd204b05aa25cadc8aa9356e295e4a1a4c330cb7e6f15
 size 1615784368

 version https://git-lfs.github.com/spec/v1
+oid sha256:efb8d686544ce31e8332f4d01bf2f1292e335f25b4bde181585534af00dbb892
 size 1615784368

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:60e51b3393d17c358c62db87d47057d81911db30098b095117c2224a95990545
 size 3231643962

 version https://git-lfs.github.com/spec/v1
+oid sha256:42bf76c3ae8af625277b114f928e4b22175b21adf0ef5c85ad1163f7e2ed5d6e
 size 3231643962

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:04cc9f4ab547746c5f2b075d31622dd3c792964f62b6ce351d90227b6dd977bc
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8864d82a35bb3c3fc324c1383bdf60d8a772caaa4595c375264f859cb778d14b
 size 1064

test.py CHANGED Viewed

@@ -1,7 +1,7 @@
 from transformers import AutoTokenizer
 from retnet.modeling_retnet import RetNetForCausalLM
-model = RetNetForCausalLM.from_pretrained("retnet-tinystories")
 tokenizer = AutoTokenizer.from_pretrained('gpt2')
 tokenizer.model_max_length = 16384
 tokenizer.pad_token = tokenizer.eos_token

 from transformers import AutoTokenizer
 from retnet.modeling_retnet import RetNetForCausalLM
+model = RetNetForCausalLM.from_pretrained("./")
 tokenizer = AutoTokenizer.from_pretrained('gpt2')
 tokenizer.model_max_length = 16384
 tokenizer.pad_token = tokenizer.eos_token

trainer_state.json CHANGED Viewed

@@ -1,1220 +1,620 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
   "eval_steps": 500,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.01,
-      "learning_rate": 0.0004995,
-      "loss": 2.0736,
       "step": 5
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.000499,
-      "loss": 2.165,
       "step": 10
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0004985,
-      "loss": 2.084,
       "step": 15
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.000498,
-      "loss": 2.1784,
       "step": 20
     },
     {
       "epoch": 0.03,
-      "learning_rate": 0.0004975,
-      "loss": 2.0932,
       "step": 25
     },
     {
       "epoch": 0.03,
-      "learning_rate": 0.000497,
-      "loss": 2.056,
       "step": 30
     },
     {
       "epoch": 0.04,
-      "learning_rate": 0.0004965,
-      "loss": 2.0944,
       "step": 35
     },
     {
       "epoch": 0.04,
-      "learning_rate": 0.000496,
-      "loss": 2.1092,
       "step": 40
     },
     {
       "epoch": 0.04,
-      "learning_rate": 0.0004955,
-      "loss": 2.1146,
       "step": 45
     },
     {
       "epoch": 0.05,
-      "learning_rate": 0.000495,
-      "loss": 2.1368,
       "step": 50
     },
     {
       "epoch": 0.06,
-      "learning_rate": 0.0004945,
-      "loss": 2.0964,
       "step": 55
     },
     {
       "epoch": 0.06,
-      "learning_rate": 0.000494,
-      "loss": 2.0192,
       "step": 60
     },
     {
       "epoch": 0.07,
-      "learning_rate": 0.0004935,
-      "loss": 2.0938,
       "step": 65
     },
     {
       "epoch": 0.07,
-      "learning_rate": 0.0004930000000000001,
-      "loss": 2.0871,
       "step": 70
     },
     {
       "epoch": 0.07,
-      "learning_rate": 0.0004925,
-      "loss": 2.0773,
       "step": 75
     },
     {
       "epoch": 0.08,
-      "learning_rate": 0.000492,
-      "loss": 2.0618,
       "step": 80
     },
     {
       "epoch": 0.09,
-      "learning_rate": 0.0004915,
-      "loss": 2.0788,
       "step": 85
     },
     {
       "epoch": 0.09,
-      "learning_rate": 0.000491,
-      "loss": 2.1009,
       "step": 90
     },
     {
       "epoch": 0.1,
-      "learning_rate": 0.0004905,
-      "loss": 2.0138,
       "step": 95
     },
     {
       "epoch": 0.1,
-      "learning_rate": 0.00049,
-      "loss": 2.0689,
       "step": 100
     },
     {
       "epoch": 0.1,
-      "learning_rate": 0.0004895,
-      "loss": 2.0381,
       "step": 105
     },
     {
       "epoch": 0.11,
-      "learning_rate": 0.000489,
-      "loss": 2.1174,
       "step": 110
     },
     {
       "epoch": 0.12,
-      "learning_rate": 0.0004885,
-      "loss": 2.0315,
       "step": 115
     },
     {
       "epoch": 0.12,
-      "learning_rate": 0.000488,
-      "loss": 2.0351,
       "step": 120
     },
     {
       "epoch": 0.12,
-      "learning_rate": 0.0004875,
-      "loss": 2.1047,
       "step": 125
     },
     {
       "epoch": 0.13,
-      "learning_rate": 0.000487,
-      "loss": 2.0413,
       "step": 130
     },
     {
       "epoch": 0.14,
-      "learning_rate": 0.0004865,
-      "loss": 2.0978,
       "step": 135
     },
     {
       "epoch": 0.14,
-      "learning_rate": 0.000486,
-      "loss": 2.1018,
       "step": 140
     },
     {
       "epoch": 0.14,
-      "learning_rate": 0.0004855,
-      "loss": 2.0679,
       "step": 145
     },
     {
       "epoch": 0.15,
-      "learning_rate": 0.00048499999999999997,
-      "loss": 1.974,
       "step": 150
     },
     {
       "epoch": 0.15,
-      "learning_rate": 0.0004845,
-      "loss": 2.0155,
       "step": 155
     },
     {
       "epoch": 0.16,
-      "learning_rate": 0.000484,
-      "loss": 2.0396,
       "step": 160
     },
     {
       "epoch": 0.17,
-      "learning_rate": 0.0004835,
-      "loss": 2.0207,
       "step": 165
     },
     {
       "epoch": 0.17,
-      "learning_rate": 0.000483,
-      "loss": 2.017,
       "step": 170
     },
     {
       "epoch": 0.17,
-      "learning_rate": 0.0004825,
-      "loss": 2.0844,
       "step": 175
     },
     {
       "epoch": 0.18,
-      "learning_rate": 0.000482,
-      "loss": 2.0593,
       "step": 180
     },
     {
       "epoch": 0.18,
-      "learning_rate": 0.0004815,
-      "loss": 2.0018,
       "step": 185
     },
     {
       "epoch": 0.19,
-      "learning_rate": 0.000481,
-      "loss": 1.9544,
       "step": 190
     },
     {
       "epoch": 0.2,
-      "learning_rate": 0.00048049999999999997,
-      "loss": 2.063,
       "step": 195
     },
     {
       "epoch": 0.2,
-      "learning_rate": 0.00048,
-      "loss": 2.0345,
       "step": 200
     },
     {
       "epoch": 0.2,
-      "learning_rate": 0.0004795,
-      "loss": 2.0164,
       "step": 205
     },
     {
       "epoch": 0.21,
-      "learning_rate": 0.000479,
-      "loss": 1.9801,
       "step": 210
     },
     {
       "epoch": 0.21,
-      "learning_rate": 0.0004785,
-      "loss": 2.038,
       "step": 215
     },
     {
       "epoch": 0.22,
-      "learning_rate": 0.00047799999999999996,
-      "loss": 2.0919,
       "step": 220
     },
     {
       "epoch": 0.23,
-      "learning_rate": 0.0004775,
-      "loss": 2.0151,
       "step": 225
     },
     {
       "epoch": 0.23,
-      "learning_rate": 0.000477,
-      "loss": 1.9425,
       "step": 230
     },
     {
       "epoch": 0.23,
-      "learning_rate": 0.0004765,
-      "loss": 2.0252,
       "step": 235
     },
     {
       "epoch": 0.24,
-      "learning_rate": 0.00047599999999999997,
-      "loss": 1.965,
       "step": 240
     },
     {
       "epoch": 0.24,
-      "learning_rate": 0.0004755,
-      "loss": 1.9773,
       "step": 245
     },
     {
       "epoch": 0.25,
-      "learning_rate": 0.000475,
-      "loss": 1.9828,
       "step": 250
     },
     {
       "epoch": 0.26,
-      "learning_rate": 0.0004745,
-      "loss": 1.9247,
       "step": 255
     },
     {
       "epoch": 0.26,
-      "learning_rate": 0.000474,
-      "loss": 1.9878,
       "step": 260
     },
     {
       "epoch": 0.27,
-      "learning_rate": 0.00047349999999999996,
-      "loss": 2.0097,
       "step": 265
     },
     {
       "epoch": 0.27,
-      "learning_rate": 0.000473,
-      "loss": 2.0276,
       "step": 270
     },
     {
       "epoch": 0.28,
-      "learning_rate": 0.0004725,
-      "loss": 1.949,
       "step": 275
     },
     {
       "epoch": 0.28,
-      "learning_rate": 0.000472,
-      "loss": 2.0144,
       "step": 280
     },
     {
       "epoch": 0.28,
-      "learning_rate": 0.00047149999999999997,
-      "loss": 1.9787,
       "step": 285
     },
     {
       "epoch": 0.29,
-      "learning_rate": 0.000471,
-      "loss": 2.0019,
       "step": 290
     },
     {
       "epoch": 0.29,
-      "learning_rate": 0.0004705,
-      "loss": 2.0421,
       "step": 295
     },
     {
       "epoch": 0.3,
-      "learning_rate": 0.00047,
-      "loss": 1.9843,
       "step": 300
     },
     {
       "epoch": 0.3,
-      "learning_rate": 0.0004695,
-      "loss": 1.9604,
       "step": 305
     },
     {
       "epoch": 0.31,
-      "learning_rate": 0.00046899999999999996,
-      "loss": 1.9696,
       "step": 310
     },
     {
       "epoch": 0.32,
-      "learning_rate": 0.00046850000000000006,
-      "loss": 1.988,
       "step": 315
     },
     {
       "epoch": 0.32,
-      "learning_rate": 0.00046800000000000005,
-      "loss": 1.9925,
       "step": 320
     },
     {
       "epoch": 0.33,
-      "learning_rate": 0.00046750000000000003,
-      "loss": 1.9881,
       "step": 325
     },
     {
       "epoch": 0.33,
-      "learning_rate": 0.000467,
-      "loss": 1.9817,
       "step": 330
     },
     {
       "epoch": 0.34,
-      "learning_rate": 0.0004665,
-      "loss": 1.9384,
       "step": 335
     },
     {
       "epoch": 0.34,
-      "learning_rate": 0.00046600000000000005,
-      "loss": 1.9971,
       "step": 340
     },
     {
       "epoch": 0.34,
-      "learning_rate": 0.00046550000000000004,
-      "loss": 2.0022,
       "step": 345
     },
     {
       "epoch": 0.35,
-      "learning_rate": 0.000465,
-      "loss": 1.9593,
       "step": 350
     },
     {
       "epoch": 0.35,
-      "learning_rate": 0.0004645,
-      "loss": 1.9979,
       "step": 355
     },
     {
       "epoch": 0.36,
-      "learning_rate": 0.00046400000000000006,
-      "loss": 1.9264,
       "step": 360
     },
     {
       "epoch": 0.36,
-      "learning_rate": 0.00046350000000000004,
-      "loss": 1.9665,
       "step": 365
     },
     {
       "epoch": 0.37,
-      "learning_rate": 0.00046300000000000003,
-      "loss": 1.9307,
       "step": 370
     },
     {
       "epoch": 0.38,
-      "learning_rate": 0.0004625,
-      "loss": 1.9584,
       "step": 375
     },
     {
       "epoch": 0.38,
-      "learning_rate": 0.000462,
-      "loss": 2.0025,
       "step": 380
     },
     {
       "epoch": 0.39,
-      "learning_rate": 0.00046150000000000005,
-      "loss": 1.98,
       "step": 385
     },
     {
       "epoch": 0.39,
-      "learning_rate": 0.00046100000000000004,
-      "loss": 1.9673,
       "step": 390
     },
     {
       "epoch": 0.4,
-      "learning_rate": 0.0004605,
-      "loss": 1.9598,
       "step": 395
     },
     {
       "epoch": 0.4,
-      "learning_rate": 0.00046,
-      "loss": 2.0057,
       "step": 400
     },
     {
       "epoch": 0.41,
-      "learning_rate": 0.00045950000000000006,
-      "loss": 1.9537,
       "step": 405
     },
     {
       "epoch": 0.41,
-      "learning_rate": 0.00045900000000000004,
-      "loss": 1.9726,
       "step": 410
     },
     {
       "epoch": 0.41,
-      "learning_rate": 0.00045850000000000003,
-      "loss": 1.9011,
       "step": 415
     },
     {
       "epoch": 0.42,
-      "learning_rate": 0.000458,
-      "loss": 1.9988,
       "step": 420
     },
     {
       "epoch": 0.42,
-      "learning_rate": 0.0004575,
-      "loss": 1.9626,
       "step": 425
     },
     {
       "epoch": 0.43,
-      "learning_rate": 0.00045700000000000005,
-      "loss": 1.9083,
       "step": 430
     },
     {
       "epoch": 0.43,
-      "learning_rate": 0.00045650000000000004,
-      "loss": 1.9429,
       "step": 435
     },
     {
       "epoch": 0.44,
-      "learning_rate": 0.000456,
-      "loss": 1.9819,
       "step": 440
     },
     {
       "epoch": 0.45,
-      "learning_rate": 0.0004555,
-      "loss": 1.9259,
       "step": 445
     },
     {
       "epoch": 0.45,
-      "learning_rate": 0.000455,
-      "loss": 1.9024,
       "step": 450
     },
     {
       "epoch": 0.46,
-      "learning_rate": 0.00045450000000000004,
-      "loss": 1.983,
       "step": 455
     },
     {
       "epoch": 0.46,
-      "learning_rate": 0.00045400000000000003,
-      "loss": 1.9776,
       "step": 460
     },
     {
       "epoch": 0.47,
-      "learning_rate": 0.0004535,
-      "loss": 1.9816,
       "step": 465
     },
     {
       "epoch": 0.47,
-      "learning_rate": 0.000453,
-      "loss": 1.9402,
       "step": 470
     },
     {
       "epoch": 0.47,
-      "learning_rate": 0.00045250000000000005,
-      "loss": 1.9931,
       "step": 475
     },
     {
       "epoch": 0.48,
-      "learning_rate": 0.00045200000000000004,
-      "loss": 1.9528,
       "step": 480
     },
     {
       "epoch": 0.48,
-      "learning_rate": 0.0004515,
-      "loss": 1.9392,
       "step": 485
     },
     {
       "epoch": 0.49,
-      "learning_rate": 0.000451,
-      "loss": 1.9249,
       "step": 490
     },
     {
       "epoch": 0.49,
-      "learning_rate": 0.0004505,
-      "loss": 1.9711,
       "step": 495
     },
     {
       "epoch": 0.5,
-      "learning_rate": 0.00045000000000000004,
-      "loss": 1.8939,
       "step": 500
-    },
-    {
-      "epoch": 0.51,
-      "learning_rate": 0.00044950000000000003,
-      "loss": 1.96,
-      "step": 505
-    },
-    {
-      "epoch": 0.51,
-      "learning_rate": 0.000449,
-      "loss": 1.9014,
-      "step": 510
-    },
-    {
-      "epoch": 0.52,
-      "learning_rate": 0.0004485,
-      "loss": 1.9354,
-      "step": 515
-    },
-    {
-      "epoch": 0.52,
-      "learning_rate": 0.000448,
-      "loss": 1.9597,
-      "step": 520
-    },
-    {
-      "epoch": 0.53,
-      "learning_rate": 0.00044750000000000004,
-      "loss": 1.9367,
-      "step": 525
-    },
-    {
-      "epoch": 0.53,
-      "learning_rate": 0.000447,
-      "loss": 1.9698,
-      "step": 530
-    },
-    {
-      "epoch": 0.54,
-      "learning_rate": 0.0004465,
-      "loss": 1.8743,
-      "step": 535
-    },
-    {
-      "epoch": 0.54,
-      "learning_rate": 0.000446,
-      "loss": 1.9083,
-      "step": 540
-    },
-    {
-      "epoch": 0.55,
-      "learning_rate": 0.00044550000000000004,
-      "loss": 1.9096,
-      "step": 545
-    },
-    {
-      "epoch": 0.55,
-      "learning_rate": 0.00044500000000000003,
-      "loss": 2.0429,
-      "step": 550
-    },
-    {
-      "epoch": 0.56,
-      "learning_rate": 0.0004445,
-      "loss": 1.9972,
-      "step": 555
-    },
-    {
-      "epoch": 0.56,
-      "learning_rate": 0.000444,
-      "loss": 1.8974,
-      "step": 560
-    },
-    {
-      "epoch": 0.56,
-      "learning_rate": 0.0004435,
-      "loss": 1.9467,
-      "step": 565
-    },
-    {
-      "epoch": 0.57,
-      "learning_rate": 0.00044300000000000003,
-      "loss": 1.9382,
-      "step": 570
-    },
-    {
-      "epoch": 0.57,
-      "learning_rate": 0.0004425,
-      "loss": 1.8893,
-      "step": 575
-    },
-    {
-      "epoch": 0.58,
-      "learning_rate": 0.000442,
-      "loss": 1.9392,
-      "step": 580
-    },
-    {
-      "epoch": 0.58,
-      "learning_rate": 0.0004415,
-      "loss": 1.9229,
-      "step": 585
-    },
-    {
-      "epoch": 0.59,
-      "learning_rate": 0.000441,
-      "loss": 1.9042,
-      "step": 590
-    },
-    {
-      "epoch": 0.59,
-      "learning_rate": 0.00044050000000000003,
-      "loss": 1.9104,
-      "step": 595
-    },
-    {
-      "epoch": 0.6,
-      "learning_rate": 0.00044,
-      "loss": 1.9541,
-      "step": 600
-    },
-    {
-      "epoch": 0.6,
-      "learning_rate": 0.0004395,
-      "loss": 1.8948,
-      "step": 605
-    },
-    {
-      "epoch": 0.61,
-      "learning_rate": 0.000439,
-      "loss": 1.8849,
-      "step": 610
-    },
-    {
-      "epoch": 0.61,
-      "learning_rate": 0.00043850000000000003,
-      "loss": 1.9097,
-      "step": 615
-    },
-    {
-      "epoch": 0.62,
-      "learning_rate": 0.000438,
-      "loss": 1.9457,
-      "step": 620
-    },
-    {
-      "epoch": 0.62,
-      "learning_rate": 0.0004375,
-      "loss": 1.9231,
-      "step": 625
-    },
-    {
-      "epoch": 0.63,
-      "learning_rate": 0.000437,
-      "loss": 1.9228,
-      "step": 630
-    },
-    {
-      "epoch": 0.64,
-      "learning_rate": 0.0004365,
-      "loss": 1.9258,
-      "step": 635
-    },
-    {
-      "epoch": 0.64,
-      "learning_rate": 0.000436,
-      "loss": 1.8884,
-      "step": 640
-    },
-    {
-      "epoch": 0.65,
-      "learning_rate": 0.0004355,
-      "loss": 1.8693,
-      "step": 645
-    },
-    {
-      "epoch": 0.65,
-      "learning_rate": 0.000435,
-      "loss": 1.8635,
-      "step": 650
-    },
-    {
-      "epoch": 0.66,
-      "learning_rate": 0.0004345,
-      "loss": 1.9319,
-      "step": 655
-    },
-    {
-      "epoch": 0.66,
-      "learning_rate": 0.00043400000000000003,
-      "loss": 1.9116,
-      "step": 660
-    },
-    {
-      "epoch": 0.67,
-      "learning_rate": 0.0004335,
-      "loss": 1.9299,
-      "step": 665
-    },
-    {
-      "epoch": 0.67,
-      "learning_rate": 0.000433,
-      "loss": 1.8971,
-      "step": 670
-    },
-    {
-      "epoch": 0.68,
-      "learning_rate": 0.0004325,
-      "loss": 1.9317,
-      "step": 675
-    },
-    {
-      "epoch": 0.68,
-      "learning_rate": 0.000432,
-      "loss": 1.9523,
-      "step": 680
-    },
-    {
-      "epoch": 0.69,
-      "learning_rate": 0.0004315,
-      "loss": 1.8683,
-      "step": 685
-    },
-    {
-      "epoch": 0.69,
-      "learning_rate": 0.000431,
-      "loss": 1.9321,
-      "step": 690
-    },
-    {
-      "epoch": 0.69,
-      "learning_rate": 0.0004305,
-      "loss": 1.8971,
-      "step": 695
-    },
-    {
-      "epoch": 0.7,
-      "learning_rate": 0.00043,
-      "loss": 1.8666,
-      "step": 700
-    },
-    {
-      "epoch": 0.7,
-      "learning_rate": 0.0004295,
-      "loss": 1.888,
-      "step": 705
-    },
-    {
-      "epoch": 0.71,
-      "learning_rate": 0.000429,
-      "loss": 1.8946,
-      "step": 710
-    },
-    {
-      "epoch": 0.71,
-      "learning_rate": 0.0004285,
-      "loss": 1.9037,
-      "step": 715
-    },
-    {
-      "epoch": 0.72,
-      "learning_rate": 0.000428,
-      "loss": 1.8533,
-      "step": 720
-    },
-    {
-      "epoch": 0.72,
-      "learning_rate": 0.0004275,
-      "loss": 1.9052,
-      "step": 725
-    },
-    {
-      "epoch": 0.73,
-      "learning_rate": 0.000427,
-      "loss": 1.8677,
-      "step": 730
-    },
-    {
-      "epoch": 0.73,
-      "learning_rate": 0.0004265,
-      "loss": 1.9164,
-      "step": 735
-    },
-    {
-      "epoch": 0.74,
-      "learning_rate": 0.000426,
-      "loss": 1.8823,
-      "step": 740
-    },
-    {
-      "epoch": 0.74,
-      "learning_rate": 0.0004255,
-      "loss": 1.9215,
-      "step": 745
-    },
-    {
-      "epoch": 0.75,
-      "learning_rate": 0.000425,
-      "loss": 1.8903,
-      "step": 750
-    },
-    {
-      "epoch": 0.76,
-      "learning_rate": 0.0004245,
-      "loss": 1.8148,
-      "step": 755
-    },
-    {
-      "epoch": 0.76,
-      "learning_rate": 0.000424,
-      "loss": 1.8324,
-      "step": 760
-    },
-    {
-      "epoch": 0.77,
-      "learning_rate": 0.0004235,
-      "loss": 1.9011,
-      "step": 765
-    },
-    {
-      "epoch": 0.77,
-      "learning_rate": 0.000423,
-      "loss": 1.9424,
-      "step": 770
-    },
-    {
-      "epoch": 0.78,
-      "learning_rate": 0.00042249999999999997,
-      "loss": 1.9028,
-      "step": 775
-    },
-    {
-      "epoch": 0.78,
-      "learning_rate": 0.000422,
-      "loss": 1.8789,
-      "step": 780
-    },
-    {
-      "epoch": 0.79,
-      "learning_rate": 0.0004215,
-      "loss": 1.9016,
-      "step": 785
-    },
-    {
-      "epoch": 0.79,
-      "learning_rate": 0.000421,
-      "loss": 1.8837,
-      "step": 790
-    },
-    {
-      "epoch": 0.8,
-      "learning_rate": 0.0004205,
-      "loss": 1.8651,
-      "step": 795
-    },
-    {
-      "epoch": 0.8,
-      "learning_rate": 0.00042,
-      "loss": 1.8212,
-      "step": 800
-    },
-    {
-      "epoch": 0.81,
-      "learning_rate": 0.0004195,
-      "loss": 1.9073,
-      "step": 805
-    },
-    {
-      "epoch": 0.81,
-      "learning_rate": 0.000419,
-      "loss": 1.9267,
-      "step": 810
-    },
-    {
-      "epoch": 0.81,
-      "learning_rate": 0.0004185,
-      "loss": 1.8311,
-      "step": 815
-    },
-    {
-      "epoch": 0.82,
-      "learning_rate": 0.00041799999999999997,
-      "loss": 1.8537,
-      "step": 820
-    },
-    {
-      "epoch": 0.82,
-      "learning_rate": 0.0004175,
-      "loss": 1.8717,
-      "step": 825
-    },
-    {
-      "epoch": 0.83,
-      "learning_rate": 0.000417,
-      "loss": 1.8241,
-      "step": 830
-    },
-    {
-      "epoch": 0.83,
-      "learning_rate": 0.0004165,
-      "loss": 1.8863,
-      "step": 835
-    },
-    {
-      "epoch": 0.84,
-      "learning_rate": 0.000416,
-      "loss": 1.9053,
-      "step": 840
-    },
-    {
-      "epoch": 0.84,
-      "learning_rate": 0.00041549999999999996,
-      "loss": 1.87,
-      "step": 845
-    },
-    {
-      "epoch": 0.85,
-      "learning_rate": 0.000415,
-      "loss": 1.837,
-      "step": 850
-    },
-    {
-      "epoch": 0.85,
-      "learning_rate": 0.0004145,
-      "loss": 1.8941,
-      "step": 855
-    },
-    {
-      "epoch": 0.86,
-      "learning_rate": 0.000414,
-      "loss": 1.9237,
-      "step": 860
-    },
-    {
-      "epoch": 0.86,
-      "learning_rate": 0.00041349999999999997,
-      "loss": 1.8854,
-      "step": 865
-    },
-    {
-      "epoch": 0.87,
-      "learning_rate": 0.000413,
-      "loss": 1.8401,
-      "step": 870
-    },
-    {
-      "epoch": 0.88,
-      "learning_rate": 0.0004125,
-      "loss": 1.8314,
-      "step": 875
-    },
-    {
-      "epoch": 0.88,
-      "learning_rate": 0.000412,
-      "loss": 1.858,
-      "step": 880
-    },
-    {
-      "epoch": 0.89,
-      "learning_rate": 0.0004115,
-      "loss": 1.8806,
-      "step": 885
-    },
-    {
-      "epoch": 0.89,
-      "learning_rate": 0.00041099999999999996,
-      "loss": 1.8244,
-      "step": 890
-    },
-    {
-      "epoch": 0.9,
-      "learning_rate": 0.0004105,
-      "loss": 1.8432,
-      "step": 895
-    },
-    {
-      "epoch": 0.9,
-      "learning_rate": 0.00041,
-      "loss": 1.8596,
-      "step": 900
-    },
-    {
-      "epoch": 0.91,
-      "learning_rate": 0.0004095,
-      "loss": 1.8276,
-      "step": 905
-    },
-    {
-      "epoch": 0.91,
-      "learning_rate": 0.00040899999999999997,
-      "loss": 1.9486,
-      "step": 910
-    },
-    {
-      "epoch": 0.92,
-      "learning_rate": 0.0004085,
-      "loss": 1.8382,
-      "step": 915
-    },
-    {
-      "epoch": 0.92,
-      "learning_rate": 0.000408,
-      "loss": 1.8735,
-      "step": 920
-    },
-    {
-      "epoch": 0.93,
-      "learning_rate": 0.0004075,
-      "loss": 1.8203,
-      "step": 925
-    },
-    {
-      "epoch": 0.93,
-      "learning_rate": 0.00040699999999999997,
-      "loss": 1.8045,
-      "step": 930
-    },
-    {
-      "epoch": 0.94,
-      "learning_rate": 0.00040649999999999996,
-      "loss": 1.8732,
-      "step": 935
-    },
-    {
-      "epoch": 0.94,
-      "learning_rate": 0.00040600000000000006,
-      "loss": 1.8032,
-      "step": 940
-    },
-    {
-      "epoch": 0.94,
-      "learning_rate": 0.00040550000000000004,
-      "loss": 1.8079,
-      "step": 945
-    },
-    {
-      "epoch": 0.95,
-      "learning_rate": 0.00040500000000000003,
-      "loss": 1.8855,
-      "step": 950
-    },
-    {
-      "epoch": 0.95,
-      "learning_rate": 0.0004045,
-      "loss": 1.8511,
-      "step": 955
-    },
-    {
-      "epoch": 0.96,
-      "learning_rate": 0.000404,
-      "loss": 1.8529,
-      "step": 960
-    },
-    {
-      "epoch": 0.96,
-      "learning_rate": 0.00040350000000000005,
-      "loss": 1.8482,
-      "step": 965
-    },
-    {
-      "epoch": 0.97,
-      "learning_rate": 0.00040300000000000004,
-      "loss": 1.8288,
-      "step": 970
-    },
-    {
-      "epoch": 0.97,
-      "learning_rate": 0.0004025,
-      "loss": 1.8781,
-      "step": 975
-    },
-    {
-      "epoch": 0.98,
-      "learning_rate": 0.000402,
-      "loss": 1.8458,
-      "step": 980
-    },
-    {
-      "epoch": 0.98,
-      "learning_rate": 0.00040150000000000006,
-      "loss": 1.8426,
-      "step": 985
-    },
-    {
-      "epoch": 0.99,
-      "learning_rate": 0.00040100000000000004,
-      "loss": 1.8517,
-      "step": 990
-    },
-    {
-      "epoch": 0.99,
-      "learning_rate": 0.00040050000000000003,
-      "loss": 1.8426,
-      "step": 995
-    },
-    {
-      "epoch": 1.0,
-      "learning_rate": 0.0004,
-      "loss": 1.7787,
-      "step": 1000
     }
   ],
   "logging_steps": 5,
-  "max_steps": 5000,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 5,
   "save_steps": 500,
-  "total_flos": 2.65273620205824e+16,
   "train_batch_size": 10,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.5,
   "eval_steps": 500,
+  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004975,
+      "loss": 1.8757,
       "step": 5
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.000495,
+      "loss": 1.8758,
       "step": 10
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004925,
+      "loss": 1.9307,
       "step": 15
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.00049,
+      "loss": 1.9338,
       "step": 20
     },
     {
       "epoch": 0.03,
+      "learning_rate": 0.0004875,
+      "loss": 1.8599,
       "step": 25
     },
     {
       "epoch": 0.03,
+      "learning_rate": 0.00048499999999999997,
+      "loss": 1.9875,
       "step": 30
     },
     {
       "epoch": 0.04,
+      "learning_rate": 0.0004825,
+      "loss": 1.9947,
       "step": 35
     },
     {
       "epoch": 0.04,
+      "learning_rate": 0.00048,
+      "loss": 1.9015,
       "step": 40
     },
     {
       "epoch": 0.04,
+      "learning_rate": 0.0004775,
+      "loss": 1.8941,
       "step": 45
     },
     {
       "epoch": 0.05,
+      "learning_rate": 0.000475,
+      "loss": 1.8592,
       "step": 50
     },
     {
       "epoch": 0.06,
+      "learning_rate": 0.0004725,
+      "loss": 1.8977,
       "step": 55
     },
     {
       "epoch": 0.06,
+      "learning_rate": 0.00047,
+      "loss": 1.886,
       "step": 60
     },
     {
       "epoch": 0.07,
+      "learning_rate": 0.00046750000000000003,
+      "loss": 1.9486,
       "step": 65
     },
     {
       "epoch": 0.07,
+      "learning_rate": 0.000465,
+      "loss": 1.8669,
       "step": 70
     },
     {
       "epoch": 0.07,
+      "learning_rate": 0.0004625,
+      "loss": 1.936,
       "step": 75
     },
     {
       "epoch": 0.08,
+      "learning_rate": 0.00046,
+      "loss": 1.8385,
       "step": 80
     },
     {
       "epoch": 0.09,
+      "learning_rate": 0.0004575,
+      "loss": 1.8045,
       "step": 85
     },
     {
       "epoch": 0.09,
+      "learning_rate": 0.000455,
+      "loss": 1.9058,
       "step": 90
     },
     {
       "epoch": 0.1,
+      "learning_rate": 0.00045250000000000005,
+      "loss": 1.868,
       "step": 95
     },
     {
       "epoch": 0.1,
+      "learning_rate": 0.00045000000000000004,
+      "loss": 1.8055,
       "step": 100
     },
     {
       "epoch": 0.1,
+      "learning_rate": 0.00044750000000000004,
+      "loss": 1.849,
       "step": 105
     },
     {
       "epoch": 0.11,
+      "learning_rate": 0.00044500000000000003,
+      "loss": 1.869,
       "step": 110
     },
     {
       "epoch": 0.12,
+      "learning_rate": 0.0004425,
+      "loss": 1.8587,
       "step": 115
     },
     {
       "epoch": 0.12,
+      "learning_rate": 0.00044,
+      "loss": 1.9206,
       "step": 120
     },
     {
       "epoch": 0.12,
+      "learning_rate": 0.0004375,
+      "loss": 1.8406,
       "step": 125
     },
     {
       "epoch": 0.13,
+      "learning_rate": 0.000435,
+      "loss": 1.8721,
       "step": 130
     },
     {
       "epoch": 0.14,
+      "learning_rate": 0.0004325,
+      "loss": 1.9409,
       "step": 135
     },
     {
       "epoch": 0.14,
+      "learning_rate": 0.00043,
+      "loss": 1.9222,
       "step": 140
     },
     {
       "epoch": 0.14,
+      "learning_rate": 0.0004275,
+      "loss": 1.8705,
       "step": 145
     },
     {
       "epoch": 0.15,
+      "learning_rate": 0.000425,
+      "loss": 1.9348,
       "step": 150
     },
     {
       "epoch": 0.15,
+      "learning_rate": 0.00042249999999999997,
+      "loss": 1.8167,
       "step": 155
     },
     {
       "epoch": 0.16,
+      "learning_rate": 0.00042,
+      "loss": 1.8904,
       "step": 160
     },
     {
       "epoch": 0.17,
+      "learning_rate": 0.0004175,
+      "loss": 1.8545,
       "step": 165
     },
     {
       "epoch": 0.17,
+      "learning_rate": 0.000415,
+      "loss": 1.8448,
       "step": 170
     },
     {
       "epoch": 0.17,
+      "learning_rate": 0.0004125,
+      "loss": 1.8898,
       "step": 175
     },
     {
       "epoch": 0.18,
+      "learning_rate": 0.00041,
+      "loss": 1.8338,
       "step": 180
     },
     {
       "epoch": 0.18,
+      "learning_rate": 0.0004075,
+      "loss": 1.8246,
       "step": 185
     },
     {
       "epoch": 0.19,
+      "learning_rate": 0.00040500000000000003,
+      "loss": 1.8754,
       "step": 190
     },
     {
       "epoch": 0.2,
+      "learning_rate": 0.0004025,
+      "loss": 1.8603,
       "step": 195
     },
     {
       "epoch": 0.2,
+      "learning_rate": 0.0004,
+      "loss": 1.799,
       "step": 200
     },
     {
       "epoch": 0.2,
+      "learning_rate": 0.0003975,
+      "loss": 1.8652,
       "step": 205
     },
     {
       "epoch": 0.21,
+      "learning_rate": 0.000395,
+      "loss": 1.8406,
       "step": 210
     },
     {
       "epoch": 0.21,
+      "learning_rate": 0.0003925,
+      "loss": 1.8341,
       "step": 215
     },
     {
       "epoch": 0.22,
+      "learning_rate": 0.00039000000000000005,
+      "loss": 1.9399,
       "step": 220
     },
     {
       "epoch": 0.23,
+      "learning_rate": 0.00038750000000000004,
+      "loss": 1.8095,
       "step": 225
     },
     {
       "epoch": 0.23,
+      "learning_rate": 0.00038500000000000003,
+      "loss": 1.8286,
       "step": 230
     },
     {
       "epoch": 0.23,
+      "learning_rate": 0.00038250000000000003,
+      "loss": 1.8846,
       "step": 235
     },
     {
       "epoch": 0.24,
+      "learning_rate": 0.00038,
+      "loss": 1.8101,
       "step": 240
     },
     {
       "epoch": 0.24,
+      "learning_rate": 0.0003775,
+      "loss": 1.8791,
       "step": 245
     },
     {
       "epoch": 0.25,
+      "learning_rate": 0.000375,
+      "loss": 1.8181,
       "step": 250
     },
     {
       "epoch": 0.26,
+      "learning_rate": 0.0003725,
+      "loss": 1.8555,
       "step": 255
     },
     {
       "epoch": 0.26,
+      "learning_rate": 0.00037,
+      "loss": 1.8328,
       "step": 260
     },
     {
       "epoch": 0.27,
+      "learning_rate": 0.0003675,
+      "loss": 1.814,
       "step": 265
     },
     {
       "epoch": 0.27,
+      "learning_rate": 0.000365,
+      "loss": 1.8647,
       "step": 270
     },
     {
       "epoch": 0.28,
+      "learning_rate": 0.0003625,
+      "loss": 1.8754,
       "step": 275
     },
     {
       "epoch": 0.28,
+      "learning_rate": 0.00035999999999999997,
+      "loss": 1.8184,
       "step": 280
     },
     {
       "epoch": 0.28,
+      "learning_rate": 0.0003575,
+      "loss": 1.8879,
       "step": 285
     },
     {
       "epoch": 0.29,
+      "learning_rate": 0.000355,
+      "loss": 1.8329,
       "step": 290
     },
     {
       "epoch": 0.29,
+      "learning_rate": 0.0003525,
+      "loss": 1.7787,
       "step": 295
     },
     {
       "epoch": 0.3,
+      "learning_rate": 0.00035,
+      "loss": 1.7543,
       "step": 300
     },
     {
       "epoch": 0.3,
+      "learning_rate": 0.0003475,
+      "loss": 1.7782,
       "step": 305
     },
     {
       "epoch": 0.31,
+      "learning_rate": 0.000345,
+      "loss": 1.8857,
       "step": 310
     },
     {
       "epoch": 0.32,
+      "learning_rate": 0.00034250000000000003,
+      "loss": 1.7608,
       "step": 315
     },
     {
       "epoch": 0.32,
+      "learning_rate": 0.00034,
+      "loss": 1.8622,
       "step": 320
     },
     {
       "epoch": 0.33,
+      "learning_rate": 0.0003375,
+      "loss": 1.7055,
       "step": 325
     },
     {
       "epoch": 0.33,
+      "learning_rate": 0.000335,
+      "loss": 1.7356,
       "step": 330
     },
     {
       "epoch": 0.34,
+      "learning_rate": 0.0003325,
+      "loss": 1.8353,
       "step": 335
     },
     {
       "epoch": 0.34,
+      "learning_rate": 0.00033,
+      "loss": 1.7389,
       "step": 340
     },
     {
       "epoch": 0.34,
+      "learning_rate": 0.00032750000000000005,
+      "loss": 1.8115,
       "step": 345
     },
     {
       "epoch": 0.35,
+      "learning_rate": 0.00032500000000000004,
+      "loss": 1.7303,
       "step": 350
     },
     {
       "epoch": 0.35,
+      "learning_rate": 0.00032250000000000003,
+      "loss": 1.7603,
       "step": 355
     },
     {
       "epoch": 0.36,
+      "learning_rate": 0.00032,
+      "loss": 1.7925,
       "step": 360
     },
     {
       "epoch": 0.36,
+      "learning_rate": 0.0003175,
+      "loss": 1.806,
       "step": 365
     },
     {
       "epoch": 0.37,
+      "learning_rate": 0.000315,
+      "loss": 1.8047,
       "step": 370
     },
     {
       "epoch": 0.38,
+      "learning_rate": 0.0003125,
+      "loss": 1.7939,
       "step": 375
     },
     {
       "epoch": 0.38,
+      "learning_rate": 0.00031,
+      "loss": 1.7539,
       "step": 380
     },
     {
       "epoch": 0.39,
+      "learning_rate": 0.0003075,
+      "loss": 1.7817,
       "step": 385
     },
     {
       "epoch": 0.39,
+      "learning_rate": 0.000305,
+      "loss": 1.7652,
       "step": 390
     },
     {
       "epoch": 0.4,
+      "learning_rate": 0.0003025,
+      "loss": 1.757,
       "step": 395
     },
     {
       "epoch": 0.4,
+      "learning_rate": 0.0003,
+      "loss": 1.7845,
       "step": 400
     },
     {
       "epoch": 0.41,
+      "learning_rate": 0.00029749999999999997,
+      "loss": 1.7701,
       "step": 405
     },
     {
       "epoch": 0.41,
+      "learning_rate": 0.000295,
+      "loss": 1.7759,
       "step": 410
     },
     {
       "epoch": 0.41,
+      "learning_rate": 0.0002925,
+      "loss": 1.697,
       "step": 415
     },
     {
       "epoch": 0.42,
+      "learning_rate": 0.00029,
+      "loss": 1.7623,
       "step": 420
     },
     {
       "epoch": 0.42,
+      "learning_rate": 0.0002875,
+      "loss": 1.7926,
       "step": 425
     },
     {
       "epoch": 0.43,
+      "learning_rate": 0.000285,
+      "loss": 1.8367,
       "step": 430
     },
     {
       "epoch": 0.43,
+      "learning_rate": 0.0002825,
+      "loss": 1.764,
       "step": 435
     },
     {
       "epoch": 0.44,
+      "learning_rate": 0.00028000000000000003,
+      "loss": 1.7322,
       "step": 440
     },
     {
       "epoch": 0.45,
+      "learning_rate": 0.0002775,
+      "loss": 1.7723,
       "step": 445
     },
     {
       "epoch": 0.45,
+      "learning_rate": 0.000275,
+      "loss": 1.7971,
       "step": 450
     },
     {
       "epoch": 0.46,
+      "learning_rate": 0.0002725,
+      "loss": 1.7938,
       "step": 455
     },
     {
       "epoch": 0.46,
+      "learning_rate": 0.00027,
+      "loss": 1.8143,
       "step": 460
     },
     {
       "epoch": 0.47,
+      "learning_rate": 0.0002675,
+      "loss": 1.735,
       "step": 465
     },
     {
       "epoch": 0.47,
+      "learning_rate": 0.00026500000000000004,
+      "loss": 1.7571,
       "step": 470
     },
     {
       "epoch": 0.47,
+      "learning_rate": 0.00026250000000000004,
+      "loss": 1.7636,
       "step": 475
     },
     {
       "epoch": 0.48,
+      "learning_rate": 0.00026000000000000003,
+      "loss": 1.7344,
       "step": 480
     },
     {
       "epoch": 0.48,
+      "learning_rate": 0.0002575,
+      "loss": 1.7156,
       "step": 485
     },
     {
       "epoch": 0.49,
+      "learning_rate": 0.000255,
+      "loss": 1.6996,
       "step": 490
     },
     {
       "epoch": 0.49,
+      "learning_rate": 0.0002525,
+      "loss": 1.7917,
       "step": 495
     },
     {
       "epoch": 0.5,
+      "learning_rate": 0.00025,
+      "loss": 1.7578,
       "step": 500
     }
   ],
   "logging_steps": 5,
+  "max_steps": 1000,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
   "save_steps": 500,
+  "total_flos": 1.31426122150656e+16,
   "train_batch_size": 10,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:69db0ed0280f7b72e766ea62e28c3f9ca85173e00962b7b7d10e2f20229f6d83
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:85272a8d5fb6a062784ff0b0596d3e93eb82123aa8a88168a5a2c485a228cfef
 size 4728