Nadav commited on
Commit
dd3c5d3
1 Parent(s): 6e3461d

Training in progress, step 6000

Browse files
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:7799791aec36f61f2ef6f2aefce8b35a1856153b13c717ce46a7f72410b994bd
3
  size 893438545
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c104283fc5be7527c7629ba1eead03f13f2fd1b9eb6038061f080de76a878df3
3
  size 893438545
last-checkpoint/pytorch_model.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:0d87d4251419285b82323349a677c4bf9083a6f1197c42082c54fc5645fade81
3
  size 449471589
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:023470fb6e5e8c21b4364835994b9c6ce91ee0f9ee1410357ef32e1ecfa1adb1
3
  size 449471589
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:83eb1bb636ae77ffefaf890e099e36fe7fd8ef3f00230c0686edd8fc7ce218b4
3
  size 19603
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c2f2d29d89b8e2429a924b6aaa924afbec029bfeb253b782f8506223594c11e3
3
  size 19603
last-checkpoint/scaler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:54e88afae9d767cdfd93373c4fb2ad34e64b3c348725a37125bffdbfbbcbd70f
3
  size 559
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:0dc04459785e028b6a9c6848cbade4ff6f8a772e3ba1f8cc046c95cd9effcbd9
3
  size 559
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:06ac8e1527bf32c3e318ea058e0960d53f45c6c9a2121e892062bad3352d5ec0
3
  size 623
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:58231e07c1cb2d094566630dd322447eadb88d23d163c892c3f62365f5615dd9
3
  size 623
last-checkpoint/trainer_state.json CHANGED
@@ -1,8 +1,8 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.9719117504130625,
5
- "global_step": 5000,
6
  "is_hyper_param_search": false,
7
  "is_local_process_zero": true,
8
  "is_world_process_zero": true,
@@ -6046,11 +6046,1219 @@
6046
  "eval_samples_per_second": 120.919,
6047
  "eval_steps_per_second": 1.282,
6048
  "step": 5000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
6049
  }
6050
  ],
6051
  "max_steps": 100000,
6052
  "num_train_epochs": 20,
6053
- "total_flos": 5.257519643492352e+20,
6054
  "trial_name": null,
6055
  "trial_params": null
6056
  }
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.1943823500826125,
5
+ "global_step": 6000,
6
  "is_hyper_param_search": false,
7
  "is_local_process_zero": true,
8
  "is_world_process_zero": true,
 
6046
  "eval_samples_per_second": 120.919,
6047
  "eval_steps_per_second": 1.282,
6048
  "step": 5000
6049
+ },
6050
+ {
6051
+ "epoch": 0.0,
6052
+ "learning_rate": 0.00022367543977965679,
6053
+ "loss": 0.4648,
6054
+ "step": 5005
6055
+ },
6056
+ {
6057
+ "epoch": 0.0,
6058
+ "learning_rate": 0.00022367279586002289,
6059
+ "loss": 0.4621,
6060
+ "step": 5010
6061
+ },
6062
+ {
6063
+ "epoch": 0.0,
6064
+ "learning_rate": 0.00022367014932068026,
6065
+ "loss": 0.4606,
6066
+ "step": 5015
6067
+ },
6068
+ {
6069
+ "epoch": 0.0,
6070
+ "learning_rate": 0.00022366750016169416,
6071
+ "loss": 0.458,
6072
+ "step": 5020
6073
+ },
6074
+ {
6075
+ "epoch": 0.0,
6076
+ "learning_rate": 0.00022366484838313004,
6077
+ "loss": 0.4582,
6078
+ "step": 5025
6079
+ },
6080
+ {
6081
+ "epoch": 0.01,
6082
+ "learning_rate": 0.00022366219398505327,
6083
+ "loss": 0.4598,
6084
+ "step": 5030
6085
+ },
6086
+ {
6087
+ "epoch": 0.01,
6088
+ "learning_rate": 0.00022365953696752938,
6089
+ "loss": 0.4644,
6090
+ "step": 5035
6091
+ },
6092
+ {
6093
+ "epoch": 0.01,
6094
+ "learning_rate": 0.0002236568773306239,
6095
+ "loss": 0.4602,
6096
+ "step": 5040
6097
+ },
6098
+ {
6099
+ "epoch": 0.01,
6100
+ "learning_rate": 0.00022365421507440248,
6101
+ "loss": 0.4575,
6102
+ "step": 5045
6103
+ },
6104
+ {
6105
+ "epoch": 0.01,
6106
+ "learning_rate": 0.0002236515501989308,
6107
+ "loss": 0.4571,
6108
+ "step": 5050
6109
+ },
6110
+ {
6111
+ "epoch": 0.01,
6112
+ "learning_rate": 0.00022364888270427457,
6113
+ "loss": 0.4655,
6114
+ "step": 5055
6115
+ },
6116
+ {
6117
+ "epoch": 0.01,
6118
+ "learning_rate": 0.00022364621259049968,
6119
+ "loss": 0.4586,
6120
+ "step": 5060
6121
+ },
6122
+ {
6123
+ "epoch": 0.01,
6124
+ "learning_rate": 0.00022364353985767193,
6125
+ "loss": 0.453,
6126
+ "step": 5065
6127
+ },
6128
+ {
6129
+ "epoch": 0.01,
6130
+ "learning_rate": 0.00022364086450585738,
6131
+ "loss": 0.4537,
6132
+ "step": 5070
6133
+ },
6134
+ {
6135
+ "epoch": 0.01,
6136
+ "learning_rate": 0.00022363818653512192,
6137
+ "loss": 0.4595,
6138
+ "step": 5075
6139
+ },
6140
+ {
6141
+ "epoch": 0.02,
6142
+ "learning_rate": 0.00022363550594553172,
6143
+ "loss": 0.4605,
6144
+ "step": 5080
6145
+ },
6146
+ {
6147
+ "epoch": 0.02,
6148
+ "learning_rate": 0.00022363282273715288,
6149
+ "loss": 0.4587,
6150
+ "step": 5085
6151
+ },
6152
+ {
6153
+ "epoch": 0.02,
6154
+ "learning_rate": 0.0002236301369100516,
6155
+ "loss": 0.4588,
6156
+ "step": 5090
6157
+ },
6158
+ {
6159
+ "epoch": 0.02,
6160
+ "learning_rate": 0.0002236274484642942,
6161
+ "loss": 0.4548,
6162
+ "step": 5095
6163
+ },
6164
+ {
6165
+ "epoch": 0.02,
6166
+ "learning_rate": 0.0002236247573999469,
6167
+ "loss": 0.4513,
6168
+ "step": 5100
6169
+ },
6170
+ {
6171
+ "epoch": 0.02,
6172
+ "learning_rate": 0.00022362206371707622,
6173
+ "loss": 0.4578,
6174
+ "step": 5105
6175
+ },
6176
+ {
6177
+ "epoch": 0.02,
6178
+ "learning_rate": 0.00022361936741574858,
6179
+ "loss": 0.4566,
6180
+ "step": 5110
6181
+ },
6182
+ {
6183
+ "epoch": 0.02,
6184
+ "learning_rate": 0.00022361666849603047,
6185
+ "loss": 0.4558,
6186
+ "step": 5115
6187
+ },
6188
+ {
6189
+ "epoch": 0.02,
6190
+ "learning_rate": 0.00022361396695798856,
6191
+ "loss": 0.4545,
6192
+ "step": 5120
6193
+ },
6194
+ {
6195
+ "epoch": 0.02,
6196
+ "learning_rate": 0.00022361126280168945,
6197
+ "loss": 0.4566,
6198
+ "step": 5125
6199
+ },
6200
+ {
6201
+ "epoch": 0.03,
6202
+ "learning_rate": 0.00022360855602719987,
6203
+ "loss": 0.4567,
6204
+ "step": 5130
6205
+ },
6206
+ {
6207
+ "epoch": 0.03,
6208
+ "learning_rate": 0.0002236058466345866,
6209
+ "loss": 0.4579,
6210
+ "step": 5135
6211
+ },
6212
+ {
6213
+ "epoch": 0.03,
6214
+ "learning_rate": 0.0002236031346239166,
6215
+ "loss": 0.4592,
6216
+ "step": 5140
6217
+ },
6218
+ {
6219
+ "epoch": 0.03,
6220
+ "learning_rate": 0.0002236004199952566,
6221
+ "loss": 0.4594,
6222
+ "step": 5145
6223
+ },
6224
+ {
6225
+ "epoch": 0.03,
6226
+ "learning_rate": 0.0002235977027486737,
6227
+ "loss": 0.4626,
6228
+ "step": 5150
6229
+ },
6230
+ {
6231
+ "epoch": 0.03,
6232
+ "learning_rate": 0.00022359498288423494,
6233
+ "loss": 0.4552,
6234
+ "step": 5155
6235
+ },
6236
+ {
6237
+ "epoch": 0.03,
6238
+ "learning_rate": 0.0002235922604020074,
6239
+ "loss": 0.4586,
6240
+ "step": 5160
6241
+ },
6242
+ {
6243
+ "epoch": 0.03,
6244
+ "learning_rate": 0.00022358953530205827,
6245
+ "loss": 0.4558,
6246
+ "step": 5165
6247
+ },
6248
+ {
6249
+ "epoch": 0.03,
6250
+ "learning_rate": 0.00022358680758445475,
6251
+ "loss": 0.4571,
6252
+ "step": 5170
6253
+ },
6254
+ {
6255
+ "epoch": 0.03,
6256
+ "learning_rate": 0.0002235840772492642,
6257
+ "loss": 0.4641,
6258
+ "step": 5175
6259
+ },
6260
+ {
6261
+ "epoch": 0.03,
6262
+ "learning_rate": 0.00022358134429655398,
6263
+ "loss": 0.4559,
6264
+ "step": 5180
6265
+ },
6266
+ {
6267
+ "epoch": 0.04,
6268
+ "learning_rate": 0.0002235786087263915,
6269
+ "loss": 0.4578,
6270
+ "step": 5185
6271
+ },
6272
+ {
6273
+ "epoch": 0.04,
6274
+ "learning_rate": 0.00022357587053884427,
6275
+ "loss": 0.4545,
6276
+ "step": 5190
6277
+ },
6278
+ {
6279
+ "epoch": 0.04,
6280
+ "learning_rate": 0.00022357312973397982,
6281
+ "loss": 0.4592,
6282
+ "step": 5195
6283
+ },
6284
+ {
6285
+ "epoch": 0.04,
6286
+ "learning_rate": 0.00022357038631186585,
6287
+ "loss": 0.453,
6288
+ "step": 5200
6289
+ },
6290
+ {
6291
+ "epoch": 0.04,
6292
+ "learning_rate": 0.00022356764027256997,
6293
+ "loss": 0.4537,
6294
+ "step": 5205
6295
+ },
6296
+ {
6297
+ "epoch": 0.04,
6298
+ "learning_rate": 0.00022356489161616,
6299
+ "loss": 0.4521,
6300
+ "step": 5210
6301
+ },
6302
+ {
6303
+ "epoch": 0.04,
6304
+ "learning_rate": 0.00022356214034270372,
6305
+ "loss": 0.4589,
6306
+ "step": 5215
6307
+ },
6308
+ {
6309
+ "epoch": 0.04,
6310
+ "learning_rate": 0.000223559386452269,
6311
+ "loss": 0.4591,
6312
+ "step": 5220
6313
+ },
6314
+ {
6315
+ "epoch": 0.04,
6316
+ "learning_rate": 0.0002235566299449239,
6317
+ "loss": 0.4585,
6318
+ "step": 5225
6319
+ },
6320
+ {
6321
+ "epoch": 0.04,
6322
+ "learning_rate": 0.00022355387082073625,
6323
+ "loss": 0.4547,
6324
+ "step": 5230
6325
+ },
6326
+ {
6327
+ "epoch": 0.05,
6328
+ "learning_rate": 0.00022355110907977427,
6329
+ "loss": 0.4549,
6330
+ "step": 5235
6331
+ },
6332
+ {
6333
+ "epoch": 0.05,
6334
+ "learning_rate": 0.0002235483447221061,
6335
+ "loss": 0.4561,
6336
+ "step": 5240
6337
+ },
6338
+ {
6339
+ "epoch": 0.05,
6340
+ "learning_rate": 0.00022354557774779984,
6341
+ "loss": 0.4564,
6342
+ "step": 5245
6343
+ },
6344
+ {
6345
+ "epoch": 0.05,
6346
+ "learning_rate": 0.0002235428081569239,
6347
+ "loss": 0.4511,
6348
+ "step": 5250
6349
+ },
6350
+ {
6351
+ "epoch": 0.05,
6352
+ "learning_rate": 0.0002235400359495465,
6353
+ "loss": 0.4567,
6354
+ "step": 5255
6355
+ },
6356
+ {
6357
+ "epoch": 0.05,
6358
+ "learning_rate": 0.00022353726112573613,
6359
+ "loss": 0.4551,
6360
+ "step": 5260
6361
+ },
6362
+ {
6363
+ "epoch": 0.05,
6364
+ "learning_rate": 0.00022353448368556117,
6365
+ "loss": 0.4587,
6366
+ "step": 5265
6367
+ },
6368
+ {
6369
+ "epoch": 0.05,
6370
+ "learning_rate": 0.00022353170362909025,
6371
+ "loss": 0.4581,
6372
+ "step": 5270
6373
+ },
6374
+ {
6375
+ "epoch": 0.05,
6376
+ "learning_rate": 0.0002235289209563919,
6377
+ "loss": 0.4544,
6378
+ "step": 5275
6379
+ },
6380
+ {
6381
+ "epoch": 0.05,
6382
+ "learning_rate": 0.00022352613566753478,
6383
+ "loss": 0.4606,
6384
+ "step": 5280
6385
+ },
6386
+ {
6387
+ "epoch": 0.06,
6388
+ "learning_rate": 0.00022352334776258766,
6389
+ "loss": 0.4644,
6390
+ "step": 5285
6391
+ },
6392
+ {
6393
+ "epoch": 0.06,
6394
+ "learning_rate": 0.00022352055724161925,
6395
+ "loss": 0.4574,
6396
+ "step": 5290
6397
+ },
6398
+ {
6399
+ "epoch": 0.06,
6400
+ "learning_rate": 0.00022351776410469847,
6401
+ "loss": 0.4538,
6402
+ "step": 5295
6403
+ },
6404
+ {
6405
+ "epoch": 0.06,
6406
+ "learning_rate": 0.0002235149683518942,
6407
+ "loss": 0.4512,
6408
+ "step": 5300
6409
+ },
6410
+ {
6411
+ "epoch": 0.06,
6412
+ "learning_rate": 0.00022351216998327549,
6413
+ "loss": 0.4552,
6414
+ "step": 5305
6415
+ },
6416
+ {
6417
+ "epoch": 0.06,
6418
+ "learning_rate": 0.0002235093689989113,
6419
+ "loss": 0.4555,
6420
+ "step": 5310
6421
+ },
6422
+ {
6423
+ "epoch": 0.06,
6424
+ "learning_rate": 0.00022350656539887076,
6425
+ "loss": 0.4557,
6426
+ "step": 5315
6427
+ },
6428
+ {
6429
+ "epoch": 0.06,
6430
+ "learning_rate": 0.0002235037591832231,
6431
+ "loss": 0.459,
6432
+ "step": 5320
6433
+ },
6434
+ {
6435
+ "epoch": 0.06,
6436
+ "learning_rate": 0.0002235009503520375,
6437
+ "loss": 0.4565,
6438
+ "step": 5325
6439
+ },
6440
+ {
6441
+ "epoch": 0.06,
6442
+ "learning_rate": 0.00022349813890538332,
6443
+ "loss": 0.46,
6444
+ "step": 5330
6445
+ },
6446
+ {
6447
+ "epoch": 0.07,
6448
+ "learning_rate": 0.00022349532484332988,
6449
+ "loss": 0.4528,
6450
+ "step": 5335
6451
+ },
6452
+ {
6453
+ "epoch": 0.07,
6454
+ "learning_rate": 0.00022349250816594663,
6455
+ "loss": 0.4481,
6456
+ "step": 5340
6457
+ },
6458
+ {
6459
+ "epoch": 0.07,
6460
+ "learning_rate": 0.00022348968887330307,
6461
+ "loss": 0.4566,
6462
+ "step": 5345
6463
+ },
6464
+ {
6465
+ "epoch": 0.07,
6466
+ "learning_rate": 0.00022348686696546877,
6467
+ "loss": 0.4574,
6468
+ "step": 5350
6469
+ },
6470
+ {
6471
+ "epoch": 0.07,
6472
+ "learning_rate": 0.00022348404244251335,
6473
+ "loss": 0.4526,
6474
+ "step": 5355
6475
+ },
6476
+ {
6477
+ "epoch": 0.07,
6478
+ "learning_rate": 0.00022348121530450652,
6479
+ "loss": 0.4575,
6480
+ "step": 5360
6481
+ },
6482
+ {
6483
+ "epoch": 0.07,
6484
+ "learning_rate": 0.00022347838555151803,
6485
+ "loss": 0.4464,
6486
+ "step": 5365
6487
+ },
6488
+ {
6489
+ "epoch": 0.07,
6490
+ "learning_rate": 0.00022347555318361767,
6491
+ "loss": 0.4602,
6492
+ "step": 5370
6493
+ },
6494
+ {
6495
+ "epoch": 0.07,
6496
+ "learning_rate": 0.00022347271820087535,
6497
+ "loss": 0.4585,
6498
+ "step": 5375
6499
+ },
6500
+ {
6501
+ "epoch": 0.07,
6502
+ "learning_rate": 0.00022346988060336105,
6503
+ "loss": 0.4607,
6504
+ "step": 5380
6505
+ },
6506
+ {
6507
+ "epoch": 0.07,
6508
+ "learning_rate": 0.00022346704039114473,
6509
+ "loss": 0.4565,
6510
+ "step": 5385
6511
+ },
6512
+ {
6513
+ "epoch": 0.08,
6514
+ "learning_rate": 0.0002234641975642965,
6515
+ "loss": 0.4513,
6516
+ "step": 5390
6517
+ },
6518
+ {
6519
+ "epoch": 0.08,
6520
+ "learning_rate": 0.0002234613521228865,
6521
+ "loss": 0.4559,
6522
+ "step": 5395
6523
+ },
6524
+ {
6525
+ "epoch": 0.08,
6526
+ "learning_rate": 0.00022345850406698493,
6527
+ "loss": 0.4527,
6528
+ "step": 5400
6529
+ },
6530
+ {
6531
+ "epoch": 0.08,
6532
+ "learning_rate": 0.00022345565339666211,
6533
+ "loss": 0.4537,
6534
+ "step": 5405
6535
+ },
6536
+ {
6537
+ "epoch": 0.08,
6538
+ "learning_rate": 0.0002234528001119883,
6539
+ "loss": 0.4511,
6540
+ "step": 5410
6541
+ },
6542
+ {
6543
+ "epoch": 0.08,
6544
+ "learning_rate": 0.00022344994421303393,
6545
+ "loss": 0.451,
6546
+ "step": 5415
6547
+ },
6548
+ {
6549
+ "epoch": 0.08,
6550
+ "learning_rate": 0.00022344708569986947,
6551
+ "loss": 0.457,
6552
+ "step": 5420
6553
+ },
6554
+ {
6555
+ "epoch": 0.08,
6556
+ "learning_rate": 0.0002234442245725655,
6557
+ "loss": 0.4526,
6558
+ "step": 5425
6559
+ },
6560
+ {
6561
+ "epoch": 0.08,
6562
+ "learning_rate": 0.00022344136083119257,
6563
+ "loss": 0.4582,
6564
+ "step": 5430
6565
+ },
6566
+ {
6567
+ "epoch": 0.08,
6568
+ "learning_rate": 0.0002234384944758213,
6569
+ "loss": 0.4534,
6570
+ "step": 5435
6571
+ },
6572
+ {
6573
+ "epoch": 0.09,
6574
+ "learning_rate": 0.0002234356255065225,
6575
+ "loss": 0.4567,
6576
+ "step": 5440
6577
+ },
6578
+ {
6579
+ "epoch": 0.09,
6580
+ "learning_rate": 0.00022343275392336688,
6581
+ "loss": 0.4521,
6582
+ "step": 5445
6583
+ },
6584
+ {
6585
+ "epoch": 0.09,
6586
+ "learning_rate": 0.00022342987972642534,
6587
+ "loss": 0.4604,
6588
+ "step": 5450
6589
+ },
6590
+ {
6591
+ "epoch": 0.09,
6592
+ "learning_rate": 0.00022342700291576878,
6593
+ "loss": 0.4479,
6594
+ "step": 5455
6595
+ },
6596
+ {
6597
+ "epoch": 0.09,
6598
+ "learning_rate": 0.00022342412349146823,
6599
+ "loss": 0.4516,
6600
+ "step": 5460
6601
+ },
6602
+ {
6603
+ "epoch": 0.09,
6604
+ "learning_rate": 0.00022342124145359465,
6605
+ "loss": 0.4534,
6606
+ "step": 5465
6607
+ },
6608
+ {
6609
+ "epoch": 0.09,
6610
+ "learning_rate": 0.00022341835680221925,
6611
+ "loss": 0.4586,
6612
+ "step": 5470
6613
+ },
6614
+ {
6615
+ "epoch": 0.09,
6616
+ "learning_rate": 0.0002234154695374131,
6617
+ "loss": 0.4573,
6618
+ "step": 5475
6619
+ },
6620
+ {
6621
+ "epoch": 0.09,
6622
+ "learning_rate": 0.0002234125796592475,
6623
+ "loss": 0.4575,
6624
+ "step": 5480
6625
+ },
6626
+ {
6627
+ "epoch": 0.09,
6628
+ "learning_rate": 0.00022340968716779377,
6629
+ "loss": 0.4497,
6630
+ "step": 5485
6631
+ },
6632
+ {
6633
+ "epoch": 0.1,
6634
+ "learning_rate": 0.00022340679206312328,
6635
+ "loss": 0.4495,
6636
+ "step": 5490
6637
+ },
6638
+ {
6639
+ "epoch": 0.1,
6640
+ "learning_rate": 0.00022340389434530742,
6641
+ "loss": 0.4587,
6642
+ "step": 5495
6643
+ },
6644
+ {
6645
+ "epoch": 0.1,
6646
+ "learning_rate": 0.0002234009940144177,
6647
+ "loss": 0.4552,
6648
+ "step": 5500
6649
+ },
6650
+ {
6651
+ "epoch": 0.1,
6652
+ "learning_rate": 0.0002233980910705257,
6653
+ "loss": 0.4579,
6654
+ "step": 5505
6655
+ },
6656
+ {
6657
+ "epoch": 0.1,
6658
+ "learning_rate": 0.00022339518551370304,
6659
+ "loss": 0.4518,
6660
+ "step": 5510
6661
+ },
6662
+ {
6663
+ "epoch": 0.1,
6664
+ "learning_rate": 0.0002233922773440214,
6665
+ "loss": 0.45,
6666
+ "step": 5515
6667
+ },
6668
+ {
6669
+ "epoch": 0.1,
6670
+ "learning_rate": 0.0002233893665615526,
6671
+ "loss": 0.4591,
6672
+ "step": 5520
6673
+ },
6674
+ {
6675
+ "epoch": 0.1,
6676
+ "learning_rate": 0.00022338645316636837,
6677
+ "loss": 0.4546,
6678
+ "step": 5525
6679
+ },
6680
+ {
6681
+ "epoch": 0.1,
6682
+ "learning_rate": 0.00022338353715854064,
6683
+ "loss": 0.4596,
6684
+ "step": 5530
6685
+ },
6686
+ {
6687
+ "epoch": 0.1,
6688
+ "learning_rate": 0.00022338061853814135,
6689
+ "loss": 0.4537,
6690
+ "step": 5535
6691
+ },
6692
+ {
6693
+ "epoch": 0.1,
6694
+ "learning_rate": 0.00022337769730524252,
6695
+ "loss": 0.4606,
6696
+ "step": 5540
6697
+ },
6698
+ {
6699
+ "epoch": 0.11,
6700
+ "learning_rate": 0.00022337477345991624,
6701
+ "loss": 0.4551,
6702
+ "step": 5545
6703
+ },
6704
+ {
6705
+ "epoch": 0.11,
6706
+ "learning_rate": 0.00022337184700223464,
6707
+ "loss": 0.4545,
6708
+ "step": 5550
6709
+ },
6710
+ {
6711
+ "epoch": 0.11,
6712
+ "learning_rate": 0.0002233689179322699,
6713
+ "loss": 0.4543,
6714
+ "step": 5555
6715
+ },
6716
+ {
6717
+ "epoch": 0.11,
6718
+ "learning_rate": 0.00022336598625009434,
6719
+ "loss": 0.4531,
6720
+ "step": 5560
6721
+ },
6722
+ {
6723
+ "epoch": 0.11,
6724
+ "learning_rate": 0.00022336305195578028,
6725
+ "loss": 0.4541,
6726
+ "step": 5565
6727
+ },
6728
+ {
6729
+ "epoch": 0.11,
6730
+ "learning_rate": 0.0002233601150494001,
6731
+ "loss": 0.4593,
6732
+ "step": 5570
6733
+ },
6734
+ {
6735
+ "epoch": 0.11,
6736
+ "learning_rate": 0.0002233571755310263,
6737
+ "loss": 0.4561,
6738
+ "step": 5575
6739
+ },
6740
+ {
6741
+ "epoch": 0.11,
6742
+ "learning_rate": 0.00022335423340073138,
6743
+ "loss": 0.4502,
6744
+ "step": 5580
6745
+ },
6746
+ {
6747
+ "epoch": 0.11,
6748
+ "learning_rate": 0.00022335128865858797,
6749
+ "loss": 0.4487,
6750
+ "step": 5585
6751
+ },
6752
+ {
6753
+ "epoch": 0.11,
6754
+ "learning_rate": 0.0002233483413046687,
6755
+ "loss": 0.4479,
6756
+ "step": 5590
6757
+ },
6758
+ {
6759
+ "epoch": 0.12,
6760
+ "learning_rate": 0.00022334539133904625,
6761
+ "loss": 0.4519,
6762
+ "step": 5595
6763
+ },
6764
+ {
6765
+ "epoch": 0.12,
6766
+ "learning_rate": 0.0002233424387617935,
6767
+ "loss": 0.4529,
6768
+ "step": 5600
6769
+ },
6770
+ {
6771
+ "epoch": 0.12,
6772
+ "learning_rate": 0.00022333948357298322,
6773
+ "loss": 0.4502,
6774
+ "step": 5605
6775
+ },
6776
+ {
6777
+ "epoch": 0.12,
6778
+ "learning_rate": 0.0002233365257726884,
6779
+ "loss": 0.4492,
6780
+ "step": 5610
6781
+ },
6782
+ {
6783
+ "epoch": 0.12,
6784
+ "learning_rate": 0.00022333356536098197,
6785
+ "loss": 0.4525,
6786
+ "step": 5615
6787
+ },
6788
+ {
6789
+ "epoch": 0.12,
6790
+ "learning_rate": 0.000223330602337937,
6791
+ "loss": 0.4538,
6792
+ "step": 5620
6793
+ },
6794
+ {
6795
+ "epoch": 0.12,
6796
+ "learning_rate": 0.00022332763670362656,
6797
+ "loss": 0.4535,
6798
+ "step": 5625
6799
+ },
6800
+ {
6801
+ "epoch": 0.12,
6802
+ "learning_rate": 0.00022332466845812387,
6803
+ "loss": 0.4529,
6804
+ "step": 5630
6805
+ },
6806
+ {
6807
+ "epoch": 0.12,
6808
+ "learning_rate": 0.00022332169760150218,
6809
+ "loss": 0.4513,
6810
+ "step": 5635
6811
+ },
6812
+ {
6813
+ "epoch": 0.12,
6814
+ "learning_rate": 0.00022331872413383473,
6815
+ "loss": 0.4501,
6816
+ "step": 5640
6817
+ },
6818
+ {
6819
+ "epoch": 0.13,
6820
+ "learning_rate": 0.00022331574805519494,
6821
+ "loss": 0.4476,
6822
+ "step": 5645
6823
+ },
6824
+ {
6825
+ "epoch": 0.13,
6826
+ "learning_rate": 0.0002233127693656562,
6827
+ "loss": 0.4496,
6828
+ "step": 5650
6829
+ },
6830
+ {
6831
+ "epoch": 0.13,
6832
+ "learning_rate": 0.00022330978806529202,
6833
+ "loss": 0.4583,
6834
+ "step": 5655
6835
+ },
6836
+ {
6837
+ "epoch": 0.13,
6838
+ "learning_rate": 0.00022330680415417602,
6839
+ "loss": 0.4534,
6840
+ "step": 5660
6841
+ },
6842
+ {
6843
+ "epoch": 0.13,
6844
+ "learning_rate": 0.00022330381763238172,
6845
+ "loss": 0.4536,
6846
+ "step": 5665
6847
+ },
6848
+ {
6849
+ "epoch": 0.13,
6850
+ "learning_rate": 0.00022330082849998293,
6851
+ "loss": 0.4564,
6852
+ "step": 5670
6853
+ },
6854
+ {
6855
+ "epoch": 0.13,
6856
+ "learning_rate": 0.00022329783675705328,
6857
+ "loss": 0.4589,
6858
+ "step": 5675
6859
+ },
6860
+ {
6861
+ "epoch": 0.13,
6862
+ "learning_rate": 0.0002232948424036667,
6863
+ "loss": 0.4596,
6864
+ "step": 5680
6865
+ },
6866
+ {
6867
+ "epoch": 0.13,
6868
+ "learning_rate": 0.00022329184543989696,
6869
+ "loss": 0.4539,
6870
+ "step": 5685
6871
+ },
6872
+ {
6873
+ "epoch": 0.13,
6874
+ "learning_rate": 0.0002232888458658181,
6875
+ "loss": 0.4567,
6876
+ "step": 5690
6877
+ },
6878
+ {
6879
+ "epoch": 0.14,
6880
+ "learning_rate": 0.0002232858436815041,
6881
+ "loss": 0.4576,
6882
+ "step": 5695
6883
+ },
6884
+ {
6885
+ "epoch": 0.14,
6886
+ "learning_rate": 0.00022328283888702904,
6887
+ "loss": 0.4507,
6888
+ "step": 5700
6889
+ },
6890
+ {
6891
+ "epoch": 0.14,
6892
+ "learning_rate": 0.00022327983148246703,
6893
+ "loss": 0.4518,
6894
+ "step": 5705
6895
+ },
6896
+ {
6897
+ "epoch": 0.14,
6898
+ "learning_rate": 0.00022327682146789233,
6899
+ "loss": 0.453,
6900
+ "step": 5710
6901
+ },
6902
+ {
6903
+ "epoch": 0.14,
6904
+ "learning_rate": 0.00022327380884337914,
6905
+ "loss": 0.4573,
6906
+ "step": 5715
6907
+ },
6908
+ {
6909
+ "epoch": 0.14,
6910
+ "learning_rate": 0.00022327079360900186,
6911
+ "loss": 0.4555,
6912
+ "step": 5720
6913
+ },
6914
+ {
6915
+ "epoch": 0.14,
6916
+ "learning_rate": 0.00022326777576483486,
6917
+ "loss": 0.4567,
6918
+ "step": 5725
6919
+ },
6920
+ {
6921
+ "epoch": 0.14,
6922
+ "learning_rate": 0.00022326475531095257,
6923
+ "loss": 0.4533,
6924
+ "step": 5730
6925
+ },
6926
+ {
6927
+ "epoch": 0.14,
6928
+ "learning_rate": 0.00022326173224742962,
6929
+ "loss": 0.453,
6930
+ "step": 5735
6931
+ },
6932
+ {
6933
+ "epoch": 0.14,
6934
+ "learning_rate": 0.00022325870657434048,
6935
+ "loss": 0.4571,
6936
+ "step": 5740
6937
+ },
6938
+ {
6939
+ "epoch": 0.14,
6940
+ "learning_rate": 0.00022325567829175984,
6941
+ "loss": 0.4526,
6942
+ "step": 5745
6943
+ },
6944
+ {
6945
+ "epoch": 0.15,
6946
+ "learning_rate": 0.00022325264739976247,
6947
+ "loss": 0.4508,
6948
+ "step": 5750
6949
+ },
6950
+ {
6951
+ "epoch": 0.15,
6952
+ "learning_rate": 0.0002232496138984231,
6953
+ "loss": 0.4553,
6954
+ "step": 5755
6955
+ },
6956
+ {
6957
+ "epoch": 0.15,
6958
+ "learning_rate": 0.0002232465777878166,
6959
+ "loss": 0.4559,
6960
+ "step": 5760
6961
+ },
6962
+ {
6963
+ "epoch": 0.15,
6964
+ "learning_rate": 0.0002232435390680179,
6965
+ "loss": 0.45,
6966
+ "step": 5765
6967
+ },
6968
+ {
6969
+ "epoch": 0.15,
6970
+ "learning_rate": 0.00022324049773910195,
6971
+ "loss": 0.4571,
6972
+ "step": 5770
6973
+ },
6974
+ {
6975
+ "epoch": 0.15,
6976
+ "learning_rate": 0.0002232374538011438,
6977
+ "loss": 0.4584,
6978
+ "step": 5775
6979
+ },
6980
+ {
6981
+ "epoch": 0.15,
6982
+ "learning_rate": 0.00022323440725421855,
6983
+ "loss": 0.4529,
6984
+ "step": 5780
6985
+ },
6986
+ {
6987
+ "epoch": 0.15,
6988
+ "learning_rate": 0.0002232313580984014,
6989
+ "loss": 0.455,
6990
+ "step": 5785
6991
+ },
6992
+ {
6993
+ "epoch": 0.15,
6994
+ "learning_rate": 0.00022322830633376753,
6995
+ "loss": 0.4549,
6996
+ "step": 5790
6997
+ },
6998
+ {
6999
+ "epoch": 0.15,
7000
+ "learning_rate": 0.0002232252519603923,
7001
+ "loss": 0.4518,
7002
+ "step": 5795
7003
+ },
7004
+ {
7005
+ "epoch": 0.16,
7006
+ "learning_rate": 0.000223222194978351,
7007
+ "loss": 0.4502,
7008
+ "step": 5800
7009
+ },
7010
+ {
7011
+ "epoch": 0.16,
7012
+ "learning_rate": 0.00022321913538771913,
7013
+ "loss": 0.453,
7014
+ "step": 5805
7015
+ },
7016
+ {
7017
+ "epoch": 0.16,
7018
+ "learning_rate": 0.00022321607318857219,
7019
+ "loss": 0.4496,
7020
+ "step": 5810
7021
+ },
7022
+ {
7023
+ "epoch": 0.16,
7024
+ "learning_rate": 0.00022321300838098565,
7025
+ "loss": 0.4504,
7026
+ "step": 5815
7027
+ },
7028
+ {
7029
+ "epoch": 0.16,
7030
+ "learning_rate": 0.0002232099409650352,
7031
+ "loss": 0.4535,
7032
+ "step": 5820
7033
+ },
7034
+ {
7035
+ "epoch": 0.16,
7036
+ "learning_rate": 0.00022320687094079652,
7037
+ "loss": 0.4538,
7038
+ "step": 5825
7039
+ },
7040
+ {
7041
+ "epoch": 0.16,
7042
+ "learning_rate": 0.00022320379830834534,
7043
+ "loss": 0.4532,
7044
+ "step": 5830
7045
+ },
7046
+ {
7047
+ "epoch": 0.16,
7048
+ "learning_rate": 0.0002232007230677575,
7049
+ "loss": 0.4515,
7050
+ "step": 5835
7051
+ },
7052
+ {
7053
+ "epoch": 0.16,
7054
+ "learning_rate": 0.00022319764521910887,
7055
+ "loss": 0.4493,
7056
+ "step": 5840
7057
+ },
7058
+ {
7059
+ "epoch": 0.16,
7060
+ "learning_rate": 0.00022319456476247533,
7061
+ "loss": 0.4497,
7062
+ "step": 5845
7063
+ },
7064
+ {
7065
+ "epoch": 0.17,
7066
+ "learning_rate": 0.00022319148169793298,
7067
+ "loss": 0.4539,
7068
+ "step": 5850
7069
+ },
7070
+ {
7071
+ "epoch": 0.17,
7072
+ "learning_rate": 0.00022318839602555787,
7073
+ "loss": 0.4526,
7074
+ "step": 5855
7075
+ },
7076
+ {
7077
+ "epoch": 0.17,
7078
+ "learning_rate": 0.00022318530774542608,
7079
+ "loss": 0.4587,
7080
+ "step": 5860
7081
+ },
7082
+ {
7083
+ "epoch": 0.17,
7084
+ "learning_rate": 0.00022318221685761386,
7085
+ "loss": 0.4609,
7086
+ "step": 5865
7087
+ },
7088
+ {
7089
+ "epoch": 0.17,
7090
+ "learning_rate": 0.00022317912336219746,
7091
+ "loss": 0.454,
7092
+ "step": 5870
7093
+ },
7094
+ {
7095
+ "epoch": 0.17,
7096
+ "learning_rate": 0.0002231760272592532,
7097
+ "loss": 0.4542,
7098
+ "step": 5875
7099
+ },
7100
+ {
7101
+ "epoch": 0.17,
7102
+ "learning_rate": 0.00022317292854885754,
7103
+ "loss": 0.4562,
7104
+ "step": 5880
7105
+ },
7106
+ {
7107
+ "epoch": 0.17,
7108
+ "learning_rate": 0.00022316982723108686,
7109
+ "loss": 0.4527,
7110
+ "step": 5885
7111
+ },
7112
+ {
7113
+ "epoch": 0.17,
7114
+ "learning_rate": 0.00022316672330601768,
7115
+ "loss": 0.4572,
7116
+ "step": 5890
7117
+ },
7118
+ {
7119
+ "epoch": 0.17,
7120
+ "learning_rate": 0.00022316361677372662,
7121
+ "loss": 0.458,
7122
+ "step": 5895
7123
+ },
7124
+ {
7125
+ "epoch": 0.17,
7126
+ "learning_rate": 0.00022316050763429034,
7127
+ "loss": 0.4504,
7128
+ "step": 5900
7129
+ },
7130
+ {
7131
+ "epoch": 0.18,
7132
+ "learning_rate": 0.00022315739588778553,
7133
+ "loss": 0.4466,
7134
+ "step": 5905
7135
+ },
7136
+ {
7137
+ "epoch": 0.18,
7138
+ "learning_rate": 0.00022315428153428898,
7139
+ "loss": 0.4519,
7140
+ "step": 5910
7141
+ },
7142
+ {
7143
+ "epoch": 0.18,
7144
+ "learning_rate": 0.00022315116457387752,
7145
+ "loss": 0.452,
7146
+ "step": 5915
7147
+ },
7148
+ {
7149
+ "epoch": 0.18,
7150
+ "learning_rate": 0.00022314804500662806,
7151
+ "loss": 0.4573,
7152
+ "step": 5920
7153
+ },
7154
+ {
7155
+ "epoch": 0.18,
7156
+ "learning_rate": 0.0002231449228326176,
7157
+ "loss": 0.4556,
7158
+ "step": 5925
7159
+ },
7160
+ {
7161
+ "epoch": 0.18,
7162
+ "learning_rate": 0.00022314179805192313,
7163
+ "loss": 0.4526,
7164
+ "step": 5930
7165
+ },
7166
+ {
7167
+ "epoch": 0.18,
7168
+ "learning_rate": 0.00022313867066462182,
7169
+ "loss": 0.4481,
7170
+ "step": 5935
7171
+ },
7172
+ {
7173
+ "epoch": 0.18,
7174
+ "learning_rate": 0.00022313554067079078,
7175
+ "loss": 0.4559,
7176
+ "step": 5940
7177
+ },
7178
+ {
7179
+ "epoch": 0.18,
7180
+ "learning_rate": 0.00022313240807050723,
7181
+ "loss": 0.4524,
7182
+ "step": 5945
7183
+ },
7184
+ {
7185
+ "epoch": 0.18,
7186
+ "learning_rate": 0.0002231292728638485,
7187
+ "loss": 0.4559,
7188
+ "step": 5950
7189
+ },
7190
+ {
7191
+ "epoch": 0.19,
7192
+ "learning_rate": 0.00022312613505089194,
7193
+ "loss": 0.4572,
7194
+ "step": 5955
7195
+ },
7196
+ {
7197
+ "epoch": 0.19,
7198
+ "learning_rate": 0.00022312299463171499,
7199
+ "loss": 0.4499,
7200
+ "step": 5960
7201
+ },
7202
+ {
7203
+ "epoch": 0.19,
7204
+ "learning_rate": 0.00022311985160639505,
7205
+ "loss": 0.4555,
7206
+ "step": 5965
7207
+ },
7208
+ {
7209
+ "epoch": 0.19,
7210
+ "learning_rate": 0.00022311670597500977,
7211
+ "loss": 0.4541,
7212
+ "step": 5970
7213
+ },
7214
+ {
7215
+ "epoch": 0.19,
7216
+ "learning_rate": 0.00022311355773763674,
7217
+ "loss": 0.4472,
7218
+ "step": 5975
7219
+ },
7220
+ {
7221
+ "epoch": 0.19,
7222
+ "learning_rate": 0.0002231104068943536,
7223
+ "loss": 0.4547,
7224
+ "step": 5980
7225
+ },
7226
+ {
7227
+ "epoch": 0.19,
7228
+ "learning_rate": 0.00022310725344523816,
7229
+ "loss": 0.4562,
7230
+ "step": 5985
7231
+ },
7232
+ {
7233
+ "epoch": 0.19,
7234
+ "learning_rate": 0.00022310409739036816,
7235
+ "loss": 0.4556,
7236
+ "step": 5990
7237
+ },
7238
+ {
7239
+ "epoch": 0.19,
7240
+ "learning_rate": 0.00022310093872982155,
7241
+ "loss": 0.4533,
7242
+ "step": 5995
7243
+ },
7244
+ {
7245
+ "epoch": 0.19,
7246
+ "learning_rate": 0.00022309777746367618,
7247
+ "loss": 0.454,
7248
+ "step": 6000
7249
+ },
7250
+ {
7251
+ "epoch": 0.19,
7252
+ "eval_loss": 0.436722993850708,
7253
+ "eval_runtime": 183.1334,
7254
+ "eval_samples_per_second": 27.303,
7255
+ "eval_steps_per_second": 0.289,
7256
+ "step": 6000
7257
  }
7258
  ],
7259
  "max_steps": 100000,
7260
  "num_train_epochs": 20,
7261
+ "total_flos": 6.309023572190822e+20,
7262
  "trial_name": null,
7263
  "trial_params": null
7264
  }
last-checkpoint/training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:61a438d3758fcfa636e08463e84b78cbfd4ecffe466a1209b9e325894f489f5b
3
  size 5615
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1cad447f2e9f8cc1963ae9cac41183df426b5a7f684286ba0a46dd86d30a7627
3
  size 5615
pytorch_model.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:0d87d4251419285b82323349a677c4bf9083a6f1197c42082c54fc5645fade81
3
  size 449471589
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:023470fb6e5e8c21b4364835994b9c6ce91ee0f9ee1410357ef32e1ecfa1adb1
3
  size 449471589
training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:61a438d3758fcfa636e08463e84b78cbfd4ecffe466a1209b9e325894f489f5b
3
  size 5615
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1cad447f2e9f8cc1963ae9cac41183df426b5a7f684286ba0a46dd86d30a7627
3
  size 5615