Joemgu commited on
Commit
9ec3f78
1 Parent(s): 2852f89

Training in progress, step 1200

Browse files
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e34fd194c900dfbb532dd49072c091a0c6a0c93eae978ac46c0d8de5d9d521c4
3
  size 4736616809
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:0c6d17006cf5a6e9a9c57de80abad493938bbba39dca6e7012dfe15e101d2c93
3
  size 4736616809
last-checkpoint/pytorch_model.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:5331d64ba5ca3beab2d415de92525a4958f53e7f5ddaf2156cd41c76144da4e7
3
  size 2368281769
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:951861143d15fa1c5e1fffde87d6bb38f0764793caa011f89d710cfbb0713166
3
  size 2368281769
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:ccb6beb7550f03b332650b67283b418728340a5f3e4176119d4d68b5168c0ec6
3
  size 14575
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4faea06187a773dac9e201feb077e07ac6b09d5a724adf5bebe4d787443e0fc2
3
  size 14575
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c0566977bd7f1a02cda14ad6d892def99634adfbe1b61c415f070638d97bb106
3
  size 627
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:be47a0e08dd26ff8097dc5611aa5b8367c04e0c171f4ca560845a27c3c3d8339
3
  size 627
last-checkpoint/trainer_state.json CHANGED
@@ -1,8 +1,8 @@
1
  {
2
- "best_metric": 2.1341190338134766,
3
- "best_model_checkpoint": "output/checkpoint-1000",
4
- "epoch": 0.5,
5
- "global_step": 1000,
6
  "is_hyper_param_search": false,
7
  "is_local_process_zero": true,
8
  "is_world_process_zero": true,
@@ -6071,11 +6071,1224 @@
6071
  "eval_samples_per_second": 0.054,
6072
  "eval_steps_per_second": 0.054,
6073
  "step": 1000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
6074
  }
6075
  ],
6076
  "max_steps": 2000,
6077
  "num_train_epochs": 9223372036854775807,
6078
- "total_flos": 8.042817961377516e+17,
6079
  "trial_name": null,
6080
  "trial_params": null
6081
  }
 
1
  {
2
+ "best_metric": 2.126681089401245,
3
+ "best_model_checkpoint": "output/checkpoint-1200",
4
+ "epoch": 0.6,
5
+ "global_step": 1200,
6
  "is_hyper_param_search": false,
7
  "is_local_process_zero": true,
8
  "is_world_process_zero": true,
 
6071
  "eval_samples_per_second": 0.054,
6072
  "eval_steps_per_second": 0.054,
6073
  "step": 1000
6074
+ },
6075
+ {
6076
+ "epoch": 0.5,
6077
+ "learning_rate": 0.00044400000000000006,
6078
+ "loss": 2.2323,
6079
+ "step": 1001
6080
+ },
6081
+ {
6082
+ "epoch": 0.5,
6083
+ "learning_rate": 0.00044355555555555554,
6084
+ "loss": 2.3168,
6085
+ "step": 1002
6086
+ },
6087
+ {
6088
+ "epoch": 0.5,
6089
+ "learning_rate": 0.00044311111111111114,
6090
+ "loss": 2.2113,
6091
+ "step": 1003
6092
+ },
6093
+ {
6094
+ "epoch": 0.5,
6095
+ "learning_rate": 0.0004426666666666667,
6096
+ "loss": 2.2115,
6097
+ "step": 1004
6098
+ },
6099
+ {
6100
+ "epoch": 0.5,
6101
+ "learning_rate": 0.00044222222222222227,
6102
+ "loss": 2.2126,
6103
+ "step": 1005
6104
+ },
6105
+ {
6106
+ "epoch": 0.5,
6107
+ "learning_rate": 0.00044177777777777775,
6108
+ "loss": 2.1807,
6109
+ "step": 1006
6110
+ },
6111
+ {
6112
+ "epoch": 0.5,
6113
+ "learning_rate": 0.00044133333333333335,
6114
+ "loss": 2.2357,
6115
+ "step": 1007
6116
+ },
6117
+ {
6118
+ "epoch": 0.5,
6119
+ "learning_rate": 0.0004408888888888889,
6120
+ "loss": 2.1952,
6121
+ "step": 1008
6122
+ },
6123
+ {
6124
+ "epoch": 0.5,
6125
+ "learning_rate": 0.0004404444444444445,
6126
+ "loss": 2.2606,
6127
+ "step": 1009
6128
+ },
6129
+ {
6130
+ "epoch": 0.51,
6131
+ "learning_rate": 0.00044000000000000007,
6132
+ "loss": 2.1503,
6133
+ "step": 1010
6134
+ },
6135
+ {
6136
+ "epoch": 0.51,
6137
+ "learning_rate": 0.00043955555555555555,
6138
+ "loss": 2.2449,
6139
+ "step": 1011
6140
+ },
6141
+ {
6142
+ "epoch": 0.51,
6143
+ "learning_rate": 0.0004391111111111111,
6144
+ "loss": 2.1983,
6145
+ "step": 1012
6146
+ },
6147
+ {
6148
+ "epoch": 0.51,
6149
+ "learning_rate": 0.0004386666666666667,
6150
+ "loss": 2.1528,
6151
+ "step": 1013
6152
+ },
6153
+ {
6154
+ "epoch": 0.51,
6155
+ "learning_rate": 0.0004382222222222223,
6156
+ "loss": 2.1265,
6157
+ "step": 1014
6158
+ },
6159
+ {
6160
+ "epoch": 0.51,
6161
+ "learning_rate": 0.0004377777777777778,
6162
+ "loss": 2.2405,
6163
+ "step": 1015
6164
+ },
6165
+ {
6166
+ "epoch": 0.51,
6167
+ "learning_rate": 0.0004373333333333333,
6168
+ "loss": 2.2103,
6169
+ "step": 1016
6170
+ },
6171
+ {
6172
+ "epoch": 0.51,
6173
+ "learning_rate": 0.0004368888888888889,
6174
+ "loss": 2.266,
6175
+ "step": 1017
6176
+ },
6177
+ {
6178
+ "epoch": 0.51,
6179
+ "learning_rate": 0.0004364444444444445,
6180
+ "loss": 2.255,
6181
+ "step": 1018
6182
+ },
6183
+ {
6184
+ "epoch": 0.51,
6185
+ "learning_rate": 0.000436,
6186
+ "loss": 2.2256,
6187
+ "step": 1019
6188
+ },
6189
+ {
6190
+ "epoch": 0.51,
6191
+ "learning_rate": 0.00043555555555555557,
6192
+ "loss": 2.2561,
6193
+ "step": 1020
6194
+ },
6195
+ {
6196
+ "epoch": 0.51,
6197
+ "learning_rate": 0.0004351111111111111,
6198
+ "loss": 2.2569,
6199
+ "step": 1021
6200
+ },
6201
+ {
6202
+ "epoch": 0.51,
6203
+ "learning_rate": 0.0004346666666666667,
6204
+ "loss": 2.1995,
6205
+ "step": 1022
6206
+ },
6207
+ {
6208
+ "epoch": 0.51,
6209
+ "learning_rate": 0.0004342222222222223,
6210
+ "loss": 2.193,
6211
+ "step": 1023
6212
+ },
6213
+ {
6214
+ "epoch": 0.51,
6215
+ "learning_rate": 0.00043377777777777783,
6216
+ "loss": 2.1382,
6217
+ "step": 1024
6218
+ },
6219
+ {
6220
+ "epoch": 0.51,
6221
+ "learning_rate": 0.0004333333333333333,
6222
+ "loss": 2.2134,
6223
+ "step": 1025
6224
+ },
6225
+ {
6226
+ "epoch": 0.51,
6227
+ "learning_rate": 0.0004328888888888889,
6228
+ "loss": 2.173,
6229
+ "step": 1026
6230
+ },
6231
+ {
6232
+ "epoch": 0.51,
6233
+ "learning_rate": 0.0004324444444444445,
6234
+ "loss": 2.2619,
6235
+ "step": 1027
6236
+ },
6237
+ {
6238
+ "epoch": 0.51,
6239
+ "learning_rate": 0.00043200000000000004,
6240
+ "loss": 2.1414,
6241
+ "step": 1028
6242
+ },
6243
+ {
6244
+ "epoch": 0.51,
6245
+ "learning_rate": 0.0004315555555555555,
6246
+ "loss": 2.1653,
6247
+ "step": 1029
6248
+ },
6249
+ {
6250
+ "epoch": 0.52,
6251
+ "learning_rate": 0.0004311111111111111,
6252
+ "loss": 2.2585,
6253
+ "step": 1030
6254
+ },
6255
+ {
6256
+ "epoch": 0.52,
6257
+ "learning_rate": 0.0004306666666666667,
6258
+ "loss": 2.1986,
6259
+ "step": 1031
6260
+ },
6261
+ {
6262
+ "epoch": 0.52,
6263
+ "learning_rate": 0.00043022222222222225,
6264
+ "loss": 2.1942,
6265
+ "step": 1032
6266
+ },
6267
+ {
6268
+ "epoch": 0.52,
6269
+ "learning_rate": 0.00042977777777777784,
6270
+ "loss": 2.2071,
6271
+ "step": 1033
6272
+ },
6273
+ {
6274
+ "epoch": 0.52,
6275
+ "learning_rate": 0.0004293333333333333,
6276
+ "loss": 2.2311,
6277
+ "step": 1034
6278
+ },
6279
+ {
6280
+ "epoch": 0.52,
6281
+ "learning_rate": 0.0004288888888888889,
6282
+ "loss": 2.2495,
6283
+ "step": 1035
6284
+ },
6285
+ {
6286
+ "epoch": 0.52,
6287
+ "learning_rate": 0.00042844444444444446,
6288
+ "loss": 2.1843,
6289
+ "step": 1036
6290
+ },
6291
+ {
6292
+ "epoch": 0.52,
6293
+ "learning_rate": 0.00042800000000000005,
6294
+ "loss": 2.2238,
6295
+ "step": 1037
6296
+ },
6297
+ {
6298
+ "epoch": 0.52,
6299
+ "learning_rate": 0.00042755555555555564,
6300
+ "loss": 2.2338,
6301
+ "step": 1038
6302
+ },
6303
+ {
6304
+ "epoch": 0.52,
6305
+ "learning_rate": 0.0004271111111111111,
6306
+ "loss": 2.2446,
6307
+ "step": 1039
6308
+ },
6309
+ {
6310
+ "epoch": 0.52,
6311
+ "learning_rate": 0.00042666666666666667,
6312
+ "loss": 2.1949,
6313
+ "step": 1040
6314
+ },
6315
+ {
6316
+ "epoch": 0.52,
6317
+ "learning_rate": 0.00042622222222222226,
6318
+ "loss": 2.2357,
6319
+ "step": 1041
6320
+ },
6321
+ {
6322
+ "epoch": 0.52,
6323
+ "learning_rate": 0.00042577777777777785,
6324
+ "loss": 2.1674,
6325
+ "step": 1042
6326
+ },
6327
+ {
6328
+ "epoch": 0.52,
6329
+ "learning_rate": 0.00042533333333333334,
6330
+ "loss": 2.2584,
6331
+ "step": 1043
6332
+ },
6333
+ {
6334
+ "epoch": 0.52,
6335
+ "learning_rate": 0.0004248888888888889,
6336
+ "loss": 2.2447,
6337
+ "step": 1044
6338
+ },
6339
+ {
6340
+ "epoch": 0.52,
6341
+ "learning_rate": 0.00042444444444444447,
6342
+ "loss": 2.1795,
6343
+ "step": 1045
6344
+ },
6345
+ {
6346
+ "epoch": 0.52,
6347
+ "learning_rate": 0.00042400000000000006,
6348
+ "loss": 2.2055,
6349
+ "step": 1046
6350
+ },
6351
+ {
6352
+ "epoch": 0.52,
6353
+ "learning_rate": 0.0004235555555555556,
6354
+ "loss": 2.2359,
6355
+ "step": 1047
6356
+ },
6357
+ {
6358
+ "epoch": 0.52,
6359
+ "learning_rate": 0.0004231111111111111,
6360
+ "loss": 2.1674,
6361
+ "step": 1048
6362
+ },
6363
+ {
6364
+ "epoch": 0.52,
6365
+ "learning_rate": 0.0004226666666666667,
6366
+ "loss": 2.2057,
6367
+ "step": 1049
6368
+ },
6369
+ {
6370
+ "epoch": 0.53,
6371
+ "learning_rate": 0.00042222222222222227,
6372
+ "loss": 2.2296,
6373
+ "step": 1050
6374
+ },
6375
+ {
6376
+ "epoch": 0.53,
6377
+ "learning_rate": 0.0004217777777777778,
6378
+ "loss": 2.2603,
6379
+ "step": 1051
6380
+ },
6381
+ {
6382
+ "epoch": 0.53,
6383
+ "learning_rate": 0.0004213333333333333,
6384
+ "loss": 2.3112,
6385
+ "step": 1052
6386
+ },
6387
+ {
6388
+ "epoch": 0.53,
6389
+ "learning_rate": 0.0004208888888888889,
6390
+ "loss": 2.317,
6391
+ "step": 1053
6392
+ },
6393
+ {
6394
+ "epoch": 0.53,
6395
+ "learning_rate": 0.0004204444444444445,
6396
+ "loss": 2.226,
6397
+ "step": 1054
6398
+ },
6399
+ {
6400
+ "epoch": 0.53,
6401
+ "learning_rate": 0.00042,
6402
+ "loss": 2.2722,
6403
+ "step": 1055
6404
+ },
6405
+ {
6406
+ "epoch": 0.53,
6407
+ "learning_rate": 0.0004195555555555556,
6408
+ "loss": 2.2752,
6409
+ "step": 1056
6410
+ },
6411
+ {
6412
+ "epoch": 0.53,
6413
+ "learning_rate": 0.0004191111111111111,
6414
+ "loss": 2.2753,
6415
+ "step": 1057
6416
+ },
6417
+ {
6418
+ "epoch": 0.53,
6419
+ "learning_rate": 0.0004186666666666667,
6420
+ "loss": 2.2863,
6421
+ "step": 1058
6422
+ },
6423
+ {
6424
+ "epoch": 0.53,
6425
+ "learning_rate": 0.0004182222222222222,
6426
+ "loss": 2.2846,
6427
+ "step": 1059
6428
+ },
6429
+ {
6430
+ "epoch": 0.53,
6431
+ "learning_rate": 0.0004177777777777778,
6432
+ "loss": 2.2366,
6433
+ "step": 1060
6434
+ },
6435
+ {
6436
+ "epoch": 0.53,
6437
+ "learning_rate": 0.0004173333333333333,
6438
+ "loss": 2.2447,
6439
+ "step": 1061
6440
+ },
6441
+ {
6442
+ "epoch": 0.53,
6443
+ "learning_rate": 0.0004168888888888889,
6444
+ "loss": 2.3256,
6445
+ "step": 1062
6446
+ },
6447
+ {
6448
+ "epoch": 0.53,
6449
+ "learning_rate": 0.00041644444444444444,
6450
+ "loss": 2.2203,
6451
+ "step": 1063
6452
+ },
6453
+ {
6454
+ "epoch": 0.53,
6455
+ "learning_rate": 0.00041600000000000003,
6456
+ "loss": 2.1463,
6457
+ "step": 1064
6458
+ },
6459
+ {
6460
+ "epoch": 0.53,
6461
+ "learning_rate": 0.0004155555555555556,
6462
+ "loss": 2.2303,
6463
+ "step": 1065
6464
+ },
6465
+ {
6466
+ "epoch": 0.53,
6467
+ "learning_rate": 0.0004151111111111111,
6468
+ "loss": 2.1686,
6469
+ "step": 1066
6470
+ },
6471
+ {
6472
+ "epoch": 0.53,
6473
+ "learning_rate": 0.00041466666666666664,
6474
+ "loss": 2.2296,
6475
+ "step": 1067
6476
+ },
6477
+ {
6478
+ "epoch": 0.53,
6479
+ "learning_rate": 0.00041422222222222224,
6480
+ "loss": 2.2437,
6481
+ "step": 1068
6482
+ },
6483
+ {
6484
+ "epoch": 0.53,
6485
+ "learning_rate": 0.00041377777777777783,
6486
+ "loss": 2.2731,
6487
+ "step": 1069
6488
+ },
6489
+ {
6490
+ "epoch": 0.54,
6491
+ "learning_rate": 0.00041333333333333337,
6492
+ "loss": 2.249,
6493
+ "step": 1070
6494
+ },
6495
+ {
6496
+ "epoch": 0.54,
6497
+ "learning_rate": 0.00041288888888888885,
6498
+ "loss": 2.2399,
6499
+ "step": 1071
6500
+ },
6501
+ {
6502
+ "epoch": 0.54,
6503
+ "learning_rate": 0.00041244444444444445,
6504
+ "loss": 2.1833,
6505
+ "step": 1072
6506
+ },
6507
+ {
6508
+ "epoch": 0.54,
6509
+ "learning_rate": 0.00041200000000000004,
6510
+ "loss": 2.18,
6511
+ "step": 1073
6512
+ },
6513
+ {
6514
+ "epoch": 0.54,
6515
+ "learning_rate": 0.0004115555555555556,
6516
+ "loss": 2.1966,
6517
+ "step": 1074
6518
+ },
6519
+ {
6520
+ "epoch": 0.54,
6521
+ "learning_rate": 0.0004111111111111111,
6522
+ "loss": 2.1802,
6523
+ "step": 1075
6524
+ },
6525
+ {
6526
+ "epoch": 0.54,
6527
+ "learning_rate": 0.00041066666666666666,
6528
+ "loss": 2.2319,
6529
+ "step": 1076
6530
+ },
6531
+ {
6532
+ "epoch": 0.54,
6533
+ "learning_rate": 0.00041022222222222225,
6534
+ "loss": 2.2461,
6535
+ "step": 1077
6536
+ },
6537
+ {
6538
+ "epoch": 0.54,
6539
+ "learning_rate": 0.00040977777777777784,
6540
+ "loss": 2.2113,
6541
+ "step": 1078
6542
+ },
6543
+ {
6544
+ "epoch": 0.54,
6545
+ "learning_rate": 0.0004093333333333334,
6546
+ "loss": 2.2787,
6547
+ "step": 1079
6548
+ },
6549
+ {
6550
+ "epoch": 0.54,
6551
+ "learning_rate": 0.00040888888888888887,
6552
+ "loss": 2.1956,
6553
+ "step": 1080
6554
+ },
6555
+ {
6556
+ "epoch": 0.54,
6557
+ "learning_rate": 0.00040844444444444446,
6558
+ "loss": 2.2832,
6559
+ "step": 1081
6560
+ },
6561
+ {
6562
+ "epoch": 0.54,
6563
+ "learning_rate": 0.00040800000000000005,
6564
+ "loss": 2.2853,
6565
+ "step": 1082
6566
+ },
6567
+ {
6568
+ "epoch": 0.54,
6569
+ "learning_rate": 0.0004075555555555556,
6570
+ "loss": 2.1744,
6571
+ "step": 1083
6572
+ },
6573
+ {
6574
+ "epoch": 0.54,
6575
+ "learning_rate": 0.0004071111111111111,
6576
+ "loss": 2.214,
6577
+ "step": 1084
6578
+ },
6579
+ {
6580
+ "epoch": 0.54,
6581
+ "learning_rate": 0.00040666666666666667,
6582
+ "loss": 2.2348,
6583
+ "step": 1085
6584
+ },
6585
+ {
6586
+ "epoch": 0.54,
6587
+ "learning_rate": 0.00040622222222222226,
6588
+ "loss": 2.1959,
6589
+ "step": 1086
6590
+ },
6591
+ {
6592
+ "epoch": 0.54,
6593
+ "learning_rate": 0.0004057777777777778,
6594
+ "loss": 2.2039,
6595
+ "step": 1087
6596
+ },
6597
+ {
6598
+ "epoch": 0.54,
6599
+ "learning_rate": 0.0004053333333333334,
6600
+ "loss": 2.1746,
6601
+ "step": 1088
6602
+ },
6603
+ {
6604
+ "epoch": 0.54,
6605
+ "learning_rate": 0.0004048888888888889,
6606
+ "loss": 2.2353,
6607
+ "step": 1089
6608
+ },
6609
+ {
6610
+ "epoch": 0.55,
6611
+ "learning_rate": 0.00040444444444444447,
6612
+ "loss": 2.238,
6613
+ "step": 1090
6614
+ },
6615
+ {
6616
+ "epoch": 0.55,
6617
+ "learning_rate": 0.000404,
6618
+ "loss": 2.254,
6619
+ "step": 1091
6620
+ },
6621
+ {
6622
+ "epoch": 0.55,
6623
+ "learning_rate": 0.0004035555555555556,
6624
+ "loss": 2.214,
6625
+ "step": 1092
6626
+ },
6627
+ {
6628
+ "epoch": 0.55,
6629
+ "learning_rate": 0.0004031111111111112,
6630
+ "loss": 2.2567,
6631
+ "step": 1093
6632
+ },
6633
+ {
6634
+ "epoch": 0.55,
6635
+ "learning_rate": 0.0004026666666666667,
6636
+ "loss": 2.1921,
6637
+ "step": 1094
6638
+ },
6639
+ {
6640
+ "epoch": 0.55,
6641
+ "learning_rate": 0.0004022222222222222,
6642
+ "loss": 2.2253,
6643
+ "step": 1095
6644
+ },
6645
+ {
6646
+ "epoch": 0.55,
6647
+ "learning_rate": 0.0004017777777777778,
6648
+ "loss": 2.2083,
6649
+ "step": 1096
6650
+ },
6651
+ {
6652
+ "epoch": 0.55,
6653
+ "learning_rate": 0.0004013333333333334,
6654
+ "loss": 2.2661,
6655
+ "step": 1097
6656
+ },
6657
+ {
6658
+ "epoch": 0.55,
6659
+ "learning_rate": 0.0004008888888888889,
6660
+ "loss": 2.2081,
6661
+ "step": 1098
6662
+ },
6663
+ {
6664
+ "epoch": 0.55,
6665
+ "learning_rate": 0.0004004444444444444,
6666
+ "loss": 2.105,
6667
+ "step": 1099
6668
+ },
6669
+ {
6670
+ "epoch": 0.55,
6671
+ "learning_rate": 0.0004,
6672
+ "loss": 2.2621,
6673
+ "step": 1100
6674
+ },
6675
+ {
6676
+ "epoch": 0.55,
6677
+ "learning_rate": 0.0003995555555555556,
6678
+ "loss": 2.2716,
6679
+ "step": 1101
6680
+ },
6681
+ {
6682
+ "epoch": 0.55,
6683
+ "learning_rate": 0.00039911111111111115,
6684
+ "loss": 2.2039,
6685
+ "step": 1102
6686
+ },
6687
+ {
6688
+ "epoch": 0.55,
6689
+ "learning_rate": 0.0003986666666666667,
6690
+ "loss": 2.2143,
6691
+ "step": 1103
6692
+ },
6693
+ {
6694
+ "epoch": 0.55,
6695
+ "learning_rate": 0.00039822222222222223,
6696
+ "loss": 2.3052,
6697
+ "step": 1104
6698
+ },
6699
+ {
6700
+ "epoch": 0.55,
6701
+ "learning_rate": 0.0003977777777777778,
6702
+ "loss": 2.2629,
6703
+ "step": 1105
6704
+ },
6705
+ {
6706
+ "epoch": 0.55,
6707
+ "learning_rate": 0.00039733333333333336,
6708
+ "loss": 2.2976,
6709
+ "step": 1106
6710
+ },
6711
+ {
6712
+ "epoch": 0.55,
6713
+ "learning_rate": 0.0003968888888888889,
6714
+ "loss": 2.2596,
6715
+ "step": 1107
6716
+ },
6717
+ {
6718
+ "epoch": 0.55,
6719
+ "learning_rate": 0.0003964444444444445,
6720
+ "loss": 2.2815,
6721
+ "step": 1108
6722
+ },
6723
+ {
6724
+ "epoch": 0.55,
6725
+ "learning_rate": 0.00039600000000000003,
6726
+ "loss": 2.2405,
6727
+ "step": 1109
6728
+ },
6729
+ {
6730
+ "epoch": 0.56,
6731
+ "learning_rate": 0.00039555555555555557,
6732
+ "loss": 2.2578,
6733
+ "step": 1110
6734
+ },
6735
+ {
6736
+ "epoch": 0.56,
6737
+ "learning_rate": 0.0003951111111111111,
6738
+ "loss": 2.1971,
6739
+ "step": 1111
6740
+ },
6741
+ {
6742
+ "epoch": 0.56,
6743
+ "learning_rate": 0.0003946666666666667,
6744
+ "loss": 2.2151,
6745
+ "step": 1112
6746
+ },
6747
+ {
6748
+ "epoch": 0.56,
6749
+ "learning_rate": 0.00039422222222222224,
6750
+ "loss": 2.2425,
6751
+ "step": 1113
6752
+ },
6753
+ {
6754
+ "epoch": 0.56,
6755
+ "learning_rate": 0.0003937777777777778,
6756
+ "loss": 2.2328,
6757
+ "step": 1114
6758
+ },
6759
+ {
6760
+ "epoch": 0.56,
6761
+ "learning_rate": 0.0003933333333333333,
6762
+ "loss": 2.2582,
6763
+ "step": 1115
6764
+ },
6765
+ {
6766
+ "epoch": 0.56,
6767
+ "learning_rate": 0.0003928888888888889,
6768
+ "loss": 2.1567,
6769
+ "step": 1116
6770
+ },
6771
+ {
6772
+ "epoch": 0.56,
6773
+ "learning_rate": 0.0003924444444444445,
6774
+ "loss": 2.2728,
6775
+ "step": 1117
6776
+ },
6777
+ {
6778
+ "epoch": 0.56,
6779
+ "learning_rate": 0.000392,
6780
+ "loss": 2.1876,
6781
+ "step": 1118
6782
+ },
6783
+ {
6784
+ "epoch": 0.56,
6785
+ "learning_rate": 0.0003915555555555556,
6786
+ "loss": 2.2007,
6787
+ "step": 1119
6788
+ },
6789
+ {
6790
+ "epoch": 0.56,
6791
+ "learning_rate": 0.0003911111111111111,
6792
+ "loss": 2.2632,
6793
+ "step": 1120
6794
+ },
6795
+ {
6796
+ "epoch": 0.56,
6797
+ "learning_rate": 0.0003906666666666667,
6798
+ "loss": 2.1838,
6799
+ "step": 1121
6800
+ },
6801
+ {
6802
+ "epoch": 0.56,
6803
+ "learning_rate": 0.0003902222222222222,
6804
+ "loss": 2.1546,
6805
+ "step": 1122
6806
+ },
6807
+ {
6808
+ "epoch": 0.56,
6809
+ "learning_rate": 0.0003897777777777778,
6810
+ "loss": 2.2672,
6811
+ "step": 1123
6812
+ },
6813
+ {
6814
+ "epoch": 0.56,
6815
+ "learning_rate": 0.0003893333333333334,
6816
+ "loss": 2.2595,
6817
+ "step": 1124
6818
+ },
6819
+ {
6820
+ "epoch": 0.56,
6821
+ "learning_rate": 0.0003888888888888889,
6822
+ "loss": 2.1636,
6823
+ "step": 1125
6824
+ },
6825
+ {
6826
+ "epoch": 0.56,
6827
+ "learning_rate": 0.00038844444444444446,
6828
+ "loss": 2.2421,
6829
+ "step": 1126
6830
+ },
6831
+ {
6832
+ "epoch": 0.56,
6833
+ "learning_rate": 0.000388,
6834
+ "loss": 2.2063,
6835
+ "step": 1127
6836
+ },
6837
+ {
6838
+ "epoch": 0.56,
6839
+ "learning_rate": 0.0003875555555555556,
6840
+ "loss": 2.3393,
6841
+ "step": 1128
6842
+ },
6843
+ {
6844
+ "epoch": 0.56,
6845
+ "learning_rate": 0.00038711111111111113,
6846
+ "loss": 2.2483,
6847
+ "step": 1129
6848
+ },
6849
+ {
6850
+ "epoch": 0.56,
6851
+ "learning_rate": 0.00038666666666666667,
6852
+ "loss": 2.2506,
6853
+ "step": 1130
6854
+ },
6855
+ {
6856
+ "epoch": 0.57,
6857
+ "learning_rate": 0.0003862222222222222,
6858
+ "loss": 2.2516,
6859
+ "step": 1131
6860
+ },
6861
+ {
6862
+ "epoch": 0.57,
6863
+ "learning_rate": 0.0003857777777777778,
6864
+ "loss": 2.2543,
6865
+ "step": 1132
6866
+ },
6867
+ {
6868
+ "epoch": 0.57,
6869
+ "learning_rate": 0.0003853333333333334,
6870
+ "loss": 2.2858,
6871
+ "step": 1133
6872
+ },
6873
+ {
6874
+ "epoch": 0.57,
6875
+ "learning_rate": 0.0003848888888888889,
6876
+ "loss": 2.1998,
6877
+ "step": 1134
6878
+ },
6879
+ {
6880
+ "epoch": 0.57,
6881
+ "learning_rate": 0.00038444444444444447,
6882
+ "loss": 2.2668,
6883
+ "step": 1135
6884
+ },
6885
+ {
6886
+ "epoch": 0.57,
6887
+ "learning_rate": 0.000384,
6888
+ "loss": 2.2263,
6889
+ "step": 1136
6890
+ },
6891
+ {
6892
+ "epoch": 0.57,
6893
+ "learning_rate": 0.0003835555555555556,
6894
+ "loss": 2.2531,
6895
+ "step": 1137
6896
+ },
6897
+ {
6898
+ "epoch": 0.57,
6899
+ "learning_rate": 0.0003831111111111111,
6900
+ "loss": 2.2176,
6901
+ "step": 1138
6902
+ },
6903
+ {
6904
+ "epoch": 0.57,
6905
+ "learning_rate": 0.0003826666666666667,
6906
+ "loss": 2.2106,
6907
+ "step": 1139
6908
+ },
6909
+ {
6910
+ "epoch": 0.57,
6911
+ "learning_rate": 0.0003822222222222223,
6912
+ "loss": 2.2093,
6913
+ "step": 1140
6914
+ },
6915
+ {
6916
+ "epoch": 0.57,
6917
+ "learning_rate": 0.0003817777777777778,
6918
+ "loss": 2.2806,
6919
+ "step": 1141
6920
+ },
6921
+ {
6922
+ "epoch": 0.57,
6923
+ "learning_rate": 0.00038133333333333335,
6924
+ "loss": 2.2486,
6925
+ "step": 1142
6926
+ },
6927
+ {
6928
+ "epoch": 0.57,
6929
+ "learning_rate": 0.0003808888888888889,
6930
+ "loss": 2.1462,
6931
+ "step": 1143
6932
+ },
6933
+ {
6934
+ "epoch": 0.57,
6935
+ "learning_rate": 0.0003804444444444445,
6936
+ "loss": 2.1784,
6937
+ "step": 1144
6938
+ },
6939
+ {
6940
+ "epoch": 0.57,
6941
+ "learning_rate": 0.00038,
6942
+ "loss": 2.2601,
6943
+ "step": 1145
6944
+ },
6945
+ {
6946
+ "epoch": 0.57,
6947
+ "learning_rate": 0.00037955555555555556,
6948
+ "loss": 2.1816,
6949
+ "step": 1146
6950
+ },
6951
+ {
6952
+ "epoch": 0.57,
6953
+ "learning_rate": 0.00037911111111111115,
6954
+ "loss": 2.2372,
6955
+ "step": 1147
6956
+ },
6957
+ {
6958
+ "epoch": 0.57,
6959
+ "learning_rate": 0.0003786666666666667,
6960
+ "loss": 2.1934,
6961
+ "step": 1148
6962
+ },
6963
+ {
6964
+ "epoch": 0.57,
6965
+ "learning_rate": 0.00037822222222222223,
6966
+ "loss": 2.151,
6967
+ "step": 1149
6968
+ },
6969
+ {
6970
+ "epoch": 0.57,
6971
+ "learning_rate": 0.00037777777777777777,
6972
+ "loss": 2.2499,
6973
+ "step": 1150
6974
+ },
6975
+ {
6976
+ "epoch": 0.58,
6977
+ "learning_rate": 0.00037733333333333336,
6978
+ "loss": 2.1494,
6979
+ "step": 1151
6980
+ },
6981
+ {
6982
+ "epoch": 0.58,
6983
+ "learning_rate": 0.0003768888888888889,
6984
+ "loss": 2.2536,
6985
+ "step": 1152
6986
+ },
6987
+ {
6988
+ "epoch": 0.58,
6989
+ "learning_rate": 0.00037644444444444444,
6990
+ "loss": 2.186,
6991
+ "step": 1153
6992
+ },
6993
+ {
6994
+ "epoch": 0.58,
6995
+ "learning_rate": 0.000376,
6996
+ "loss": 2.2463,
6997
+ "step": 1154
6998
+ },
6999
+ {
7000
+ "epoch": 0.58,
7001
+ "learning_rate": 0.00037555555555555557,
7002
+ "loss": 2.2183,
7003
+ "step": 1155
7004
+ },
7005
+ {
7006
+ "epoch": 0.58,
7007
+ "learning_rate": 0.00037511111111111116,
7008
+ "loss": 2.2226,
7009
+ "step": 1156
7010
+ },
7011
+ {
7012
+ "epoch": 0.58,
7013
+ "learning_rate": 0.0003746666666666667,
7014
+ "loss": 2.2353,
7015
+ "step": 1157
7016
+ },
7017
+ {
7018
+ "epoch": 0.58,
7019
+ "learning_rate": 0.00037422222222222224,
7020
+ "loss": 2.2144,
7021
+ "step": 1158
7022
+ },
7023
+ {
7024
+ "epoch": 0.58,
7025
+ "learning_rate": 0.0003737777777777778,
7026
+ "loss": 2.232,
7027
+ "step": 1159
7028
+ },
7029
+ {
7030
+ "epoch": 0.58,
7031
+ "learning_rate": 0.0003733333333333334,
7032
+ "loss": 2.2233,
7033
+ "step": 1160
7034
+ },
7035
+ {
7036
+ "epoch": 0.58,
7037
+ "learning_rate": 0.0003728888888888889,
7038
+ "loss": 2.1968,
7039
+ "step": 1161
7040
+ },
7041
+ {
7042
+ "epoch": 0.58,
7043
+ "learning_rate": 0.00037244444444444445,
7044
+ "loss": 2.2326,
7045
+ "step": 1162
7046
+ },
7047
+ {
7048
+ "epoch": 0.58,
7049
+ "learning_rate": 0.00037200000000000004,
7050
+ "loss": 2.1779,
7051
+ "step": 1163
7052
+ },
7053
+ {
7054
+ "epoch": 0.58,
7055
+ "learning_rate": 0.0003715555555555556,
7056
+ "loss": 2.1174,
7057
+ "step": 1164
7058
+ },
7059
+ {
7060
+ "epoch": 0.58,
7061
+ "learning_rate": 0.0003711111111111111,
7062
+ "loss": 2.2201,
7063
+ "step": 1165
7064
+ },
7065
+ {
7066
+ "epoch": 0.58,
7067
+ "learning_rate": 0.00037066666666666666,
7068
+ "loss": 2.1531,
7069
+ "step": 1166
7070
+ },
7071
+ {
7072
+ "epoch": 0.58,
7073
+ "learning_rate": 0.00037022222222222225,
7074
+ "loss": 2.2818,
7075
+ "step": 1167
7076
+ },
7077
+ {
7078
+ "epoch": 0.58,
7079
+ "learning_rate": 0.0003697777777777778,
7080
+ "loss": 2.2397,
7081
+ "step": 1168
7082
+ },
7083
+ {
7084
+ "epoch": 0.58,
7085
+ "learning_rate": 0.00036933333333333333,
7086
+ "loss": 2.2505,
7087
+ "step": 1169
7088
+ },
7089
+ {
7090
+ "epoch": 0.58,
7091
+ "learning_rate": 0.0003688888888888889,
7092
+ "loss": 2.3194,
7093
+ "step": 1170
7094
+ },
7095
+ {
7096
+ "epoch": 0.59,
7097
+ "learning_rate": 0.00036844444444444446,
7098
+ "loss": 2.2095,
7099
+ "step": 1171
7100
+ },
7101
+ {
7102
+ "epoch": 0.59,
7103
+ "learning_rate": 0.00036800000000000005,
7104
+ "loss": 2.2788,
7105
+ "step": 1172
7106
+ },
7107
+ {
7108
+ "epoch": 0.59,
7109
+ "learning_rate": 0.00036755555555555554,
7110
+ "loss": 2.1899,
7111
+ "step": 1173
7112
+ },
7113
+ {
7114
+ "epoch": 0.59,
7115
+ "learning_rate": 0.00036711111111111113,
7116
+ "loss": 2.1734,
7117
+ "step": 1174
7118
+ },
7119
+ {
7120
+ "epoch": 0.59,
7121
+ "learning_rate": 0.00036666666666666667,
7122
+ "loss": 2.2329,
7123
+ "step": 1175
7124
+ },
7125
+ {
7126
+ "epoch": 0.59,
7127
+ "learning_rate": 0.00036622222222222226,
7128
+ "loss": 2.2439,
7129
+ "step": 1176
7130
+ },
7131
+ {
7132
+ "epoch": 0.59,
7133
+ "learning_rate": 0.00036577777777777775,
7134
+ "loss": 2.1828,
7135
+ "step": 1177
7136
+ },
7137
+ {
7138
+ "epoch": 0.59,
7139
+ "learning_rate": 0.00036533333333333334,
7140
+ "loss": 2.2352,
7141
+ "step": 1178
7142
+ },
7143
+ {
7144
+ "epoch": 0.59,
7145
+ "learning_rate": 0.00036488888888888893,
7146
+ "loss": 2.2226,
7147
+ "step": 1179
7148
+ },
7149
+ {
7150
+ "epoch": 0.59,
7151
+ "learning_rate": 0.00036444444444444447,
7152
+ "loss": 2.1416,
7153
+ "step": 1180
7154
+ },
7155
+ {
7156
+ "epoch": 0.59,
7157
+ "learning_rate": 0.000364,
7158
+ "loss": 2.2727,
7159
+ "step": 1181
7160
+ },
7161
+ {
7162
+ "epoch": 0.59,
7163
+ "learning_rate": 0.00036355555555555555,
7164
+ "loss": 2.2861,
7165
+ "step": 1182
7166
+ },
7167
+ {
7168
+ "epoch": 0.59,
7169
+ "learning_rate": 0.00036311111111111114,
7170
+ "loss": 2.1931,
7171
+ "step": 1183
7172
+ },
7173
+ {
7174
+ "epoch": 0.59,
7175
+ "learning_rate": 0.0003626666666666667,
7176
+ "loss": 2.2435,
7177
+ "step": 1184
7178
+ },
7179
+ {
7180
+ "epoch": 0.59,
7181
+ "learning_rate": 0.0003622222222222222,
7182
+ "loss": 2.2815,
7183
+ "step": 1185
7184
+ },
7185
+ {
7186
+ "epoch": 0.59,
7187
+ "learning_rate": 0.0003617777777777778,
7188
+ "loss": 2.257,
7189
+ "step": 1186
7190
+ },
7191
+ {
7192
+ "epoch": 0.59,
7193
+ "learning_rate": 0.00036133333333333335,
7194
+ "loss": 2.2182,
7195
+ "step": 1187
7196
+ },
7197
+ {
7198
+ "epoch": 0.59,
7199
+ "learning_rate": 0.00036088888888888895,
7200
+ "loss": 2.2526,
7201
+ "step": 1188
7202
+ },
7203
+ {
7204
+ "epoch": 0.59,
7205
+ "learning_rate": 0.00036044444444444443,
7206
+ "loss": 2.2212,
7207
+ "step": 1189
7208
+ },
7209
+ {
7210
+ "epoch": 0.59,
7211
+ "learning_rate": 0.00036,
7212
+ "loss": 2.2718,
7213
+ "step": 1190
7214
+ },
7215
+ {
7216
+ "epoch": 0.6,
7217
+ "learning_rate": 0.00035955555555555556,
7218
+ "loss": 2.3178,
7219
+ "step": 1191
7220
+ },
7221
+ {
7222
+ "epoch": 0.6,
7223
+ "learning_rate": 0.00035911111111111115,
7224
+ "loss": 2.189,
7225
+ "step": 1192
7226
+ },
7227
+ {
7228
+ "epoch": 0.6,
7229
+ "learning_rate": 0.00035866666666666664,
7230
+ "loss": 2.2615,
7231
+ "step": 1193
7232
+ },
7233
+ {
7234
+ "epoch": 0.6,
7235
+ "learning_rate": 0.00035822222222222223,
7236
+ "loss": 2.1864,
7237
+ "step": 1194
7238
+ },
7239
+ {
7240
+ "epoch": 0.6,
7241
+ "learning_rate": 0.0003577777777777778,
7242
+ "loss": 2.1476,
7243
+ "step": 1195
7244
+ },
7245
+ {
7246
+ "epoch": 0.6,
7247
+ "learning_rate": 0.00035733333333333336,
7248
+ "loss": 2.2484,
7249
+ "step": 1196
7250
+ },
7251
+ {
7252
+ "epoch": 0.6,
7253
+ "learning_rate": 0.0003568888888888889,
7254
+ "loss": 2.2128,
7255
+ "step": 1197
7256
+ },
7257
+ {
7258
+ "epoch": 0.6,
7259
+ "learning_rate": 0.00035644444444444444,
7260
+ "loss": 2.1948,
7261
+ "step": 1198
7262
+ },
7263
+ {
7264
+ "epoch": 0.6,
7265
+ "learning_rate": 0.00035600000000000003,
7266
+ "loss": 2.292,
7267
+ "step": 1199
7268
+ },
7269
+ {
7270
+ "epoch": 0.6,
7271
+ "learning_rate": 0.00035555555555555557,
7272
+ "loss": 2.1969,
7273
+ "step": 1200
7274
+ },
7275
+ {
7276
+ "epoch": 0.6,
7277
+ "eval_gen_len": 1023.0,
7278
+ "eval_loss": 2.126681089401245,
7279
+ "eval_rouge1": 13.5606,
7280
+ "eval_rouge2": 4.5005,
7281
+ "eval_rougeL": 8.5459,
7282
+ "eval_rougeLsum": 8.5241,
7283
+ "eval_runtime": 9294.4875,
7284
+ "eval_samples_per_second": 0.054,
7285
+ "eval_steps_per_second": 0.054,
7286
+ "step": 1200
7287
  }
7288
  ],
7289
  "max_steps": 2000,
7290
  "num_train_epochs": 9223372036854775807,
7291
+ "total_flos": 9.642800147560151e+17,
7292
  "trial_name": null,
7293
  "trial_params": null
7294
  }
pytorch_model.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:5331d64ba5ca3beab2d415de92525a4958f53e7f5ddaf2156cd41c76144da4e7
3
  size 2368281769
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:951861143d15fa1c5e1fffde87d6bb38f0764793caa011f89d710cfbb0713166
3
  size 2368281769