Joemgu commited on
Commit
0e6cbec
1 Parent(s): 557308b

Training in progress, step 400

Browse files
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:da89bbf56255467fc300c679809ab5415cdbf18df9c2c3fb2070c3e4cd902f34
3
  size 4736616809
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ebd7f9d6ab26cb2185ed05f18ace8d5014457a65bafae8910ab26fc80031697d
3
  size 4736616809
last-checkpoint/pytorch_model.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:1649cca59a6a8d74726a76c7340a221823661f3a836db46a53dbc67221b14982
3
  size 2368281769
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:04346cfbee02636e929bbdd06ddd0aa6ecb2b8f64b73fa9d623a5793dd51c467
3
  size 2368281769
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:829907c2ddd812cf0db97973145bb576e9b9568aa2102106c5f2e9d84f6b1059
3
  size 14575
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e39be00b4df7469aee65d451426dc5d779473844ca0a295cda433a67a93c87c0
3
  size 14575
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:97e255bbc5f7f71168348462c22fbdbbadbc23b19d6869fc621700a4f4ba07b1
3
  size 627
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8deb6207c940c5aabc87cab77725a0645b55bccfd9f3b35177ac6784668070e4
3
  size 627
last-checkpoint/trainer_state.json CHANGED
@@ -1,8 +1,8 @@
1
  {
2
- "best_metric": 2.0633840560913086,
3
- "best_model_checkpoint": "output/checkpoint-200",
4
- "epoch": 0.13673679768829353,
5
- "global_step": 200,
6
  "is_hyper_param_search": false,
7
  "is_local_process_zero": true,
8
  "is_world_process_zero": true,
@@ -1214,11 +1214,1219 @@
1214
  "eval_samples_per_second": 5.789,
1215
  "eval_steps_per_second": 5.789,
1216
  "step": 200
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1217
  }
1218
  ],
1219
  "max_steps": 4386,
1220
  "num_train_epochs": 3,
1221
- "total_flos": 2.4532993377759744e+17,
1222
  "trial_name": null,
1223
  "trial_params": null
1224
  }
 
1
  {
2
+ "best_metric": 2.0627405643463135,
3
+ "best_model_checkpoint": "output/checkpoint-400",
4
+ "epoch": 0.27347359537658705,
5
+ "global_step": 400,
6
  "is_hyper_param_search": false,
7
  "is_local_process_zero": true,
8
  "is_world_process_zero": true,
 
1214
  "eval_samples_per_second": 5.789,
1215
  "eval_steps_per_second": 5.789,
1216
  "step": 200
1217
+ },
1218
+ {
1219
+ "epoch": 0.14,
1220
+ "learning_rate": 0.0005998566650740563,
1221
+ "loss": 2.0193,
1222
+ "step": 201
1223
+ },
1224
+ {
1225
+ "epoch": 0.14,
1226
+ "learning_rate": 0.0005997133301481127,
1227
+ "loss": 2.0543,
1228
+ "step": 202
1229
+ },
1230
+ {
1231
+ "epoch": 0.14,
1232
+ "learning_rate": 0.0005995699952221691,
1233
+ "loss": 2.0542,
1234
+ "step": 203
1235
+ },
1236
+ {
1237
+ "epoch": 0.14,
1238
+ "learning_rate": 0.0005994266602962255,
1239
+ "loss": 2.1345,
1240
+ "step": 204
1241
+ },
1242
+ {
1243
+ "epoch": 0.14,
1244
+ "learning_rate": 0.0005992833253702819,
1245
+ "loss": 2.1243,
1246
+ "step": 205
1247
+ },
1248
+ {
1249
+ "epoch": 0.14,
1250
+ "learning_rate": 0.0005991399904443383,
1251
+ "loss": 2.0224,
1252
+ "step": 206
1253
+ },
1254
+ {
1255
+ "epoch": 0.14,
1256
+ "learning_rate": 0.0005989966555183946,
1257
+ "loss": 2.0536,
1258
+ "step": 207
1259
+ },
1260
+ {
1261
+ "epoch": 0.14,
1262
+ "learning_rate": 0.0005988533205924509,
1263
+ "loss": 2.073,
1264
+ "step": 208
1265
+ },
1266
+ {
1267
+ "epoch": 0.14,
1268
+ "learning_rate": 0.0005987099856665074,
1269
+ "loss": 1.9553,
1270
+ "step": 209
1271
+ },
1272
+ {
1273
+ "epoch": 0.14,
1274
+ "learning_rate": 0.0005985666507405637,
1275
+ "loss": 2.0866,
1276
+ "step": 210
1277
+ },
1278
+ {
1279
+ "epoch": 0.14,
1280
+ "learning_rate": 0.0005984233158146202,
1281
+ "loss": 2.0656,
1282
+ "step": 211
1283
+ },
1284
+ {
1285
+ "epoch": 0.14,
1286
+ "learning_rate": 0.0005982799808886764,
1287
+ "loss": 2.0459,
1288
+ "step": 212
1289
+ },
1290
+ {
1291
+ "epoch": 0.15,
1292
+ "learning_rate": 0.0005981366459627329,
1293
+ "loss": 1.9813,
1294
+ "step": 213
1295
+ },
1296
+ {
1297
+ "epoch": 0.15,
1298
+ "learning_rate": 0.0005979933110367892,
1299
+ "loss": 2.0579,
1300
+ "step": 214
1301
+ },
1302
+ {
1303
+ "epoch": 0.15,
1304
+ "learning_rate": 0.0005978499761108456,
1305
+ "loss": 2.1568,
1306
+ "step": 215
1307
+ },
1308
+ {
1309
+ "epoch": 0.15,
1310
+ "learning_rate": 0.000597706641184902,
1311
+ "loss": 2.0049,
1312
+ "step": 216
1313
+ },
1314
+ {
1315
+ "epoch": 0.15,
1316
+ "learning_rate": 0.0005975633062589584,
1317
+ "loss": 1.9582,
1318
+ "step": 217
1319
+ },
1320
+ {
1321
+ "epoch": 0.15,
1322
+ "learning_rate": 0.0005974199713330147,
1323
+ "loss": 1.9647,
1324
+ "step": 218
1325
+ },
1326
+ {
1327
+ "epoch": 0.15,
1328
+ "learning_rate": 0.0005972766364070711,
1329
+ "loss": 2.0564,
1330
+ "step": 219
1331
+ },
1332
+ {
1333
+ "epoch": 0.15,
1334
+ "learning_rate": 0.0005971333014811275,
1335
+ "loss": 2.0314,
1336
+ "step": 220
1337
+ },
1338
+ {
1339
+ "epoch": 0.15,
1340
+ "learning_rate": 0.0005969899665551839,
1341
+ "loss": 1.9784,
1342
+ "step": 221
1343
+ },
1344
+ {
1345
+ "epoch": 0.15,
1346
+ "learning_rate": 0.0005968466316292403,
1347
+ "loss": 2.015,
1348
+ "step": 222
1349
+ },
1350
+ {
1351
+ "epoch": 0.15,
1352
+ "learning_rate": 0.0005967032967032967,
1353
+ "loss": 1.9988,
1354
+ "step": 223
1355
+ },
1356
+ {
1357
+ "epoch": 0.15,
1358
+ "learning_rate": 0.000596559961777353,
1359
+ "loss": 2.1571,
1360
+ "step": 224
1361
+ },
1362
+ {
1363
+ "epoch": 0.15,
1364
+ "learning_rate": 0.0005964166268514094,
1365
+ "loss": 2.0942,
1366
+ "step": 225
1367
+ },
1368
+ {
1369
+ "epoch": 0.15,
1370
+ "learning_rate": 0.0005962732919254658,
1371
+ "loss": 2.0249,
1372
+ "step": 226
1373
+ },
1374
+ {
1375
+ "epoch": 0.16,
1376
+ "learning_rate": 0.0005961299569995222,
1377
+ "loss": 2.0765,
1378
+ "step": 227
1379
+ },
1380
+ {
1381
+ "epoch": 0.16,
1382
+ "learning_rate": 0.0005959866220735786,
1383
+ "loss": 2.0339,
1384
+ "step": 228
1385
+ },
1386
+ {
1387
+ "epoch": 0.16,
1388
+ "learning_rate": 0.0005958432871476349,
1389
+ "loss": 1.9932,
1390
+ "step": 229
1391
+ },
1392
+ {
1393
+ "epoch": 0.16,
1394
+ "learning_rate": 0.0005956999522216914,
1395
+ "loss": 2.0667,
1396
+ "step": 230
1397
+ },
1398
+ {
1399
+ "epoch": 0.16,
1400
+ "learning_rate": 0.0005955566172957476,
1401
+ "loss": 1.9975,
1402
+ "step": 231
1403
+ },
1404
+ {
1405
+ "epoch": 0.16,
1406
+ "learning_rate": 0.0005954132823698041,
1407
+ "loss": 2.1712,
1408
+ "step": 232
1409
+ },
1410
+ {
1411
+ "epoch": 0.16,
1412
+ "learning_rate": 0.0005952699474438604,
1413
+ "loss": 2.0982,
1414
+ "step": 233
1415
+ },
1416
+ {
1417
+ "epoch": 0.16,
1418
+ "learning_rate": 0.0005951266125179169,
1419
+ "loss": 2.0666,
1420
+ "step": 234
1421
+ },
1422
+ {
1423
+ "epoch": 0.16,
1424
+ "learning_rate": 0.0005949832775919732,
1425
+ "loss": 2.0398,
1426
+ "step": 235
1427
+ },
1428
+ {
1429
+ "epoch": 0.16,
1430
+ "learning_rate": 0.0005948399426660295,
1431
+ "loss": 2.148,
1432
+ "step": 236
1433
+ },
1434
+ {
1435
+ "epoch": 0.16,
1436
+ "learning_rate": 0.0005946966077400859,
1437
+ "loss": 2.129,
1438
+ "step": 237
1439
+ },
1440
+ {
1441
+ "epoch": 0.16,
1442
+ "learning_rate": 0.0005945532728141423,
1443
+ "loss": 1.9516,
1444
+ "step": 238
1445
+ },
1446
+ {
1447
+ "epoch": 0.16,
1448
+ "learning_rate": 0.0005944099378881987,
1449
+ "loss": 2.1107,
1450
+ "step": 239
1451
+ },
1452
+ {
1453
+ "epoch": 0.16,
1454
+ "learning_rate": 0.0005942666029622551,
1455
+ "loss": 2.0135,
1456
+ "step": 240
1457
+ },
1458
+ {
1459
+ "epoch": 0.16,
1460
+ "learning_rate": 0.0005941232680363115,
1461
+ "loss": 2.1016,
1462
+ "step": 241
1463
+ },
1464
+ {
1465
+ "epoch": 0.17,
1466
+ "learning_rate": 0.0005939799331103678,
1467
+ "loss": 2.1468,
1468
+ "step": 242
1469
+ },
1470
+ {
1471
+ "epoch": 0.17,
1472
+ "learning_rate": 0.0005938365981844242,
1473
+ "loss": 1.9971,
1474
+ "step": 243
1475
+ },
1476
+ {
1477
+ "epoch": 0.17,
1478
+ "learning_rate": 0.0005936932632584806,
1479
+ "loss": 1.9989,
1480
+ "step": 244
1481
+ },
1482
+ {
1483
+ "epoch": 0.17,
1484
+ "learning_rate": 0.000593549928332537,
1485
+ "loss": 2.0357,
1486
+ "step": 245
1487
+ },
1488
+ {
1489
+ "epoch": 0.17,
1490
+ "learning_rate": 0.0005934065934065934,
1491
+ "loss": 2.0284,
1492
+ "step": 246
1493
+ },
1494
+ {
1495
+ "epoch": 0.17,
1496
+ "learning_rate": 0.0005932632584806498,
1497
+ "loss": 1.9888,
1498
+ "step": 247
1499
+ },
1500
+ {
1501
+ "epoch": 0.17,
1502
+ "learning_rate": 0.0005931199235547062,
1503
+ "loss": 1.9282,
1504
+ "step": 248
1505
+ },
1506
+ {
1507
+ "epoch": 0.17,
1508
+ "learning_rate": 0.0005929765886287625,
1509
+ "loss": 2.1674,
1510
+ "step": 249
1511
+ },
1512
+ {
1513
+ "epoch": 0.17,
1514
+ "learning_rate": 0.0005928332537028188,
1515
+ "loss": 2.1181,
1516
+ "step": 250
1517
+ },
1518
+ {
1519
+ "epoch": 0.17,
1520
+ "learning_rate": 0.0005926899187768753,
1521
+ "loss": 2.0121,
1522
+ "step": 251
1523
+ },
1524
+ {
1525
+ "epoch": 0.17,
1526
+ "learning_rate": 0.0005925465838509316,
1527
+ "loss": 2.0473,
1528
+ "step": 252
1529
+ },
1530
+ {
1531
+ "epoch": 0.17,
1532
+ "learning_rate": 0.0005924032489249881,
1533
+ "loss": 2.1176,
1534
+ "step": 253
1535
+ },
1536
+ {
1537
+ "epoch": 0.17,
1538
+ "learning_rate": 0.0005922599139990443,
1539
+ "loss": 2.0193,
1540
+ "step": 254
1541
+ },
1542
+ {
1543
+ "epoch": 0.17,
1544
+ "learning_rate": 0.0005921165790731007,
1545
+ "loss": 2.1572,
1546
+ "step": 255
1547
+ },
1548
+ {
1549
+ "epoch": 0.18,
1550
+ "learning_rate": 0.0005919732441471571,
1551
+ "loss": 2.0089,
1552
+ "step": 256
1553
+ },
1554
+ {
1555
+ "epoch": 0.18,
1556
+ "learning_rate": 0.0005918299092212135,
1557
+ "loss": 2.0258,
1558
+ "step": 257
1559
+ },
1560
+ {
1561
+ "epoch": 0.18,
1562
+ "learning_rate": 0.0005916865742952699,
1563
+ "loss": 2.1088,
1564
+ "step": 258
1565
+ },
1566
+ {
1567
+ "epoch": 0.18,
1568
+ "learning_rate": 0.0005915432393693263,
1569
+ "loss": 2.0018,
1570
+ "step": 259
1571
+ },
1572
+ {
1573
+ "epoch": 0.18,
1574
+ "learning_rate": 0.0005913999044433826,
1575
+ "loss": 2.0369,
1576
+ "step": 260
1577
+ },
1578
+ {
1579
+ "epoch": 0.18,
1580
+ "learning_rate": 0.000591256569517439,
1581
+ "loss": 2.119,
1582
+ "step": 261
1583
+ },
1584
+ {
1585
+ "epoch": 0.18,
1586
+ "learning_rate": 0.0005911132345914954,
1587
+ "loss": 2.1527,
1588
+ "step": 262
1589
+ },
1590
+ {
1591
+ "epoch": 0.18,
1592
+ "learning_rate": 0.0005909698996655518,
1593
+ "loss": 2.0851,
1594
+ "step": 263
1595
+ },
1596
+ {
1597
+ "epoch": 0.18,
1598
+ "learning_rate": 0.0005908265647396082,
1599
+ "loss": 2.1476,
1600
+ "step": 264
1601
+ },
1602
+ {
1603
+ "epoch": 0.18,
1604
+ "learning_rate": 0.0005906832298136646,
1605
+ "loss": 2.1613,
1606
+ "step": 265
1607
+ },
1608
+ {
1609
+ "epoch": 0.18,
1610
+ "learning_rate": 0.000590539894887721,
1611
+ "loss": 2.2171,
1612
+ "step": 266
1613
+ },
1614
+ {
1615
+ "epoch": 0.18,
1616
+ "learning_rate": 0.0005903965599617773,
1617
+ "loss": 2.1749,
1618
+ "step": 267
1619
+ },
1620
+ {
1621
+ "epoch": 0.18,
1622
+ "learning_rate": 0.0005902532250358337,
1623
+ "loss": 2.0579,
1624
+ "step": 268
1625
+ },
1626
+ {
1627
+ "epoch": 0.18,
1628
+ "learning_rate": 0.00059010989010989,
1629
+ "loss": 2.0551,
1630
+ "step": 269
1631
+ },
1632
+ {
1633
+ "epoch": 0.18,
1634
+ "learning_rate": 0.0005899665551839465,
1635
+ "loss": 2.0846,
1636
+ "step": 270
1637
+ },
1638
+ {
1639
+ "epoch": 0.19,
1640
+ "learning_rate": 0.0005898232202580028,
1641
+ "loss": 2.03,
1642
+ "step": 271
1643
+ },
1644
+ {
1645
+ "epoch": 0.19,
1646
+ "learning_rate": 0.0005896798853320593,
1647
+ "loss": 1.9923,
1648
+ "step": 272
1649
+ },
1650
+ {
1651
+ "epoch": 0.19,
1652
+ "learning_rate": 0.0005895365504061155,
1653
+ "loss": 2.0308,
1654
+ "step": 273
1655
+ },
1656
+ {
1657
+ "epoch": 0.19,
1658
+ "learning_rate": 0.000589393215480172,
1659
+ "loss": 1.9601,
1660
+ "step": 274
1661
+ },
1662
+ {
1663
+ "epoch": 0.19,
1664
+ "learning_rate": 0.0005892498805542283,
1665
+ "loss": 2.0328,
1666
+ "step": 275
1667
+ },
1668
+ {
1669
+ "epoch": 0.19,
1670
+ "learning_rate": 0.0005891065456282847,
1671
+ "loss": 2.0893,
1672
+ "step": 276
1673
+ },
1674
+ {
1675
+ "epoch": 0.19,
1676
+ "learning_rate": 0.0005889632107023411,
1677
+ "loss": 2.1038,
1678
+ "step": 277
1679
+ },
1680
+ {
1681
+ "epoch": 0.19,
1682
+ "learning_rate": 0.0005888198757763974,
1683
+ "loss": 2.0607,
1684
+ "step": 278
1685
+ },
1686
+ {
1687
+ "epoch": 0.19,
1688
+ "learning_rate": 0.0005886765408504538,
1689
+ "loss": 2.054,
1690
+ "step": 279
1691
+ },
1692
+ {
1693
+ "epoch": 0.19,
1694
+ "learning_rate": 0.0005885332059245102,
1695
+ "loss": 2.151,
1696
+ "step": 280
1697
+ },
1698
+ {
1699
+ "epoch": 0.19,
1700
+ "learning_rate": 0.0005883898709985666,
1701
+ "loss": 2.1348,
1702
+ "step": 281
1703
+ },
1704
+ {
1705
+ "epoch": 0.19,
1706
+ "learning_rate": 0.000588246536072623,
1707
+ "loss": 2.0293,
1708
+ "step": 282
1709
+ },
1710
+ {
1711
+ "epoch": 0.19,
1712
+ "learning_rate": 0.0005881032011466794,
1713
+ "loss": 2.1417,
1714
+ "step": 283
1715
+ },
1716
+ {
1717
+ "epoch": 0.19,
1718
+ "learning_rate": 0.0005879598662207358,
1719
+ "loss": 1.9914,
1720
+ "step": 284
1721
+ },
1722
+ {
1723
+ "epoch": 0.19,
1724
+ "learning_rate": 0.0005878165312947921,
1725
+ "loss": 2.0846,
1726
+ "step": 285
1727
+ },
1728
+ {
1729
+ "epoch": 0.2,
1730
+ "learning_rate": 0.0005876731963688485,
1731
+ "loss": 2.1063,
1732
+ "step": 286
1733
+ },
1734
+ {
1735
+ "epoch": 0.2,
1736
+ "learning_rate": 0.0005875298614429049,
1737
+ "loss": 2.0454,
1738
+ "step": 287
1739
+ },
1740
+ {
1741
+ "epoch": 0.2,
1742
+ "learning_rate": 0.0005873865265169613,
1743
+ "loss": 2.0268,
1744
+ "step": 288
1745
+ },
1746
+ {
1747
+ "epoch": 0.2,
1748
+ "learning_rate": 0.0005872431915910177,
1749
+ "loss": 2.0762,
1750
+ "step": 289
1751
+ },
1752
+ {
1753
+ "epoch": 0.2,
1754
+ "learning_rate": 0.0005870998566650739,
1755
+ "loss": 2.0691,
1756
+ "step": 290
1757
+ },
1758
+ {
1759
+ "epoch": 0.2,
1760
+ "learning_rate": 0.0005869565217391304,
1761
+ "loss": 2.0831,
1762
+ "step": 291
1763
+ },
1764
+ {
1765
+ "epoch": 0.2,
1766
+ "learning_rate": 0.0005868131868131867,
1767
+ "loss": 2.0361,
1768
+ "step": 292
1769
+ },
1770
+ {
1771
+ "epoch": 0.2,
1772
+ "learning_rate": 0.0005866698518872432,
1773
+ "loss": 2.041,
1774
+ "step": 293
1775
+ },
1776
+ {
1777
+ "epoch": 0.2,
1778
+ "learning_rate": 0.0005865265169612995,
1779
+ "loss": 2.0438,
1780
+ "step": 294
1781
+ },
1782
+ {
1783
+ "epoch": 0.2,
1784
+ "learning_rate": 0.000586383182035356,
1785
+ "loss": 2.0392,
1786
+ "step": 295
1787
+ },
1788
+ {
1789
+ "epoch": 0.2,
1790
+ "learning_rate": 0.0005862398471094122,
1791
+ "loss": 2.0769,
1792
+ "step": 296
1793
+ },
1794
+ {
1795
+ "epoch": 0.2,
1796
+ "learning_rate": 0.0005860965121834686,
1797
+ "loss": 2.0878,
1798
+ "step": 297
1799
+ },
1800
+ {
1801
+ "epoch": 0.2,
1802
+ "learning_rate": 0.000585953177257525,
1803
+ "loss": 2.1053,
1804
+ "step": 298
1805
+ },
1806
+ {
1807
+ "epoch": 0.2,
1808
+ "learning_rate": 0.0005858098423315814,
1809
+ "loss": 2.1494,
1810
+ "step": 299
1811
+ },
1812
+ {
1813
+ "epoch": 0.21,
1814
+ "learning_rate": 0.0005856665074056378,
1815
+ "loss": 2.0596,
1816
+ "step": 300
1817
+ },
1818
+ {
1819
+ "epoch": 0.21,
1820
+ "learning_rate": 0.0005855231724796942,
1821
+ "loss": 2.0303,
1822
+ "step": 301
1823
+ },
1824
+ {
1825
+ "epoch": 0.21,
1826
+ "learning_rate": 0.0005853798375537506,
1827
+ "loss": 2.0842,
1828
+ "step": 302
1829
+ },
1830
+ {
1831
+ "epoch": 0.21,
1832
+ "learning_rate": 0.0005852365026278069,
1833
+ "loss": 2.1627,
1834
+ "step": 303
1835
+ },
1836
+ {
1837
+ "epoch": 0.21,
1838
+ "learning_rate": 0.0005850931677018633,
1839
+ "loss": 2.0082,
1840
+ "step": 304
1841
+ },
1842
+ {
1843
+ "epoch": 0.21,
1844
+ "learning_rate": 0.0005849498327759197,
1845
+ "loss": 2.062,
1846
+ "step": 305
1847
+ },
1848
+ {
1849
+ "epoch": 0.21,
1850
+ "learning_rate": 0.0005848064978499761,
1851
+ "loss": 2.0595,
1852
+ "step": 306
1853
+ },
1854
+ {
1855
+ "epoch": 0.21,
1856
+ "learning_rate": 0.0005846631629240325,
1857
+ "loss": 2.0231,
1858
+ "step": 307
1859
+ },
1860
+ {
1861
+ "epoch": 0.21,
1862
+ "learning_rate": 0.0005845198279980889,
1863
+ "loss": 2.0741,
1864
+ "step": 308
1865
+ },
1866
+ {
1867
+ "epoch": 0.21,
1868
+ "learning_rate": 0.0005843764930721452,
1869
+ "loss": 2.032,
1870
+ "step": 309
1871
+ },
1872
+ {
1873
+ "epoch": 0.21,
1874
+ "learning_rate": 0.0005842331581462016,
1875
+ "loss": 2.0719,
1876
+ "step": 310
1877
+ },
1878
+ {
1879
+ "epoch": 0.21,
1880
+ "learning_rate": 0.0005840898232202579,
1881
+ "loss": 2.2077,
1882
+ "step": 311
1883
+ },
1884
+ {
1885
+ "epoch": 0.21,
1886
+ "learning_rate": 0.0005839464882943144,
1887
+ "loss": 2.0157,
1888
+ "step": 312
1889
+ },
1890
+ {
1891
+ "epoch": 0.21,
1892
+ "learning_rate": 0.0005838031533683707,
1893
+ "loss": 2.0623,
1894
+ "step": 313
1895
+ },
1896
+ {
1897
+ "epoch": 0.21,
1898
+ "learning_rate": 0.0005836598184424272,
1899
+ "loss": 2.109,
1900
+ "step": 314
1901
+ },
1902
+ {
1903
+ "epoch": 0.22,
1904
+ "learning_rate": 0.0005835164835164834,
1905
+ "loss": 1.9956,
1906
+ "step": 315
1907
+ },
1908
+ {
1909
+ "epoch": 0.22,
1910
+ "learning_rate": 0.0005833731485905399,
1911
+ "loss": 2.037,
1912
+ "step": 316
1913
+ },
1914
+ {
1915
+ "epoch": 0.22,
1916
+ "learning_rate": 0.0005832298136645962,
1917
+ "loss": 2.1446,
1918
+ "step": 317
1919
+ },
1920
+ {
1921
+ "epoch": 0.22,
1922
+ "learning_rate": 0.0005830864787386526,
1923
+ "loss": 2.1719,
1924
+ "step": 318
1925
+ },
1926
+ {
1927
+ "epoch": 0.22,
1928
+ "learning_rate": 0.000582943143812709,
1929
+ "loss": 2.1727,
1930
+ "step": 319
1931
+ },
1932
+ {
1933
+ "epoch": 0.22,
1934
+ "learning_rate": 0.0005827998088867654,
1935
+ "loss": 2.1275,
1936
+ "step": 320
1937
+ },
1938
+ {
1939
+ "epoch": 0.22,
1940
+ "learning_rate": 0.0005826564739608217,
1941
+ "loss": 2.0181,
1942
+ "step": 321
1943
+ },
1944
+ {
1945
+ "epoch": 0.22,
1946
+ "learning_rate": 0.0005825131390348781,
1947
+ "loss": 2.0416,
1948
+ "step": 322
1949
+ },
1950
+ {
1951
+ "epoch": 0.22,
1952
+ "learning_rate": 0.0005823698041089345,
1953
+ "loss": 2.1615,
1954
+ "step": 323
1955
+ },
1956
+ {
1957
+ "epoch": 0.22,
1958
+ "learning_rate": 0.0005822264691829909,
1959
+ "loss": 2.1476,
1960
+ "step": 324
1961
+ },
1962
+ {
1963
+ "epoch": 0.22,
1964
+ "learning_rate": 0.0005820831342570473,
1965
+ "loss": 2.0338,
1966
+ "step": 325
1967
+ },
1968
+ {
1969
+ "epoch": 0.22,
1970
+ "learning_rate": 0.0005819397993311037,
1971
+ "loss": 2.1117,
1972
+ "step": 326
1973
+ },
1974
+ {
1975
+ "epoch": 0.22,
1976
+ "learning_rate": 0.00058179646440516,
1977
+ "loss": 2.0487,
1978
+ "step": 327
1979
+ },
1980
+ {
1981
+ "epoch": 0.22,
1982
+ "learning_rate": 0.0005816531294792164,
1983
+ "loss": 2.03,
1984
+ "step": 328
1985
+ },
1986
+ {
1987
+ "epoch": 0.22,
1988
+ "learning_rate": 0.0005815097945532728,
1989
+ "loss": 2.06,
1990
+ "step": 329
1991
+ },
1992
+ {
1993
+ "epoch": 0.23,
1994
+ "learning_rate": 0.0005813664596273292,
1995
+ "loss": 2.0517,
1996
+ "step": 330
1997
+ },
1998
+ {
1999
+ "epoch": 0.23,
2000
+ "learning_rate": 0.0005812231247013856,
2001
+ "loss": 2.1105,
2002
+ "step": 331
2003
+ },
2004
+ {
2005
+ "epoch": 0.23,
2006
+ "learning_rate": 0.0005810797897754418,
2007
+ "loss": 2.0244,
2008
+ "step": 332
2009
+ },
2010
+ {
2011
+ "epoch": 0.23,
2012
+ "learning_rate": 0.0005809364548494983,
2013
+ "loss": 2.1025,
2014
+ "step": 333
2015
+ },
2016
+ {
2017
+ "epoch": 0.23,
2018
+ "learning_rate": 0.0005807931199235546,
2019
+ "loss": 2.0371,
2020
+ "step": 334
2021
+ },
2022
+ {
2023
+ "epoch": 0.23,
2024
+ "learning_rate": 0.0005806497849976111,
2025
+ "loss": 2.083,
2026
+ "step": 335
2027
+ },
2028
+ {
2029
+ "epoch": 0.23,
2030
+ "learning_rate": 0.0005805064500716674,
2031
+ "loss": 1.9636,
2032
+ "step": 336
2033
+ },
2034
+ {
2035
+ "epoch": 0.23,
2036
+ "learning_rate": 0.0005803631151457239,
2037
+ "loss": 2.1417,
2038
+ "step": 337
2039
+ },
2040
+ {
2041
+ "epoch": 0.23,
2042
+ "learning_rate": 0.0005802197802197801,
2043
+ "loss": 2.0717,
2044
+ "step": 338
2045
+ },
2046
+ {
2047
+ "epoch": 0.23,
2048
+ "learning_rate": 0.0005800764452938365,
2049
+ "loss": 2.0832,
2050
+ "step": 339
2051
+ },
2052
+ {
2053
+ "epoch": 0.23,
2054
+ "learning_rate": 0.0005799331103678929,
2055
+ "loss": 2.0748,
2056
+ "step": 340
2057
+ },
2058
+ {
2059
+ "epoch": 0.23,
2060
+ "learning_rate": 0.0005797897754419493,
2061
+ "loss": 2.086,
2062
+ "step": 341
2063
+ },
2064
+ {
2065
+ "epoch": 0.23,
2066
+ "learning_rate": 0.0005796464405160057,
2067
+ "loss": 2.075,
2068
+ "step": 342
2069
+ },
2070
+ {
2071
+ "epoch": 0.23,
2072
+ "learning_rate": 0.0005795031055900621,
2073
+ "loss": 2.1223,
2074
+ "step": 343
2075
+ },
2076
+ {
2077
+ "epoch": 0.24,
2078
+ "learning_rate": 0.0005793597706641185,
2079
+ "loss": 2.0627,
2080
+ "step": 344
2081
+ },
2082
+ {
2083
+ "epoch": 0.24,
2084
+ "learning_rate": 0.0005792164357381748,
2085
+ "loss": 2.069,
2086
+ "step": 345
2087
+ },
2088
+ {
2089
+ "epoch": 0.24,
2090
+ "learning_rate": 0.0005790731008122312,
2091
+ "loss": 2.1574,
2092
+ "step": 346
2093
+ },
2094
+ {
2095
+ "epoch": 0.24,
2096
+ "learning_rate": 0.0005789297658862876,
2097
+ "loss": 2.0647,
2098
+ "step": 347
2099
+ },
2100
+ {
2101
+ "epoch": 0.24,
2102
+ "learning_rate": 0.000578786430960344,
2103
+ "loss": 2.1713,
2104
+ "step": 348
2105
+ },
2106
+ {
2107
+ "epoch": 0.24,
2108
+ "learning_rate": 0.0005786430960344004,
2109
+ "loss": 2.0984,
2110
+ "step": 349
2111
+ },
2112
+ {
2113
+ "epoch": 0.24,
2114
+ "learning_rate": 0.0005784997611084568,
2115
+ "loss": 2.1219,
2116
+ "step": 350
2117
+ },
2118
+ {
2119
+ "epoch": 0.24,
2120
+ "learning_rate": 0.000578356426182513,
2121
+ "loss": 1.9956,
2122
+ "step": 351
2123
+ },
2124
+ {
2125
+ "epoch": 0.24,
2126
+ "learning_rate": 0.0005782130912565695,
2127
+ "loss": 2.1522,
2128
+ "step": 352
2129
+ },
2130
+ {
2131
+ "epoch": 0.24,
2132
+ "learning_rate": 0.0005780697563306258,
2133
+ "loss": 2.0521,
2134
+ "step": 353
2135
+ },
2136
+ {
2137
+ "epoch": 0.24,
2138
+ "learning_rate": 0.0005779264214046823,
2139
+ "loss": 1.9579,
2140
+ "step": 354
2141
+ },
2142
+ {
2143
+ "epoch": 0.24,
2144
+ "learning_rate": 0.0005777830864787386,
2145
+ "loss": 2.0615,
2146
+ "step": 355
2147
+ },
2148
+ {
2149
+ "epoch": 0.24,
2150
+ "learning_rate": 0.0005776397515527951,
2151
+ "loss": 2.0337,
2152
+ "step": 356
2153
+ },
2154
+ {
2155
+ "epoch": 0.24,
2156
+ "learning_rate": 0.0005774964166268513,
2157
+ "loss": 2.043,
2158
+ "step": 357
2159
+ },
2160
+ {
2161
+ "epoch": 0.24,
2162
+ "learning_rate": 0.0005773530817009077,
2163
+ "loss": 2.0453,
2164
+ "step": 358
2165
+ },
2166
+ {
2167
+ "epoch": 0.25,
2168
+ "learning_rate": 0.0005772097467749641,
2169
+ "loss": 2.0554,
2170
+ "step": 359
2171
+ },
2172
+ {
2173
+ "epoch": 0.25,
2174
+ "learning_rate": 0.0005770664118490205,
2175
+ "loss": 2.0509,
2176
+ "step": 360
2177
+ },
2178
+ {
2179
+ "epoch": 0.25,
2180
+ "learning_rate": 0.0005769230769230769,
2181
+ "loss": 1.9859,
2182
+ "step": 361
2183
+ },
2184
+ {
2185
+ "epoch": 0.25,
2186
+ "learning_rate": 0.0005767797419971333,
2187
+ "loss": 2.0209,
2188
+ "step": 362
2189
+ },
2190
+ {
2191
+ "epoch": 0.25,
2192
+ "learning_rate": 0.0005766364070711896,
2193
+ "loss": 1.9763,
2194
+ "step": 363
2195
+ },
2196
+ {
2197
+ "epoch": 0.25,
2198
+ "learning_rate": 0.000576493072145246,
2199
+ "loss": 2.1231,
2200
+ "step": 364
2201
+ },
2202
+ {
2203
+ "epoch": 0.25,
2204
+ "learning_rate": 0.0005763497372193024,
2205
+ "loss": 2.0418,
2206
+ "step": 365
2207
+ },
2208
+ {
2209
+ "epoch": 0.25,
2210
+ "learning_rate": 0.0005762064022933588,
2211
+ "loss": 1.9824,
2212
+ "step": 366
2213
+ },
2214
+ {
2215
+ "epoch": 0.25,
2216
+ "learning_rate": 0.0005760630673674152,
2217
+ "loss": 2.1536,
2218
+ "step": 367
2219
+ },
2220
+ {
2221
+ "epoch": 0.25,
2222
+ "learning_rate": 0.0005759197324414716,
2223
+ "loss": 2.0565,
2224
+ "step": 368
2225
+ },
2226
+ {
2227
+ "epoch": 0.25,
2228
+ "learning_rate": 0.0005757763975155279,
2229
+ "loss": 2.0413,
2230
+ "step": 369
2231
+ },
2232
+ {
2233
+ "epoch": 0.25,
2234
+ "learning_rate": 0.0005756330625895843,
2235
+ "loss": 2.0659,
2236
+ "step": 370
2237
+ },
2238
+ {
2239
+ "epoch": 0.25,
2240
+ "learning_rate": 0.0005754897276636407,
2241
+ "loss": 2.018,
2242
+ "step": 371
2243
+ },
2244
+ {
2245
+ "epoch": 0.25,
2246
+ "learning_rate": 0.000575346392737697,
2247
+ "loss": 2.0262,
2248
+ "step": 372
2249
+ },
2250
+ {
2251
+ "epoch": 0.26,
2252
+ "learning_rate": 0.0005752030578117535,
2253
+ "loss": 2.1005,
2254
+ "step": 373
2255
+ },
2256
+ {
2257
+ "epoch": 0.26,
2258
+ "learning_rate": 0.0005750597228858097,
2259
+ "loss": 2.0796,
2260
+ "step": 374
2261
+ },
2262
+ {
2263
+ "epoch": 0.26,
2264
+ "learning_rate": 0.0005749163879598662,
2265
+ "loss": 2.1344,
2266
+ "step": 375
2267
+ },
2268
+ {
2269
+ "epoch": 0.26,
2270
+ "learning_rate": 0.0005747730530339225,
2271
+ "loss": 1.9448,
2272
+ "step": 376
2273
+ },
2274
+ {
2275
+ "epoch": 0.26,
2276
+ "learning_rate": 0.0005746297181079789,
2277
+ "loss": 2.0658,
2278
+ "step": 377
2279
+ },
2280
+ {
2281
+ "epoch": 0.26,
2282
+ "learning_rate": 0.0005744863831820353,
2283
+ "loss": 2.0931,
2284
+ "step": 378
2285
+ },
2286
+ {
2287
+ "epoch": 0.26,
2288
+ "learning_rate": 0.0005743430482560917,
2289
+ "loss": 2.1048,
2290
+ "step": 379
2291
+ },
2292
+ {
2293
+ "epoch": 0.26,
2294
+ "learning_rate": 0.000574199713330148,
2295
+ "loss": 2.0263,
2296
+ "step": 380
2297
+ },
2298
+ {
2299
+ "epoch": 0.26,
2300
+ "learning_rate": 0.0005740563784042044,
2301
+ "loss": 2.1217,
2302
+ "step": 381
2303
+ },
2304
+ {
2305
+ "epoch": 0.26,
2306
+ "learning_rate": 0.0005739130434782608,
2307
+ "loss": 2.1169,
2308
+ "step": 382
2309
+ },
2310
+ {
2311
+ "epoch": 0.26,
2312
+ "learning_rate": 0.0005737697085523172,
2313
+ "loss": 2.1247,
2314
+ "step": 383
2315
+ },
2316
+ {
2317
+ "epoch": 0.26,
2318
+ "learning_rate": 0.0005736263736263736,
2319
+ "loss": 2.0325,
2320
+ "step": 384
2321
+ },
2322
+ {
2323
+ "epoch": 0.26,
2324
+ "learning_rate": 0.00057348303870043,
2325
+ "loss": 2.0885,
2326
+ "step": 385
2327
+ },
2328
+ {
2329
+ "epoch": 0.26,
2330
+ "learning_rate": 0.0005733397037744864,
2331
+ "loss": 1.9968,
2332
+ "step": 386
2333
+ },
2334
+ {
2335
+ "epoch": 0.26,
2336
+ "learning_rate": 0.0005731963688485427,
2337
+ "loss": 2.0911,
2338
+ "step": 387
2339
+ },
2340
+ {
2341
+ "epoch": 0.27,
2342
+ "learning_rate": 0.0005730530339225991,
2343
+ "loss": 2.0654,
2344
+ "step": 388
2345
+ },
2346
+ {
2347
+ "epoch": 0.27,
2348
+ "learning_rate": 0.0005729096989966555,
2349
+ "loss": 2.1938,
2350
+ "step": 389
2351
+ },
2352
+ {
2353
+ "epoch": 0.27,
2354
+ "learning_rate": 0.0005727663640707119,
2355
+ "loss": 2.1723,
2356
+ "step": 390
2357
+ },
2358
+ {
2359
+ "epoch": 0.27,
2360
+ "learning_rate": 0.0005726230291447683,
2361
+ "loss": 2.0289,
2362
+ "step": 391
2363
+ },
2364
+ {
2365
+ "epoch": 0.27,
2366
+ "learning_rate": 0.0005724796942188245,
2367
+ "loss": 2.1383,
2368
+ "step": 392
2369
+ },
2370
+ {
2371
+ "epoch": 0.27,
2372
+ "learning_rate": 0.0005723363592928809,
2373
+ "loss": 2.1457,
2374
+ "step": 393
2375
+ },
2376
+ {
2377
+ "epoch": 0.27,
2378
+ "learning_rate": 0.0005721930243669373,
2379
+ "loss": 2.0625,
2380
+ "step": 394
2381
+ },
2382
+ {
2383
+ "epoch": 0.27,
2384
+ "learning_rate": 0.0005720496894409937,
2385
+ "loss": 2.0906,
2386
+ "step": 395
2387
+ },
2388
+ {
2389
+ "epoch": 0.27,
2390
+ "learning_rate": 0.0005719063545150501,
2391
+ "loss": 2.0087,
2392
+ "step": 396
2393
+ },
2394
+ {
2395
+ "epoch": 0.27,
2396
+ "learning_rate": 0.0005717630195891065,
2397
+ "loss": 2.1128,
2398
+ "step": 397
2399
+ },
2400
+ {
2401
+ "epoch": 0.27,
2402
+ "learning_rate": 0.0005716196846631629,
2403
+ "loss": 2.1217,
2404
+ "step": 398
2405
+ },
2406
+ {
2407
+ "epoch": 0.27,
2408
+ "learning_rate": 0.0005714763497372192,
2409
+ "loss": 2.1162,
2410
+ "step": 399
2411
+ },
2412
+ {
2413
+ "epoch": 0.27,
2414
+ "learning_rate": 0.0005713330148112756,
2415
+ "loss": 2.1342,
2416
+ "step": 400
2417
+ },
2418
+ {
2419
+ "epoch": 0.27,
2420
+ "eval_loss": 2.0627405643463135,
2421
+ "eval_runtime": 1739.0775,
2422
+ "eval_samples_per_second": 5.75,
2423
+ "eval_steps_per_second": 5.75,
2424
+ "step": 400
2425
  }
2426
  ],
2427
  "max_steps": 4386,
2428
  "num_train_epochs": 3,
2429
+ "total_flos": 4.8975138397771776e+17,
2430
  "trial_name": null,
2431
  "trial_params": null
2432
  }
pytorch_model.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:1649cca59a6a8d74726a76c7340a221823661f3a836db46a53dbc67221b14982
3
  size 2368281769
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:04346cfbee02636e929bbdd06ddd0aa6ecb2b8f64b73fa9d623a5793dd51c467
3
  size 2368281769