Joemgu commited on
Commit
93e6d9d
1 Parent(s): b9a9be5

Training in progress, step 400

Browse files
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:2e1c5ea18bd87fdb611133a2de17cde918710c98486e4c43afa42b6a54bfdd26
3
  size 4736616809
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:537b98e9e4b084248e4303645beaeef65f5235a05ae56f3de4fb9728ce91f3d4
3
  size 4736616809
last-checkpoint/pytorch_model.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:b8e0394726ad0e28741282c318cacf3dc28269f23a93f3ff84875f2503165cc9
3
  size 2368281769
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:46d927f86c4381f851e153c7cd12d23e9c3b351d0fd5dd23d8dfbedb21e8dbf4
3
  size 2368281769
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:1784c9e20ffdc46b706882695c2108245d7626a328b6d70a37d079ad1fbbc989
3
  size 14575
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:972139d83957a9cf2600cb6eeca17287d7a5377c33a53500ae7e13fe830ad36b
3
  size 14575
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:97e255bbc5f7f71168348462c22fbdbbadbc23b19d6869fc621700a4f4ba07b1
3
  size 627
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d2e0f128c7ae735ba8b14877fdb8cb2ead55b72037741596f80aa07ed1f6f130
3
  size 627
last-checkpoint/trainer_state.json CHANGED
@@ -1,8 +1,8 @@
1
  {
2
- "best_metric": 2.0390162467956543,
3
- "best_model_checkpoint": "output/checkpoint-200",
4
- "epoch": 0.13673679768829353,
5
- "global_step": 200,
6
  "is_hyper_param_search": false,
7
  "is_local_process_zero": true,
8
  "is_world_process_zero": true,
@@ -1214,11 +1214,1219 @@
1214
  "eval_samples_per_second": 8.7,
1215
  "eval_steps_per_second": 8.7,
1216
  "step": 200
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1217
  }
1218
  ],
1219
  "max_steps": 5848,
1220
  "num_train_epochs": 4,
1221
- "total_flos": 2.4532993377759744e+17,
1222
  "trial_name": null,
1223
  "trial_params": null
1224
  }
 
1
  {
2
+ "best_metric": 2.0144975185394287,
3
+ "best_model_checkpoint": "output/checkpoint-400",
4
+ "epoch": 0.27347359537658705,
5
+ "global_step": 400,
6
  "is_hyper_param_search": false,
7
  "is_local_process_zero": true,
8
  "is_world_process_zero": true,
 
1214
  "eval_samples_per_second": 8.7,
1215
  "eval_steps_per_second": 8.7,
1216
  "step": 200
1217
+ },
1218
+ {
1219
+ "epoch": 0.14,
1220
+ "learning_rate": 0.0005998937677053823,
1221
+ "loss": 1.9258,
1222
+ "step": 201
1223
+ },
1224
+ {
1225
+ "epoch": 0.14,
1226
+ "learning_rate": 0.0005997875354107648,
1227
+ "loss": 1.9414,
1228
+ "step": 202
1229
+ },
1230
+ {
1231
+ "epoch": 0.14,
1232
+ "learning_rate": 0.0005996813031161472,
1233
+ "loss": 1.9516,
1234
+ "step": 203
1235
+ },
1236
+ {
1237
+ "epoch": 0.14,
1238
+ "learning_rate": 0.0005995750708215297,
1239
+ "loss": 2.0185,
1240
+ "step": 204
1241
+ },
1242
+ {
1243
+ "epoch": 0.14,
1244
+ "learning_rate": 0.0005994688385269121,
1245
+ "loss": 2.0142,
1246
+ "step": 205
1247
+ },
1248
+ {
1249
+ "epoch": 0.14,
1250
+ "learning_rate": 0.0005993626062322946,
1251
+ "loss": 1.9021,
1252
+ "step": 206
1253
+ },
1254
+ {
1255
+ "epoch": 0.14,
1256
+ "learning_rate": 0.000599256373937677,
1257
+ "loss": 1.9439,
1258
+ "step": 207
1259
+ },
1260
+ {
1261
+ "epoch": 0.14,
1262
+ "learning_rate": 0.0005991501416430595,
1263
+ "loss": 1.9489,
1264
+ "step": 208
1265
+ },
1266
+ {
1267
+ "epoch": 0.14,
1268
+ "learning_rate": 0.0005990439093484419,
1269
+ "loss": 1.8585,
1270
+ "step": 209
1271
+ },
1272
+ {
1273
+ "epoch": 0.14,
1274
+ "learning_rate": 0.0005989376770538244,
1275
+ "loss": 1.982,
1276
+ "step": 210
1277
+ },
1278
+ {
1279
+ "epoch": 0.14,
1280
+ "learning_rate": 0.0005988314447592068,
1281
+ "loss": 1.9516,
1282
+ "step": 211
1283
+ },
1284
+ {
1285
+ "epoch": 0.14,
1286
+ "learning_rate": 0.0005987252124645891,
1287
+ "loss": 1.9344,
1288
+ "step": 212
1289
+ },
1290
+ {
1291
+ "epoch": 0.15,
1292
+ "learning_rate": 0.0005986189801699716,
1293
+ "loss": 1.8629,
1294
+ "step": 213
1295
+ },
1296
+ {
1297
+ "epoch": 0.15,
1298
+ "learning_rate": 0.000598512747875354,
1299
+ "loss": 1.9363,
1300
+ "step": 214
1301
+ },
1302
+ {
1303
+ "epoch": 0.15,
1304
+ "learning_rate": 0.0005984065155807364,
1305
+ "loss": 2.0402,
1306
+ "step": 215
1307
+ },
1308
+ {
1309
+ "epoch": 0.15,
1310
+ "learning_rate": 0.0005983002832861189,
1311
+ "loss": 1.9,
1312
+ "step": 216
1313
+ },
1314
+ {
1315
+ "epoch": 0.15,
1316
+ "learning_rate": 0.0005981940509915014,
1317
+ "loss": 1.8588,
1318
+ "step": 217
1319
+ },
1320
+ {
1321
+ "epoch": 0.15,
1322
+ "learning_rate": 0.0005980878186968838,
1323
+ "loss": 1.8654,
1324
+ "step": 218
1325
+ },
1326
+ {
1327
+ "epoch": 0.15,
1328
+ "learning_rate": 0.0005979815864022663,
1329
+ "loss": 1.9509,
1330
+ "step": 219
1331
+ },
1332
+ {
1333
+ "epoch": 0.15,
1334
+ "learning_rate": 0.0005978753541076487,
1335
+ "loss": 1.9325,
1336
+ "step": 220
1337
+ },
1338
+ {
1339
+ "epoch": 0.15,
1340
+ "learning_rate": 0.0005977691218130311,
1341
+ "loss": 1.8617,
1342
+ "step": 221
1343
+ },
1344
+ {
1345
+ "epoch": 0.15,
1346
+ "learning_rate": 0.0005976628895184136,
1347
+ "loss": 1.9164,
1348
+ "step": 222
1349
+ },
1350
+ {
1351
+ "epoch": 0.15,
1352
+ "learning_rate": 0.000597556657223796,
1353
+ "loss": 1.8987,
1354
+ "step": 223
1355
+ },
1356
+ {
1357
+ "epoch": 0.15,
1358
+ "learning_rate": 0.0005974504249291785,
1359
+ "loss": 2.0317,
1360
+ "step": 224
1361
+ },
1362
+ {
1363
+ "epoch": 0.15,
1364
+ "learning_rate": 0.0005973441926345608,
1365
+ "loss": 1.9936,
1366
+ "step": 225
1367
+ },
1368
+ {
1369
+ "epoch": 0.15,
1370
+ "learning_rate": 0.0005972379603399432,
1371
+ "loss": 1.9103,
1372
+ "step": 226
1373
+ },
1374
+ {
1375
+ "epoch": 0.16,
1376
+ "learning_rate": 0.0005971317280453257,
1377
+ "loss": 1.9545,
1378
+ "step": 227
1379
+ },
1380
+ {
1381
+ "epoch": 0.16,
1382
+ "learning_rate": 0.0005970254957507082,
1383
+ "loss": 1.9247,
1384
+ "step": 228
1385
+ },
1386
+ {
1387
+ "epoch": 0.16,
1388
+ "learning_rate": 0.0005969192634560906,
1389
+ "loss": 1.8792,
1390
+ "step": 229
1391
+ },
1392
+ {
1393
+ "epoch": 0.16,
1394
+ "learning_rate": 0.0005968130311614731,
1395
+ "loss": 1.9461,
1396
+ "step": 230
1397
+ },
1398
+ {
1399
+ "epoch": 0.16,
1400
+ "learning_rate": 0.0005967067988668555,
1401
+ "loss": 1.8948,
1402
+ "step": 231
1403
+ },
1404
+ {
1405
+ "epoch": 0.16,
1406
+ "learning_rate": 0.0005966005665722379,
1407
+ "loss": 2.0436,
1408
+ "step": 232
1409
+ },
1410
+ {
1411
+ "epoch": 0.16,
1412
+ "learning_rate": 0.0005964943342776204,
1413
+ "loss": 2.0009,
1414
+ "step": 233
1415
+ },
1416
+ {
1417
+ "epoch": 0.16,
1418
+ "learning_rate": 0.0005963881019830028,
1419
+ "loss": 1.9595,
1420
+ "step": 234
1421
+ },
1422
+ {
1423
+ "epoch": 0.16,
1424
+ "learning_rate": 0.0005962818696883852,
1425
+ "loss": 1.9346,
1426
+ "step": 235
1427
+ },
1428
+ {
1429
+ "epoch": 0.16,
1430
+ "learning_rate": 0.0005961756373937677,
1431
+ "loss": 2.0312,
1432
+ "step": 236
1433
+ },
1434
+ {
1435
+ "epoch": 0.16,
1436
+ "learning_rate": 0.00059606940509915,
1437
+ "loss": 2.0205,
1438
+ "step": 237
1439
+ },
1440
+ {
1441
+ "epoch": 0.16,
1442
+ "learning_rate": 0.0005959631728045325,
1443
+ "loss": 1.8533,
1444
+ "step": 238
1445
+ },
1446
+ {
1447
+ "epoch": 0.16,
1448
+ "learning_rate": 0.000595856940509915,
1449
+ "loss": 1.9943,
1450
+ "step": 239
1451
+ },
1452
+ {
1453
+ "epoch": 0.16,
1454
+ "learning_rate": 0.0005957507082152974,
1455
+ "loss": 1.9002,
1456
+ "step": 240
1457
+ },
1458
+ {
1459
+ "epoch": 0.16,
1460
+ "learning_rate": 0.0005956444759206798,
1461
+ "loss": 2.0044,
1462
+ "step": 241
1463
+ },
1464
+ {
1465
+ "epoch": 0.17,
1466
+ "learning_rate": 0.0005955382436260623,
1467
+ "loss": 2.032,
1468
+ "step": 242
1469
+ },
1470
+ {
1471
+ "epoch": 0.17,
1472
+ "learning_rate": 0.0005954320113314447,
1473
+ "loss": 1.8933,
1474
+ "step": 243
1475
+ },
1476
+ {
1477
+ "epoch": 0.17,
1478
+ "learning_rate": 0.0005953257790368272,
1479
+ "loss": 1.8971,
1480
+ "step": 244
1481
+ },
1482
+ {
1483
+ "epoch": 0.17,
1484
+ "learning_rate": 0.0005952195467422096,
1485
+ "loss": 1.9241,
1486
+ "step": 245
1487
+ },
1488
+ {
1489
+ "epoch": 0.17,
1490
+ "learning_rate": 0.000595113314447592,
1491
+ "loss": 1.9246,
1492
+ "step": 246
1493
+ },
1494
+ {
1495
+ "epoch": 0.17,
1496
+ "learning_rate": 0.0005950070821529745,
1497
+ "loss": 1.8752,
1498
+ "step": 247
1499
+ },
1500
+ {
1501
+ "epoch": 0.17,
1502
+ "learning_rate": 0.0005949008498583569,
1503
+ "loss": 1.8325,
1504
+ "step": 248
1505
+ },
1506
+ {
1507
+ "epoch": 0.17,
1508
+ "learning_rate": 0.0005947946175637393,
1509
+ "loss": 2.0427,
1510
+ "step": 249
1511
+ },
1512
+ {
1513
+ "epoch": 0.17,
1514
+ "learning_rate": 0.0005946883852691218,
1515
+ "loss": 2.0028,
1516
+ "step": 250
1517
+ },
1518
+ {
1519
+ "epoch": 0.17,
1520
+ "learning_rate": 0.0005945821529745042,
1521
+ "loss": 1.8925,
1522
+ "step": 251
1523
+ },
1524
+ {
1525
+ "epoch": 0.17,
1526
+ "learning_rate": 0.0005944759206798866,
1527
+ "loss": 1.9451,
1528
+ "step": 252
1529
+ },
1530
+ {
1531
+ "epoch": 0.17,
1532
+ "learning_rate": 0.0005943696883852691,
1533
+ "loss": 2.0214,
1534
+ "step": 253
1535
+ },
1536
+ {
1537
+ "epoch": 0.17,
1538
+ "learning_rate": 0.0005942634560906515,
1539
+ "loss": 1.9055,
1540
+ "step": 254
1541
+ },
1542
+ {
1543
+ "epoch": 0.17,
1544
+ "learning_rate": 0.0005941572237960339,
1545
+ "loss": 2.0471,
1546
+ "step": 255
1547
+ },
1548
+ {
1549
+ "epoch": 0.18,
1550
+ "learning_rate": 0.0005940509915014164,
1551
+ "loss": 1.9051,
1552
+ "step": 256
1553
+ },
1554
+ {
1555
+ "epoch": 0.18,
1556
+ "learning_rate": 0.0005939447592067988,
1557
+ "loss": 1.9161,
1558
+ "step": 257
1559
+ },
1560
+ {
1561
+ "epoch": 0.18,
1562
+ "learning_rate": 0.0005938385269121813,
1563
+ "loss": 1.9885,
1564
+ "step": 258
1565
+ },
1566
+ {
1567
+ "epoch": 0.18,
1568
+ "learning_rate": 0.0005937322946175637,
1569
+ "loss": 1.8885,
1570
+ "step": 259
1571
+ },
1572
+ {
1573
+ "epoch": 0.18,
1574
+ "learning_rate": 0.000593626062322946,
1575
+ "loss": 1.9312,
1576
+ "step": 260
1577
+ },
1578
+ {
1579
+ "epoch": 0.18,
1580
+ "learning_rate": 0.0005935198300283285,
1581
+ "loss": 2.007,
1582
+ "step": 261
1583
+ },
1584
+ {
1585
+ "epoch": 0.18,
1586
+ "learning_rate": 0.000593413597733711,
1587
+ "loss": 2.0364,
1588
+ "step": 262
1589
+ },
1590
+ {
1591
+ "epoch": 0.18,
1592
+ "learning_rate": 0.0005933073654390934,
1593
+ "loss": 1.9795,
1594
+ "step": 263
1595
+ },
1596
+ {
1597
+ "epoch": 0.18,
1598
+ "learning_rate": 0.0005932011331444759,
1599
+ "loss": 2.0227,
1600
+ "step": 264
1601
+ },
1602
+ {
1603
+ "epoch": 0.18,
1604
+ "learning_rate": 0.0005930949008498583,
1605
+ "loss": 2.0389,
1606
+ "step": 265
1607
+ },
1608
+ {
1609
+ "epoch": 0.18,
1610
+ "learning_rate": 0.0005929886685552407,
1611
+ "loss": 2.0966,
1612
+ "step": 266
1613
+ },
1614
+ {
1615
+ "epoch": 0.18,
1616
+ "learning_rate": 0.0005928824362606232,
1617
+ "loss": 2.0527,
1618
+ "step": 267
1619
+ },
1620
+ {
1621
+ "epoch": 0.18,
1622
+ "learning_rate": 0.0005927762039660056,
1623
+ "loss": 1.9479,
1624
+ "step": 268
1625
+ },
1626
+ {
1627
+ "epoch": 0.18,
1628
+ "learning_rate": 0.0005926699716713881,
1629
+ "loss": 1.9406,
1630
+ "step": 269
1631
+ },
1632
+ {
1633
+ "epoch": 0.18,
1634
+ "learning_rate": 0.0005925637393767705,
1635
+ "loss": 1.9553,
1636
+ "step": 270
1637
+ },
1638
+ {
1639
+ "epoch": 0.19,
1640
+ "learning_rate": 0.0005924575070821529,
1641
+ "loss": 1.9249,
1642
+ "step": 271
1643
+ },
1644
+ {
1645
+ "epoch": 0.19,
1646
+ "learning_rate": 0.0005923512747875354,
1647
+ "loss": 1.8754,
1648
+ "step": 272
1649
+ },
1650
+ {
1651
+ "epoch": 0.19,
1652
+ "learning_rate": 0.0005922450424929179,
1653
+ "loss": 1.9168,
1654
+ "step": 273
1655
+ },
1656
+ {
1657
+ "epoch": 0.19,
1658
+ "learning_rate": 0.0005921388101983002,
1659
+ "loss": 1.8502,
1660
+ "step": 274
1661
+ },
1662
+ {
1663
+ "epoch": 0.19,
1664
+ "learning_rate": 0.0005920325779036826,
1665
+ "loss": 1.909,
1666
+ "step": 275
1667
+ },
1668
+ {
1669
+ "epoch": 0.19,
1670
+ "learning_rate": 0.0005919263456090651,
1671
+ "loss": 1.9713,
1672
+ "step": 276
1673
+ },
1674
+ {
1675
+ "epoch": 0.19,
1676
+ "learning_rate": 0.0005918201133144475,
1677
+ "loss": 1.9817,
1678
+ "step": 277
1679
+ },
1680
+ {
1681
+ "epoch": 0.19,
1682
+ "learning_rate": 0.00059171388101983,
1683
+ "loss": 1.9468,
1684
+ "step": 278
1685
+ },
1686
+ {
1687
+ "epoch": 0.19,
1688
+ "learning_rate": 0.0005916076487252124,
1689
+ "loss": 1.9499,
1690
+ "step": 279
1691
+ },
1692
+ {
1693
+ "epoch": 0.19,
1694
+ "learning_rate": 0.0005915014164305948,
1695
+ "loss": 2.0154,
1696
+ "step": 280
1697
+ },
1698
+ {
1699
+ "epoch": 0.19,
1700
+ "learning_rate": 0.0005913951841359773,
1701
+ "loss": 2.0013,
1702
+ "step": 281
1703
+ },
1704
+ {
1705
+ "epoch": 0.19,
1706
+ "learning_rate": 0.0005912889518413597,
1707
+ "loss": 1.9174,
1708
+ "step": 282
1709
+ },
1710
+ {
1711
+ "epoch": 0.19,
1712
+ "learning_rate": 0.0005911827195467422,
1713
+ "loss": 2.0181,
1714
+ "step": 283
1715
+ },
1716
+ {
1717
+ "epoch": 0.19,
1718
+ "learning_rate": 0.0005910764872521247,
1719
+ "loss": 1.8739,
1720
+ "step": 284
1721
+ },
1722
+ {
1723
+ "epoch": 0.19,
1724
+ "learning_rate": 0.000590970254957507,
1725
+ "loss": 1.9622,
1726
+ "step": 285
1727
+ },
1728
+ {
1729
+ "epoch": 0.2,
1730
+ "learning_rate": 0.0005908640226628894,
1731
+ "loss": 1.992,
1732
+ "step": 286
1733
+ },
1734
+ {
1735
+ "epoch": 0.2,
1736
+ "learning_rate": 0.0005907577903682719,
1737
+ "loss": 1.9311,
1738
+ "step": 287
1739
+ },
1740
+ {
1741
+ "epoch": 0.2,
1742
+ "learning_rate": 0.0005906515580736543,
1743
+ "loss": 1.8938,
1744
+ "step": 288
1745
+ },
1746
+ {
1747
+ "epoch": 0.2,
1748
+ "learning_rate": 0.0005905453257790368,
1749
+ "loss": 1.939,
1750
+ "step": 289
1751
+ },
1752
+ {
1753
+ "epoch": 0.2,
1754
+ "learning_rate": 0.0005904390934844192,
1755
+ "loss": 1.946,
1756
+ "step": 290
1757
+ },
1758
+ {
1759
+ "epoch": 0.2,
1760
+ "learning_rate": 0.0005903328611898016,
1761
+ "loss": 1.969,
1762
+ "step": 291
1763
+ },
1764
+ {
1765
+ "epoch": 0.2,
1766
+ "learning_rate": 0.0005902266288951841,
1767
+ "loss": 1.9189,
1768
+ "step": 292
1769
+ },
1770
+ {
1771
+ "epoch": 0.2,
1772
+ "learning_rate": 0.0005901203966005665,
1773
+ "loss": 1.9114,
1774
+ "step": 293
1775
+ },
1776
+ {
1777
+ "epoch": 0.2,
1778
+ "learning_rate": 0.000590014164305949,
1779
+ "loss": 1.919,
1780
+ "step": 294
1781
+ },
1782
+ {
1783
+ "epoch": 0.2,
1784
+ "learning_rate": 0.0005899079320113314,
1785
+ "loss": 1.9174,
1786
+ "step": 295
1787
+ },
1788
+ {
1789
+ "epoch": 0.2,
1790
+ "learning_rate": 0.0005898016997167139,
1791
+ "loss": 1.9578,
1792
+ "step": 296
1793
+ },
1794
+ {
1795
+ "epoch": 0.2,
1796
+ "learning_rate": 0.0005896954674220963,
1797
+ "loss": 1.9573,
1798
+ "step": 297
1799
+ },
1800
+ {
1801
+ "epoch": 0.2,
1802
+ "learning_rate": 0.0005895892351274787,
1803
+ "loss": 1.9774,
1804
+ "step": 298
1805
+ },
1806
+ {
1807
+ "epoch": 0.2,
1808
+ "learning_rate": 0.0005894830028328611,
1809
+ "loss": 2.0076,
1810
+ "step": 299
1811
+ },
1812
+ {
1813
+ "epoch": 0.21,
1814
+ "learning_rate": 0.0005893767705382435,
1815
+ "loss": 1.9378,
1816
+ "step": 300
1817
+ },
1818
+ {
1819
+ "epoch": 0.21,
1820
+ "learning_rate": 0.000589270538243626,
1821
+ "loss": 1.9127,
1822
+ "step": 301
1823
+ },
1824
+ {
1825
+ "epoch": 0.21,
1826
+ "learning_rate": 0.0005891643059490084,
1827
+ "loss": 1.9028,
1828
+ "step": 302
1829
+ },
1830
+ {
1831
+ "epoch": 0.21,
1832
+ "learning_rate": 0.0005890580736543909,
1833
+ "loss": 2.0307,
1834
+ "step": 303
1835
+ },
1836
+ {
1837
+ "epoch": 0.21,
1838
+ "learning_rate": 0.0005889518413597733,
1839
+ "loss": 1.886,
1840
+ "step": 304
1841
+ },
1842
+ {
1843
+ "epoch": 0.21,
1844
+ "learning_rate": 0.0005888456090651558,
1845
+ "loss": 1.9288,
1846
+ "step": 305
1847
+ },
1848
+ {
1849
+ "epoch": 0.21,
1850
+ "learning_rate": 0.0005887393767705382,
1851
+ "loss": 1.9184,
1852
+ "step": 306
1853
+ },
1854
+ {
1855
+ "epoch": 0.21,
1856
+ "learning_rate": 0.0005886331444759207,
1857
+ "loss": 1.8903,
1858
+ "step": 307
1859
+ },
1860
+ {
1861
+ "epoch": 0.21,
1862
+ "learning_rate": 0.0005885269121813031,
1863
+ "loss": 1.9464,
1864
+ "step": 308
1865
+ },
1866
+ {
1867
+ "epoch": 0.21,
1868
+ "learning_rate": 0.0005884206798866856,
1869
+ "loss": 1.9017,
1870
+ "step": 309
1871
+ },
1872
+ {
1873
+ "epoch": 0.21,
1874
+ "learning_rate": 0.000588314447592068,
1875
+ "loss": 1.9359,
1876
+ "step": 310
1877
+ },
1878
+ {
1879
+ "epoch": 0.21,
1880
+ "learning_rate": 0.0005882082152974503,
1881
+ "loss": 2.07,
1882
+ "step": 311
1883
+ },
1884
+ {
1885
+ "epoch": 0.21,
1886
+ "learning_rate": 0.0005881019830028328,
1887
+ "loss": 1.899,
1888
+ "step": 312
1889
+ },
1890
+ {
1891
+ "epoch": 0.21,
1892
+ "learning_rate": 0.0005879957507082152,
1893
+ "loss": 1.9346,
1894
+ "step": 313
1895
+ },
1896
+ {
1897
+ "epoch": 0.21,
1898
+ "learning_rate": 0.0005878895184135976,
1899
+ "loss": 1.9751,
1900
+ "step": 314
1901
+ },
1902
+ {
1903
+ "epoch": 0.22,
1904
+ "learning_rate": 0.0005877832861189801,
1905
+ "loss": 1.8593,
1906
+ "step": 315
1907
+ },
1908
+ {
1909
+ "epoch": 0.22,
1910
+ "learning_rate": 0.0005876770538243626,
1911
+ "loss": 1.9072,
1912
+ "step": 316
1913
+ },
1914
+ {
1915
+ "epoch": 0.22,
1916
+ "learning_rate": 0.000587570821529745,
1917
+ "loss": 2.0165,
1918
+ "step": 317
1919
+ },
1920
+ {
1921
+ "epoch": 0.22,
1922
+ "learning_rate": 0.0005874645892351275,
1923
+ "loss": 2.0048,
1924
+ "step": 318
1925
+ },
1926
+ {
1927
+ "epoch": 0.22,
1928
+ "learning_rate": 0.0005873583569405099,
1929
+ "loss": 2.0082,
1930
+ "step": 319
1931
+ },
1932
+ {
1933
+ "epoch": 0.22,
1934
+ "learning_rate": 0.0005872521246458923,
1935
+ "loss": 1.9908,
1936
+ "step": 320
1937
+ },
1938
+ {
1939
+ "epoch": 0.22,
1940
+ "learning_rate": 0.0005871458923512748,
1941
+ "loss": 1.8866,
1942
+ "step": 321
1943
+ },
1944
+ {
1945
+ "epoch": 0.22,
1946
+ "learning_rate": 0.0005870396600566571,
1947
+ "loss": 1.8997,
1948
+ "step": 322
1949
+ },
1950
+ {
1951
+ "epoch": 0.22,
1952
+ "learning_rate": 0.0005869334277620396,
1953
+ "loss": 2.0193,
1954
+ "step": 323
1955
+ },
1956
+ {
1957
+ "epoch": 0.22,
1958
+ "learning_rate": 0.000586827195467422,
1959
+ "loss": 2.0157,
1960
+ "step": 324
1961
+ },
1962
+ {
1963
+ "epoch": 0.22,
1964
+ "learning_rate": 0.0005867209631728044,
1965
+ "loss": 1.9045,
1966
+ "step": 325
1967
+ },
1968
+ {
1969
+ "epoch": 0.22,
1970
+ "learning_rate": 0.0005866147308781869,
1971
+ "loss": 1.9727,
1972
+ "step": 326
1973
+ },
1974
+ {
1975
+ "epoch": 0.22,
1976
+ "learning_rate": 0.0005865084985835694,
1977
+ "loss": 1.9071,
1978
+ "step": 327
1979
+ },
1980
+ {
1981
+ "epoch": 0.22,
1982
+ "learning_rate": 0.0005864022662889518,
1983
+ "loss": 1.9013,
1984
+ "step": 328
1985
+ },
1986
+ {
1987
+ "epoch": 0.22,
1988
+ "learning_rate": 0.0005862960339943343,
1989
+ "loss": 1.9227,
1990
+ "step": 329
1991
+ },
1992
+ {
1993
+ "epoch": 0.23,
1994
+ "learning_rate": 0.0005861898016997167,
1995
+ "loss": 1.9121,
1996
+ "step": 330
1997
+ },
1998
+ {
1999
+ "epoch": 0.23,
2000
+ "learning_rate": 0.0005860835694050991,
2001
+ "loss": 1.9515,
2002
+ "step": 331
2003
+ },
2004
+ {
2005
+ "epoch": 0.23,
2006
+ "learning_rate": 0.0005859773371104816,
2007
+ "loss": 1.8773,
2008
+ "step": 332
2009
+ },
2010
+ {
2011
+ "epoch": 0.23,
2012
+ "learning_rate": 0.000585871104815864,
2013
+ "loss": 1.979,
2014
+ "step": 333
2015
+ },
2016
+ {
2017
+ "epoch": 0.23,
2018
+ "learning_rate": 0.0005857648725212463,
2019
+ "loss": 1.9036,
2020
+ "step": 334
2021
+ },
2022
+ {
2023
+ "epoch": 0.23,
2024
+ "learning_rate": 0.0005856586402266288,
2025
+ "loss": 1.9582,
2026
+ "step": 335
2027
+ },
2028
+ {
2029
+ "epoch": 0.23,
2030
+ "learning_rate": 0.0005855524079320112,
2031
+ "loss": 1.8322,
2032
+ "step": 336
2033
+ },
2034
+ {
2035
+ "epoch": 0.23,
2036
+ "learning_rate": 0.0005854461756373937,
2037
+ "loss": 2.0046,
2038
+ "step": 337
2039
+ },
2040
+ {
2041
+ "epoch": 0.23,
2042
+ "learning_rate": 0.0005853399433427762,
2043
+ "loss": 1.9435,
2044
+ "step": 338
2045
+ },
2046
+ {
2047
+ "epoch": 0.23,
2048
+ "learning_rate": 0.0005852337110481586,
2049
+ "loss": 1.942,
2050
+ "step": 339
2051
+ },
2052
+ {
2053
+ "epoch": 0.23,
2054
+ "learning_rate": 0.000585127478753541,
2055
+ "loss": 1.9315,
2056
+ "step": 340
2057
+ },
2058
+ {
2059
+ "epoch": 0.23,
2060
+ "learning_rate": 0.0005850212464589235,
2061
+ "loss": 1.95,
2062
+ "step": 341
2063
+ },
2064
+ {
2065
+ "epoch": 0.23,
2066
+ "learning_rate": 0.0005849150141643059,
2067
+ "loss": 1.9401,
2068
+ "step": 342
2069
+ },
2070
+ {
2071
+ "epoch": 0.23,
2072
+ "learning_rate": 0.0005848087818696884,
2073
+ "loss": 1.98,
2074
+ "step": 343
2075
+ },
2076
+ {
2077
+ "epoch": 0.24,
2078
+ "learning_rate": 0.0005847025495750708,
2079
+ "loss": 1.9448,
2080
+ "step": 344
2081
+ },
2082
+ {
2083
+ "epoch": 0.24,
2084
+ "learning_rate": 0.0005845963172804532,
2085
+ "loss": 1.9539,
2086
+ "step": 345
2087
+ },
2088
+ {
2089
+ "epoch": 0.24,
2090
+ "learning_rate": 0.0005844900849858357,
2091
+ "loss": 2.0188,
2092
+ "step": 346
2093
+ },
2094
+ {
2095
+ "epoch": 0.24,
2096
+ "learning_rate": 0.000584383852691218,
2097
+ "loss": 1.9267,
2098
+ "step": 347
2099
+ },
2100
+ {
2101
+ "epoch": 0.24,
2102
+ "learning_rate": 0.0005842776203966005,
2103
+ "loss": 2.0382,
2104
+ "step": 348
2105
+ },
2106
+ {
2107
+ "epoch": 0.24,
2108
+ "learning_rate": 0.000584171388101983,
2109
+ "loss": 1.9714,
2110
+ "step": 349
2111
+ },
2112
+ {
2113
+ "epoch": 0.24,
2114
+ "learning_rate": 0.0005840651558073654,
2115
+ "loss": 1.9789,
2116
+ "step": 350
2117
+ },
2118
+ {
2119
+ "epoch": 0.24,
2120
+ "learning_rate": 0.0005839589235127478,
2121
+ "loss": 1.8664,
2122
+ "step": 351
2123
+ },
2124
+ {
2125
+ "epoch": 0.24,
2126
+ "learning_rate": 0.0005838526912181303,
2127
+ "loss": 2.0072,
2128
+ "step": 352
2129
+ },
2130
+ {
2131
+ "epoch": 0.24,
2132
+ "learning_rate": 0.0005837464589235127,
2133
+ "loss": 1.936,
2134
+ "step": 353
2135
+ },
2136
+ {
2137
+ "epoch": 0.24,
2138
+ "learning_rate": 0.0005836402266288951,
2139
+ "loss": 1.8285,
2140
+ "step": 354
2141
+ },
2142
+ {
2143
+ "epoch": 0.24,
2144
+ "learning_rate": 0.0005835339943342776,
2145
+ "loss": 1.9294,
2146
+ "step": 355
2147
+ },
2148
+ {
2149
+ "epoch": 0.24,
2150
+ "learning_rate": 0.00058342776203966,
2151
+ "loss": 1.8979,
2152
+ "step": 356
2153
+ },
2154
+ {
2155
+ "epoch": 0.24,
2156
+ "learning_rate": 0.0005833215297450425,
2157
+ "loss": 1.9088,
2158
+ "step": 357
2159
+ },
2160
+ {
2161
+ "epoch": 0.24,
2162
+ "learning_rate": 0.0005832152974504249,
2163
+ "loss": 1.9107,
2164
+ "step": 358
2165
+ },
2166
+ {
2167
+ "epoch": 0.25,
2168
+ "learning_rate": 0.0005831090651558072,
2169
+ "loss": 1.9215,
2170
+ "step": 359
2171
+ },
2172
+ {
2173
+ "epoch": 0.25,
2174
+ "learning_rate": 0.0005830028328611897,
2175
+ "loss": 1.9034,
2176
+ "step": 360
2177
+ },
2178
+ {
2179
+ "epoch": 0.25,
2180
+ "learning_rate": 0.0005828966005665722,
2181
+ "loss": 1.8581,
2182
+ "step": 361
2183
+ },
2184
+ {
2185
+ "epoch": 0.25,
2186
+ "learning_rate": 0.0005827903682719546,
2187
+ "loss": 1.8922,
2188
+ "step": 362
2189
+ },
2190
+ {
2191
+ "epoch": 0.25,
2192
+ "learning_rate": 0.0005826841359773371,
2193
+ "loss": 1.8397,
2194
+ "step": 363
2195
+ },
2196
+ {
2197
+ "epoch": 0.25,
2198
+ "learning_rate": 0.0005825779036827195,
2199
+ "loss": 1.9799,
2200
+ "step": 364
2201
+ },
2202
+ {
2203
+ "epoch": 0.25,
2204
+ "learning_rate": 0.0005824716713881019,
2205
+ "loss": 1.9085,
2206
+ "step": 365
2207
+ },
2208
+ {
2209
+ "epoch": 0.25,
2210
+ "learning_rate": 0.0005823654390934844,
2211
+ "loss": 1.865,
2212
+ "step": 366
2213
+ },
2214
+ {
2215
+ "epoch": 0.25,
2216
+ "learning_rate": 0.0005822592067988668,
2217
+ "loss": 2.0325,
2218
+ "step": 367
2219
+ },
2220
+ {
2221
+ "epoch": 0.25,
2222
+ "learning_rate": 0.0005821529745042493,
2223
+ "loss": 1.9283,
2224
+ "step": 368
2225
+ },
2226
+ {
2227
+ "epoch": 0.25,
2228
+ "learning_rate": 0.0005820467422096317,
2229
+ "loss": 1.8934,
2230
+ "step": 369
2231
+ },
2232
+ {
2233
+ "epoch": 0.25,
2234
+ "learning_rate": 0.000581940509915014,
2235
+ "loss": 1.9225,
2236
+ "step": 370
2237
+ },
2238
+ {
2239
+ "epoch": 0.25,
2240
+ "learning_rate": 0.0005818342776203965,
2241
+ "loss": 1.8816,
2242
+ "step": 371
2243
+ },
2244
+ {
2245
+ "epoch": 0.25,
2246
+ "learning_rate": 0.000581728045325779,
2247
+ "loss": 1.897,
2248
+ "step": 372
2249
+ },
2250
+ {
2251
+ "epoch": 0.26,
2252
+ "learning_rate": 0.0005816218130311614,
2253
+ "loss": 1.9609,
2254
+ "step": 373
2255
+ },
2256
+ {
2257
+ "epoch": 0.26,
2258
+ "learning_rate": 0.0005815155807365438,
2259
+ "loss": 1.9549,
2260
+ "step": 374
2261
+ },
2262
+ {
2263
+ "epoch": 0.26,
2264
+ "learning_rate": 0.0005814093484419263,
2265
+ "loss": 2.0133,
2266
+ "step": 375
2267
+ },
2268
+ {
2269
+ "epoch": 0.26,
2270
+ "learning_rate": 0.0005813031161473087,
2271
+ "loss": 1.8156,
2272
+ "step": 376
2273
+ },
2274
+ {
2275
+ "epoch": 0.26,
2276
+ "learning_rate": 0.0005811968838526912,
2277
+ "loss": 1.9295,
2278
+ "step": 377
2279
+ },
2280
+ {
2281
+ "epoch": 0.26,
2282
+ "learning_rate": 0.0005810906515580736,
2283
+ "loss": 1.9548,
2284
+ "step": 378
2285
+ },
2286
+ {
2287
+ "epoch": 0.26,
2288
+ "learning_rate": 0.000580984419263456,
2289
+ "loss": 1.9483,
2290
+ "step": 379
2291
+ },
2292
+ {
2293
+ "epoch": 0.26,
2294
+ "learning_rate": 0.0005808781869688385,
2295
+ "loss": 1.8704,
2296
+ "step": 380
2297
+ },
2298
+ {
2299
+ "epoch": 0.26,
2300
+ "learning_rate": 0.0005807719546742209,
2301
+ "loss": 1.9807,
2302
+ "step": 381
2303
+ },
2304
+ {
2305
+ "epoch": 0.26,
2306
+ "learning_rate": 0.0005806657223796034,
2307
+ "loss": 1.9642,
2308
+ "step": 382
2309
+ },
2310
+ {
2311
+ "epoch": 0.26,
2312
+ "learning_rate": 0.0005805594900849859,
2313
+ "loss": 1.9625,
2314
+ "step": 383
2315
+ },
2316
+ {
2317
+ "epoch": 0.26,
2318
+ "learning_rate": 0.0005804532577903682,
2319
+ "loss": 1.8797,
2320
+ "step": 384
2321
+ },
2322
+ {
2323
+ "epoch": 0.26,
2324
+ "learning_rate": 0.0005803470254957506,
2325
+ "loss": 1.933,
2326
+ "step": 385
2327
+ },
2328
+ {
2329
+ "epoch": 0.26,
2330
+ "learning_rate": 0.0005802407932011331,
2331
+ "loss": 1.8383,
2332
+ "step": 386
2333
+ },
2334
+ {
2335
+ "epoch": 0.26,
2336
+ "learning_rate": 0.0005801345609065155,
2337
+ "loss": 1.9156,
2338
+ "step": 387
2339
+ },
2340
+ {
2341
+ "epoch": 0.27,
2342
+ "learning_rate": 0.000580028328611898,
2343
+ "loss": 1.9132,
2344
+ "step": 388
2345
+ },
2346
+ {
2347
+ "epoch": 0.27,
2348
+ "learning_rate": 0.0005799220963172804,
2349
+ "loss": 2.038,
2350
+ "step": 389
2351
+ },
2352
+ {
2353
+ "epoch": 0.27,
2354
+ "learning_rate": 0.0005798158640226628,
2355
+ "loss": 1.9887,
2356
+ "step": 390
2357
+ },
2358
+ {
2359
+ "epoch": 0.27,
2360
+ "learning_rate": 0.0005797096317280453,
2361
+ "loss": 1.8482,
2362
+ "step": 391
2363
+ },
2364
+ {
2365
+ "epoch": 0.27,
2366
+ "learning_rate": 0.0005796033994334277,
2367
+ "loss": 1.9472,
2368
+ "step": 392
2369
+ },
2370
+ {
2371
+ "epoch": 0.27,
2372
+ "learning_rate": 0.0005794971671388101,
2373
+ "loss": 1.9624,
2374
+ "step": 393
2375
+ },
2376
+ {
2377
+ "epoch": 0.27,
2378
+ "learning_rate": 0.0005793909348441927,
2379
+ "loss": 1.8782,
2380
+ "step": 394
2381
+ },
2382
+ {
2383
+ "epoch": 0.27,
2384
+ "learning_rate": 0.000579284702549575,
2385
+ "loss": 1.8894,
2386
+ "step": 395
2387
+ },
2388
+ {
2389
+ "epoch": 0.27,
2390
+ "learning_rate": 0.0005791784702549574,
2391
+ "loss": 1.8229,
2392
+ "step": 396
2393
+ },
2394
+ {
2395
+ "epoch": 0.27,
2396
+ "learning_rate": 0.0005790722379603399,
2397
+ "loss": 1.8939,
2398
+ "step": 397
2399
+ },
2400
+ {
2401
+ "epoch": 0.27,
2402
+ "learning_rate": 0.0005789660056657223,
2403
+ "loss": 1.886,
2404
+ "step": 398
2405
+ },
2406
+ {
2407
+ "epoch": 0.27,
2408
+ "learning_rate": 0.0005788597733711047,
2409
+ "loss": 1.8785,
2410
+ "step": 399
2411
+ },
2412
+ {
2413
+ "epoch": 0.27,
2414
+ "learning_rate": 0.0005787535410764872,
2415
+ "loss": 1.8943,
2416
+ "step": 400
2417
+ },
2418
+ {
2419
+ "epoch": 0.27,
2420
+ "eval_loss": 2.0144975185394287,
2421
+ "eval_runtime": 115.2996,
2422
+ "eval_samples_per_second": 8.673,
2423
+ "eval_steps_per_second": 8.673,
2424
+ "step": 400
2425
  }
2426
  ],
2427
  "max_steps": 5848,
2428
  "num_train_epochs": 4,
2429
+ "total_flos": 4.8975138397771776e+17,
2430
  "trial_name": null,
2431
  "trial_params": null
2432
  }
pytorch_model.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:b8e0394726ad0e28741282c318cacf3dc28269f23a93f3ff84875f2503165cc9
3
  size 2368281769
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:46d927f86c4381f851e153c7cd12d23e9c3b351d0fd5dd23d8dfbedb21e8dbf4
3
  size 2368281769