UltimoUno commited on
Commit
0d275f8
1 Parent(s): 74b7b75

Uploaded checkpoint-3000

Browse files
Files changed (5) hide show
  1. model.safetensors +1 -1
  2. optimizer.pt +1 -1
  3. rng_state.pth +1 -1
  4. scheduler.pt +1 -1
  5. trainer_state.json +713 -5
model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d07f6d20d62b2d9e06ecd69c92696f55dea9afb3cdf5b6b12b96eb2716f3c535
3
  size 2692969128
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7b7cb2f47cd38e6383f75f3414a8a23b1ecd4968b1bb9dfd8b1057ae5f8584b2
3
  size 2692969128
optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c7d7c38c9ad485c7a0677474b74da32a84d555dbec80ada9214c5f24a1249d4c
3
  size 5386075202
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7a37508368a64e93757105266e012ac04351eb16612969f0665a75aeb13c0d8d
3
  size 5386075202
rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:91b6cfff436e44ce1aac34c0deddcf1312e002c1c8fac244f4391c78862bccf7
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ee3528bf0ace792176d57cac1ea8e325db1e81a8856e3e8a6e53688b51f9516e
3
  size 14244
scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:78180a777fabc8bdc6e37d70a05529fbfe5bbeb093c49dd0124cc2bdeb32db78
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:770db92ac44ccb712216aece2abb8a41e68fd6d952c7ae7884e9032fb3cc3f81
3
  size 1064
trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
- "best_metric": 0.02100822888314724,
3
- "best_model_checkpoint": "runs/deepseek_20240423-162824/checkpoint-2000",
4
- "epoch": 0.6266154930680661,
5
  "eval_steps": 1000,
6
- "global_step": 2000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -1423,6 +1423,714 @@
1423
  "eval_samples_per_second": 18.631,
1424
  "eval_steps_per_second": 18.631,
1425
  "step": 2000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1426
  }
1427
  ],
1428
  "logging_steps": 10,
@@ -1430,7 +2138,7 @@
1430
  "num_input_tokens_seen": 0,
1431
  "num_train_epochs": 2,
1432
  "save_steps": 1000,
1433
- "total_flos": 3.1467396661248e+16,
1434
  "train_batch_size": 1,
1435
  "trial_name": null,
1436
  "trial_params": null
 
1
  {
2
+ "best_metric": 0.01655612699687481,
3
+ "best_model_checkpoint": "runs/deepseek_20240423-162824/checkpoint-3000",
4
+ "epoch": 0.9399232396020991,
5
  "eval_steps": 1000,
6
+ "global_step": 3000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
1423
  "eval_samples_per_second": 18.631,
1424
  "eval_steps_per_second": 18.631,
1425
  "step": 2000
1426
+ },
1427
+ {
1428
+ "epoch": 0.63,
1429
+ "grad_norm": 0.0021820068359375,
1430
+ "learning_rate": 1.3288888888888889e-05,
1431
+ "loss": 0.0266,
1432
+ "step": 2010
1433
+ },
1434
+ {
1435
+ "epoch": 0.63,
1436
+ "grad_norm": 0.022216796875,
1437
+ "learning_rate": 1.3244444444444447e-05,
1438
+ "loss": 0.0234,
1439
+ "step": 2020
1440
+ },
1441
+ {
1442
+ "epoch": 0.64,
1443
+ "grad_norm": 6.8125,
1444
+ "learning_rate": 1.3200000000000002e-05,
1445
+ "loss": 0.0527,
1446
+ "step": 2030
1447
+ },
1448
+ {
1449
+ "epoch": 0.64,
1450
+ "grad_norm": 0.0016632080078125,
1451
+ "learning_rate": 1.3155555555555558e-05,
1452
+ "loss": 0.0001,
1453
+ "step": 2040
1454
+ },
1455
+ {
1456
+ "epoch": 0.64,
1457
+ "grad_norm": 0.234375,
1458
+ "learning_rate": 1.3111111111111113e-05,
1459
+ "loss": 0.0284,
1460
+ "step": 2050
1461
+ },
1462
+ {
1463
+ "epoch": 0.65,
1464
+ "grad_norm": 0.001708984375,
1465
+ "learning_rate": 1.3066666666666668e-05,
1466
+ "loss": 0.0677,
1467
+ "step": 2060
1468
+ },
1469
+ {
1470
+ "epoch": 0.65,
1471
+ "grad_norm": 4.90625,
1472
+ "learning_rate": 1.3022222222222223e-05,
1473
+ "loss": 0.0746,
1474
+ "step": 2070
1475
+ },
1476
+ {
1477
+ "epoch": 0.65,
1478
+ "grad_norm": 0.0027008056640625,
1479
+ "learning_rate": 1.2977777777777779e-05,
1480
+ "loss": 0.0461,
1481
+ "step": 2080
1482
+ },
1483
+ {
1484
+ "epoch": 0.65,
1485
+ "grad_norm": 4.75,
1486
+ "learning_rate": 1.2933333333333334e-05,
1487
+ "loss": 0.0427,
1488
+ "step": 2090
1489
+ },
1490
+ {
1491
+ "epoch": 0.66,
1492
+ "grad_norm": 5.625,
1493
+ "learning_rate": 1.288888888888889e-05,
1494
+ "loss": 0.0952,
1495
+ "step": 2100
1496
+ },
1497
+ {
1498
+ "epoch": 0.66,
1499
+ "grad_norm": 0.0031890869140625,
1500
+ "learning_rate": 1.2844444444444446e-05,
1501
+ "loss": 0.0388,
1502
+ "step": 2110
1503
+ },
1504
+ {
1505
+ "epoch": 0.66,
1506
+ "grad_norm": 0.012939453125,
1507
+ "learning_rate": 1.2800000000000001e-05,
1508
+ "loss": 0.0518,
1509
+ "step": 2120
1510
+ },
1511
+ {
1512
+ "epoch": 0.67,
1513
+ "grad_norm": 0.002288818359375,
1514
+ "learning_rate": 1.2755555555555556e-05,
1515
+ "loss": 0.0452,
1516
+ "step": 2130
1517
+ },
1518
+ {
1519
+ "epoch": 0.67,
1520
+ "grad_norm": 0.0019989013671875,
1521
+ "learning_rate": 1.2711111111111112e-05,
1522
+ "loss": 0.0421,
1523
+ "step": 2140
1524
+ },
1525
+ {
1526
+ "epoch": 0.67,
1527
+ "grad_norm": 0.00439453125,
1528
+ "learning_rate": 1.2666666666666667e-05,
1529
+ "loss": 0.0824,
1530
+ "step": 2150
1531
+ },
1532
+ {
1533
+ "epoch": 0.68,
1534
+ "grad_norm": 0.007171630859375,
1535
+ "learning_rate": 1.2622222222222222e-05,
1536
+ "loss": 0.0774,
1537
+ "step": 2160
1538
+ },
1539
+ {
1540
+ "epoch": 0.68,
1541
+ "grad_norm": 0.00160980224609375,
1542
+ "learning_rate": 1.257777777777778e-05,
1543
+ "loss": 0.0417,
1544
+ "step": 2170
1545
+ },
1546
+ {
1547
+ "epoch": 0.68,
1548
+ "grad_norm": 0.609375,
1549
+ "learning_rate": 1.2533333333333336e-05,
1550
+ "loss": 0.0208,
1551
+ "step": 2180
1552
+ },
1553
+ {
1554
+ "epoch": 0.69,
1555
+ "grad_norm": 0.00156402587890625,
1556
+ "learning_rate": 1.2488888888888891e-05,
1557
+ "loss": 0.1365,
1558
+ "step": 2190
1559
+ },
1560
+ {
1561
+ "epoch": 0.69,
1562
+ "grad_norm": 0.0016021728515625,
1563
+ "learning_rate": 1.2444444444444446e-05,
1564
+ "loss": 0.0498,
1565
+ "step": 2200
1566
+ },
1567
+ {
1568
+ "epoch": 0.69,
1569
+ "grad_norm": 0.0013885498046875,
1570
+ "learning_rate": 1.2400000000000002e-05,
1571
+ "loss": 0.0679,
1572
+ "step": 2210
1573
+ },
1574
+ {
1575
+ "epoch": 0.7,
1576
+ "grad_norm": 4.40625,
1577
+ "learning_rate": 1.2355555555555557e-05,
1578
+ "loss": 0.0176,
1579
+ "step": 2220
1580
+ },
1581
+ {
1582
+ "epoch": 0.7,
1583
+ "grad_norm": 0.00153350830078125,
1584
+ "learning_rate": 1.2311111111111112e-05,
1585
+ "loss": 0.0328,
1586
+ "step": 2230
1587
+ },
1588
+ {
1589
+ "epoch": 0.7,
1590
+ "grad_norm": 11.6875,
1591
+ "learning_rate": 1.2266666666666667e-05,
1592
+ "loss": 0.1294,
1593
+ "step": 2240
1594
+ },
1595
+ {
1596
+ "epoch": 0.7,
1597
+ "grad_norm": 8.4375,
1598
+ "learning_rate": 1.2222222222222224e-05,
1599
+ "loss": 0.0423,
1600
+ "step": 2250
1601
+ },
1602
+ {
1603
+ "epoch": 0.71,
1604
+ "grad_norm": 0.007720947265625,
1605
+ "learning_rate": 1.217777777777778e-05,
1606
+ "loss": 0.0088,
1607
+ "step": 2260
1608
+ },
1609
+ {
1610
+ "epoch": 0.71,
1611
+ "grad_norm": 11.625,
1612
+ "learning_rate": 1.2133333333333335e-05,
1613
+ "loss": 0.0754,
1614
+ "step": 2270
1615
+ },
1616
+ {
1617
+ "epoch": 0.71,
1618
+ "grad_norm": 0.00177001953125,
1619
+ "learning_rate": 1.208888888888889e-05,
1620
+ "loss": 0.0148,
1621
+ "step": 2280
1622
+ },
1623
+ {
1624
+ "epoch": 0.72,
1625
+ "grad_norm": 0.00142669677734375,
1626
+ "learning_rate": 1.2044444444444445e-05,
1627
+ "loss": 0.0322,
1628
+ "step": 2290
1629
+ },
1630
+ {
1631
+ "epoch": 0.72,
1632
+ "grad_norm": 0.0019683837890625,
1633
+ "learning_rate": 1.2e-05,
1634
+ "loss": 0.067,
1635
+ "step": 2300
1636
+ },
1637
+ {
1638
+ "epoch": 0.72,
1639
+ "grad_norm": 0.001708984375,
1640
+ "learning_rate": 1.1955555555555556e-05,
1641
+ "loss": 0.0345,
1642
+ "step": 2310
1643
+ },
1644
+ {
1645
+ "epoch": 0.73,
1646
+ "grad_norm": 0.004852294921875,
1647
+ "learning_rate": 1.191111111111111e-05,
1648
+ "loss": 0.0604,
1649
+ "step": 2320
1650
+ },
1651
+ {
1652
+ "epoch": 0.73,
1653
+ "grad_norm": 0.0029296875,
1654
+ "learning_rate": 1.186666666666667e-05,
1655
+ "loss": 0.0611,
1656
+ "step": 2330
1657
+ },
1658
+ {
1659
+ "epoch": 0.73,
1660
+ "grad_norm": 1.8984375,
1661
+ "learning_rate": 1.1822222222222225e-05,
1662
+ "loss": 0.0205,
1663
+ "step": 2340
1664
+ },
1665
+ {
1666
+ "epoch": 0.74,
1667
+ "grad_norm": 1.9296875,
1668
+ "learning_rate": 1.177777777777778e-05,
1669
+ "loss": 0.0836,
1670
+ "step": 2350
1671
+ },
1672
+ {
1673
+ "epoch": 0.74,
1674
+ "grad_norm": 0.002685546875,
1675
+ "learning_rate": 1.1733333333333335e-05,
1676
+ "loss": 0.0416,
1677
+ "step": 2360
1678
+ },
1679
+ {
1680
+ "epoch": 0.74,
1681
+ "grad_norm": 24.375,
1682
+ "learning_rate": 1.168888888888889e-05,
1683
+ "loss": 0.0652,
1684
+ "step": 2370
1685
+ },
1686
+ {
1687
+ "epoch": 0.75,
1688
+ "grad_norm": 0.002777099609375,
1689
+ "learning_rate": 1.1644444444444446e-05,
1690
+ "loss": 0.0372,
1691
+ "step": 2380
1692
+ },
1693
+ {
1694
+ "epoch": 0.75,
1695
+ "grad_norm": 0.0022125244140625,
1696
+ "learning_rate": 1.16e-05,
1697
+ "loss": 0.05,
1698
+ "step": 2390
1699
+ },
1700
+ {
1701
+ "epoch": 0.75,
1702
+ "grad_norm": 0.00193023681640625,
1703
+ "learning_rate": 1.1555555555555556e-05,
1704
+ "loss": 0.0199,
1705
+ "step": 2400
1706
+ },
1707
+ {
1708
+ "epoch": 0.76,
1709
+ "grad_norm": 18.25,
1710
+ "learning_rate": 1.1511111111111113e-05,
1711
+ "loss": 0.0264,
1712
+ "step": 2410
1713
+ },
1714
+ {
1715
+ "epoch": 0.76,
1716
+ "grad_norm": 0.00185394287109375,
1717
+ "learning_rate": 1.1466666666666668e-05,
1718
+ "loss": 0.0507,
1719
+ "step": 2420
1720
+ },
1721
+ {
1722
+ "epoch": 0.76,
1723
+ "grad_norm": 0.0027008056640625,
1724
+ "learning_rate": 1.1422222222222223e-05,
1725
+ "loss": 0.032,
1726
+ "step": 2430
1727
+ },
1728
+ {
1729
+ "epoch": 0.76,
1730
+ "grad_norm": 16.5,
1731
+ "learning_rate": 1.1377777777777779e-05,
1732
+ "loss": 0.1437,
1733
+ "step": 2440
1734
+ },
1735
+ {
1736
+ "epoch": 0.77,
1737
+ "grad_norm": 9.0625,
1738
+ "learning_rate": 1.1333333333333334e-05,
1739
+ "loss": 0.0642,
1740
+ "step": 2450
1741
+ },
1742
+ {
1743
+ "epoch": 0.77,
1744
+ "grad_norm": 16.125,
1745
+ "learning_rate": 1.1288888888888889e-05,
1746
+ "loss": 0.0265,
1747
+ "step": 2460
1748
+ },
1749
+ {
1750
+ "epoch": 0.77,
1751
+ "grad_norm": 0.6484375,
1752
+ "learning_rate": 1.1244444444444444e-05,
1753
+ "loss": 0.0216,
1754
+ "step": 2470
1755
+ },
1756
+ {
1757
+ "epoch": 0.78,
1758
+ "grad_norm": 0.00168609619140625,
1759
+ "learning_rate": 1.1200000000000001e-05,
1760
+ "loss": 0.0574,
1761
+ "step": 2480
1762
+ },
1763
+ {
1764
+ "epoch": 0.78,
1765
+ "grad_norm": 4.15625,
1766
+ "learning_rate": 1.1155555555555556e-05,
1767
+ "loss": 0.0344,
1768
+ "step": 2490
1769
+ },
1770
+ {
1771
+ "epoch": 0.78,
1772
+ "grad_norm": 0.00142669677734375,
1773
+ "learning_rate": 1.1111111111111113e-05,
1774
+ "loss": 0.0645,
1775
+ "step": 2500
1776
+ },
1777
+ {
1778
+ "epoch": 0.79,
1779
+ "grad_norm": 0.003387451171875,
1780
+ "learning_rate": 1.1066666666666669e-05,
1781
+ "loss": 0.0654,
1782
+ "step": 2510
1783
+ },
1784
+ {
1785
+ "epoch": 0.79,
1786
+ "grad_norm": 0.005523681640625,
1787
+ "learning_rate": 1.1022222222222224e-05,
1788
+ "loss": 0.0329,
1789
+ "step": 2520
1790
+ },
1791
+ {
1792
+ "epoch": 0.79,
1793
+ "grad_norm": 10.6875,
1794
+ "learning_rate": 1.0977777777777779e-05,
1795
+ "loss": 0.1523,
1796
+ "step": 2530
1797
+ },
1798
+ {
1799
+ "epoch": 0.8,
1800
+ "grad_norm": 0.0018310546875,
1801
+ "learning_rate": 1.0933333333333334e-05,
1802
+ "loss": 0.0013,
1803
+ "step": 2540
1804
+ },
1805
+ {
1806
+ "epoch": 0.8,
1807
+ "grad_norm": 0.00225830078125,
1808
+ "learning_rate": 1.088888888888889e-05,
1809
+ "loss": 0.0073,
1810
+ "step": 2550
1811
+ },
1812
+ {
1813
+ "epoch": 0.8,
1814
+ "grad_norm": 0.00180816650390625,
1815
+ "learning_rate": 1.0844444444444446e-05,
1816
+ "loss": 0.03,
1817
+ "step": 2560
1818
+ },
1819
+ {
1820
+ "epoch": 0.81,
1821
+ "grad_norm": 8.125,
1822
+ "learning_rate": 1.0800000000000002e-05,
1823
+ "loss": 0.0208,
1824
+ "step": 2570
1825
+ },
1826
+ {
1827
+ "epoch": 0.81,
1828
+ "grad_norm": 14.6875,
1829
+ "learning_rate": 1.0755555555555557e-05,
1830
+ "loss": 0.0357,
1831
+ "step": 2580
1832
+ },
1833
+ {
1834
+ "epoch": 0.81,
1835
+ "grad_norm": 15.5,
1836
+ "learning_rate": 1.0711111111111112e-05,
1837
+ "loss": 0.0667,
1838
+ "step": 2590
1839
+ },
1840
+ {
1841
+ "epoch": 0.81,
1842
+ "grad_norm": 0.00140380859375,
1843
+ "learning_rate": 1.0666666666666667e-05,
1844
+ "loss": 0.0441,
1845
+ "step": 2600
1846
+ },
1847
+ {
1848
+ "epoch": 0.82,
1849
+ "grad_norm": 0.00180816650390625,
1850
+ "learning_rate": 1.0622222222222223e-05,
1851
+ "loss": 0.0164,
1852
+ "step": 2610
1853
+ },
1854
+ {
1855
+ "epoch": 0.82,
1856
+ "grad_norm": 0.003631591796875,
1857
+ "learning_rate": 1.0577777777777778e-05,
1858
+ "loss": 0.0373,
1859
+ "step": 2620
1860
+ },
1861
+ {
1862
+ "epoch": 0.82,
1863
+ "grad_norm": 0.0233154296875,
1864
+ "learning_rate": 1.0533333333333333e-05,
1865
+ "loss": 0.064,
1866
+ "step": 2630
1867
+ },
1868
+ {
1869
+ "epoch": 0.83,
1870
+ "grad_norm": 0.00152587890625,
1871
+ "learning_rate": 1.048888888888889e-05,
1872
+ "loss": 0.0459,
1873
+ "step": 2640
1874
+ },
1875
+ {
1876
+ "epoch": 0.83,
1877
+ "grad_norm": 14.125,
1878
+ "learning_rate": 1.0444444444444445e-05,
1879
+ "loss": 0.0832,
1880
+ "step": 2650
1881
+ },
1882
+ {
1883
+ "epoch": 0.83,
1884
+ "grad_norm": 11.375,
1885
+ "learning_rate": 1.04e-05,
1886
+ "loss": 0.0607,
1887
+ "step": 2660
1888
+ },
1889
+ {
1890
+ "epoch": 0.84,
1891
+ "grad_norm": 0.095703125,
1892
+ "learning_rate": 1.0355555555555557e-05,
1893
+ "loss": 0.0198,
1894
+ "step": 2670
1895
+ },
1896
+ {
1897
+ "epoch": 0.84,
1898
+ "grad_norm": 0.0022430419921875,
1899
+ "learning_rate": 1.0311111111111113e-05,
1900
+ "loss": 0.0521,
1901
+ "step": 2680
1902
+ },
1903
+ {
1904
+ "epoch": 0.84,
1905
+ "grad_norm": 0.0016326904296875,
1906
+ "learning_rate": 1.0266666666666668e-05,
1907
+ "loss": 0.0647,
1908
+ "step": 2690
1909
+ },
1910
+ {
1911
+ "epoch": 0.85,
1912
+ "grad_norm": 0.51171875,
1913
+ "learning_rate": 1.0222222222222223e-05,
1914
+ "loss": 0.0028,
1915
+ "step": 2700
1916
+ },
1917
+ {
1918
+ "epoch": 0.85,
1919
+ "grad_norm": 5.53125,
1920
+ "learning_rate": 1.0177777777777778e-05,
1921
+ "loss": 0.045,
1922
+ "step": 2710
1923
+ },
1924
+ {
1925
+ "epoch": 0.85,
1926
+ "grad_norm": 4.84375,
1927
+ "learning_rate": 1.0133333333333335e-05,
1928
+ "loss": 0.0326,
1929
+ "step": 2720
1930
+ },
1931
+ {
1932
+ "epoch": 0.86,
1933
+ "grad_norm": 0.026611328125,
1934
+ "learning_rate": 1.008888888888889e-05,
1935
+ "loss": 0.0315,
1936
+ "step": 2730
1937
+ },
1938
+ {
1939
+ "epoch": 0.86,
1940
+ "grad_norm": 0.001556396484375,
1941
+ "learning_rate": 1.0044444444444446e-05,
1942
+ "loss": 0.0117,
1943
+ "step": 2740
1944
+ },
1945
+ {
1946
+ "epoch": 0.86,
1947
+ "grad_norm": 0.005767822265625,
1948
+ "learning_rate": 1e-05,
1949
+ "loss": 0.0485,
1950
+ "step": 2750
1951
+ },
1952
+ {
1953
+ "epoch": 0.86,
1954
+ "grad_norm": 0.005889892578125,
1955
+ "learning_rate": 9.955555555555556e-06,
1956
+ "loss": 0.0631,
1957
+ "step": 2760
1958
+ },
1959
+ {
1960
+ "epoch": 0.87,
1961
+ "grad_norm": 0.0016021728515625,
1962
+ "learning_rate": 9.911111111111113e-06,
1963
+ "loss": 0.0489,
1964
+ "step": 2770
1965
+ },
1966
+ {
1967
+ "epoch": 0.87,
1968
+ "grad_norm": 0.00189208984375,
1969
+ "learning_rate": 9.866666666666668e-06,
1970
+ "loss": 0.0797,
1971
+ "step": 2780
1972
+ },
1973
+ {
1974
+ "epoch": 0.87,
1975
+ "grad_norm": 0.00347900390625,
1976
+ "learning_rate": 9.822222222222223e-06,
1977
+ "loss": 0.0224,
1978
+ "step": 2790
1979
+ },
1980
+ {
1981
+ "epoch": 0.88,
1982
+ "grad_norm": 0.0020599365234375,
1983
+ "learning_rate": 9.777777777777779e-06,
1984
+ "loss": 0.0776,
1985
+ "step": 2800
1986
+ },
1987
+ {
1988
+ "epoch": 0.88,
1989
+ "grad_norm": 0.00156402587890625,
1990
+ "learning_rate": 9.733333333333334e-06,
1991
+ "loss": 0.0961,
1992
+ "step": 2810
1993
+ },
1994
+ {
1995
+ "epoch": 0.88,
1996
+ "grad_norm": 4.125,
1997
+ "learning_rate": 9.688888888888889e-06,
1998
+ "loss": 0.0648,
1999
+ "step": 2820
2000
+ },
2001
+ {
2002
+ "epoch": 0.89,
2003
+ "grad_norm": 2.84375,
2004
+ "learning_rate": 9.644444444444444e-06,
2005
+ "loss": 0.0402,
2006
+ "step": 2830
2007
+ },
2008
+ {
2009
+ "epoch": 0.89,
2010
+ "grad_norm": 2.890625,
2011
+ "learning_rate": 9.600000000000001e-06,
2012
+ "loss": 0.0605,
2013
+ "step": 2840
2014
+ },
2015
+ {
2016
+ "epoch": 0.89,
2017
+ "grad_norm": 0.0015411376953125,
2018
+ "learning_rate": 9.555555555555556e-06,
2019
+ "loss": 0.0229,
2020
+ "step": 2850
2021
+ },
2022
+ {
2023
+ "epoch": 0.9,
2024
+ "grad_norm": 0.0026092529296875,
2025
+ "learning_rate": 9.511111111111112e-06,
2026
+ "loss": 0.0494,
2027
+ "step": 2860
2028
+ },
2029
+ {
2030
+ "epoch": 0.9,
2031
+ "grad_norm": 0.00732421875,
2032
+ "learning_rate": 9.466666666666667e-06,
2033
+ "loss": 0.1074,
2034
+ "step": 2870
2035
+ },
2036
+ {
2037
+ "epoch": 0.9,
2038
+ "grad_norm": 0.007080078125,
2039
+ "learning_rate": 9.422222222222222e-06,
2040
+ "loss": 0.0181,
2041
+ "step": 2880
2042
+ },
2043
+ {
2044
+ "epoch": 0.91,
2045
+ "grad_norm": 0.0040283203125,
2046
+ "learning_rate": 9.377777777777779e-06,
2047
+ "loss": 0.0481,
2048
+ "step": 2890
2049
+ },
2050
+ {
2051
+ "epoch": 0.91,
2052
+ "grad_norm": 0.08154296875,
2053
+ "learning_rate": 9.333333333333334e-06,
2054
+ "loss": 0.0291,
2055
+ "step": 2900
2056
+ },
2057
+ {
2058
+ "epoch": 0.91,
2059
+ "grad_norm": 0.001861572265625,
2060
+ "learning_rate": 9.28888888888889e-06,
2061
+ "loss": 0.0827,
2062
+ "step": 2910
2063
+ },
2064
+ {
2065
+ "epoch": 0.91,
2066
+ "grad_norm": 0.0017852783203125,
2067
+ "learning_rate": 9.244444444444445e-06,
2068
+ "loss": 0.019,
2069
+ "step": 2920
2070
+ },
2071
+ {
2072
+ "epoch": 0.92,
2073
+ "grad_norm": 0.00726318359375,
2074
+ "learning_rate": 9.200000000000002e-06,
2075
+ "loss": 0.0496,
2076
+ "step": 2930
2077
+ },
2078
+ {
2079
+ "epoch": 0.92,
2080
+ "grad_norm": 0.002044677734375,
2081
+ "learning_rate": 9.155555555555557e-06,
2082
+ "loss": 0.0302,
2083
+ "step": 2940
2084
+ },
2085
+ {
2086
+ "epoch": 0.92,
2087
+ "grad_norm": 0.00250244140625,
2088
+ "learning_rate": 9.111111111111112e-06,
2089
+ "loss": 0.015,
2090
+ "step": 2950
2091
+ },
2092
+ {
2093
+ "epoch": 0.93,
2094
+ "grad_norm": 0.00193023681640625,
2095
+ "learning_rate": 9.066666666666667e-06,
2096
+ "loss": 0.0422,
2097
+ "step": 2960
2098
+ },
2099
+ {
2100
+ "epoch": 0.93,
2101
+ "grad_norm": 6.1875,
2102
+ "learning_rate": 9.022222222222223e-06,
2103
+ "loss": 0.0594,
2104
+ "step": 2970
2105
+ },
2106
+ {
2107
+ "epoch": 0.93,
2108
+ "grad_norm": 0.00128936767578125,
2109
+ "learning_rate": 8.977777777777778e-06,
2110
+ "loss": 0.0027,
2111
+ "step": 2980
2112
+ },
2113
+ {
2114
+ "epoch": 0.94,
2115
+ "grad_norm": 0.00128936767578125,
2116
+ "learning_rate": 8.933333333333333e-06,
2117
+ "loss": 0.0445,
2118
+ "step": 2990
2119
+ },
2120
+ {
2121
+ "epoch": 0.94,
2122
+ "grad_norm": 0.00146484375,
2123
+ "learning_rate": 8.888888888888888e-06,
2124
+ "loss": 0.0358,
2125
+ "step": 3000
2126
+ },
2127
+ {
2128
+ "epoch": 0.94,
2129
+ "eval_loss": 0.01655612699687481,
2130
+ "eval_runtime": 53.3483,
2131
+ "eval_samples_per_second": 18.745,
2132
+ "eval_steps_per_second": 18.745,
2133
+ "step": 3000
2134
  }
2135
  ],
2136
  "logging_steps": 10,
 
2138
  "num_input_tokens_seen": 0,
2139
  "num_train_epochs": 2,
2140
  "save_steps": 1000,
2141
+ "total_flos": 4.7201094991872e+16,
2142
  "train_batch_size": 1,
2143
  "trial_name": null,
2144
  "trial_params": null