jzsues commited on
Commit
9ba760e
1 Parent(s): f9a9a6c

Upload folder using huggingface_hub

Browse files
checkpoint-1500/latest CHANGED
@@ -1 +1 @@
1
- global_step2000
 
1
+ global_step1500
checkpoint-1500/model-00001-of-00002.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:656da4fa3a8914e9ee5c4eaccae596b2b4ea5c415d7f2d18ebba23a224da7313
3
  size 4989973456
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:fb7d96677028968fa0efb3ac3d9b0f18d8849cd26216974d967e16891767623f
3
  size 4989973456
checkpoint-1500/model-00002-of-00002.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:630cb5d37159c1bd6fc51269757ccf7b4719af50345e058774f283dc4497eca4
3
  size 3786358064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:da032c5a4be981c7a258e92ebfcb03f706ecc928b1ac61a51409a411a3716ecd
3
  size 3786358064
checkpoint-1500/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:fe093ffefd59d129cb1cf11f7e04ccd9d30a8327bb7c240932a1fbb2159d0ed5
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5bbec261470d413996479fcbb03408ee846cb206811a71888c56aa5caa61e5cc
3
  size 1064
checkpoint-1500/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.38513383400731754,
5
  "eval_steps": 500,
6
- "global_step": 2000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -10507,3506 +10507,6 @@
10507
  "learning_rate": 1.6687597216781584e-05,
10508
  "loss": 0.8145,
10509
  "step": 1500
10510
- },
10511
- {
10512
- "epoch": 0.29,
10513
- "grad_norm": 1.6814585945564913,
10514
- "learning_rate": 1.668295881701969e-05,
10515
- "loss": 0.9505,
10516
- "step": 1501
10517
- },
10518
- {
10519
- "epoch": 0.29,
10520
- "grad_norm": 1.8977009968762184,
10521
- "learning_rate": 1.667831781754954e-05,
10522
- "loss": 0.9042,
10523
- "step": 1502
10524
- },
10525
- {
10526
- "epoch": 0.29,
10527
- "grad_norm": 1.8711464591936275,
10528
- "learning_rate": 1.6673674220176496e-05,
10529
- "loss": 0.9478,
10530
- "step": 1503
10531
- },
10532
- {
10533
- "epoch": 0.29,
10534
- "grad_norm": 1.7180539423192296,
10535
- "learning_rate": 1.666902802670695e-05,
10536
- "loss": 0.962,
10537
- "step": 1504
10538
- },
10539
- {
10540
- "epoch": 0.29,
10541
- "grad_norm": 1.6666626104248825,
10542
- "learning_rate": 1.66643792389483e-05,
10543
- "loss": 0.9123,
10544
- "step": 1505
10545
- },
10546
- {
10547
- "epoch": 0.29,
10548
- "grad_norm": 1.1973527998514766,
10549
- "learning_rate": 1.6659727858708947e-05,
10550
- "loss": 0.856,
10551
- "step": 1506
10552
- },
10553
- {
10554
- "epoch": 0.29,
10555
- "grad_norm": 1.5673259814240763,
10556
- "learning_rate": 1.66550738877983e-05,
10557
- "loss": 0.9118,
10558
- "step": 1507
10559
- },
10560
- {
10561
- "epoch": 0.29,
10562
- "grad_norm": 1.5728628446079507,
10563
- "learning_rate": 1.6650417328026793e-05,
10564
- "loss": 0.9139,
10565
- "step": 1508
10566
- },
10567
- {
10568
- "epoch": 0.29,
10569
- "grad_norm": 1.5857396432980118,
10570
- "learning_rate": 1.6645758181205834e-05,
10571
- "loss": 0.8822,
10572
- "step": 1509
10573
- },
10574
- {
10575
- "epoch": 0.29,
10576
- "grad_norm": 1.8890331201978154,
10577
- "learning_rate": 1.6641096449147875e-05,
10578
- "loss": 0.9863,
10579
- "step": 1510
10580
- },
10581
- {
10582
- "epoch": 0.29,
10583
- "grad_norm": 1.6118515343399076,
10584
- "learning_rate": 1.6636432133666342e-05,
10585
- "loss": 0.9455,
10586
- "step": 1511
10587
- },
10588
- {
10589
- "epoch": 0.29,
10590
- "grad_norm": 1.6742412673222384,
10591
- "learning_rate": 1.663176523657569e-05,
10592
- "loss": 0.9777,
10593
- "step": 1512
10594
- },
10595
- {
10596
- "epoch": 0.29,
10597
- "grad_norm": 1.8259098282089554,
10598
- "learning_rate": 1.6627095759691364e-05,
10599
- "loss": 1.0421,
10600
- "step": 1513
10601
- },
10602
- {
10603
- "epoch": 0.29,
10604
- "grad_norm": 1.7330916535087395,
10605
- "learning_rate": 1.6622423704829812e-05,
10606
- "loss": 0.8842,
10607
- "step": 1514
10608
- },
10609
- {
10610
- "epoch": 0.29,
10611
- "grad_norm": 1.6424763863303073,
10612
- "learning_rate": 1.66177490738085e-05,
10613
- "loss": 0.8998,
10614
- "step": 1515
10615
- },
10616
- {
10617
- "epoch": 0.29,
10618
- "grad_norm": 1.7477206896837032,
10619
- "learning_rate": 1.661307186844588e-05,
10620
- "loss": 0.9033,
10621
- "step": 1516
10622
- },
10623
- {
10624
- "epoch": 0.29,
10625
- "grad_norm": 1.557691444398473,
10626
- "learning_rate": 1.660839209056141e-05,
10627
- "loss": 0.8975,
10628
- "step": 1517
10629
- },
10630
- {
10631
- "epoch": 0.29,
10632
- "grad_norm": 1.689261636764078,
10633
- "learning_rate": 1.6603709741975545e-05,
10634
- "loss": 0.9635,
10635
- "step": 1518
10636
- },
10637
- {
10638
- "epoch": 0.29,
10639
- "grad_norm": 1.7840501705145897,
10640
- "learning_rate": 1.6599024824509752e-05,
10641
- "loss": 0.9215,
10642
- "step": 1519
10643
- },
10644
- {
10645
- "epoch": 0.29,
10646
- "grad_norm": 1.9083255044750755,
10647
- "learning_rate": 1.659433733998649e-05,
10648
- "loss": 0.9896,
10649
- "step": 1520
10650
- },
10651
- {
10652
- "epoch": 0.29,
10653
- "grad_norm": 1.6931027780438765,
10654
- "learning_rate": 1.6589647290229215e-05,
10655
- "loss": 0.858,
10656
- "step": 1521
10657
- },
10658
- {
10659
- "epoch": 0.29,
10660
- "grad_norm": 1.7778446951035027,
10661
- "learning_rate": 1.6584954677062382e-05,
10662
- "loss": 0.9867,
10663
- "step": 1522
10664
- },
10665
- {
10666
- "epoch": 0.29,
10667
- "grad_norm": 1.6874904324233353,
10668
- "learning_rate": 1.6580259502311445e-05,
10669
- "loss": 1.0151,
10670
- "step": 1523
10671
- },
10672
- {
10673
- "epoch": 0.29,
10674
- "grad_norm": 1.8272429728687376,
10675
- "learning_rate": 1.657556176780285e-05,
10676
- "loss": 0.9711,
10677
- "step": 1524
10678
- },
10679
- {
10680
- "epoch": 0.29,
10681
- "grad_norm": 1.8411467883969832,
10682
- "learning_rate": 1.6570861475364046e-05,
10683
- "loss": 0.9206,
10684
- "step": 1525
10685
- },
10686
- {
10687
- "epoch": 0.29,
10688
- "grad_norm": 1.8710930737452116,
10689
- "learning_rate": 1.6566158626823465e-05,
10690
- "loss": 0.9872,
10691
- "step": 1526
10692
- },
10693
- {
10694
- "epoch": 0.29,
10695
- "grad_norm": 1.720506195988624,
10696
- "learning_rate": 1.6561453224010554e-05,
10697
- "loss": 0.9681,
10698
- "step": 1527
10699
- },
10700
- {
10701
- "epoch": 0.29,
10702
- "grad_norm": 1.6647183073763208,
10703
- "learning_rate": 1.655674526875573e-05,
10704
- "loss": 0.9251,
10705
- "step": 1528
10706
- },
10707
- {
10708
- "epoch": 0.29,
10709
- "grad_norm": 1.577609447670818,
10710
- "learning_rate": 1.6552034762890422e-05,
10711
- "loss": 0.9072,
10712
- "step": 1529
10713
- },
10714
- {
10715
- "epoch": 0.29,
10716
- "grad_norm": 2.066399167027944,
10717
- "learning_rate": 1.6547321708247037e-05,
10718
- "loss": 0.9379,
10719
- "step": 1530
10720
- },
10721
- {
10722
- "epoch": 0.29,
10723
- "grad_norm": 1.840506676774067,
10724
- "learning_rate": 1.654260610665898e-05,
10725
- "loss": 0.9352,
10726
- "step": 1531
10727
- },
10728
- {
10729
- "epoch": 0.3,
10730
- "grad_norm": 1.7208292126684335,
10731
- "learning_rate": 1.653788795996065e-05,
10732
- "loss": 0.899,
10733
- "step": 1532
10734
- },
10735
- {
10736
- "epoch": 0.3,
10737
- "grad_norm": 1.8414566876249059,
10738
- "learning_rate": 1.6533167269987435e-05,
10739
- "loss": 0.8995,
10740
- "step": 1533
10741
- },
10742
- {
10743
- "epoch": 0.3,
10744
- "grad_norm": 1.8163661936250057,
10745
- "learning_rate": 1.65284440385757e-05,
10746
- "loss": 1.0081,
10747
- "step": 1534
10748
- },
10749
- {
10750
- "epoch": 0.3,
10751
- "grad_norm": 1.705322353027036,
10752
- "learning_rate": 1.6523718267562815e-05,
10753
- "loss": 0.9674,
10754
- "step": 1535
10755
- },
10756
- {
10757
- "epoch": 0.3,
10758
- "grad_norm": 1.7366560844179042,
10759
- "learning_rate": 1.6518989958787126e-05,
10760
- "loss": 0.9463,
10761
- "step": 1536
10762
- },
10763
- {
10764
- "epoch": 0.3,
10765
- "grad_norm": 1.1520789836347844,
10766
- "learning_rate": 1.651425911408798e-05,
10767
- "loss": 0.8954,
10768
- "step": 1537
10769
- },
10770
- {
10771
- "epoch": 0.3,
10772
- "grad_norm": 1.8026482343246513,
10773
- "learning_rate": 1.6509525735305697e-05,
10774
- "loss": 0.9674,
10775
- "step": 1538
10776
- },
10777
- {
10778
- "epoch": 0.3,
10779
- "grad_norm": 1.8502578015677411,
10780
- "learning_rate": 1.6504789824281586e-05,
10781
- "loss": 0.9929,
10782
- "step": 1539
10783
- },
10784
- {
10785
- "epoch": 0.3,
10786
- "grad_norm": 1.7705139842133477,
10787
- "learning_rate": 1.6500051382857944e-05,
10788
- "loss": 0.8824,
10789
- "step": 1540
10790
- },
10791
- {
10792
- "epoch": 0.3,
10793
- "grad_norm": 1.8066747761487192,
10794
- "learning_rate": 1.6495310412878053e-05,
10795
- "loss": 0.8852,
10796
- "step": 1541
10797
- },
10798
- {
10799
- "epoch": 0.3,
10800
- "grad_norm": 1.673141236636469,
10801
- "learning_rate": 1.649056691618618e-05,
10802
- "loss": 0.9782,
10803
- "step": 1542
10804
- },
10805
- {
10806
- "epoch": 0.3,
10807
- "grad_norm": 1.8277718379488843,
10808
- "learning_rate": 1.648582089462756e-05,
10809
- "loss": 0.9895,
10810
- "step": 1543
10811
- },
10812
- {
10813
- "epoch": 0.3,
10814
- "grad_norm": 1.62439404205175,
10815
- "learning_rate": 1.648107235004843e-05,
10816
- "loss": 0.9448,
10817
- "step": 1544
10818
- },
10819
- {
10820
- "epoch": 0.3,
10821
- "grad_norm": 1.6323693740805412,
10822
- "learning_rate": 1.6476321284296005e-05,
10823
- "loss": 0.9419,
10824
- "step": 1545
10825
- },
10826
- {
10827
- "epoch": 0.3,
10828
- "grad_norm": 1.8284109095149372,
10829
- "learning_rate": 1.647156769921847e-05,
10830
- "loss": 0.8998,
10831
- "step": 1546
10832
- },
10833
- {
10834
- "epoch": 0.3,
10835
- "grad_norm": 1.6500951414316578,
10836
- "learning_rate": 1.6466811596664997e-05,
10837
- "loss": 0.897,
10838
- "step": 1547
10839
- },
10840
- {
10841
- "epoch": 0.3,
10842
- "grad_norm": 1.6636394238778047,
10843
- "learning_rate": 1.6462052978485733e-05,
10844
- "loss": 0.991,
10845
- "step": 1548
10846
- },
10847
- {
10848
- "epoch": 0.3,
10849
- "grad_norm": 1.6471253017947654,
10850
- "learning_rate": 1.645729184653181e-05,
10851
- "loss": 0.9912,
10852
- "step": 1549
10853
- },
10854
- {
10855
- "epoch": 0.3,
10856
- "grad_norm": 1.900480841118098,
10857
- "learning_rate": 1.645252820265534e-05,
10858
- "loss": 0.9342,
10859
- "step": 1550
10860
- },
10861
- {
10862
- "epoch": 0.3,
10863
- "grad_norm": 1.7274929771579584,
10864
- "learning_rate": 1.6447762048709397e-05,
10865
- "loss": 1.0001,
10866
- "step": 1551
10867
- },
10868
- {
10869
- "epoch": 0.3,
10870
- "grad_norm": 1.8024044277346902,
10871
- "learning_rate": 1.644299338654805e-05,
10872
- "loss": 0.8785,
10873
- "step": 1552
10874
- },
10875
- {
10876
- "epoch": 0.3,
10877
- "grad_norm": 1.650686902566554,
10878
- "learning_rate": 1.643822221802633e-05,
10879
- "loss": 0.9584,
10880
- "step": 1553
10881
- },
10882
- {
10883
- "epoch": 0.3,
10884
- "grad_norm": 1.5474371202081496,
10885
- "learning_rate": 1.6433448545000252e-05,
10886
- "loss": 0.9775,
10887
- "step": 1554
10888
- },
10889
- {
10890
- "epoch": 0.3,
10891
- "grad_norm": 1.5597079451380407,
10892
- "learning_rate": 1.64286723693268e-05,
10893
- "loss": 0.9947,
10894
- "step": 1555
10895
- },
10896
- {
10897
- "epoch": 0.3,
10898
- "grad_norm": 1.6385235106949365,
10899
- "learning_rate": 1.642389369286393e-05,
10900
- "loss": 0.8831,
10901
- "step": 1556
10902
- },
10903
- {
10904
- "epoch": 0.3,
10905
- "grad_norm": 1.6742026888304702,
10906
- "learning_rate": 1.6419112517470577e-05,
10907
- "loss": 0.9836,
10908
- "step": 1557
10909
- },
10910
- {
10911
- "epoch": 0.3,
10912
- "grad_norm": 1.7075133360117316,
10913
- "learning_rate": 1.6414328845006644e-05,
10914
- "loss": 0.9422,
10915
- "step": 1558
10916
- },
10917
- {
10918
- "epoch": 0.3,
10919
- "grad_norm": 1.5892520663236174,
10920
- "learning_rate": 1.6409542677333007e-05,
10921
- "loss": 0.8709,
10922
- "step": 1559
10923
- },
10924
- {
10925
- "epoch": 0.3,
10926
- "grad_norm": 1.6384876281252254,
10927
- "learning_rate": 1.640475401631151e-05,
10928
- "loss": 1.0045,
10929
- "step": 1560
10930
- },
10931
- {
10932
- "epoch": 0.3,
10933
- "grad_norm": 1.693979144639973,
10934
- "learning_rate": 1.6399962863804974e-05,
10935
- "loss": 0.9034,
10936
- "step": 1561
10937
- },
10938
- {
10939
- "epoch": 0.3,
10940
- "grad_norm": 1.8320477072069328,
10941
- "learning_rate": 1.6395169221677176e-05,
10942
- "loss": 1.0343,
10943
- "step": 1562
10944
- },
10945
- {
10946
- "epoch": 0.3,
10947
- "grad_norm": 1.7645628809213245,
10948
- "learning_rate": 1.6390373091792873e-05,
10949
- "loss": 1.0095,
10950
- "step": 1563
10951
- },
10952
- {
10953
- "epoch": 0.3,
10954
- "grad_norm": 1.6613618239883878,
10955
- "learning_rate": 1.6385574476017795e-05,
10956
- "loss": 0.9025,
10957
- "step": 1564
10958
- },
10959
- {
10960
- "epoch": 0.3,
10961
- "grad_norm": 1.870626964940079,
10962
- "learning_rate": 1.638077337621861e-05,
10963
- "loss": 0.9294,
10964
- "step": 1565
10965
- },
10966
- {
10967
- "epoch": 0.3,
10968
- "grad_norm": 1.6781919217989782,
10969
- "learning_rate": 1.6375969794262997e-05,
10970
- "loss": 0.9265,
10971
- "step": 1566
10972
- },
10973
- {
10974
- "epoch": 0.3,
10975
- "grad_norm": 1.6732809661254076,
10976
- "learning_rate": 1.637116373201956e-05,
10977
- "loss": 0.9116,
10978
- "step": 1567
10979
- },
10980
- {
10981
- "epoch": 0.3,
10982
- "grad_norm": 2.0888776005788916,
10983
- "learning_rate": 1.6366355191357885e-05,
10984
- "loss": 1.0467,
10985
- "step": 1568
10986
- },
10987
- {
10988
- "epoch": 0.3,
10989
- "grad_norm": 1.8650433291396247,
10990
- "learning_rate": 1.6361544174148527e-05,
10991
- "loss": 0.9516,
10992
- "step": 1569
10993
- },
10994
- {
10995
- "epoch": 0.3,
10996
- "grad_norm": 1.7447193484240076,
10997
- "learning_rate": 1.6356730682262997e-05,
10998
- "loss": 0.9328,
10999
- "step": 1570
11000
- },
11001
- {
11002
- "epoch": 0.3,
11003
- "grad_norm": 1.544513865520117,
11004
- "learning_rate": 1.6351914717573767e-05,
11005
- "loss": 0.8765,
11006
- "step": 1571
11007
- },
11008
- {
11009
- "epoch": 0.3,
11010
- "grad_norm": 1.7101828627501428,
11011
- "learning_rate": 1.6347096281954277e-05,
11012
- "loss": 0.9101,
11013
- "step": 1572
11014
- },
11015
- {
11016
- "epoch": 0.3,
11017
- "grad_norm": 1.7209199573338974,
11018
- "learning_rate": 1.6342275377278923e-05,
11019
- "loss": 0.8928,
11020
- "step": 1573
11021
- },
11022
- {
11023
- "epoch": 0.3,
11024
- "grad_norm": 1.730187436877261,
11025
- "learning_rate": 1.6337452005423067e-05,
11026
- "loss": 0.9241,
11027
- "step": 1574
11028
- },
11029
- {
11030
- "epoch": 0.3,
11031
- "grad_norm": 1.6976839779004649,
11032
- "learning_rate": 1.6332626168263025e-05,
11033
- "loss": 0.8881,
11034
- "step": 1575
11035
- },
11036
- {
11037
- "epoch": 0.3,
11038
- "grad_norm": 1.6303874238073626,
11039
- "learning_rate": 1.6327797867676077e-05,
11040
- "loss": 0.943,
11041
- "step": 1576
11042
- },
11043
- {
11044
- "epoch": 0.3,
11045
- "grad_norm": 1.670673560161254,
11046
- "learning_rate": 1.6322967105540457e-05,
11047
- "loss": 0.9151,
11048
- "step": 1577
11049
- },
11050
- {
11051
- "epoch": 0.3,
11052
- "grad_norm": 1.7163060222751576,
11053
- "learning_rate": 1.6318133883735358e-05,
11054
- "loss": 0.9639,
11055
- "step": 1578
11056
- },
11057
- {
11058
- "epoch": 0.3,
11059
- "grad_norm": 1.687703952131334,
11060
- "learning_rate": 1.6313298204140934e-05,
11061
- "loss": 0.9525,
11062
- "step": 1579
11063
- },
11064
- {
11065
- "epoch": 0.3,
11066
- "grad_norm": 1.9942262110876094,
11067
- "learning_rate": 1.6308460068638287e-05,
11068
- "loss": 0.955,
11069
- "step": 1580
11070
- },
11071
- {
11072
- "epoch": 0.3,
11073
- "grad_norm": 1.8919831342466207,
11074
- "learning_rate": 1.6303619479109475e-05,
11075
- "loss": 0.9573,
11076
- "step": 1581
11077
- },
11078
- {
11079
- "epoch": 0.3,
11080
- "grad_norm": 1.778747910790833,
11081
- "learning_rate": 1.6298776437437526e-05,
11082
- "loss": 0.9421,
11083
- "step": 1582
11084
- },
11085
- {
11086
- "epoch": 0.3,
11087
- "grad_norm": 1.745824812138257,
11088
- "learning_rate": 1.62939309455064e-05,
11089
- "loss": 0.9841,
11090
- "step": 1583
11091
- },
11092
- {
11093
- "epoch": 0.31,
11094
- "grad_norm": 2.005077387084947,
11095
- "learning_rate": 1.6289083005201026e-05,
11096
- "loss": 0.9857,
11097
- "step": 1584
11098
- },
11099
- {
11100
- "epoch": 0.31,
11101
- "grad_norm": 1.898514749339766,
11102
- "learning_rate": 1.6284232618407276e-05,
11103
- "loss": 0.9036,
11104
- "step": 1585
11105
- },
11106
- {
11107
- "epoch": 0.31,
11108
- "grad_norm": 1.5823702179562669,
11109
- "learning_rate": 1.627937978701198e-05,
11110
- "loss": 0.9336,
11111
- "step": 1586
11112
- },
11113
- {
11114
- "epoch": 0.31,
11115
- "grad_norm": 1.6580159968617827,
11116
- "learning_rate": 1.6274524512902912e-05,
11117
- "loss": 0.9015,
11118
- "step": 1587
11119
- },
11120
- {
11121
- "epoch": 0.31,
11122
- "grad_norm": 1.6328945384243476,
11123
- "learning_rate": 1.626966679796881e-05,
11124
- "loss": 0.9527,
11125
- "step": 1588
11126
- },
11127
- {
11128
- "epoch": 0.31,
11129
- "grad_norm": 1.7353326953684673,
11130
- "learning_rate": 1.6264806644099347e-05,
11131
- "loss": 0.9191,
11132
- "step": 1589
11133
- },
11134
- {
11135
- "epoch": 0.31,
11136
- "grad_norm": 1.731152621721883,
11137
- "learning_rate": 1.6259944053185148e-05,
11138
- "loss": 0.9689,
11139
- "step": 1590
11140
- },
11141
- {
11142
- "epoch": 0.31,
11143
- "grad_norm": 1.8267882683217032,
11144
- "learning_rate": 1.625507902711779e-05,
11145
- "loss": 0.9006,
11146
- "step": 1591
11147
- },
11148
- {
11149
- "epoch": 0.31,
11150
- "grad_norm": 1.660673153228956,
11151
- "learning_rate": 1.6250211567789796e-05,
11152
- "loss": 0.9531,
11153
- "step": 1592
11154
- },
11155
- {
11156
- "epoch": 0.31,
11157
- "grad_norm": 1.7726958038187408,
11158
- "learning_rate": 1.6245341677094632e-05,
11159
- "loss": 0.9605,
11160
- "step": 1593
11161
- },
11162
- {
11163
- "epoch": 0.31,
11164
- "grad_norm": 1.5638525823490939,
11165
- "learning_rate": 1.6240469356926714e-05,
11166
- "loss": 0.9121,
11167
- "step": 1594
11168
- },
11169
- {
11170
- "epoch": 0.31,
11171
- "grad_norm": 1.615819492487161,
11172
- "learning_rate": 1.6235594609181404e-05,
11173
- "loss": 0.9112,
11174
- "step": 1595
11175
- },
11176
- {
11177
- "epoch": 0.31,
11178
- "grad_norm": 1.1452214964318819,
11179
- "learning_rate": 1.6230717435755002e-05,
11180
- "loss": 0.8227,
11181
- "step": 1596
11182
- },
11183
- {
11184
- "epoch": 0.31,
11185
- "grad_norm": 1.1150563856276265,
11186
- "learning_rate": 1.6225837838544763e-05,
11187
- "loss": 0.8186,
11188
- "step": 1597
11189
- },
11190
- {
11191
- "epoch": 0.31,
11192
- "grad_norm": 1.8136187860164037,
11193
- "learning_rate": 1.622095581944887e-05,
11194
- "loss": 0.8627,
11195
- "step": 1598
11196
- },
11197
- {
11198
- "epoch": 0.31,
11199
- "grad_norm": 1.9577379459272641,
11200
- "learning_rate": 1.6216071380366453e-05,
11201
- "loss": 0.9854,
11202
- "step": 1599
11203
- },
11204
- {
11205
- "epoch": 0.31,
11206
- "grad_norm": 1.4458602998328087,
11207
- "learning_rate": 1.62111845231976e-05,
11208
- "loss": 0.9476,
11209
- "step": 1600
11210
- },
11211
- {
11212
- "epoch": 0.31,
11213
- "grad_norm": 1.6626009143381728,
11214
- "learning_rate": 1.6206295249843312e-05,
11215
- "loss": 0.9418,
11216
- "step": 1601
11217
- },
11218
- {
11219
- "epoch": 0.31,
11220
- "grad_norm": 1.8417180161902174,
11221
- "learning_rate": 1.6201403562205547e-05,
11222
- "loss": 0.928,
11223
- "step": 1602
11224
- },
11225
- {
11226
- "epoch": 0.31,
11227
- "grad_norm": 1.6342966301969772,
11228
- "learning_rate": 1.6196509462187205e-05,
11229
- "loss": 0.8499,
11230
- "step": 1603
11231
- },
11232
- {
11233
- "epoch": 0.31,
11234
- "grad_norm": 1.4967835565015328,
11235
- "learning_rate": 1.619161295169211e-05,
11236
- "loss": 0.8553,
11237
- "step": 1604
11238
- },
11239
- {
11240
- "epoch": 0.31,
11241
- "grad_norm": 1.7224864536848172,
11242
- "learning_rate": 1.6186714032625036e-05,
11243
- "loss": 0.925,
11244
- "step": 1605
11245
- },
11246
- {
11247
- "epoch": 0.31,
11248
- "grad_norm": 1.7763197537104958,
11249
- "learning_rate": 1.618181270689169e-05,
11250
- "loss": 0.9975,
11251
- "step": 1606
11252
- },
11253
- {
11254
- "epoch": 0.31,
11255
- "grad_norm": 1.831926739868879,
11256
- "learning_rate": 1.6176908976398713e-05,
11257
- "loss": 1.0196,
11258
- "step": 1607
11259
- },
11260
- {
11261
- "epoch": 0.31,
11262
- "grad_norm": 1.4575672638416406,
11263
- "learning_rate": 1.6172002843053687e-05,
11264
- "loss": 0.8872,
11265
- "step": 1608
11266
- },
11267
- {
11268
- "epoch": 0.31,
11269
- "grad_norm": 1.8265500625497886,
11270
- "learning_rate": 1.6167094308765122e-05,
11271
- "loss": 0.8805,
11272
- "step": 1609
11273
- },
11274
- {
11275
- "epoch": 0.31,
11276
- "grad_norm": 1.6430601567156466,
11277
- "learning_rate": 1.6162183375442464e-05,
11278
- "loss": 0.9035,
11279
- "step": 1610
11280
- },
11281
- {
11282
- "epoch": 0.31,
11283
- "grad_norm": 1.4940280767553107,
11284
- "learning_rate": 1.6157270044996098e-05,
11285
- "loss": 0.8646,
11286
- "step": 1611
11287
- },
11288
- {
11289
- "epoch": 0.31,
11290
- "grad_norm": 1.7627770422295945,
11291
- "learning_rate": 1.6152354319337336e-05,
11292
- "loss": 0.8689,
11293
- "step": 1612
11294
- },
11295
- {
11296
- "epoch": 0.31,
11297
- "grad_norm": 1.6788474884705797,
11298
- "learning_rate": 1.614743620037842e-05,
11299
- "loss": 0.8535,
11300
- "step": 1613
11301
- },
11302
- {
11303
- "epoch": 0.31,
11304
- "grad_norm": 1.8638924023543273,
11305
- "learning_rate": 1.6142515690032525e-05,
11306
- "loss": 0.9121,
11307
- "step": 1614
11308
- },
11309
- {
11310
- "epoch": 0.31,
11311
- "grad_norm": 2.0612905331097275,
11312
- "learning_rate": 1.6137592790213765e-05,
11313
- "loss": 0.9246,
11314
- "step": 1615
11315
- },
11316
- {
11317
- "epoch": 0.31,
11318
- "grad_norm": 1.7216050549850093,
11319
- "learning_rate": 1.6132667502837164e-05,
11320
- "loss": 0.9596,
11321
- "step": 1616
11322
- },
11323
- {
11324
- "epoch": 0.31,
11325
- "grad_norm": 1.5634428918355618,
11326
- "learning_rate": 1.6127739829818695e-05,
11327
- "loss": 0.8957,
11328
- "step": 1617
11329
- },
11330
- {
11331
- "epoch": 0.31,
11332
- "grad_norm": 1.6959549456380303,
11333
- "learning_rate": 1.6122809773075247e-05,
11334
- "loss": 0.752,
11335
- "step": 1618
11336
- },
11337
- {
11338
- "epoch": 0.31,
11339
- "grad_norm": 1.8052961117745467,
11340
- "learning_rate": 1.6117877334524635e-05,
11341
- "loss": 0.9041,
11342
- "step": 1619
11343
- },
11344
- {
11345
- "epoch": 0.31,
11346
- "grad_norm": 1.82138238416882,
11347
- "learning_rate": 1.6112942516085616e-05,
11348
- "loss": 0.9431,
11349
- "step": 1620
11350
- },
11351
- {
11352
- "epoch": 0.31,
11353
- "grad_norm": 1.8821211929280084,
11354
- "learning_rate": 1.6108005319677853e-05,
11355
- "loss": 0.9189,
11356
- "step": 1621
11357
- },
11358
- {
11359
- "epoch": 0.31,
11360
- "grad_norm": 1.6797384699671483,
11361
- "learning_rate": 1.6103065747221945e-05,
11362
- "loss": 0.9559,
11363
- "step": 1622
11364
- },
11365
- {
11366
- "epoch": 0.31,
11367
- "grad_norm": 1.6335614363214426,
11368
- "learning_rate": 1.6098123800639415e-05,
11369
- "loss": 1.0283,
11370
- "step": 1623
11371
- },
11372
- {
11373
- "epoch": 0.31,
11374
- "grad_norm": 1.663077182850145,
11375
- "learning_rate": 1.6093179481852706e-05,
11376
- "loss": 0.8679,
11377
- "step": 1624
11378
- },
11379
- {
11380
- "epoch": 0.31,
11381
- "grad_norm": 1.736097411032046,
11382
- "learning_rate": 1.6088232792785187e-05,
11383
- "loss": 0.9939,
11384
- "step": 1625
11385
- },
11386
- {
11387
- "epoch": 0.31,
11388
- "grad_norm": 1.9331864705161093,
11389
- "learning_rate": 1.608328373536115e-05,
11390
- "loss": 0.8924,
11391
- "step": 1626
11392
- },
11393
- {
11394
- "epoch": 0.31,
11395
- "grad_norm": 1.7154518294143721,
11396
- "learning_rate": 1.60783323115058e-05,
11397
- "loss": 0.9131,
11398
- "step": 1627
11399
- },
11400
- {
11401
- "epoch": 0.31,
11402
- "grad_norm": 1.6772390452717216,
11403
- "learning_rate": 1.6073378523145272e-05,
11404
- "loss": 1.0287,
11405
- "step": 1628
11406
- },
11407
- {
11408
- "epoch": 0.31,
11409
- "grad_norm": 1.7439611127964232,
11410
- "learning_rate": 1.6068422372206613e-05,
11411
- "loss": 0.9183,
11412
- "step": 1629
11413
- },
11414
- {
11415
- "epoch": 0.31,
11416
- "grad_norm": 1.691458239632585,
11417
- "learning_rate": 1.6063463860617802e-05,
11418
- "loss": 0.9311,
11419
- "step": 1630
11420
- },
11421
- {
11422
- "epoch": 0.31,
11423
- "grad_norm": 1.658304169586574,
11424
- "learning_rate": 1.605850299030772e-05,
11425
- "loss": 0.9134,
11426
- "step": 1631
11427
- },
11428
- {
11429
- "epoch": 0.31,
11430
- "grad_norm": 1.7083337750889018,
11431
- "learning_rate": 1.6053539763206177e-05,
11432
- "loss": 0.9304,
11433
- "step": 1632
11434
- },
11435
- {
11436
- "epoch": 0.31,
11437
- "grad_norm": 1.7508484136879259,
11438
- "learning_rate": 1.6048574181243895e-05,
11439
- "loss": 0.939,
11440
- "step": 1633
11441
- },
11442
- {
11443
- "epoch": 0.31,
11444
- "grad_norm": 1.7852876914422533,
11445
- "learning_rate": 1.6043606246352516e-05,
11446
- "loss": 0.9663,
11447
- "step": 1634
11448
- },
11449
- {
11450
- "epoch": 0.31,
11451
- "grad_norm": 1.6659108647906151,
11452
- "learning_rate": 1.6038635960464586e-05,
11453
- "loss": 0.9219,
11454
- "step": 1635
11455
- },
11456
- {
11457
- "epoch": 0.32,
11458
- "grad_norm": 1.8060772275287673,
11459
- "learning_rate": 1.6033663325513583e-05,
11460
- "loss": 0.9479,
11461
- "step": 1636
11462
- },
11463
- {
11464
- "epoch": 0.32,
11465
- "grad_norm": 1.894086011906853,
11466
- "learning_rate": 1.602868834343388e-05,
11467
- "loss": 0.9187,
11468
- "step": 1637
11469
- },
11470
- {
11471
- "epoch": 0.32,
11472
- "grad_norm": 1.7600387051701272,
11473
- "learning_rate": 1.602371101616079e-05,
11474
- "loss": 0.9938,
11475
- "step": 1638
11476
- },
11477
- {
11478
- "epoch": 0.32,
11479
- "grad_norm": 1.6732938933125896,
11480
- "learning_rate": 1.60187313456305e-05,
11481
- "loss": 0.941,
11482
- "step": 1639
11483
- },
11484
- {
11485
- "epoch": 0.32,
11486
- "grad_norm": 1.543451364693145,
11487
- "learning_rate": 1.6013749333780143e-05,
11488
- "loss": 0.9488,
11489
- "step": 1640
11490
- },
11491
- {
11492
- "epoch": 0.32,
11493
- "grad_norm": 1.6555084246553577,
11494
- "learning_rate": 1.600876498254775e-05,
11495
- "loss": 0.96,
11496
- "step": 1641
11497
- },
11498
- {
11499
- "epoch": 0.32,
11500
- "grad_norm": 1.8317018556108886,
11501
- "learning_rate": 1.600377829387225e-05,
11502
- "loss": 0.9523,
11503
- "step": 1642
11504
- },
11505
- {
11506
- "epoch": 0.32,
11507
- "grad_norm": 1.635513167409773,
11508
- "learning_rate": 1.5998789269693508e-05,
11509
- "loss": 0.9135,
11510
- "step": 1643
11511
- },
11512
- {
11513
- "epoch": 0.32,
11514
- "grad_norm": 1.6171341568108941,
11515
- "learning_rate": 1.599379791195227e-05,
11516
- "loss": 0.8896,
11517
- "step": 1644
11518
- },
11519
- {
11520
- "epoch": 0.32,
11521
- "grad_norm": 1.8946636753822537,
11522
- "learning_rate": 1.598880422259021e-05,
11523
- "loss": 1.0003,
11524
- "step": 1645
11525
- },
11526
- {
11527
- "epoch": 0.32,
11528
- "grad_norm": 1.76766590571786,
11529
- "learning_rate": 1.598380820354989e-05,
11530
- "loss": 0.9844,
11531
- "step": 1646
11532
- },
11533
- {
11534
- "epoch": 0.32,
11535
- "grad_norm": 1.6685097327074356,
11536
- "learning_rate": 1.5978809856774807e-05,
11537
- "loss": 0.9786,
11538
- "step": 1647
11539
- },
11540
- {
11541
- "epoch": 0.32,
11542
- "grad_norm": 1.5918070005843183,
11543
- "learning_rate": 1.5973809184209328e-05,
11544
- "loss": 0.8771,
11545
- "step": 1648
11546
- },
11547
- {
11548
- "epoch": 0.32,
11549
- "grad_norm": 1.7023742031839773,
11550
- "learning_rate": 1.596880618779875e-05,
11551
- "loss": 0.8801,
11552
- "step": 1649
11553
- },
11554
- {
11555
- "epoch": 0.32,
11556
- "grad_norm": 1.724381937302016,
11557
- "learning_rate": 1.5963800869489273e-05,
11558
- "loss": 0.9386,
11559
- "step": 1650
11560
- },
11561
- {
11562
- "epoch": 0.32,
11563
- "grad_norm": 1.8494707991079804,
11564
- "learning_rate": 1.595879323122798e-05,
11565
- "loss": 1.0036,
11566
- "step": 1651
11567
- },
11568
- {
11569
- "epoch": 0.32,
11570
- "grad_norm": 1.5226561189767724,
11571
- "learning_rate": 1.5953783274962883e-05,
11572
- "loss": 0.8788,
11573
- "step": 1652
11574
- },
11575
- {
11576
- "epoch": 0.32,
11577
- "grad_norm": 1.6318911919928796,
11578
- "learning_rate": 1.5948771002642874e-05,
11579
- "loss": 0.9095,
11580
- "step": 1653
11581
- },
11582
- {
11583
- "epoch": 0.32,
11584
- "grad_norm": 1.912279971229655,
11585
- "learning_rate": 1.5943756416217758e-05,
11586
- "loss": 1.0128,
11587
- "step": 1654
11588
- },
11589
- {
11590
- "epoch": 0.32,
11591
- "grad_norm": 1.1650261536863196,
11592
- "learning_rate": 1.5938739517638236e-05,
11593
- "loss": 0.8428,
11594
- "step": 1655
11595
- },
11596
- {
11597
- "epoch": 0.32,
11598
- "grad_norm": 1.7415643450863434,
11599
- "learning_rate": 1.5933720308855915e-05,
11600
- "loss": 0.9211,
11601
- "step": 1656
11602
- },
11603
- {
11604
- "epoch": 0.32,
11605
- "grad_norm": 1.8820348107062908,
11606
- "learning_rate": 1.5928698791823292e-05,
11607
- "loss": 0.955,
11608
- "step": 1657
11609
- },
11610
- {
11611
- "epoch": 0.32,
11612
- "grad_norm": 1.6280225538899704,
11613
- "learning_rate": 1.5923674968493762e-05,
11614
- "loss": 1.0581,
11615
- "step": 1658
11616
- },
11617
- {
11618
- "epoch": 0.32,
11619
- "grad_norm": 1.6107594870919844,
11620
- "learning_rate": 1.5918648840821622e-05,
11621
- "loss": 0.9198,
11622
- "step": 1659
11623
- },
11624
- {
11625
- "epoch": 0.32,
11626
- "grad_norm": 1.9027448285073223,
11627
- "learning_rate": 1.5913620410762066e-05,
11628
- "loss": 0.9414,
11629
- "step": 1660
11630
- },
11631
- {
11632
- "epoch": 0.32,
11633
- "grad_norm": 1.1187156575317108,
11634
- "learning_rate": 1.590858968027118e-05,
11635
- "loss": 0.8779,
11636
- "step": 1661
11637
- },
11638
- {
11639
- "epoch": 0.32,
11640
- "grad_norm": 1.632013326547582,
11641
- "learning_rate": 1.5903556651305945e-05,
11642
- "loss": 0.8975,
11643
- "step": 1662
11644
- },
11645
- {
11646
- "epoch": 0.32,
11647
- "grad_norm": 1.6182938839187448,
11648
- "learning_rate": 1.5898521325824238e-05,
11649
- "loss": 0.855,
11650
- "step": 1663
11651
- },
11652
- {
11653
- "epoch": 0.32,
11654
- "grad_norm": 1.7066599421699202,
11655
- "learning_rate": 1.589348370578483e-05,
11656
- "loss": 0.9101,
11657
- "step": 1664
11658
- },
11659
- {
11660
- "epoch": 0.32,
11661
- "grad_norm": 1.5337852130580103,
11662
- "learning_rate": 1.588844379314738e-05,
11663
- "loss": 0.9258,
11664
- "step": 1665
11665
- },
11666
- {
11667
- "epoch": 0.32,
11668
- "grad_norm": 1.5552796689485406,
11669
- "learning_rate": 1.5883401589872444e-05,
11670
- "loss": 0.8547,
11671
- "step": 1666
11672
- },
11673
- {
11674
- "epoch": 0.32,
11675
- "grad_norm": 1.637891557924487,
11676
- "learning_rate": 1.587835709792147e-05,
11677
- "loss": 0.9402,
11678
- "step": 1667
11679
- },
11680
- {
11681
- "epoch": 0.32,
11682
- "grad_norm": 1.6360176706001976,
11683
- "learning_rate": 1.587331031925679e-05,
11684
- "loss": 0.8344,
11685
- "step": 1668
11686
- },
11687
- {
11688
- "epoch": 0.32,
11689
- "grad_norm": 1.7108867430309864,
11690
- "learning_rate": 1.586826125584163e-05,
11691
- "loss": 0.8892,
11692
- "step": 1669
11693
- },
11694
- {
11695
- "epoch": 0.32,
11696
- "grad_norm": 1.7038609470120825,
11697
- "learning_rate": 1.5863209909640106e-05,
11698
- "loss": 0.9929,
11699
- "step": 1670
11700
- },
11701
- {
11702
- "epoch": 0.32,
11703
- "grad_norm": 1.5206042599249054,
11704
- "learning_rate": 1.5858156282617215e-05,
11705
- "loss": 0.8909,
11706
- "step": 1671
11707
- },
11708
- {
11709
- "epoch": 0.32,
11710
- "grad_norm": 1.6711511627920845,
11711
- "learning_rate": 1.585310037673885e-05,
11712
- "loss": 0.8614,
11713
- "step": 1672
11714
- },
11715
- {
11716
- "epoch": 0.32,
11717
- "grad_norm": 1.8427061122981878,
11718
- "learning_rate": 1.5848042193971788e-05,
11719
- "loss": 1.0136,
11720
- "step": 1673
11721
- },
11722
- {
11723
- "epoch": 0.32,
11724
- "grad_norm": 1.6340322224497956,
11725
- "learning_rate": 1.5842981736283686e-05,
11726
- "loss": 0.977,
11727
- "step": 1674
11728
- },
11729
- {
11730
- "epoch": 0.32,
11731
- "grad_norm": 1.6997279400264118,
11732
- "learning_rate": 1.583791900564309e-05,
11733
- "loss": 0.9009,
11734
- "step": 1675
11735
- },
11736
- {
11737
- "epoch": 0.32,
11738
- "grad_norm": 1.7262098742750869,
11739
- "learning_rate": 1.583285400401944e-05,
11740
- "loss": 0.9738,
11741
- "step": 1676
11742
- },
11743
- {
11744
- "epoch": 0.32,
11745
- "grad_norm": 1.5265533453619249,
11746
- "learning_rate": 1.5827786733383033e-05,
11747
- "loss": 0.855,
11748
- "step": 1677
11749
- },
11750
- {
11751
- "epoch": 0.32,
11752
- "grad_norm": 1.5822635288749958,
11753
- "learning_rate": 1.5822717195705082e-05,
11754
- "loss": 0.8655,
11755
- "step": 1678
11756
- },
11757
- {
11758
- "epoch": 0.32,
11759
- "grad_norm": 1.4231646639501143,
11760
- "learning_rate": 1.581764539295765e-05,
11761
- "loss": 0.9177,
11762
- "step": 1679
11763
- },
11764
- {
11765
- "epoch": 0.32,
11766
- "grad_norm": 1.6751968342336907,
11767
- "learning_rate": 1.5812571327113715e-05,
11768
- "loss": 0.8745,
11769
- "step": 1680
11770
- },
11771
- {
11772
- "epoch": 0.32,
11773
- "grad_norm": 1.6747266634292668,
11774
- "learning_rate": 1.5807495000147103e-05,
11775
- "loss": 0.867,
11776
- "step": 1681
11777
- },
11778
- {
11779
- "epoch": 0.32,
11780
- "grad_norm": 1.8696931576923919,
11781
- "learning_rate": 1.5802416414032537e-05,
11782
- "loss": 0.9896,
11783
- "step": 1682
11784
- },
11785
- {
11786
- "epoch": 0.32,
11787
- "grad_norm": 1.6926163574834707,
11788
- "learning_rate": 1.5797335570745614e-05,
11789
- "loss": 0.868,
11790
- "step": 1683
11791
- },
11792
- {
11793
- "epoch": 0.32,
11794
- "grad_norm": 1.7188418247492503,
11795
- "learning_rate": 1.5792252472262813e-05,
11796
- "loss": 0.9944,
11797
- "step": 1684
11798
- },
11799
- {
11800
- "epoch": 0.32,
11801
- "grad_norm": 1.566218028695576,
11802
- "learning_rate": 1.578716712056149e-05,
11803
- "loss": 0.9525,
11804
- "step": 1685
11805
- },
11806
- {
11807
- "epoch": 0.32,
11808
- "grad_norm": 1.699566762060431,
11809
- "learning_rate": 1.578207951761987e-05,
11810
- "loss": 0.9356,
11811
- "step": 1686
11812
- },
11813
- {
11814
- "epoch": 0.32,
11815
- "grad_norm": 1.6877601287806214,
11816
- "learning_rate": 1.577698966541706e-05,
11817
- "loss": 1.0246,
11818
- "step": 1687
11819
- },
11820
- {
11821
- "epoch": 0.33,
11822
- "grad_norm": 1.514033754520559,
11823
- "learning_rate": 1.577189756593304e-05,
11824
- "loss": 0.9412,
11825
- "step": 1688
11826
- },
11827
- {
11828
- "epoch": 0.33,
11829
- "grad_norm": 1.8053392098687253,
11830
- "learning_rate": 1.5766803221148676e-05,
11831
- "loss": 0.9257,
11832
- "step": 1689
11833
- },
11834
- {
11835
- "epoch": 0.33,
11836
- "grad_norm": 1.637881254327796,
11837
- "learning_rate": 1.5761706633045677e-05,
11838
- "loss": 0.9698,
11839
- "step": 1690
11840
- },
11841
- {
11842
- "epoch": 0.33,
11843
- "grad_norm": 1.4978510106761729,
11844
- "learning_rate": 1.575660780360666e-05,
11845
- "loss": 0.8801,
11846
- "step": 1691
11847
- },
11848
- {
11849
- "epoch": 0.33,
11850
- "grad_norm": 1.6878496657903825,
11851
- "learning_rate": 1.575150673481509e-05,
11852
- "loss": 0.8644,
11853
- "step": 1692
11854
- },
11855
- {
11856
- "epoch": 0.33,
11857
- "grad_norm": 1.6593397363940259,
11858
- "learning_rate": 1.5746403428655318e-05,
11859
- "loss": 1.023,
11860
- "step": 1693
11861
- },
11862
- {
11863
- "epoch": 0.33,
11864
- "grad_norm": 1.6235841003825928,
11865
- "learning_rate": 1.5741297887112554e-05,
11866
- "loss": 0.9081,
11867
- "step": 1694
11868
- },
11869
- {
11870
- "epoch": 0.33,
11871
- "grad_norm": 1.8109036039046256,
11872
- "learning_rate": 1.573619011217288e-05,
11873
- "loss": 1.008,
11874
- "step": 1695
11875
- },
11876
- {
11877
- "epoch": 0.33,
11878
- "grad_norm": 1.7366906202563615,
11879
- "learning_rate": 1.5731080105823253e-05,
11880
- "loss": 1.0069,
11881
- "step": 1696
11882
- },
11883
- {
11884
- "epoch": 0.33,
11885
- "grad_norm": 1.7910543152195322,
11886
- "learning_rate": 1.572596787005149e-05,
11887
- "loss": 1.009,
11888
- "step": 1697
11889
- },
11890
- {
11891
- "epoch": 0.33,
11892
- "grad_norm": 1.7770513140362456,
11893
- "learning_rate": 1.5720853406846284e-05,
11894
- "loss": 0.9124,
11895
- "step": 1698
11896
- },
11897
- {
11898
- "epoch": 0.33,
11899
- "grad_norm": 1.663563980279973,
11900
- "learning_rate": 1.571573671819719e-05,
11901
- "loss": 0.9501,
11902
- "step": 1699
11903
- },
11904
- {
11905
- "epoch": 0.33,
11906
- "grad_norm": 1.798302917814401,
11907
- "learning_rate": 1.5710617806094623e-05,
11908
- "loss": 1.0329,
11909
- "step": 1700
11910
- },
11911
- {
11912
- "epoch": 0.33,
11913
- "grad_norm": 1.591105191580427,
11914
- "learning_rate": 1.5705496672529875e-05,
11915
- "loss": 0.9011,
11916
- "step": 1701
11917
- },
11918
- {
11919
- "epoch": 0.33,
11920
- "grad_norm": 1.6919167077809922,
11921
- "learning_rate": 1.5700373319495087e-05,
11922
- "loss": 0.954,
11923
- "step": 1702
11924
- },
11925
- {
11926
- "epoch": 0.33,
11927
- "grad_norm": 1.6001732503077335,
11928
- "learning_rate": 1.5695247748983277e-05,
11929
- "loss": 0.7931,
11930
- "step": 1703
11931
- },
11932
- {
11933
- "epoch": 0.33,
11934
- "grad_norm": 1.7339939929632062,
11935
- "learning_rate": 1.5690119962988325e-05,
11936
- "loss": 0.915,
11937
- "step": 1704
11938
- },
11939
- {
11940
- "epoch": 0.33,
11941
- "grad_norm": 1.548451551637994,
11942
- "learning_rate": 1.568498996350496e-05,
11943
- "loss": 0.9463,
11944
- "step": 1705
11945
- },
11946
- {
11947
- "epoch": 0.33,
11948
- "grad_norm": 1.748437218428189,
11949
- "learning_rate": 1.5679857752528788e-05,
11950
- "loss": 0.9676,
11951
- "step": 1706
11952
- },
11953
- {
11954
- "epoch": 0.33,
11955
- "grad_norm": 1.6471556654707846,
11956
- "learning_rate": 1.567472333205626e-05,
11957
- "loss": 0.926,
11958
- "step": 1707
11959
- },
11960
- {
11961
- "epoch": 0.33,
11962
- "grad_norm": 1.6877746907602753,
11963
- "learning_rate": 1.5669586704084697e-05,
11964
- "loss": 1.0535,
11965
- "step": 1708
11966
- },
11967
- {
11968
- "epoch": 0.33,
11969
- "grad_norm": 1.7356876446324196,
11970
- "learning_rate": 1.566444787061228e-05,
11971
- "loss": 0.9476,
11972
- "step": 1709
11973
- },
11974
- {
11975
- "epoch": 0.33,
11976
- "grad_norm": 1.6872419025030534,
11977
- "learning_rate": 1.565930683363804e-05,
11978
- "loss": 0.9989,
11979
- "step": 1710
11980
- },
11981
- {
11982
- "epoch": 0.33,
11983
- "grad_norm": 1.0437985973600723,
11984
- "learning_rate": 1.565416359516187e-05,
11985
- "loss": 0.8111,
11986
- "step": 1711
11987
- },
11988
- {
11989
- "epoch": 0.33,
11990
- "grad_norm": 1.0088547902055691,
11991
- "learning_rate": 1.564901815718452e-05,
11992
- "loss": 0.8493,
11993
- "step": 1712
11994
- },
11995
- {
11996
- "epoch": 0.33,
11997
- "grad_norm": 1.8308929603793904,
11998
- "learning_rate": 1.5643870521707588e-05,
11999
- "loss": 0.9714,
12000
- "step": 1713
12001
- },
12002
- {
12003
- "epoch": 0.33,
12004
- "grad_norm": 1.6678011598396532,
12005
- "learning_rate": 1.5638720690733543e-05,
12006
- "loss": 0.8796,
12007
- "step": 1714
12008
- },
12009
- {
12010
- "epoch": 0.33,
12011
- "grad_norm": 1.6676069738231614,
12012
- "learning_rate": 1.563356866626569e-05,
12013
- "loss": 0.9325,
12014
- "step": 1715
12015
- },
12016
- {
12017
- "epoch": 0.33,
12018
- "grad_norm": 1.687942802391812,
12019
- "learning_rate": 1.56284144503082e-05,
12020
- "loss": 0.879,
12021
- "step": 1716
12022
- },
12023
- {
12024
- "epoch": 0.33,
12025
- "grad_norm": 1.5751332093640165,
12026
- "learning_rate": 1.5623258044866087e-05,
12027
- "loss": 0.9392,
12028
- "step": 1717
12029
- },
12030
- {
12031
- "epoch": 0.33,
12032
- "grad_norm": 1.5575620694150407,
12033
- "learning_rate": 1.561809945194522e-05,
12034
- "loss": 0.9539,
12035
- "step": 1718
12036
- },
12037
- {
12038
- "epoch": 0.33,
12039
- "grad_norm": 1.6785024493599945,
12040
- "learning_rate": 1.561293867355233e-05,
12041
- "loss": 0.8994,
12042
- "step": 1719
12043
- },
12044
- {
12045
- "epoch": 0.33,
12046
- "grad_norm": 1.5229589448071077,
12047
- "learning_rate": 1.560777571169498e-05,
12048
- "loss": 0.9325,
12049
- "step": 1720
12050
- },
12051
- {
12052
- "epoch": 0.33,
12053
- "grad_norm": 1.70296765640194,
12054
- "learning_rate": 1.5602610568381594e-05,
12055
- "loss": 0.9706,
12056
- "step": 1721
12057
- },
12058
- {
12059
- "epoch": 0.33,
12060
- "grad_norm": 1.6492987597197222,
12061
- "learning_rate": 1.5597443245621444e-05,
12062
- "loss": 0.9846,
12063
- "step": 1722
12064
- },
12065
- {
12066
- "epoch": 0.33,
12067
- "grad_norm": 1.5539259406249721,
12068
- "learning_rate": 1.5592273745424643e-05,
12069
- "loss": 0.8847,
12070
- "step": 1723
12071
- },
12072
- {
12073
- "epoch": 0.33,
12074
- "grad_norm": 1.9574877365730032,
12075
- "learning_rate": 1.5587102069802156e-05,
12076
- "loss": 0.9819,
12077
- "step": 1724
12078
- },
12079
- {
12080
- "epoch": 0.33,
12081
- "grad_norm": 1.059334241300379,
12082
- "learning_rate": 1.5581928220765792e-05,
12083
- "loss": 0.8633,
12084
- "step": 1725
12085
- },
12086
- {
12087
- "epoch": 0.33,
12088
- "grad_norm": 1.8777654599053444,
12089
- "learning_rate": 1.5576752200328217e-05,
12090
- "loss": 0.9534,
12091
- "step": 1726
12092
- },
12093
- {
12094
- "epoch": 0.33,
12095
- "grad_norm": 1.6369275243616173,
12096
- "learning_rate": 1.5571574010502925e-05,
12097
- "loss": 0.9465,
12098
- "step": 1727
12099
- },
12100
- {
12101
- "epoch": 0.33,
12102
- "grad_norm": 1.956314276556218,
12103
- "learning_rate": 1.5566393653304255e-05,
12104
- "loss": 0.9679,
12105
- "step": 1728
12106
- },
12107
- {
12108
- "epoch": 0.33,
12109
- "grad_norm": 1.6159927205594145,
12110
- "learning_rate": 1.5561211130747405e-05,
12111
- "loss": 0.892,
12112
- "step": 1729
12113
- },
12114
- {
12115
- "epoch": 0.33,
12116
- "grad_norm": 1.7028870865116463,
12117
- "learning_rate": 1.5556026444848398e-05,
12118
- "loss": 0.9115,
12119
- "step": 1730
12120
- },
12121
- {
12122
- "epoch": 0.33,
12123
- "grad_norm": 1.8208461469027895,
12124
- "learning_rate": 1.5550839597624106e-05,
12125
- "loss": 0.8889,
12126
- "step": 1731
12127
- },
12128
- {
12129
- "epoch": 0.33,
12130
- "grad_norm": 1.91661243257076,
12131
- "learning_rate": 1.5545650591092248e-05,
12132
- "loss": 0.97,
12133
- "step": 1732
12134
- },
12135
- {
12136
- "epoch": 0.33,
12137
- "grad_norm": 1.60671095140956,
12138
- "learning_rate": 1.5540459427271373e-05,
12139
- "loss": 0.9894,
12140
- "step": 1733
12141
- },
12142
- {
12143
- "epoch": 0.33,
12144
- "grad_norm": 1.6111175098454973,
12145
- "learning_rate": 1.553526610818087e-05,
12146
- "loss": 0.9202,
12147
- "step": 1734
12148
- },
12149
- {
12150
- "epoch": 0.33,
12151
- "grad_norm": 1.7534583643676716,
12152
- "learning_rate": 1.553007063584097e-05,
12153
- "loss": 0.8502,
12154
- "step": 1735
12155
- },
12156
- {
12157
- "epoch": 0.33,
12158
- "grad_norm": 1.6062441383768804,
12159
- "learning_rate": 1.5524873012272742e-05,
12160
- "loss": 1.0042,
12161
- "step": 1736
12162
- },
12163
- {
12164
- "epoch": 0.33,
12165
- "grad_norm": 1.5342773548854218,
12166
- "learning_rate": 1.551967323949809e-05,
12167
- "loss": 0.867,
12168
- "step": 1737
12169
- },
12170
- {
12171
- "epoch": 0.33,
12172
- "grad_norm": 1.6482540145045306,
12173
- "learning_rate": 1.551447131953976e-05,
12174
- "loss": 0.9283,
12175
- "step": 1738
12176
- },
12177
- {
12178
- "epoch": 0.33,
12179
- "grad_norm": 1.616014640944003,
12180
- "learning_rate": 1.550926725442132e-05,
12181
- "loss": 0.8996,
12182
- "step": 1739
12183
- },
12184
- {
12185
- "epoch": 0.34,
12186
- "grad_norm": 1.514494552942554,
12187
- "learning_rate": 1.550406104616718e-05,
12188
- "loss": 0.9248,
12189
- "step": 1740
12190
- },
12191
- {
12192
- "epoch": 0.34,
12193
- "grad_norm": 1.5363529361022905,
12194
- "learning_rate": 1.5498852696802595e-05,
12195
- "loss": 0.948,
12196
- "step": 1741
12197
- },
12198
- {
12199
- "epoch": 0.34,
12200
- "grad_norm": 1.6602545790223517,
12201
- "learning_rate": 1.5493642208353627e-05,
12202
- "loss": 0.9086,
12203
- "step": 1742
12204
- },
12205
- {
12206
- "epoch": 0.34,
12207
- "grad_norm": 1.585488148395561,
12208
- "learning_rate": 1.5488429582847194e-05,
12209
- "loss": 0.9484,
12210
- "step": 1743
12211
- },
12212
- {
12213
- "epoch": 0.34,
12214
- "grad_norm": 1.7637723283346054,
12215
- "learning_rate": 1.5483214822311036e-05,
12216
- "loss": 0.9477,
12217
- "step": 1744
12218
- },
12219
- {
12220
- "epoch": 0.34,
12221
- "grad_norm": 1.7728810975772227,
12222
- "learning_rate": 1.5477997928773722e-05,
12223
- "loss": 0.8948,
12224
- "step": 1745
12225
- },
12226
- {
12227
- "epoch": 0.34,
12228
- "grad_norm": 1.627418598739184,
12229
- "learning_rate": 1.5472778904264655e-05,
12230
- "loss": 0.9482,
12231
- "step": 1746
12232
- },
12233
- {
12234
- "epoch": 0.34,
12235
- "grad_norm": 1.737617924919354,
12236
- "learning_rate": 1.546755775081406e-05,
12237
- "loss": 0.9492,
12238
- "step": 1747
12239
- },
12240
- {
12241
- "epoch": 0.34,
12242
- "grad_norm": 1.6996510871147033,
12243
- "learning_rate": 1.5462334470453e-05,
12244
- "loss": 0.806,
12245
- "step": 1748
12246
- },
12247
- {
12248
- "epoch": 0.34,
12249
- "grad_norm": 1.749003030553493,
12250
- "learning_rate": 1.5457109065213357e-05,
12251
- "loss": 0.8445,
12252
- "step": 1749
12253
- },
12254
- {
12255
- "epoch": 0.34,
12256
- "grad_norm": 1.6613913869959902,
12257
- "learning_rate": 1.5451881537127846e-05,
12258
- "loss": 0.8682,
12259
- "step": 1750
12260
- },
12261
- {
12262
- "epoch": 0.34,
12263
- "grad_norm": 1.8209928107994644,
12264
- "learning_rate": 1.5446651888230002e-05,
12265
- "loss": 1.0161,
12266
- "step": 1751
12267
- },
12268
- {
12269
- "epoch": 0.34,
12270
- "grad_norm": 1.7742834895232118,
12271
- "learning_rate": 1.5441420120554183e-05,
12272
- "loss": 0.9762,
12273
- "step": 1752
12274
- },
12275
- {
12276
- "epoch": 0.34,
12277
- "grad_norm": 1.4903916353227185,
12278
- "learning_rate": 1.5436186236135586e-05,
12279
- "loss": 0.8358,
12280
- "step": 1753
12281
- },
12282
- {
12283
- "epoch": 0.34,
12284
- "grad_norm": 1.6523896850698925,
12285
- "learning_rate": 1.5430950237010215e-05,
12286
- "loss": 0.918,
12287
- "step": 1754
12288
- },
12289
- {
12290
- "epoch": 0.34,
12291
- "grad_norm": 1.827097756747899,
12292
- "learning_rate": 1.5425712125214905e-05,
12293
- "loss": 0.9376,
12294
- "step": 1755
12295
- },
12296
- {
12297
- "epoch": 0.34,
12298
- "grad_norm": 1.6366236729315444,
12299
- "learning_rate": 1.542047190278731e-05,
12300
- "loss": 1.0006,
12301
- "step": 1756
12302
- },
12303
- {
12304
- "epoch": 0.34,
12305
- "grad_norm": 1.0524696605763608,
12306
- "learning_rate": 1.54152295717659e-05,
12307
- "loss": 0.8466,
12308
- "step": 1757
12309
- },
12310
- {
12311
- "epoch": 0.34,
12312
- "grad_norm": 1.592256955879349,
12313
- "learning_rate": 1.5409985134189984e-05,
12314
- "loss": 0.8885,
12315
- "step": 1758
12316
- },
12317
- {
12318
- "epoch": 0.34,
12319
- "grad_norm": 1.5958006272826617,
12320
- "learning_rate": 1.5404738592099665e-05,
12321
- "loss": 0.914,
12322
- "step": 1759
12323
- },
12324
- {
12325
- "epoch": 0.34,
12326
- "grad_norm": 1.7383735027873934,
12327
- "learning_rate": 1.5399489947535884e-05,
12328
- "loss": 0.9507,
12329
- "step": 1760
12330
- },
12331
- {
12332
- "epoch": 0.34,
12333
- "grad_norm": 1.7829696954430776,
12334
- "learning_rate": 1.539423920254039e-05,
12335
- "loss": 0.9411,
12336
- "step": 1761
12337
- },
12338
- {
12339
- "epoch": 0.34,
12340
- "grad_norm": 1.591157229474544,
12341
- "learning_rate": 1.538898635915576e-05,
12342
- "loss": 0.9009,
12343
- "step": 1762
12344
- },
12345
- {
12346
- "epoch": 0.34,
12347
- "grad_norm": 1.8961964721472366,
12348
- "learning_rate": 1.5383731419425363e-05,
12349
- "loss": 0.987,
12350
- "step": 1763
12351
- },
12352
- {
12353
- "epoch": 0.34,
12354
- "grad_norm": 1.7139184167666317,
12355
- "learning_rate": 1.5378474385393412e-05,
12356
- "loss": 0.9263,
12357
- "step": 1764
12358
- },
12359
- {
12360
- "epoch": 0.34,
12361
- "grad_norm": 1.5793588095105051,
12362
- "learning_rate": 1.537321525910492e-05,
12363
- "loss": 0.8779,
12364
- "step": 1765
12365
- },
12366
- {
12367
- "epoch": 0.34,
12368
- "grad_norm": 1.806016217319507,
12369
- "learning_rate": 1.536795404260572e-05,
12370
- "loss": 0.9229,
12371
- "step": 1766
12372
- },
12373
- {
12374
- "epoch": 0.34,
12375
- "grad_norm": 1.756089856756367,
12376
- "learning_rate": 1.5362690737942446e-05,
12377
- "loss": 0.8605,
12378
- "step": 1767
12379
- },
12380
- {
12381
- "epoch": 0.34,
12382
- "grad_norm": 1.8572118885860662,
12383
- "learning_rate": 1.5357425347162564e-05,
12384
- "loss": 0.9234,
12385
- "step": 1768
12386
- },
12387
- {
12388
- "epoch": 0.34,
12389
- "grad_norm": 1.7856241806716384,
12390
- "learning_rate": 1.5352157872314327e-05,
12391
- "loss": 1.0146,
12392
- "step": 1769
12393
- },
12394
- {
12395
- "epoch": 0.34,
12396
- "grad_norm": 1.610512365395507,
12397
- "learning_rate": 1.5346888315446824e-05,
12398
- "loss": 0.873,
12399
- "step": 1770
12400
- },
12401
- {
12402
- "epoch": 0.34,
12403
- "grad_norm": 1.5782211017109056,
12404
- "learning_rate": 1.5341616678609935e-05,
12405
- "loss": 0.8567,
12406
- "step": 1771
12407
- },
12408
- {
12409
- "epoch": 0.34,
12410
- "grad_norm": 1.654570207794557,
12411
- "learning_rate": 1.533634296385436e-05,
12412
- "loss": 0.8263,
12413
- "step": 1772
12414
- },
12415
- {
12416
- "epoch": 0.34,
12417
- "grad_norm": 1.393170469294069,
12418
- "learning_rate": 1.5331067173231603e-05,
12419
- "loss": 0.882,
12420
- "step": 1773
12421
- },
12422
- {
12423
- "epoch": 0.34,
12424
- "grad_norm": 1.5878170235295708,
12425
- "learning_rate": 1.5325789308793974e-05,
12426
- "loss": 0.9394,
12427
- "step": 1774
12428
- },
12429
- {
12430
- "epoch": 0.34,
12431
- "grad_norm": 1.7372761113657915,
12432
- "learning_rate": 1.5320509372594596e-05,
12433
- "loss": 0.9523,
12434
- "step": 1775
12435
- },
12436
- {
12437
- "epoch": 0.34,
12438
- "grad_norm": 1.7300471659324526,
12439
- "learning_rate": 1.5315227366687386e-05,
12440
- "loss": 1.0319,
12441
- "step": 1776
12442
- },
12443
- {
12444
- "epoch": 0.34,
12445
- "grad_norm": 1.9409527939786382,
12446
- "learning_rate": 1.5309943293127076e-05,
12447
- "loss": 1.0208,
12448
- "step": 1777
12449
- },
12450
- {
12451
- "epoch": 0.34,
12452
- "grad_norm": 1.5078314012936311,
12453
- "learning_rate": 1.5304657153969206e-05,
12454
- "loss": 0.9007,
12455
- "step": 1778
12456
- },
12457
- {
12458
- "epoch": 0.34,
12459
- "grad_norm": 1.6940177485783197,
12460
- "learning_rate": 1.529936895127011e-05,
12461
- "loss": 0.9291,
12462
- "step": 1779
12463
- },
12464
- {
12465
- "epoch": 0.34,
12466
- "grad_norm": 1.6538468073075518,
12467
- "learning_rate": 1.5294078687086926e-05,
12468
- "loss": 0.8828,
12469
- "step": 1780
12470
- },
12471
- {
12472
- "epoch": 0.34,
12473
- "grad_norm": 1.6245630899167927,
12474
- "learning_rate": 1.5288786363477603e-05,
12475
- "loss": 0.9154,
12476
- "step": 1781
12477
- },
12478
- {
12479
- "epoch": 0.34,
12480
- "grad_norm": 1.644068790077352,
12481
- "learning_rate": 1.5283491982500874e-05,
12482
- "loss": 0.9155,
12483
- "step": 1782
12484
- },
12485
- {
12486
- "epoch": 0.34,
12487
- "grad_norm": 1.7621859790247505,
12488
- "learning_rate": 1.5278195546216293e-05,
12489
- "loss": 0.9127,
12490
- "step": 1783
12491
- },
12492
- {
12493
- "epoch": 0.34,
12494
- "grad_norm": 1.6412691064740812,
12495
- "learning_rate": 1.5272897056684196e-05,
12496
- "loss": 0.9642,
12497
- "step": 1784
12498
- },
12499
- {
12500
- "epoch": 0.34,
12501
- "grad_norm": 1.7284551662658276,
12502
- "learning_rate": 1.526759651596573e-05,
12503
- "loss": 0.9682,
12504
- "step": 1785
12505
- },
12506
- {
12507
- "epoch": 0.34,
12508
- "grad_norm": 1.7534777399859998,
12509
- "learning_rate": 1.526229392612283e-05,
12510
- "loss": 0.9304,
12511
- "step": 1786
12512
- },
12513
- {
12514
- "epoch": 0.34,
12515
- "grad_norm": 1.610391858816259,
12516
- "learning_rate": 1.5256989289218237e-05,
12517
- "loss": 0.9148,
12518
- "step": 1787
12519
- },
12520
- {
12521
- "epoch": 0.34,
12522
- "grad_norm": 1.8330198235703115,
12523
- "learning_rate": 1.5251682607315485e-05,
12524
- "loss": 0.9917,
12525
- "step": 1788
12526
- },
12527
- {
12528
- "epoch": 0.34,
12529
- "grad_norm": 1.6130949199706817,
12530
- "learning_rate": 1.5246373882478899e-05,
12531
- "loss": 0.8627,
12532
- "step": 1789
12533
- },
12534
- {
12535
- "epoch": 0.34,
12536
- "grad_norm": 1.6917099405793583,
12537
- "learning_rate": 1.5241063116773606e-05,
12538
- "loss": 0.8093,
12539
- "step": 1790
12540
- },
12541
- {
12542
- "epoch": 0.34,
12543
- "grad_norm": 1.611514855787027,
12544
- "learning_rate": 1.5235750312265522e-05,
12545
- "loss": 0.8823,
12546
- "step": 1791
12547
- },
12548
- {
12549
- "epoch": 0.35,
12550
- "grad_norm": 1.508488536223312,
12551
- "learning_rate": 1.5230435471021356e-05,
12552
- "loss": 0.8525,
12553
- "step": 1792
12554
- },
12555
- {
12556
- "epoch": 0.35,
12557
- "grad_norm": 1.8488504173801166,
12558
- "learning_rate": 1.5225118595108615e-05,
12559
- "loss": 0.9723,
12560
- "step": 1793
12561
- },
12562
- {
12563
- "epoch": 0.35,
12564
- "grad_norm": 1.81787454238434,
12565
- "learning_rate": 1.5219799686595588e-05,
12566
- "loss": 0.9186,
12567
- "step": 1794
12568
- },
12569
- {
12570
- "epoch": 0.35,
12571
- "grad_norm": 1.835940653590753,
12572
- "learning_rate": 1.5214478747551367e-05,
12573
- "loss": 1.0315,
12574
- "step": 1795
12575
- },
12576
- {
12577
- "epoch": 0.35,
12578
- "grad_norm": 1.7183650877031766,
12579
- "learning_rate": 1.520915578004582e-05,
12580
- "loss": 0.9409,
12581
- "step": 1796
12582
- },
12583
- {
12584
- "epoch": 0.35,
12585
- "grad_norm": 1.6105105683049763,
12586
- "learning_rate": 1.5203830786149615e-05,
12587
- "loss": 0.9783,
12588
- "step": 1797
12589
- },
12590
- {
12591
- "epoch": 0.35,
12592
- "grad_norm": 1.6828073709950533,
12593
- "learning_rate": 1.51985037679342e-05,
12594
- "loss": 0.95,
12595
- "step": 1798
12596
- },
12597
- {
12598
- "epoch": 0.35,
12599
- "grad_norm": 1.7659646765890635,
12600
- "learning_rate": 1.5193174727471822e-05,
12601
- "loss": 0.9881,
12602
- "step": 1799
12603
- },
12604
- {
12605
- "epoch": 0.35,
12606
- "grad_norm": 1.7186747858397031,
12607
- "learning_rate": 1.5187843666835502e-05,
12608
- "loss": 0.9142,
12609
- "step": 1800
12610
- },
12611
- {
12612
- "epoch": 0.35,
12613
- "grad_norm": 1.5025090660678702,
12614
- "learning_rate": 1.5182510588099058e-05,
12615
- "loss": 0.8743,
12616
- "step": 1801
12617
- },
12618
- {
12619
- "epoch": 0.35,
12620
- "grad_norm": 1.7934959998223838,
12621
- "learning_rate": 1.5177175493337077e-05,
12622
- "loss": 0.9239,
12623
- "step": 1802
12624
- },
12625
- {
12626
- "epoch": 0.35,
12627
- "grad_norm": 1.5578282419512874,
12628
- "learning_rate": 1.5171838384624952e-05,
12629
- "loss": 0.869,
12630
- "step": 1803
12631
- },
12632
- {
12633
- "epoch": 0.35,
12634
- "grad_norm": 1.7377002208663477,
12635
- "learning_rate": 1.516649926403884e-05,
12636
- "loss": 0.968,
12637
- "step": 1804
12638
- },
12639
- {
12640
- "epoch": 0.35,
12641
- "grad_norm": 1.775042883902276,
12642
- "learning_rate": 1.5161158133655694e-05,
12643
- "loss": 0.9978,
12644
- "step": 1805
12645
- },
12646
- {
12647
- "epoch": 0.35,
12648
- "grad_norm": 1.5911271575560177,
12649
- "learning_rate": 1.5155814995553239e-05,
12650
- "loss": 0.8461,
12651
- "step": 1806
12652
- },
12653
- {
12654
- "epoch": 0.35,
12655
- "grad_norm": 1.9003801818751707,
12656
- "learning_rate": 1.515046985180999e-05,
12657
- "loss": 0.9565,
12658
- "step": 1807
12659
- },
12660
- {
12661
- "epoch": 0.35,
12662
- "grad_norm": 1.7235091223002925,
12663
- "learning_rate": 1.5145122704505238e-05,
12664
- "loss": 0.9244,
12665
- "step": 1808
12666
- },
12667
- {
12668
- "epoch": 0.35,
12669
- "grad_norm": 1.5836993320305877,
12670
- "learning_rate": 1.5139773555719046e-05,
12671
- "loss": 0.9256,
12672
- "step": 1809
12673
- },
12674
- {
12675
- "epoch": 0.35,
12676
- "grad_norm": 1.7698468539495165,
12677
- "learning_rate": 1.5134422407532268e-05,
12678
- "loss": 0.9067,
12679
- "step": 1810
12680
- },
12681
- {
12682
- "epoch": 0.35,
12683
- "grad_norm": 1.6257859529986807,
12684
- "learning_rate": 1.512906926202653e-05,
12685
- "loss": 0.879,
12686
- "step": 1811
12687
- },
12688
- {
12689
- "epoch": 0.35,
12690
- "grad_norm": 1.6883738442738565,
12691
- "learning_rate": 1.512371412128424e-05,
12692
- "loss": 0.9165,
12693
- "step": 1812
12694
- },
12695
- {
12696
- "epoch": 0.35,
12697
- "grad_norm": 1.641267657042082,
12698
- "learning_rate": 1.5118356987388567e-05,
12699
- "loss": 0.9208,
12700
- "step": 1813
12701
- },
12702
- {
12703
- "epoch": 0.35,
12704
- "grad_norm": 1.5234773704787912,
12705
- "learning_rate": 1.5112997862423472e-05,
12706
- "loss": 0.939,
12707
- "step": 1814
12708
- },
12709
- {
12710
- "epoch": 0.35,
12711
- "grad_norm": 1.699284171054198,
12712
- "learning_rate": 1.5107636748473687e-05,
12713
- "loss": 0.927,
12714
- "step": 1815
12715
- },
12716
- {
12717
- "epoch": 0.35,
12718
- "grad_norm": 1.7766671571230526,
12719
- "learning_rate": 1.5102273647624714e-05,
12720
- "loss": 0.9559,
12721
- "step": 1816
12722
- },
12723
- {
12724
- "epoch": 0.35,
12725
- "grad_norm": 1.8071128001622048,
12726
- "learning_rate": 1.5096908561962824e-05,
12727
- "loss": 0.9329,
12728
- "step": 1817
12729
- },
12730
- {
12731
- "epoch": 0.35,
12732
- "grad_norm": 1.5602195899860873,
12733
- "learning_rate": 1.509154149357507e-05,
12734
- "loss": 0.8408,
12735
- "step": 1818
12736
- },
12737
- {
12738
- "epoch": 0.35,
12739
- "grad_norm": 1.6681745264243264,
12740
- "learning_rate": 1.5086172444549274e-05,
12741
- "loss": 0.9715,
12742
- "step": 1819
12743
- },
12744
- {
12745
- "epoch": 0.35,
12746
- "grad_norm": 1.8299212257238782,
12747
- "learning_rate": 1.508080141697402e-05,
12748
- "loss": 0.9271,
12749
- "step": 1820
12750
- },
12751
- {
12752
- "epoch": 0.35,
12753
- "grad_norm": 1.6199015194976085,
12754
- "learning_rate": 1.5075428412938672e-05,
12755
- "loss": 0.8942,
12756
- "step": 1821
12757
- },
12758
- {
12759
- "epoch": 0.35,
12760
- "grad_norm": 1.637504821627329,
12761
- "learning_rate": 1.5070053434533351e-05,
12762
- "loss": 0.9063,
12763
- "step": 1822
12764
- },
12765
- {
12766
- "epoch": 0.35,
12767
- "grad_norm": 1.676609757359368,
12768
- "learning_rate": 1.5064676483848968e-05,
12769
- "loss": 0.8435,
12770
- "step": 1823
12771
- },
12772
- {
12773
- "epoch": 0.35,
12774
- "grad_norm": 1.759464544373338,
12775
- "learning_rate": 1.5059297562977174e-05,
12776
- "loss": 0.9497,
12777
- "step": 1824
12778
- },
12779
- {
12780
- "epoch": 0.35,
12781
- "grad_norm": 1.8044880904814558,
12782
- "learning_rate": 1.5053916674010403e-05,
12783
- "loss": 0.921,
12784
- "step": 1825
12785
- },
12786
- {
12787
- "epoch": 0.35,
12788
- "grad_norm": 1.6629588750577138,
12789
- "learning_rate": 1.5048533819041853e-05,
12790
- "loss": 0.9421,
12791
- "step": 1826
12792
- },
12793
- {
12794
- "epoch": 0.35,
12795
- "grad_norm": 2.0351132912201115,
12796
- "learning_rate": 1.5043149000165482e-05,
12797
- "loss": 0.9275,
12798
- "step": 1827
12799
- },
12800
- {
12801
- "epoch": 0.35,
12802
- "grad_norm": 1.7221826608550477,
12803
- "learning_rate": 1.5037762219476016e-05,
12804
- "loss": 0.9359,
12805
- "step": 1828
12806
- },
12807
- {
12808
- "epoch": 0.35,
12809
- "grad_norm": 1.8863983035535,
12810
- "learning_rate": 1.503237347906894e-05,
12811
- "loss": 0.9219,
12812
- "step": 1829
12813
- },
12814
- {
12815
- "epoch": 0.35,
12816
- "grad_norm": 1.7877241947739209,
12817
- "learning_rate": 1.5026982781040511e-05,
12818
- "loss": 0.9239,
12819
- "step": 1830
12820
- },
12821
- {
12822
- "epoch": 0.35,
12823
- "grad_norm": 1.7559006781624251,
12824
- "learning_rate": 1.5021590127487731e-05,
12825
- "loss": 0.9135,
12826
- "step": 1831
12827
- },
12828
- {
12829
- "epoch": 0.35,
12830
- "grad_norm": 1.7628850458243945,
12831
- "learning_rate": 1.5016195520508383e-05,
12832
- "loss": 1.0021,
12833
- "step": 1832
12834
- },
12835
- {
12836
- "epoch": 0.35,
12837
- "grad_norm": 1.712262152372984,
12838
- "learning_rate": 1.501079896220099e-05,
12839
- "loss": 0.9462,
12840
- "step": 1833
12841
- },
12842
- {
12843
- "epoch": 0.35,
12844
- "grad_norm": 1.5312995616872846,
12845
- "learning_rate": 1.5005400454664847e-05,
12846
- "loss": 0.8234,
12847
- "step": 1834
12848
- },
12849
- {
12850
- "epoch": 0.35,
12851
- "grad_norm": 1.4310758854139343,
12852
- "learning_rate": 1.5000000000000002e-05,
12853
- "loss": 0.8858,
12854
- "step": 1835
12855
- },
12856
- {
12857
- "epoch": 0.35,
12858
- "grad_norm": 1.546597318526974,
12859
- "learning_rate": 1.4994597600307263e-05,
12860
- "loss": 0.9568,
12861
- "step": 1836
12862
- },
12863
- {
12864
- "epoch": 0.35,
12865
- "grad_norm": 1.582830465670841,
12866
- "learning_rate": 1.4989193257688195e-05,
12867
- "loss": 0.9045,
12868
- "step": 1837
12869
- },
12870
- {
12871
- "epoch": 0.35,
12872
- "grad_norm": 1.6151541196243508,
12873
- "learning_rate": 1.4983786974245118e-05,
12874
- "loss": 0.9019,
12875
- "step": 1838
12876
- },
12877
- {
12878
- "epoch": 0.35,
12879
- "grad_norm": 1.6357268555554538,
12880
- "learning_rate": 1.4978378752081105e-05,
12881
- "loss": 0.9621,
12882
- "step": 1839
12883
- },
12884
- {
12885
- "epoch": 0.35,
12886
- "grad_norm": 1.7828133609360786,
12887
- "learning_rate": 1.497296859329998e-05,
12888
- "loss": 0.8937,
12889
- "step": 1840
12890
- },
12891
- {
12892
- "epoch": 0.35,
12893
- "grad_norm": 1.6209326547083096,
12894
- "learning_rate": 1.4967556500006336e-05,
12895
- "loss": 0.9472,
12896
- "step": 1841
12897
- },
12898
- {
12899
- "epoch": 0.35,
12900
- "grad_norm": 1.6715487795705135,
12901
- "learning_rate": 1.4962142474305496e-05,
12902
- "loss": 0.8342,
12903
- "step": 1842
12904
- },
12905
- {
12906
- "epoch": 0.35,
12907
- "grad_norm": 1.644054514212963,
12908
- "learning_rate": 1.4956726518303553e-05,
12909
- "loss": 0.8793,
12910
- "step": 1843
12911
- },
12912
- {
12913
- "epoch": 0.36,
12914
- "grad_norm": 1.6778795735018404,
12915
- "learning_rate": 1.495130863410734e-05,
12916
- "loss": 0.9961,
12917
- "step": 1844
12918
- },
12919
- {
12920
- "epoch": 0.36,
12921
- "grad_norm": 1.7530107949989808,
12922
- "learning_rate": 1.4945888823824449e-05,
12923
- "loss": 0.8523,
12924
- "step": 1845
12925
- },
12926
- {
12927
- "epoch": 0.36,
12928
- "grad_norm": 1.600308338620861,
12929
- "learning_rate": 1.494046708956321e-05,
12930
- "loss": 0.8763,
12931
- "step": 1846
12932
- },
12933
- {
12934
- "epoch": 0.36,
12935
- "grad_norm": 1.7748182051211745,
12936
- "learning_rate": 1.4935043433432715e-05,
12937
- "loss": 0.9168,
12938
- "step": 1847
12939
- },
12940
- {
12941
- "epoch": 0.36,
12942
- "grad_norm": 1.6428997560126952,
12943
- "learning_rate": 1.4929617857542793e-05,
12944
- "loss": 0.8927,
12945
- "step": 1848
12946
- },
12947
- {
12948
- "epoch": 0.36,
12949
- "grad_norm": 1.7377574670461893,
12950
- "learning_rate": 1.4924190364004023e-05,
12951
- "loss": 0.869,
12952
- "step": 1849
12953
- },
12954
- {
12955
- "epoch": 0.36,
12956
- "grad_norm": 1.7021319792833238,
12957
- "learning_rate": 1.4918760954927729e-05,
12958
- "loss": 0.9108,
12959
- "step": 1850
12960
- },
12961
- {
12962
- "epoch": 0.36,
12963
- "grad_norm": 1.591116905628271,
12964
- "learning_rate": 1.4913329632425984e-05,
12965
- "loss": 0.949,
12966
- "step": 1851
12967
- },
12968
- {
12969
- "epoch": 0.36,
12970
- "grad_norm": 1.6276173765055855,
12971
- "learning_rate": 1.4907896398611603e-05,
12972
- "loss": 0.89,
12973
- "step": 1852
12974
- },
12975
- {
12976
- "epoch": 0.36,
12977
- "grad_norm": 1.8225115626463677,
12978
- "learning_rate": 1.4902461255598141e-05,
12979
- "loss": 0.9123,
12980
- "step": 1853
12981
- },
12982
- {
12983
- "epoch": 0.36,
12984
- "grad_norm": 1.5498562183799023,
12985
- "learning_rate": 1.4897024205499902e-05,
12986
- "loss": 0.8801,
12987
- "step": 1854
12988
- },
12989
- {
12990
- "epoch": 0.36,
12991
- "grad_norm": 1.7255906804323513,
12992
- "learning_rate": 1.4891585250431929e-05,
12993
- "loss": 0.88,
12994
- "step": 1855
12995
- },
12996
- {
12997
- "epoch": 0.36,
12998
- "grad_norm": 1.7392433916238563,
12999
- "learning_rate": 1.4886144392510004e-05,
13000
- "loss": 0.9908,
13001
- "step": 1856
13002
- },
13003
- {
13004
- "epoch": 0.36,
13005
- "grad_norm": 1.819892755574117,
13006
- "learning_rate": 1.4880701633850652e-05,
13007
- "loss": 0.9699,
13008
- "step": 1857
13009
- },
13010
- {
13011
- "epoch": 0.36,
13012
- "grad_norm": 1.6453268799227307,
13013
- "learning_rate": 1.4875256976571135e-05,
13014
- "loss": 0.9985,
13015
- "step": 1858
13016
- },
13017
- {
13018
- "epoch": 0.36,
13019
- "grad_norm": 1.7570555784318829,
13020
- "learning_rate": 1.4869810422789459e-05,
13021
- "loss": 0.9425,
13022
- "step": 1859
13023
- },
13024
- {
13025
- "epoch": 0.36,
13026
- "grad_norm": 1.6103885798432909,
13027
- "learning_rate": 1.4864361974624357e-05,
13028
- "loss": 0.9111,
13029
- "step": 1860
13030
- },
13031
- {
13032
- "epoch": 0.36,
13033
- "grad_norm": 1.6392043539397223,
13034
- "learning_rate": 1.4858911634195312e-05,
13035
- "loss": 0.9116,
13036
- "step": 1861
13037
- },
13038
- {
13039
- "epoch": 0.36,
13040
- "grad_norm": 1.6241801480289666,
13041
- "learning_rate": 1.4853459403622535e-05,
13042
- "loss": 0.9424,
13043
- "step": 1862
13044
- },
13045
- {
13046
- "epoch": 0.36,
13047
- "grad_norm": 1.634986046998513,
13048
- "learning_rate": 1.4848005285026976e-05,
13049
- "loss": 0.9494,
13050
- "step": 1863
13051
- },
13052
- {
13053
- "epoch": 0.36,
13054
- "grad_norm": 1.5937895894975387,
13055
- "learning_rate": 1.4842549280530312e-05,
13056
- "loss": 0.877,
13057
- "step": 1864
13058
- },
13059
- {
13060
- "epoch": 0.36,
13061
- "grad_norm": 1.572921397651084,
13062
- "learning_rate": 1.4837091392254964e-05,
13063
- "loss": 0.8937,
13064
- "step": 1865
13065
- },
13066
- {
13067
- "epoch": 0.36,
13068
- "grad_norm": 1.6988453094864369,
13069
- "learning_rate": 1.4831631622324078e-05,
13070
- "loss": 0.8695,
13071
- "step": 1866
13072
- },
13073
- {
13074
- "epoch": 0.36,
13075
- "grad_norm": 1.5134644774277317,
13076
- "learning_rate": 1.4826169972861539e-05,
13077
- "loss": 0.8927,
13078
- "step": 1867
13079
- },
13080
- {
13081
- "epoch": 0.36,
13082
- "grad_norm": 1.627315805696269,
13083
- "learning_rate": 1.4820706445991954e-05,
13084
- "loss": 0.9352,
13085
- "step": 1868
13086
- },
13087
- {
13088
- "epoch": 0.36,
13089
- "grad_norm": 1.6393371999448805,
13090
- "learning_rate": 1.4815241043840669e-05,
13091
- "loss": 0.8528,
13092
- "step": 1869
13093
- },
13094
- {
13095
- "epoch": 0.36,
13096
- "grad_norm": 1.8952895153405638,
13097
- "learning_rate": 1.4809773768533757e-05,
13098
- "loss": 0.9755,
13099
- "step": 1870
13100
- },
13101
- {
13102
- "epoch": 0.36,
13103
- "grad_norm": 1.6091945516084094,
13104
- "learning_rate": 1.4804304622198013e-05,
13105
- "loss": 0.8705,
13106
- "step": 1871
13107
- },
13108
- {
13109
- "epoch": 0.36,
13110
- "grad_norm": 1.624495437307758,
13111
- "learning_rate": 1.4798833606960972e-05,
13112
- "loss": 0.8524,
13113
- "step": 1872
13114
- },
13115
- {
13116
- "epoch": 0.36,
13117
- "grad_norm": 1.8744172065380642,
13118
- "learning_rate": 1.4793360724950887e-05,
13119
- "loss": 1.0719,
13120
- "step": 1873
13121
- },
13122
- {
13123
- "epoch": 0.36,
13124
- "grad_norm": 1.5575380698894332,
13125
- "learning_rate": 1.4787885978296737e-05,
13126
- "loss": 0.9028,
13127
- "step": 1874
13128
- },
13129
- {
13130
- "epoch": 0.36,
13131
- "grad_norm": 1.7892688635911647,
13132
- "learning_rate": 1.478240936912823e-05,
13133
- "loss": 0.9931,
13134
- "step": 1875
13135
- },
13136
- {
13137
- "epoch": 0.36,
13138
- "grad_norm": 1.6951433638470188,
13139
- "learning_rate": 1.4776930899575801e-05,
13140
- "loss": 0.9601,
13141
- "step": 1876
13142
- },
13143
- {
13144
- "epoch": 0.36,
13145
- "grad_norm": 1.8511925621033531,
13146
- "learning_rate": 1.4771450571770603e-05,
13147
- "loss": 1.0311,
13148
- "step": 1877
13149
- },
13150
- {
13151
- "epoch": 0.36,
13152
- "grad_norm": 1.1442810135716395,
13153
- "learning_rate": 1.4765968387844516e-05,
13154
- "loss": 0.884,
13155
- "step": 1878
13156
- },
13157
- {
13158
- "epoch": 0.36,
13159
- "grad_norm": 1.9225596331812123,
13160
- "learning_rate": 1.4760484349930134e-05,
13161
- "loss": 0.8523,
13162
- "step": 1879
13163
- },
13164
- {
13165
- "epoch": 0.36,
13166
- "grad_norm": 1.808853808526827,
13167
- "learning_rate": 1.4754998460160784e-05,
13168
- "loss": 0.9429,
13169
- "step": 1880
13170
- },
13171
- {
13172
- "epoch": 0.36,
13173
- "grad_norm": 1.5600398733677634,
13174
- "learning_rate": 1.4749510720670506e-05,
13175
- "loss": 0.9736,
13176
- "step": 1881
13177
- },
13178
- {
13179
- "epoch": 0.36,
13180
- "grad_norm": 1.5320412874387632,
13181
- "learning_rate": 1.4744021133594059e-05,
13182
- "loss": 0.8701,
13183
- "step": 1882
13184
- },
13185
- {
13186
- "epoch": 0.36,
13187
- "grad_norm": 1.523014076301379,
13188
- "learning_rate": 1.4738529701066928e-05,
13189
- "loss": 0.8883,
13190
- "step": 1883
13191
- },
13192
- {
13193
- "epoch": 0.36,
13194
- "grad_norm": 1.7505097977570019,
13195
- "learning_rate": 1.4733036425225306e-05,
13196
- "loss": 0.9172,
13197
- "step": 1884
13198
- },
13199
- {
13200
- "epoch": 0.36,
13201
- "grad_norm": 1.5554959069631156,
13202
- "learning_rate": 1.4727541308206114e-05,
13203
- "loss": 0.8644,
13204
- "step": 1885
13205
- },
13206
- {
13207
- "epoch": 0.36,
13208
- "grad_norm": 1.7958310637324932,
13209
- "learning_rate": 1.4722044352146978e-05,
13210
- "loss": 0.866,
13211
- "step": 1886
13212
- },
13213
- {
13214
- "epoch": 0.36,
13215
- "grad_norm": 1.855213005785535,
13216
- "learning_rate": 1.4716545559186244e-05,
13217
- "loss": 0.8861,
13218
- "step": 1887
13219
- },
13220
- {
13221
- "epoch": 0.36,
13222
- "grad_norm": 1.660788717810155,
13223
- "learning_rate": 1.4711044931462976e-05,
13224
- "loss": 0.888,
13225
- "step": 1888
13226
- },
13227
- {
13228
- "epoch": 0.36,
13229
- "grad_norm": 1.5748794402819912,
13230
- "learning_rate": 1.4705542471116949e-05,
13231
- "loss": 0.9492,
13232
- "step": 1889
13233
- },
13234
- {
13235
- "epoch": 0.36,
13236
- "grad_norm": 1.671940289814532,
13237
- "learning_rate": 1.470003818028865e-05,
13238
- "loss": 0.9392,
13239
- "step": 1890
13240
- },
13241
- {
13242
- "epoch": 0.36,
13243
- "grad_norm": 1.6682541425119886,
13244
- "learning_rate": 1.4694532061119277e-05,
13245
- "loss": 0.9954,
13246
- "step": 1891
13247
- },
13248
- {
13249
- "epoch": 0.36,
13250
- "grad_norm": 1.6270272723817845,
13251
- "learning_rate": 1.4689024115750745e-05,
13252
- "loss": 0.9257,
13253
- "step": 1892
13254
- },
13255
- {
13256
- "epoch": 0.36,
13257
- "grad_norm": 1.6944012589743433,
13258
- "learning_rate": 1.4683514346325671e-05,
13259
- "loss": 0.8054,
13260
- "step": 1893
13261
- },
13262
- {
13263
- "epoch": 0.36,
13264
- "grad_norm": 1.7534054491921223,
13265
- "learning_rate": 1.4678002754987388e-05,
13266
- "loss": 0.9034,
13267
- "step": 1894
13268
- },
13269
- {
13270
- "epoch": 0.36,
13271
- "grad_norm": 1.658585836806205,
13272
- "learning_rate": 1.4672489343879939e-05,
13273
- "loss": 0.9457,
13274
- "step": 1895
13275
- },
13276
- {
13277
- "epoch": 0.37,
13278
- "grad_norm": 1.640884368651283,
13279
- "learning_rate": 1.4666974115148065e-05,
13280
- "loss": 0.8148,
13281
- "step": 1896
13282
- },
13283
- {
13284
- "epoch": 0.37,
13285
- "grad_norm": 1.5939722795602012,
13286
- "learning_rate": 1.4661457070937226e-05,
13287
- "loss": 0.8452,
13288
- "step": 1897
13289
- },
13290
- {
13291
- "epoch": 0.37,
13292
- "grad_norm": 1.6167631945289578,
13293
- "learning_rate": 1.4655938213393582e-05,
13294
- "loss": 0.9033,
13295
- "step": 1898
13296
- },
13297
- {
13298
- "epoch": 0.37,
13299
- "grad_norm": 1.9454139532441512,
13300
- "learning_rate": 1.4650417544663997e-05,
13301
- "loss": 0.9275,
13302
- "step": 1899
13303
- },
13304
- {
13305
- "epoch": 0.37,
13306
- "grad_norm": 1.5858648706624496,
13307
- "learning_rate": 1.4644895066896046e-05,
13308
- "loss": 0.9054,
13309
- "step": 1900
13310
- },
13311
- {
13312
- "epoch": 0.37,
13313
- "grad_norm": 1.6936034257279007,
13314
- "learning_rate": 1.4639370782238e-05,
13315
- "loss": 0.9825,
13316
- "step": 1901
13317
- },
13318
- {
13319
- "epoch": 0.37,
13320
- "grad_norm": 1.6703890968967032,
13321
- "learning_rate": 1.4633844692838837e-05,
13322
- "loss": 0.9524,
13323
- "step": 1902
13324
- },
13325
- {
13326
- "epoch": 0.37,
13327
- "grad_norm": 1.5551617347389055,
13328
- "learning_rate": 1.4628316800848241e-05,
13329
- "loss": 0.9375,
13330
- "step": 1903
13331
- },
13332
- {
13333
- "epoch": 0.37,
13334
- "grad_norm": 1.8783960822922252,
13335
- "learning_rate": 1.4622787108416585e-05,
13336
- "loss": 1.0336,
13337
- "step": 1904
13338
- },
13339
- {
13340
- "epoch": 0.37,
13341
- "grad_norm": 1.7771071816180781,
13342
- "learning_rate": 1.4617255617694957e-05,
13343
- "loss": 0.8875,
13344
- "step": 1905
13345
- },
13346
- {
13347
- "epoch": 0.37,
13348
- "grad_norm": 1.6400552487600897,
13349
- "learning_rate": 1.4611722330835133e-05,
13350
- "loss": 0.9945,
13351
- "step": 1906
13352
- },
13353
- {
13354
- "epoch": 0.37,
13355
- "grad_norm": 1.7424809111938788,
13356
- "learning_rate": 1.4606187249989598e-05,
13357
- "loss": 0.947,
13358
- "step": 1907
13359
- },
13360
- {
13361
- "epoch": 0.37,
13362
- "grad_norm": 1.6042784586765482,
13363
- "learning_rate": 1.4600650377311523e-05,
13364
- "loss": 0.9005,
13365
- "step": 1908
13366
- },
13367
- {
13368
- "epoch": 0.37,
13369
- "grad_norm": 1.6758776492466088,
13370
- "learning_rate": 1.4595111714954787e-05,
13371
- "loss": 0.9794,
13372
- "step": 1909
13373
- },
13374
- {
13375
- "epoch": 0.37,
13376
- "grad_norm": 1.5913304752712094,
13377
- "learning_rate": 1.4589571265073959e-05,
13378
- "loss": 0.7905,
13379
- "step": 1910
13380
- },
13381
- {
13382
- "epoch": 0.37,
13383
- "grad_norm": 1.7798933897483598,
13384
- "learning_rate": 1.4584029029824305e-05,
13385
- "loss": 0.9255,
13386
- "step": 1911
13387
- },
13388
- {
13389
- "epoch": 0.37,
13390
- "grad_norm": 1.6437473812141559,
13391
- "learning_rate": 1.4578485011361783e-05,
13392
- "loss": 0.8905,
13393
- "step": 1912
13394
- },
13395
- {
13396
- "epoch": 0.37,
13397
- "grad_norm": 1.701664671213589,
13398
- "learning_rate": 1.4572939211843051e-05,
13399
- "loss": 0.9686,
13400
- "step": 1913
13401
- },
13402
- {
13403
- "epoch": 0.37,
13404
- "grad_norm": 1.611101839884725,
13405
- "learning_rate": 1.4567391633425455e-05,
13406
- "loss": 0.9226,
13407
- "step": 1914
13408
- },
13409
- {
13410
- "epoch": 0.37,
13411
- "grad_norm": 1.4477358561753013,
13412
- "learning_rate": 1.4561842278267033e-05,
13413
- "loss": 0.956,
13414
- "step": 1915
13415
- },
13416
- {
13417
- "epoch": 0.37,
13418
- "grad_norm": 1.5313991293553062,
13419
- "learning_rate": 1.4556291148526516e-05,
13420
- "loss": 0.8799,
13421
- "step": 1916
13422
- },
13423
- {
13424
- "epoch": 0.37,
13425
- "grad_norm": 1.570437900284019,
13426
- "learning_rate": 1.4550738246363322e-05,
13427
- "loss": 0.8546,
13428
- "step": 1917
13429
- },
13430
- {
13431
- "epoch": 0.37,
13432
- "grad_norm": 1.6393386291966954,
13433
- "learning_rate": 1.4545183573937566e-05,
13434
- "loss": 0.8923,
13435
- "step": 1918
13436
- },
13437
- {
13438
- "epoch": 0.37,
13439
- "grad_norm": 1.7235853278804611,
13440
- "learning_rate": 1.4539627133410042e-05,
13441
- "loss": 0.8886,
13442
- "step": 1919
13443
- },
13444
- {
13445
- "epoch": 0.37,
13446
- "grad_norm": 1.6947056773766112,
13447
- "learning_rate": 1.4534068926942235e-05,
13448
- "loss": 0.8453,
13449
- "step": 1920
13450
- },
13451
- {
13452
- "epoch": 0.37,
13453
- "grad_norm": 1.5835750935087545,
13454
- "learning_rate": 1.4528508956696326e-05,
13455
- "loss": 0.9339,
13456
- "step": 1921
13457
- },
13458
- {
13459
- "epoch": 0.37,
13460
- "grad_norm": 1.742088241485645,
13461
- "learning_rate": 1.4522947224835165e-05,
13462
- "loss": 0.9946,
13463
- "step": 1922
13464
- },
13465
- {
13466
- "epoch": 0.37,
13467
- "grad_norm": 1.4949963929651728,
13468
- "learning_rate": 1.4517383733522304e-05,
13469
- "loss": 0.927,
13470
- "step": 1923
13471
- },
13472
- {
13473
- "epoch": 0.37,
13474
- "grad_norm": 1.5253164901288647,
13475
- "learning_rate": 1.451181848492197e-05,
13476
- "loss": 0.8769,
13477
- "step": 1924
13478
- },
13479
- {
13480
- "epoch": 0.37,
13481
- "grad_norm": 1.4889989022162844,
13482
- "learning_rate": 1.4506251481199071e-05,
13483
- "loss": 0.872,
13484
- "step": 1925
13485
- },
13486
- {
13487
- "epoch": 0.37,
13488
- "grad_norm": 1.8096496107868196,
13489
- "learning_rate": 1.450068272451921e-05,
13490
- "loss": 0.9849,
13491
- "step": 1926
13492
- },
13493
- {
13494
- "epoch": 0.37,
13495
- "grad_norm": 1.6165599569378286,
13496
- "learning_rate": 1.449511221704866e-05,
13497
- "loss": 0.8824,
13498
- "step": 1927
13499
- },
13500
- {
13501
- "epoch": 0.37,
13502
- "grad_norm": 1.696888487069437,
13503
- "learning_rate": 1.4489539960954382e-05,
13504
- "loss": 0.9493,
13505
- "step": 1928
13506
- },
13507
- {
13508
- "epoch": 0.37,
13509
- "grad_norm": 1.5617807092050424,
13510
- "learning_rate": 1.4483965958404012e-05,
13511
- "loss": 0.9603,
13512
- "step": 1929
13513
- },
13514
- {
13515
- "epoch": 0.37,
13516
- "grad_norm": 1.7772163500967342,
13517
- "learning_rate": 1.447839021156587e-05,
13518
- "loss": 0.8918,
13519
- "step": 1930
13520
- },
13521
- {
13522
- "epoch": 0.37,
13523
- "grad_norm": 1.060365842099134,
13524
- "learning_rate": 1.4472812722608948e-05,
13525
- "loss": 0.8678,
13526
- "step": 1931
13527
- },
13528
- {
13529
- "epoch": 0.37,
13530
- "grad_norm": 1.6120849117340765,
13531
- "learning_rate": 1.446723349370293e-05,
13532
- "loss": 0.9337,
13533
- "step": 1932
13534
- },
13535
- {
13536
- "epoch": 0.37,
13537
- "grad_norm": 1.0949366371155416,
13538
- "learning_rate": 1.4461652527018158e-05,
13539
- "loss": 0.8726,
13540
- "step": 1933
13541
- },
13542
- {
13543
- "epoch": 0.37,
13544
- "grad_norm": 1.6705665592860641,
13545
- "learning_rate": 1.4456069824725663e-05,
13546
- "loss": 0.9106,
13547
- "step": 1934
13548
- },
13549
- {
13550
- "epoch": 0.37,
13551
- "grad_norm": 1.842606010652722,
13552
- "learning_rate": 1.4450485388997149e-05,
13553
- "loss": 0.9954,
13554
- "step": 1935
13555
- },
13556
- {
13557
- "epoch": 0.37,
13558
- "grad_norm": 1.057321791400095,
13559
- "learning_rate": 1.444489922200499e-05,
13560
- "loss": 0.8959,
13561
- "step": 1936
13562
- },
13563
- {
13564
- "epoch": 0.37,
13565
- "grad_norm": 1.8140608348248906,
13566
- "learning_rate": 1.4439311325922235e-05,
13567
- "loss": 0.9943,
13568
- "step": 1937
13569
- },
13570
- {
13571
- "epoch": 0.37,
13572
- "grad_norm": 1.7098410462471028,
13573
- "learning_rate": 1.4433721702922607e-05,
13574
- "loss": 0.8261,
13575
- "step": 1938
13576
- },
13577
- {
13578
- "epoch": 0.37,
13579
- "grad_norm": 1.0270872514099714,
13580
- "learning_rate": 1.4428130355180505e-05,
13581
- "loss": 0.8597,
13582
- "step": 1939
13583
- },
13584
- {
13585
- "epoch": 0.37,
13586
- "grad_norm": 1.596577887827628,
13587
- "learning_rate": 1.4422537284870993e-05,
13588
- "loss": 0.8603,
13589
- "step": 1940
13590
- },
13591
- {
13592
- "epoch": 0.37,
13593
- "grad_norm": 1.0437894211858543,
13594
- "learning_rate": 1.4416942494169801e-05,
13595
- "loss": 0.8863,
13596
- "step": 1941
13597
- },
13598
- {
13599
- "epoch": 0.37,
13600
- "grad_norm": 1.022257618024313,
13601
- "learning_rate": 1.441134598525334e-05,
13602
- "loss": 0.8304,
13603
- "step": 1942
13604
- },
13605
- {
13606
- "epoch": 0.37,
13607
- "grad_norm": 1.630469813224106,
13608
- "learning_rate": 1.4405747760298681e-05,
13609
- "loss": 0.8952,
13610
- "step": 1943
13611
- },
13612
- {
13613
- "epoch": 0.37,
13614
- "grad_norm": 1.7663508160729156,
13615
- "learning_rate": 1.4400147821483564e-05,
13616
- "loss": 0.9825,
13617
- "step": 1944
13618
- },
13619
- {
13620
- "epoch": 0.37,
13621
- "grad_norm": 1.6935303282233554,
13622
- "learning_rate": 1.4394546170986394e-05,
13623
- "loss": 0.9867,
13624
- "step": 1945
13625
- },
13626
- {
13627
- "epoch": 0.37,
13628
- "grad_norm": 1.811332894249063,
13629
- "learning_rate": 1.4388942810986253e-05,
13630
- "loss": 0.9215,
13631
- "step": 1946
13632
- },
13633
- {
13634
- "epoch": 0.37,
13635
- "grad_norm": 1.5936262053219343,
13636
- "learning_rate": 1.4383337743662872e-05,
13637
- "loss": 1.0064,
13638
- "step": 1947
13639
- },
13640
- {
13641
- "epoch": 0.38,
13642
- "grad_norm": 1.2221389486212109,
13643
- "learning_rate": 1.4377730971196658e-05,
13644
- "loss": 0.8219,
13645
- "step": 1948
13646
- },
13647
- {
13648
- "epoch": 0.38,
13649
- "grad_norm": 1.692758782000757,
13650
- "learning_rate": 1.437212249576867e-05,
13651
- "loss": 0.8998,
13652
- "step": 1949
13653
- },
13654
- {
13655
- "epoch": 0.38,
13656
- "grad_norm": 1.6050066128005005,
13657
- "learning_rate": 1.4366512319560642e-05,
13658
- "loss": 0.9318,
13659
- "step": 1950
13660
- },
13661
- {
13662
- "epoch": 0.38,
13663
- "grad_norm": 1.820927381354136,
13664
- "learning_rate": 1.4360900444754959e-05,
13665
- "loss": 0.9633,
13666
- "step": 1951
13667
- },
13668
- {
13669
- "epoch": 0.38,
13670
- "grad_norm": 1.759938786543528,
13671
- "learning_rate": 1.4355286873534677e-05,
13672
- "loss": 0.9468,
13673
- "step": 1952
13674
- },
13675
- {
13676
- "epoch": 0.38,
13677
- "grad_norm": 1.6752343970748882,
13678
- "learning_rate": 1.4349671608083504e-05,
13679
- "loss": 0.8669,
13680
- "step": 1953
13681
- },
13682
- {
13683
- "epoch": 0.38,
13684
- "grad_norm": 1.7184980534359486,
13685
- "learning_rate": 1.4344054650585813e-05,
13686
- "loss": 0.9065,
13687
- "step": 1954
13688
- },
13689
- {
13690
- "epoch": 0.38,
13691
- "grad_norm": 1.672450031095198,
13692
- "learning_rate": 1.4338436003226623e-05,
13693
- "loss": 1.0158,
13694
- "step": 1955
13695
- },
13696
- {
13697
- "epoch": 0.38,
13698
- "grad_norm": 1.7822544858188532,
13699
- "learning_rate": 1.433281566819163e-05,
13700
- "loss": 0.8884,
13701
- "step": 1956
13702
- },
13703
- {
13704
- "epoch": 0.38,
13705
- "grad_norm": 1.2323855892676456,
13706
- "learning_rate": 1.4327193647667167e-05,
13707
- "loss": 0.857,
13708
- "step": 1957
13709
- },
13710
- {
13711
- "epoch": 0.38,
13712
- "grad_norm": 1.6749892119624912,
13713
- "learning_rate": 1.4321569943840235e-05,
13714
- "loss": 0.9273,
13715
- "step": 1958
13716
- },
13717
- {
13718
- "epoch": 0.38,
13719
- "grad_norm": 1.562532316981109,
13720
- "learning_rate": 1.4315944558898486e-05,
13721
- "loss": 0.9543,
13722
- "step": 1959
13723
- },
13724
- {
13725
- "epoch": 0.38,
13726
- "grad_norm": 1.733048227533296,
13727
- "learning_rate": 1.4310317495030226e-05,
13728
- "loss": 0.9416,
13729
- "step": 1960
13730
- },
13731
- {
13732
- "epoch": 0.38,
13733
- "grad_norm": 1.6187249948968137,
13734
- "learning_rate": 1.4304688754424417e-05,
13735
- "loss": 0.9877,
13736
- "step": 1961
13737
- },
13738
- {
13739
- "epoch": 0.38,
13740
- "grad_norm": 1.544184212908568,
13741
- "learning_rate": 1.4299058339270663e-05,
13742
- "loss": 0.8356,
13743
- "step": 1962
13744
- },
13745
- {
13746
- "epoch": 0.38,
13747
- "grad_norm": 1.5597864305215874,
13748
- "learning_rate": 1.4293426251759234e-05,
13749
- "loss": 0.8891,
13750
- "step": 1963
13751
- },
13752
- {
13753
- "epoch": 0.38,
13754
- "grad_norm": 1.6764875535211585,
13755
- "learning_rate": 1.4287792494081042e-05,
13756
- "loss": 0.9978,
13757
- "step": 1964
13758
- },
13759
- {
13760
- "epoch": 0.38,
13761
- "grad_norm": 1.628972353736311,
13762
- "learning_rate": 1.428215706842765e-05,
13763
- "loss": 0.8752,
13764
- "step": 1965
13765
- },
13766
- {
13767
- "epoch": 0.38,
13768
- "grad_norm": 1.6175343059783494,
13769
- "learning_rate": 1.4276519976991267e-05,
13770
- "loss": 0.9888,
13771
- "step": 1966
13772
- },
13773
- {
13774
- "epoch": 0.38,
13775
- "grad_norm": 1.6569498876168287,
13776
- "learning_rate": 1.4270881221964756e-05,
13777
- "loss": 0.9243,
13778
- "step": 1967
13779
- },
13780
- {
13781
- "epoch": 0.38,
13782
- "grad_norm": 1.5486333423207015,
13783
- "learning_rate": 1.4265240805541628e-05,
13784
- "loss": 0.875,
13785
- "step": 1968
13786
- },
13787
- {
13788
- "epoch": 0.38,
13789
- "grad_norm": 1.6050782117840383,
13790
- "learning_rate": 1.4259598729916027e-05,
13791
- "loss": 0.8632,
13792
- "step": 1969
13793
- },
13794
- {
13795
- "epoch": 0.38,
13796
- "grad_norm": 1.613167697354811,
13797
- "learning_rate": 1.425395499728276e-05,
13798
- "loss": 0.8139,
13799
- "step": 1970
13800
- },
13801
- {
13802
- "epoch": 0.38,
13803
- "grad_norm": 1.0995807826218689,
13804
- "learning_rate": 1.4248309609837262e-05,
13805
- "loss": 0.8318,
13806
- "step": 1971
13807
- },
13808
- {
13809
- "epoch": 0.38,
13810
- "grad_norm": 1.7339742844852268,
13811
- "learning_rate": 1.4242662569775632e-05,
13812
- "loss": 1.0169,
13813
- "step": 1972
13814
- },
13815
- {
13816
- "epoch": 0.38,
13817
- "grad_norm": 1.775570046531735,
13818
- "learning_rate": 1.423701387929459e-05,
13819
- "loss": 0.8689,
13820
- "step": 1973
13821
- },
13822
- {
13823
- "epoch": 0.38,
13824
- "grad_norm": 1.712780324624818,
13825
- "learning_rate": 1.4231363540591512e-05,
13826
- "loss": 0.8534,
13827
- "step": 1974
13828
- },
13829
- {
13830
- "epoch": 0.38,
13831
- "grad_norm": 1.9214141386062493,
13832
- "learning_rate": 1.4225711555864413e-05,
13833
- "loss": 0.9083,
13834
- "step": 1975
13835
- },
13836
- {
13837
- "epoch": 0.38,
13838
- "grad_norm": 1.0979553405135083,
13839
- "learning_rate": 1.4220057927311944e-05,
13840
- "loss": 0.8881,
13841
- "step": 1976
13842
- },
13843
- {
13844
- "epoch": 0.38,
13845
- "grad_norm": 1.6731728263110943,
13846
- "learning_rate": 1.4214402657133396e-05,
13847
- "loss": 0.968,
13848
- "step": 1977
13849
- },
13850
- {
13851
- "epoch": 0.38,
13852
- "grad_norm": 1.5442188820300313,
13853
- "learning_rate": 1.4208745747528705e-05,
13854
- "loss": 0.8429,
13855
- "step": 1978
13856
- },
13857
- {
13858
- "epoch": 0.38,
13859
- "grad_norm": 1.560545156571736,
13860
- "learning_rate": 1.420308720069844e-05,
13861
- "loss": 0.8704,
13862
- "step": 1979
13863
- },
13864
- {
13865
- "epoch": 0.38,
13866
- "grad_norm": 1.5465513905600146,
13867
- "learning_rate": 1.4197427018843804e-05,
13868
- "loss": 0.8807,
13869
- "step": 1980
13870
- },
13871
- {
13872
- "epoch": 0.38,
13873
- "grad_norm": 1.9032763143445839,
13874
- "learning_rate": 1.4191765204166643e-05,
13875
- "loss": 0.8731,
13876
- "step": 1981
13877
- },
13878
- {
13879
- "epoch": 0.38,
13880
- "grad_norm": 1.5074974422961198,
13881
- "learning_rate": 1.418610175886943e-05,
13882
- "loss": 0.8785,
13883
- "step": 1982
13884
- },
13885
- {
13886
- "epoch": 0.38,
13887
- "grad_norm": 1.7085486460822743,
13888
- "learning_rate": 1.4180436685155284e-05,
13889
- "loss": 0.9437,
13890
- "step": 1983
13891
- },
13892
- {
13893
- "epoch": 0.38,
13894
- "grad_norm": 1.0614399683461917,
13895
- "learning_rate": 1.4174769985227943e-05,
13896
- "loss": 0.869,
13897
- "step": 1984
13898
- },
13899
- {
13900
- "epoch": 0.38,
13901
- "grad_norm": 1.8102639056663725,
13902
- "learning_rate": 1.4169101661291789e-05,
13903
- "loss": 0.9407,
13904
- "step": 1985
13905
- },
13906
- {
13907
- "epoch": 0.38,
13908
- "grad_norm": 1.677696426013255,
13909
- "learning_rate": 1.416343171555183e-05,
13910
- "loss": 0.9164,
13911
- "step": 1986
13912
- },
13913
- {
13914
- "epoch": 0.38,
13915
- "grad_norm": 1.5983097724232058,
13916
- "learning_rate": 1.4157760150213706e-05,
13917
- "loss": 0.8976,
13918
- "step": 1987
13919
- },
13920
- {
13921
- "epoch": 0.38,
13922
- "grad_norm": 1.5633357942983659,
13923
- "learning_rate": 1.415208696748369e-05,
13924
- "loss": 0.9583,
13925
- "step": 1988
13926
- },
13927
- {
13928
- "epoch": 0.38,
13929
- "grad_norm": 1.8757667991615432,
13930
- "learning_rate": 1.414641216956868e-05,
13931
- "loss": 0.8841,
13932
- "step": 1989
13933
- },
13934
- {
13935
- "epoch": 0.38,
13936
- "grad_norm": 1.7104011632366787,
13937
- "learning_rate": 1.4140735758676205e-05,
13938
- "loss": 0.9663,
13939
- "step": 1990
13940
- },
13941
- {
13942
- "epoch": 0.38,
13943
- "grad_norm": 1.6278015170837083,
13944
- "learning_rate": 1.4135057737014416e-05,
13945
- "loss": 0.9017,
13946
- "step": 1991
13947
- },
13948
- {
13949
- "epoch": 0.38,
13950
- "grad_norm": 1.6085948855074665,
13951
- "learning_rate": 1.4129378106792103e-05,
13952
- "loss": 0.9748,
13953
- "step": 1992
13954
- },
13955
- {
13956
- "epoch": 0.38,
13957
- "grad_norm": 1.7212729021378976,
13958
- "learning_rate": 1.412369687021867e-05,
13959
- "loss": 0.8887,
13960
- "step": 1993
13961
- },
13962
- {
13963
- "epoch": 0.38,
13964
- "grad_norm": 1.4847775674762957,
13965
- "learning_rate": 1.411801402950415e-05,
13966
- "loss": 0.8589,
13967
- "step": 1994
13968
- },
13969
- {
13970
- "epoch": 0.38,
13971
- "grad_norm": 1.7254985997235885,
13972
- "learning_rate": 1.4112329586859196e-05,
13973
- "loss": 0.9851,
13974
- "step": 1995
13975
- },
13976
- {
13977
- "epoch": 0.38,
13978
- "grad_norm": 1.6497964331392245,
13979
- "learning_rate": 1.4106643544495092e-05,
13980
- "loss": 0.9671,
13981
- "step": 1996
13982
- },
13983
- {
13984
- "epoch": 0.38,
13985
- "grad_norm": 1.7500475617926596,
13986
- "learning_rate": 1.4100955904623742e-05,
13987
- "loss": 0.9816,
13988
- "step": 1997
13989
- },
13990
- {
13991
- "epoch": 0.38,
13992
- "grad_norm": 1.6055781534173013,
13993
- "learning_rate": 1.4095266669457664e-05,
13994
- "loss": 0.7968,
13995
- "step": 1998
13996
- },
13997
- {
13998
- "epoch": 0.38,
13999
- "grad_norm": 1.7201656182922893,
14000
- "learning_rate": 1.4089575841210004e-05,
14001
- "loss": 0.9469,
14002
- "step": 1999
14003
- },
14004
- {
14005
- "epoch": 0.39,
14006
- "grad_norm": 1.7198154929517466,
14007
- "learning_rate": 1.4083883422094528e-05,
14008
- "loss": 0.9505,
14009
- "step": 2000
14010
  }
14011
  ],
14012
  "logging_steps": 1.0,
@@ -14014,7 +10514,7 @@
14014
  "num_input_tokens_seen": 0,
14015
  "num_train_epochs": 1,
14016
  "save_steps": 500,
14017
- "total_flos": 2671624441298944.0,
14018
  "train_batch_size": 4,
14019
  "trial_name": null,
14020
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.28885037550548814,
5
  "eval_steps": 500,
6
+ "global_step": 1500,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
10507
  "learning_rate": 1.6687597216781584e-05,
10508
  "loss": 0.8145,
10509
  "step": 1500
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
10510
  }
10511
  ],
10512
  "logging_steps": 1.0,
 
10514
  "num_input_tokens_seen": 0,
10515
  "num_train_epochs": 1,
10516
  "save_steps": 500,
10517
+ "total_flos": 2005543029506048.0,
10518
  "train_batch_size": 4,
10519
  "trial_name": null,
10520
  "trial_params": null