Joemgu commited on
Commit
935d258
1 Parent(s): 08dd2cd

Training in progress, step 800

Browse files
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d8bf6a587c3b2deea0af6f6e8e715536124131fa447be3ad8aff9285a40a6527
3
  size 4736616809
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4f65a9357a3b13a32cb1771d8d3d54fda21610e2f927e2b097b8984f87c58bb1
3
  size 4736616809
last-checkpoint/pytorch_model.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:bca52973073c7ff1e3e1b1320c55cfdba551b1acc405e671c24804149380d1fc
3
  size 2368281769
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:13d97f15adc41397e040b1276339005dcc4183c282bc569b80bbabc18a3e5da7
3
  size 2368281769
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:a8071c5414e6d9bf6dffe71da15c03f40d1fde4fd0df3c2ea5cfb6a1e40ea2f2
3
  size 14575
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1185b9f269b6f6c5c36dd83644735ab968d01c77551fcdab8caad4927690c5dd
3
  size 14575
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:87e43857a30059e053cce9bf13199ec7a68763b87b43c2900091d96422b0bdbd
3
  size 627
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:96705910f49b796948adf4805354cef92505b767c8e6d0a6e64c4e33427725e4
3
  size 627
last-checkpoint/trainer_state.json CHANGED
@@ -1,8 +1,8 @@
1
  {
2
- "best_metric": 2.1741747856140137,
3
- "best_model_checkpoint": "output/checkpoint-600",
4
- "epoch": 0.3,
5
- "global_step": 600,
6
  "is_hyper_param_search": false,
7
  "is_local_process_zero": true,
8
  "is_world_process_zero": true,
@@ -3645,11 +3645,1224 @@
3645
  "eval_samples_per_second": 0.055,
3646
  "eval_steps_per_second": 0.055,
3647
  "step": 600
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3648
  }
3649
  ],
3650
  "max_steps": 2000,
3651
  "num_train_epochs": 9223372036854775807,
3652
- "total_flos": 4.8214702151894016e+17,
3653
  "trial_name": null,
3654
  "trial_params": null
3655
  }
 
1
  {
2
+ "best_metric": 2.158494710922241,
3
+ "best_model_checkpoint": "output/checkpoint-800",
4
+ "epoch": 0.4,
5
+ "global_step": 800,
6
  "is_hyper_param_search": false,
7
  "is_local_process_zero": true,
8
  "is_world_process_zero": true,
 
3645
  "eval_samples_per_second": 0.055,
3646
  "eval_steps_per_second": 0.055,
3647
  "step": 600
3648
+ },
3649
+ {
3650
+ "epoch": 0.3,
3651
+ "learning_rate": 0.0006217777777777778,
3652
+ "loss": 2.2629,
3653
+ "step": 601
3654
+ },
3655
+ {
3656
+ "epoch": 0.3,
3657
+ "learning_rate": 0.0006213333333333333,
3658
+ "loss": 2.2242,
3659
+ "step": 602
3660
+ },
3661
+ {
3662
+ "epoch": 0.3,
3663
+ "learning_rate": 0.0006208888888888889,
3664
+ "loss": 2.2483,
3665
+ "step": 603
3666
+ },
3667
+ {
3668
+ "epoch": 0.3,
3669
+ "learning_rate": 0.0006204444444444445,
3670
+ "loss": 2.2495,
3671
+ "step": 604
3672
+ },
3673
+ {
3674
+ "epoch": 0.3,
3675
+ "learning_rate": 0.00062,
3676
+ "loss": 2.313,
3677
+ "step": 605
3678
+ },
3679
+ {
3680
+ "epoch": 0.3,
3681
+ "learning_rate": 0.0006195555555555556,
3682
+ "loss": 2.2913,
3683
+ "step": 606
3684
+ },
3685
+ {
3686
+ "epoch": 0.3,
3687
+ "learning_rate": 0.0006191111111111111,
3688
+ "loss": 2.3303,
3689
+ "step": 607
3690
+ },
3691
+ {
3692
+ "epoch": 0.3,
3693
+ "learning_rate": 0.0006186666666666667,
3694
+ "loss": 2.2479,
3695
+ "step": 608
3696
+ },
3697
+ {
3698
+ "epoch": 0.3,
3699
+ "learning_rate": 0.0006182222222222223,
3700
+ "loss": 2.2751,
3701
+ "step": 609
3702
+ },
3703
+ {
3704
+ "epoch": 0.3,
3705
+ "learning_rate": 0.0006177777777777779,
3706
+ "loss": 2.2311,
3707
+ "step": 610
3708
+ },
3709
+ {
3710
+ "epoch": 0.31,
3711
+ "learning_rate": 0.0006173333333333333,
3712
+ "loss": 2.2294,
3713
+ "step": 611
3714
+ },
3715
+ {
3716
+ "epoch": 0.31,
3717
+ "learning_rate": 0.0006168888888888889,
3718
+ "loss": 2.2305,
3719
+ "step": 612
3720
+ },
3721
+ {
3722
+ "epoch": 0.31,
3723
+ "learning_rate": 0.0006164444444444444,
3724
+ "loss": 2.277,
3725
+ "step": 613
3726
+ },
3727
+ {
3728
+ "epoch": 0.31,
3729
+ "learning_rate": 0.000616,
3730
+ "loss": 2.347,
3731
+ "step": 614
3732
+ },
3733
+ {
3734
+ "epoch": 0.31,
3735
+ "learning_rate": 0.0006155555555555556,
3736
+ "loss": 2.2763,
3737
+ "step": 615
3738
+ },
3739
+ {
3740
+ "epoch": 0.31,
3741
+ "learning_rate": 0.0006151111111111111,
3742
+ "loss": 2.3201,
3743
+ "step": 616
3744
+ },
3745
+ {
3746
+ "epoch": 0.31,
3747
+ "learning_rate": 0.0006146666666666667,
3748
+ "loss": 2.2555,
3749
+ "step": 617
3750
+ },
3751
+ {
3752
+ "epoch": 0.31,
3753
+ "learning_rate": 0.0006142222222222223,
3754
+ "loss": 2.3702,
3755
+ "step": 618
3756
+ },
3757
+ {
3758
+ "epoch": 0.31,
3759
+ "learning_rate": 0.0006137777777777779,
3760
+ "loss": 2.2319,
3761
+ "step": 619
3762
+ },
3763
+ {
3764
+ "epoch": 0.31,
3765
+ "learning_rate": 0.0006133333333333334,
3766
+ "loss": 2.2326,
3767
+ "step": 620
3768
+ },
3769
+ {
3770
+ "epoch": 0.31,
3771
+ "learning_rate": 0.0006128888888888888,
3772
+ "loss": 2.3561,
3773
+ "step": 621
3774
+ },
3775
+ {
3776
+ "epoch": 0.31,
3777
+ "learning_rate": 0.0006124444444444444,
3778
+ "loss": 2.2702,
3779
+ "step": 622
3780
+ },
3781
+ {
3782
+ "epoch": 0.31,
3783
+ "learning_rate": 0.000612,
3784
+ "loss": 2.2726,
3785
+ "step": 623
3786
+ },
3787
+ {
3788
+ "epoch": 0.31,
3789
+ "learning_rate": 0.0006115555555555556,
3790
+ "loss": 2.3036,
3791
+ "step": 624
3792
+ },
3793
+ {
3794
+ "epoch": 0.31,
3795
+ "learning_rate": 0.0006111111111111111,
3796
+ "loss": 2.316,
3797
+ "step": 625
3798
+ },
3799
+ {
3800
+ "epoch": 0.31,
3801
+ "learning_rate": 0.0006106666666666667,
3802
+ "loss": 2.2936,
3803
+ "step": 626
3804
+ },
3805
+ {
3806
+ "epoch": 0.31,
3807
+ "learning_rate": 0.0006102222222222223,
3808
+ "loss": 2.3333,
3809
+ "step": 627
3810
+ },
3811
+ {
3812
+ "epoch": 0.31,
3813
+ "learning_rate": 0.0006097777777777779,
3814
+ "loss": 2.3695,
3815
+ "step": 628
3816
+ },
3817
+ {
3818
+ "epoch": 0.31,
3819
+ "learning_rate": 0.0006093333333333334,
3820
+ "loss": 2.1621,
3821
+ "step": 629
3822
+ },
3823
+ {
3824
+ "epoch": 0.32,
3825
+ "learning_rate": 0.0006088888888888888,
3826
+ "loss": 2.288,
3827
+ "step": 630
3828
+ },
3829
+ {
3830
+ "epoch": 0.32,
3831
+ "learning_rate": 0.0006084444444444444,
3832
+ "loss": 2.275,
3833
+ "step": 631
3834
+ },
3835
+ {
3836
+ "epoch": 0.32,
3837
+ "learning_rate": 0.000608,
3838
+ "loss": 2.2326,
3839
+ "step": 632
3840
+ },
3841
+ {
3842
+ "epoch": 0.32,
3843
+ "learning_rate": 0.0006075555555555556,
3844
+ "loss": 2.3058,
3845
+ "step": 633
3846
+ },
3847
+ {
3848
+ "epoch": 0.32,
3849
+ "learning_rate": 0.0006071111111111111,
3850
+ "loss": 2.3021,
3851
+ "step": 634
3852
+ },
3853
+ {
3854
+ "epoch": 0.32,
3855
+ "learning_rate": 0.0006066666666666667,
3856
+ "loss": 2.2709,
3857
+ "step": 635
3858
+ },
3859
+ {
3860
+ "epoch": 0.32,
3861
+ "learning_rate": 0.0006062222222222223,
3862
+ "loss": 2.2401,
3863
+ "step": 636
3864
+ },
3865
+ {
3866
+ "epoch": 0.32,
3867
+ "learning_rate": 0.0006057777777777778,
3868
+ "loss": 2.2679,
3869
+ "step": 637
3870
+ },
3871
+ {
3872
+ "epoch": 0.32,
3873
+ "learning_rate": 0.0006053333333333334,
3874
+ "loss": 2.2649,
3875
+ "step": 638
3876
+ },
3877
+ {
3878
+ "epoch": 0.32,
3879
+ "learning_rate": 0.0006048888888888889,
3880
+ "loss": 2.2832,
3881
+ "step": 639
3882
+ },
3883
+ {
3884
+ "epoch": 0.32,
3885
+ "learning_rate": 0.0006044444444444445,
3886
+ "loss": 2.2549,
3887
+ "step": 640
3888
+ },
3889
+ {
3890
+ "epoch": 0.32,
3891
+ "learning_rate": 0.000604,
3892
+ "loss": 2.2033,
3893
+ "step": 641
3894
+ },
3895
+ {
3896
+ "epoch": 0.32,
3897
+ "learning_rate": 0.0006035555555555556,
3898
+ "loss": 2.3478,
3899
+ "step": 642
3900
+ },
3901
+ {
3902
+ "epoch": 0.32,
3903
+ "learning_rate": 0.0006031111111111112,
3904
+ "loss": 2.2811,
3905
+ "step": 643
3906
+ },
3907
+ {
3908
+ "epoch": 0.32,
3909
+ "learning_rate": 0.0006026666666666667,
3910
+ "loss": 2.2695,
3911
+ "step": 644
3912
+ },
3913
+ {
3914
+ "epoch": 0.32,
3915
+ "learning_rate": 0.0006022222222222222,
3916
+ "loss": 2.3959,
3917
+ "step": 645
3918
+ },
3919
+ {
3920
+ "epoch": 0.32,
3921
+ "learning_rate": 0.0006017777777777778,
3922
+ "loss": 2.2135,
3923
+ "step": 646
3924
+ },
3925
+ {
3926
+ "epoch": 0.32,
3927
+ "learning_rate": 0.0006013333333333334,
3928
+ "loss": 2.2501,
3929
+ "step": 647
3930
+ },
3931
+ {
3932
+ "epoch": 0.32,
3933
+ "learning_rate": 0.0006008888888888889,
3934
+ "loss": 2.2801,
3935
+ "step": 648
3936
+ },
3937
+ {
3938
+ "epoch": 0.32,
3939
+ "learning_rate": 0.0006004444444444445,
3940
+ "loss": 2.2968,
3941
+ "step": 649
3942
+ },
3943
+ {
3944
+ "epoch": 0.33,
3945
+ "learning_rate": 0.0006000000000000001,
3946
+ "loss": 2.2578,
3947
+ "step": 650
3948
+ },
3949
+ {
3950
+ "epoch": 0.33,
3951
+ "learning_rate": 0.0005995555555555556,
3952
+ "loss": 2.1764,
3953
+ "step": 651
3954
+ },
3955
+ {
3956
+ "epoch": 0.33,
3957
+ "learning_rate": 0.0005991111111111111,
3958
+ "loss": 2.3049,
3959
+ "step": 652
3960
+ },
3961
+ {
3962
+ "epoch": 0.33,
3963
+ "learning_rate": 0.0005986666666666666,
3964
+ "loss": 2.2893,
3965
+ "step": 653
3966
+ },
3967
+ {
3968
+ "epoch": 0.33,
3969
+ "learning_rate": 0.0005982222222222222,
3970
+ "loss": 2.2749,
3971
+ "step": 654
3972
+ },
3973
+ {
3974
+ "epoch": 0.33,
3975
+ "learning_rate": 0.0005977777777777778,
3976
+ "loss": 2.3037,
3977
+ "step": 655
3978
+ },
3979
+ {
3980
+ "epoch": 0.33,
3981
+ "learning_rate": 0.0005973333333333334,
3982
+ "loss": 2.2434,
3983
+ "step": 656
3984
+ },
3985
+ {
3986
+ "epoch": 0.33,
3987
+ "learning_rate": 0.0005968888888888889,
3988
+ "loss": 2.3198,
3989
+ "step": 657
3990
+ },
3991
+ {
3992
+ "epoch": 0.33,
3993
+ "learning_rate": 0.0005964444444444445,
3994
+ "loss": 2.2131,
3995
+ "step": 658
3996
+ },
3997
+ {
3998
+ "epoch": 0.33,
3999
+ "learning_rate": 0.0005960000000000001,
4000
+ "loss": 2.2619,
4001
+ "step": 659
4002
+ },
4003
+ {
4004
+ "epoch": 0.33,
4005
+ "learning_rate": 0.0005955555555555556,
4006
+ "loss": 2.2657,
4007
+ "step": 660
4008
+ },
4009
+ {
4010
+ "epoch": 0.33,
4011
+ "learning_rate": 0.0005951111111111111,
4012
+ "loss": 2.2787,
4013
+ "step": 661
4014
+ },
4015
+ {
4016
+ "epoch": 0.33,
4017
+ "learning_rate": 0.0005946666666666666,
4018
+ "loss": 2.3317,
4019
+ "step": 662
4020
+ },
4021
+ {
4022
+ "epoch": 0.33,
4023
+ "learning_rate": 0.0005942222222222222,
4024
+ "loss": 2.3017,
4025
+ "step": 663
4026
+ },
4027
+ {
4028
+ "epoch": 0.33,
4029
+ "learning_rate": 0.0005937777777777778,
4030
+ "loss": 2.2839,
4031
+ "step": 664
4032
+ },
4033
+ {
4034
+ "epoch": 0.33,
4035
+ "learning_rate": 0.0005933333333333334,
4036
+ "loss": 2.2235,
4037
+ "step": 665
4038
+ },
4039
+ {
4040
+ "epoch": 0.33,
4041
+ "learning_rate": 0.000592888888888889,
4042
+ "loss": 2.191,
4043
+ "step": 666
4044
+ },
4045
+ {
4046
+ "epoch": 0.33,
4047
+ "learning_rate": 0.0005924444444444445,
4048
+ "loss": 2.2485,
4049
+ "step": 667
4050
+ },
4051
+ {
4052
+ "epoch": 0.33,
4053
+ "learning_rate": 0.000592,
4054
+ "loss": 2.2507,
4055
+ "step": 668
4056
+ },
4057
+ {
4058
+ "epoch": 0.33,
4059
+ "learning_rate": 0.0005915555555555556,
4060
+ "loss": 2.2717,
4061
+ "step": 669
4062
+ },
4063
+ {
4064
+ "epoch": 0.34,
4065
+ "learning_rate": 0.0005911111111111112,
4066
+ "loss": 2.1896,
4067
+ "step": 670
4068
+ },
4069
+ {
4070
+ "epoch": 0.34,
4071
+ "learning_rate": 0.0005906666666666666,
4072
+ "loss": 2.3243,
4073
+ "step": 671
4074
+ },
4075
+ {
4076
+ "epoch": 0.34,
4077
+ "learning_rate": 0.0005902222222222222,
4078
+ "loss": 2.1593,
4079
+ "step": 672
4080
+ },
4081
+ {
4082
+ "epoch": 0.34,
4083
+ "learning_rate": 0.0005897777777777778,
4084
+ "loss": 2.2796,
4085
+ "step": 673
4086
+ },
4087
+ {
4088
+ "epoch": 0.34,
4089
+ "learning_rate": 0.0005893333333333334,
4090
+ "loss": 2.2769,
4091
+ "step": 674
4092
+ },
4093
+ {
4094
+ "epoch": 0.34,
4095
+ "learning_rate": 0.0005888888888888889,
4096
+ "loss": 2.3809,
4097
+ "step": 675
4098
+ },
4099
+ {
4100
+ "epoch": 0.34,
4101
+ "learning_rate": 0.0005884444444444445,
4102
+ "loss": 2.2652,
4103
+ "step": 676
4104
+ },
4105
+ {
4106
+ "epoch": 0.34,
4107
+ "learning_rate": 0.000588,
4108
+ "loss": 2.2152,
4109
+ "step": 677
4110
+ },
4111
+ {
4112
+ "epoch": 0.34,
4113
+ "learning_rate": 0.0005875555555555556,
4114
+ "loss": 2.18,
4115
+ "step": 678
4116
+ },
4117
+ {
4118
+ "epoch": 0.34,
4119
+ "learning_rate": 0.0005871111111111112,
4120
+ "loss": 2.2659,
4121
+ "step": 679
4122
+ },
4123
+ {
4124
+ "epoch": 0.34,
4125
+ "learning_rate": 0.0005866666666666667,
4126
+ "loss": 2.2558,
4127
+ "step": 680
4128
+ },
4129
+ {
4130
+ "epoch": 0.34,
4131
+ "learning_rate": 0.0005862222222222222,
4132
+ "loss": 2.2737,
4133
+ "step": 681
4134
+ },
4135
+ {
4136
+ "epoch": 0.34,
4137
+ "learning_rate": 0.0005857777777777778,
4138
+ "loss": 2.2537,
4139
+ "step": 682
4140
+ },
4141
+ {
4142
+ "epoch": 0.34,
4143
+ "learning_rate": 0.0005853333333333334,
4144
+ "loss": 2.2587,
4145
+ "step": 683
4146
+ },
4147
+ {
4148
+ "epoch": 0.34,
4149
+ "learning_rate": 0.0005848888888888889,
4150
+ "loss": 2.2707,
4151
+ "step": 684
4152
+ },
4153
+ {
4154
+ "epoch": 0.34,
4155
+ "learning_rate": 0.0005844444444444444,
4156
+ "loss": 2.2646,
4157
+ "step": 685
4158
+ },
4159
+ {
4160
+ "epoch": 0.34,
4161
+ "learning_rate": 0.000584,
4162
+ "loss": 2.2837,
4163
+ "step": 686
4164
+ },
4165
+ {
4166
+ "epoch": 0.34,
4167
+ "learning_rate": 0.0005835555555555556,
4168
+ "loss": 2.2998,
4169
+ "step": 687
4170
+ },
4171
+ {
4172
+ "epoch": 0.34,
4173
+ "learning_rate": 0.0005831111111111112,
4174
+ "loss": 2.2286,
4175
+ "step": 688
4176
+ },
4177
+ {
4178
+ "epoch": 0.34,
4179
+ "learning_rate": 0.0005826666666666668,
4180
+ "loss": 2.2666,
4181
+ "step": 689
4182
+ },
4183
+ {
4184
+ "epoch": 0.34,
4185
+ "learning_rate": 0.0005822222222222223,
4186
+ "loss": 2.2959,
4187
+ "step": 690
4188
+ },
4189
+ {
4190
+ "epoch": 0.35,
4191
+ "learning_rate": 0.0005817777777777778,
4192
+ "loss": 2.3227,
4193
+ "step": 691
4194
+ },
4195
+ {
4196
+ "epoch": 0.35,
4197
+ "learning_rate": 0.0005813333333333333,
4198
+ "loss": 2.3145,
4199
+ "step": 692
4200
+ },
4201
+ {
4202
+ "epoch": 0.35,
4203
+ "learning_rate": 0.0005808888888888889,
4204
+ "loss": 2.2154,
4205
+ "step": 693
4206
+ },
4207
+ {
4208
+ "epoch": 0.35,
4209
+ "learning_rate": 0.0005804444444444444,
4210
+ "loss": 2.2541,
4211
+ "step": 694
4212
+ },
4213
+ {
4214
+ "epoch": 0.35,
4215
+ "learning_rate": 0.00058,
4216
+ "loss": 2.2052,
4217
+ "step": 695
4218
+ },
4219
+ {
4220
+ "epoch": 0.35,
4221
+ "learning_rate": 0.0005795555555555556,
4222
+ "loss": 2.236,
4223
+ "step": 696
4224
+ },
4225
+ {
4226
+ "epoch": 0.35,
4227
+ "learning_rate": 0.0005791111111111112,
4228
+ "loss": 2.2407,
4229
+ "step": 697
4230
+ },
4231
+ {
4232
+ "epoch": 0.35,
4233
+ "learning_rate": 0.0005786666666666668,
4234
+ "loss": 2.2687,
4235
+ "step": 698
4236
+ },
4237
+ {
4238
+ "epoch": 0.35,
4239
+ "learning_rate": 0.0005782222222222223,
4240
+ "loss": 2.2907,
4241
+ "step": 699
4242
+ },
4243
+ {
4244
+ "epoch": 0.35,
4245
+ "learning_rate": 0.0005777777777777778,
4246
+ "loss": 2.2697,
4247
+ "step": 700
4248
+ },
4249
+ {
4250
+ "epoch": 0.35,
4251
+ "learning_rate": 0.0005773333333333333,
4252
+ "loss": 2.2348,
4253
+ "step": 701
4254
+ },
4255
+ {
4256
+ "epoch": 0.35,
4257
+ "learning_rate": 0.0005768888888888889,
4258
+ "loss": 2.2328,
4259
+ "step": 702
4260
+ },
4261
+ {
4262
+ "epoch": 0.35,
4263
+ "learning_rate": 0.0005764444444444444,
4264
+ "loss": 2.2347,
4265
+ "step": 703
4266
+ },
4267
+ {
4268
+ "epoch": 0.35,
4269
+ "learning_rate": 0.000576,
4270
+ "loss": 2.2297,
4271
+ "step": 704
4272
+ },
4273
+ {
4274
+ "epoch": 0.35,
4275
+ "learning_rate": 0.0005755555555555556,
4276
+ "loss": 2.2458,
4277
+ "step": 705
4278
+ },
4279
+ {
4280
+ "epoch": 0.35,
4281
+ "learning_rate": 0.0005751111111111112,
4282
+ "loss": 2.2093,
4283
+ "step": 706
4284
+ },
4285
+ {
4286
+ "epoch": 0.35,
4287
+ "learning_rate": 0.0005746666666666667,
4288
+ "loss": 2.227,
4289
+ "step": 707
4290
+ },
4291
+ {
4292
+ "epoch": 0.35,
4293
+ "learning_rate": 0.0005742222222222222,
4294
+ "loss": 2.3247,
4295
+ "step": 708
4296
+ },
4297
+ {
4298
+ "epoch": 0.35,
4299
+ "learning_rate": 0.0005737777777777778,
4300
+ "loss": 2.2955,
4301
+ "step": 709
4302
+ },
4303
+ {
4304
+ "epoch": 0.35,
4305
+ "learning_rate": 0.0005733333333333334,
4306
+ "loss": 2.2264,
4307
+ "step": 710
4308
+ },
4309
+ {
4310
+ "epoch": 0.36,
4311
+ "learning_rate": 0.000572888888888889,
4312
+ "loss": 2.2543,
4313
+ "step": 711
4314
+ },
4315
+ {
4316
+ "epoch": 0.36,
4317
+ "learning_rate": 0.0005724444444444444,
4318
+ "loss": 2.3499,
4319
+ "step": 712
4320
+ },
4321
+ {
4322
+ "epoch": 0.36,
4323
+ "learning_rate": 0.000572,
4324
+ "loss": 2.2414,
4325
+ "step": 713
4326
+ },
4327
+ {
4328
+ "epoch": 0.36,
4329
+ "learning_rate": 0.0005715555555555556,
4330
+ "loss": 2.2703,
4331
+ "step": 714
4332
+ },
4333
+ {
4334
+ "epoch": 0.36,
4335
+ "learning_rate": 0.0005711111111111111,
4336
+ "loss": 2.3098,
4337
+ "step": 715
4338
+ },
4339
+ {
4340
+ "epoch": 0.36,
4341
+ "learning_rate": 0.0005706666666666667,
4342
+ "loss": 2.2562,
4343
+ "step": 716
4344
+ },
4345
+ {
4346
+ "epoch": 0.36,
4347
+ "learning_rate": 0.0005702222222222222,
4348
+ "loss": 2.2553,
4349
+ "step": 717
4350
+ },
4351
+ {
4352
+ "epoch": 0.36,
4353
+ "learning_rate": 0.0005697777777777778,
4354
+ "loss": 2.2428,
4355
+ "step": 718
4356
+ },
4357
+ {
4358
+ "epoch": 0.36,
4359
+ "learning_rate": 0.0005693333333333334,
4360
+ "loss": 2.2984,
4361
+ "step": 719
4362
+ },
4363
+ {
4364
+ "epoch": 0.36,
4365
+ "learning_rate": 0.000568888888888889,
4366
+ "loss": 2.2823,
4367
+ "step": 720
4368
+ },
4369
+ {
4370
+ "epoch": 0.36,
4371
+ "learning_rate": 0.0005684444444444446,
4372
+ "loss": 2.3694,
4373
+ "step": 721
4374
+ },
4375
+ {
4376
+ "epoch": 0.36,
4377
+ "learning_rate": 0.000568,
4378
+ "loss": 2.2332,
4379
+ "step": 722
4380
+ },
4381
+ {
4382
+ "epoch": 0.36,
4383
+ "learning_rate": 0.0005675555555555555,
4384
+ "loss": 2.2421,
4385
+ "step": 723
4386
+ },
4387
+ {
4388
+ "epoch": 0.36,
4389
+ "learning_rate": 0.0005671111111111111,
4390
+ "loss": 2.251,
4391
+ "step": 724
4392
+ },
4393
+ {
4394
+ "epoch": 0.36,
4395
+ "learning_rate": 0.0005666666666666667,
4396
+ "loss": 2.1915,
4397
+ "step": 725
4398
+ },
4399
+ {
4400
+ "epoch": 0.36,
4401
+ "learning_rate": 0.0005662222222222222,
4402
+ "loss": 2.2584,
4403
+ "step": 726
4404
+ },
4405
+ {
4406
+ "epoch": 0.36,
4407
+ "learning_rate": 0.0005657777777777778,
4408
+ "loss": 2.2784,
4409
+ "step": 727
4410
+ },
4411
+ {
4412
+ "epoch": 0.36,
4413
+ "learning_rate": 0.0005653333333333334,
4414
+ "loss": 2.2584,
4415
+ "step": 728
4416
+ },
4417
+ {
4418
+ "epoch": 0.36,
4419
+ "learning_rate": 0.000564888888888889,
4420
+ "loss": 2.2316,
4421
+ "step": 729
4422
+ },
4423
+ {
4424
+ "epoch": 0.36,
4425
+ "learning_rate": 0.0005644444444444445,
4426
+ "loss": 2.2502,
4427
+ "step": 730
4428
+ },
4429
+ {
4430
+ "epoch": 0.37,
4431
+ "learning_rate": 0.000564,
4432
+ "loss": 2.2364,
4433
+ "step": 731
4434
+ },
4435
+ {
4436
+ "epoch": 0.37,
4437
+ "learning_rate": 0.0005635555555555555,
4438
+ "loss": 2.2743,
4439
+ "step": 732
4440
+ },
4441
+ {
4442
+ "epoch": 0.37,
4443
+ "learning_rate": 0.0005631111111111111,
4444
+ "loss": 2.2735,
4445
+ "step": 733
4446
+ },
4447
+ {
4448
+ "epoch": 0.37,
4449
+ "learning_rate": 0.0005626666666666667,
4450
+ "loss": 2.2353,
4451
+ "step": 734
4452
+ },
4453
+ {
4454
+ "epoch": 0.37,
4455
+ "learning_rate": 0.0005622222222222222,
4456
+ "loss": 2.2888,
4457
+ "step": 735
4458
+ },
4459
+ {
4460
+ "epoch": 0.37,
4461
+ "learning_rate": 0.0005617777777777778,
4462
+ "loss": 2.1532,
4463
+ "step": 736
4464
+ },
4465
+ {
4466
+ "epoch": 0.37,
4467
+ "learning_rate": 0.0005613333333333334,
4468
+ "loss": 2.2746,
4469
+ "step": 737
4470
+ },
4471
+ {
4472
+ "epoch": 0.37,
4473
+ "learning_rate": 0.000560888888888889,
4474
+ "loss": 2.2409,
4475
+ "step": 738
4476
+ },
4477
+ {
4478
+ "epoch": 0.37,
4479
+ "learning_rate": 0.0005604444444444445,
4480
+ "loss": 2.2122,
4481
+ "step": 739
4482
+ },
4483
+ {
4484
+ "epoch": 0.37,
4485
+ "learning_rate": 0.00056,
4486
+ "loss": 2.2223,
4487
+ "step": 740
4488
+ },
4489
+ {
4490
+ "epoch": 0.37,
4491
+ "learning_rate": 0.0005595555555555555,
4492
+ "loss": 2.228,
4493
+ "step": 741
4494
+ },
4495
+ {
4496
+ "epoch": 0.37,
4497
+ "learning_rate": 0.0005591111111111111,
4498
+ "loss": 2.2854,
4499
+ "step": 742
4500
+ },
4501
+ {
4502
+ "epoch": 0.37,
4503
+ "learning_rate": 0.0005586666666666667,
4504
+ "loss": 2.2992,
4505
+ "step": 743
4506
+ },
4507
+ {
4508
+ "epoch": 0.37,
4509
+ "learning_rate": 0.0005582222222222223,
4510
+ "loss": 2.2765,
4511
+ "step": 744
4512
+ },
4513
+ {
4514
+ "epoch": 0.37,
4515
+ "learning_rate": 0.0005577777777777778,
4516
+ "loss": 2.2645,
4517
+ "step": 745
4518
+ },
4519
+ {
4520
+ "epoch": 0.37,
4521
+ "learning_rate": 0.0005573333333333334,
4522
+ "loss": 2.2738,
4523
+ "step": 746
4524
+ },
4525
+ {
4526
+ "epoch": 0.37,
4527
+ "learning_rate": 0.0005568888888888889,
4528
+ "loss": 2.2665,
4529
+ "step": 747
4530
+ },
4531
+ {
4532
+ "epoch": 0.37,
4533
+ "learning_rate": 0.0005564444444444445,
4534
+ "loss": 2.1959,
4535
+ "step": 748
4536
+ },
4537
+ {
4538
+ "epoch": 0.37,
4539
+ "learning_rate": 0.000556,
4540
+ "loss": 2.3094,
4541
+ "step": 749
4542
+ },
4543
+ {
4544
+ "epoch": 0.38,
4545
+ "learning_rate": 0.0005555555555555556,
4546
+ "loss": 2.3302,
4547
+ "step": 750
4548
+ },
4549
+ {
4550
+ "epoch": 0.38,
4551
+ "learning_rate": 0.0005551111111111111,
4552
+ "loss": 2.2088,
4553
+ "step": 751
4554
+ },
4555
+ {
4556
+ "epoch": 0.38,
4557
+ "learning_rate": 0.0005546666666666667,
4558
+ "loss": 2.2774,
4559
+ "step": 752
4560
+ },
4561
+ {
4562
+ "epoch": 0.38,
4563
+ "learning_rate": 0.0005542222222222223,
4564
+ "loss": 2.2279,
4565
+ "step": 753
4566
+ },
4567
+ {
4568
+ "epoch": 0.38,
4569
+ "learning_rate": 0.0005537777777777778,
4570
+ "loss": 2.2091,
4571
+ "step": 754
4572
+ },
4573
+ {
4574
+ "epoch": 0.38,
4575
+ "learning_rate": 0.0005533333333333333,
4576
+ "loss": 2.3221,
4577
+ "step": 755
4578
+ },
4579
+ {
4580
+ "epoch": 0.38,
4581
+ "learning_rate": 0.0005528888888888889,
4582
+ "loss": 2.3202,
4583
+ "step": 756
4584
+ },
4585
+ {
4586
+ "epoch": 0.38,
4587
+ "learning_rate": 0.0005524444444444445,
4588
+ "loss": 2.2552,
4589
+ "step": 757
4590
+ },
4591
+ {
4592
+ "epoch": 0.38,
4593
+ "learning_rate": 0.000552,
4594
+ "loss": 2.2166,
4595
+ "step": 758
4596
+ },
4597
+ {
4598
+ "epoch": 0.38,
4599
+ "learning_rate": 0.0005515555555555556,
4600
+ "loss": 2.286,
4601
+ "step": 759
4602
+ },
4603
+ {
4604
+ "epoch": 0.38,
4605
+ "learning_rate": 0.0005511111111111112,
4606
+ "loss": 2.2642,
4607
+ "step": 760
4608
+ },
4609
+ {
4610
+ "epoch": 0.38,
4611
+ "learning_rate": 0.0005506666666666668,
4612
+ "loss": 2.3546,
4613
+ "step": 761
4614
+ },
4615
+ {
4616
+ "epoch": 0.38,
4617
+ "learning_rate": 0.0005502222222222222,
4618
+ "loss": 2.2763,
4619
+ "step": 762
4620
+ },
4621
+ {
4622
+ "epoch": 0.38,
4623
+ "learning_rate": 0.0005497777777777777,
4624
+ "loss": 2.2846,
4625
+ "step": 763
4626
+ },
4627
+ {
4628
+ "epoch": 0.38,
4629
+ "learning_rate": 0.0005493333333333333,
4630
+ "loss": 2.3388,
4631
+ "step": 764
4632
+ },
4633
+ {
4634
+ "epoch": 0.38,
4635
+ "learning_rate": 0.0005488888888888889,
4636
+ "loss": 2.1978,
4637
+ "step": 765
4638
+ },
4639
+ {
4640
+ "epoch": 0.38,
4641
+ "learning_rate": 0.0005484444444444445,
4642
+ "loss": 2.2363,
4643
+ "step": 766
4644
+ },
4645
+ {
4646
+ "epoch": 0.38,
4647
+ "learning_rate": 0.0005480000000000001,
4648
+ "loss": 2.1851,
4649
+ "step": 767
4650
+ },
4651
+ {
4652
+ "epoch": 0.38,
4653
+ "learning_rate": 0.0005475555555555556,
4654
+ "loss": 2.2744,
4655
+ "step": 768
4656
+ },
4657
+ {
4658
+ "epoch": 0.38,
4659
+ "learning_rate": 0.0005471111111111112,
4660
+ "loss": 2.3183,
4661
+ "step": 769
4662
+ },
4663
+ {
4664
+ "epoch": 0.39,
4665
+ "learning_rate": 0.0005466666666666667,
4666
+ "loss": 2.1745,
4667
+ "step": 770
4668
+ },
4669
+ {
4670
+ "epoch": 0.39,
4671
+ "learning_rate": 0.0005462222222222222,
4672
+ "loss": 2.2923,
4673
+ "step": 771
4674
+ },
4675
+ {
4676
+ "epoch": 0.39,
4677
+ "learning_rate": 0.0005457777777777777,
4678
+ "loss": 2.3098,
4679
+ "step": 772
4680
+ },
4681
+ {
4682
+ "epoch": 0.39,
4683
+ "learning_rate": 0.0005453333333333333,
4684
+ "loss": 2.2963,
4685
+ "step": 773
4686
+ },
4687
+ {
4688
+ "epoch": 0.39,
4689
+ "learning_rate": 0.0005448888888888889,
4690
+ "loss": 2.2082,
4691
+ "step": 774
4692
+ },
4693
+ {
4694
+ "epoch": 0.39,
4695
+ "learning_rate": 0.0005444444444444445,
4696
+ "loss": 2.222,
4697
+ "step": 775
4698
+ },
4699
+ {
4700
+ "epoch": 0.39,
4701
+ "learning_rate": 0.0005440000000000001,
4702
+ "loss": 2.2265,
4703
+ "step": 776
4704
+ },
4705
+ {
4706
+ "epoch": 0.39,
4707
+ "learning_rate": 0.0005435555555555556,
4708
+ "loss": 2.2619,
4709
+ "step": 777
4710
+ },
4711
+ {
4712
+ "epoch": 0.39,
4713
+ "learning_rate": 0.0005431111111111111,
4714
+ "loss": 2.2613,
4715
+ "step": 778
4716
+ },
4717
+ {
4718
+ "epoch": 0.39,
4719
+ "learning_rate": 0.0005426666666666667,
4720
+ "loss": 2.3053,
4721
+ "step": 779
4722
+ },
4723
+ {
4724
+ "epoch": 0.39,
4725
+ "learning_rate": 0.0005422222222222223,
4726
+ "loss": 2.203,
4727
+ "step": 780
4728
+ },
4729
+ {
4730
+ "epoch": 0.39,
4731
+ "learning_rate": 0.0005417777777777777,
4732
+ "loss": 2.2989,
4733
+ "step": 781
4734
+ },
4735
+ {
4736
+ "epoch": 0.39,
4737
+ "learning_rate": 0.0005413333333333333,
4738
+ "loss": 2.2543,
4739
+ "step": 782
4740
+ },
4741
+ {
4742
+ "epoch": 0.39,
4743
+ "learning_rate": 0.0005408888888888889,
4744
+ "loss": 2.2812,
4745
+ "step": 783
4746
+ },
4747
+ {
4748
+ "epoch": 0.39,
4749
+ "learning_rate": 0.0005404444444444445,
4750
+ "loss": 2.2044,
4751
+ "step": 784
4752
+ },
4753
+ {
4754
+ "epoch": 0.39,
4755
+ "learning_rate": 0.0005400000000000001,
4756
+ "loss": 2.2387,
4757
+ "step": 785
4758
+ },
4759
+ {
4760
+ "epoch": 0.39,
4761
+ "learning_rate": 0.0005395555555555556,
4762
+ "loss": 2.2621,
4763
+ "step": 786
4764
+ },
4765
+ {
4766
+ "epoch": 0.39,
4767
+ "learning_rate": 0.0005391111111111111,
4768
+ "loss": 2.2329,
4769
+ "step": 787
4770
+ },
4771
+ {
4772
+ "epoch": 0.39,
4773
+ "learning_rate": 0.0005386666666666667,
4774
+ "loss": 2.2585,
4775
+ "step": 788
4776
+ },
4777
+ {
4778
+ "epoch": 0.39,
4779
+ "learning_rate": 0.0005382222222222223,
4780
+ "loss": 2.2237,
4781
+ "step": 789
4782
+ },
4783
+ {
4784
+ "epoch": 0.4,
4785
+ "learning_rate": 0.0005377777777777779,
4786
+ "loss": 2.2546,
4787
+ "step": 790
4788
+ },
4789
+ {
4790
+ "epoch": 0.4,
4791
+ "learning_rate": 0.0005373333333333333,
4792
+ "loss": 2.1964,
4793
+ "step": 791
4794
+ },
4795
+ {
4796
+ "epoch": 0.4,
4797
+ "learning_rate": 0.0005368888888888889,
4798
+ "loss": 2.179,
4799
+ "step": 792
4800
+ },
4801
+ {
4802
+ "epoch": 0.4,
4803
+ "learning_rate": 0.0005364444444444445,
4804
+ "loss": 2.2903,
4805
+ "step": 793
4806
+ },
4807
+ {
4808
+ "epoch": 0.4,
4809
+ "learning_rate": 0.000536,
4810
+ "loss": 2.2472,
4811
+ "step": 794
4812
+ },
4813
+ {
4814
+ "epoch": 0.4,
4815
+ "learning_rate": 0.0005355555555555555,
4816
+ "loss": 2.2579,
4817
+ "step": 795
4818
+ },
4819
+ {
4820
+ "epoch": 0.4,
4821
+ "learning_rate": 0.0005351111111111111,
4822
+ "loss": 2.2336,
4823
+ "step": 796
4824
+ },
4825
+ {
4826
+ "epoch": 0.4,
4827
+ "learning_rate": 0.0005346666666666667,
4828
+ "loss": 2.2474,
4829
+ "step": 797
4830
+ },
4831
+ {
4832
+ "epoch": 0.4,
4833
+ "learning_rate": 0.0005342222222222223,
4834
+ "loss": 2.2482,
4835
+ "step": 798
4836
+ },
4837
+ {
4838
+ "epoch": 0.4,
4839
+ "learning_rate": 0.0005337777777777779,
4840
+ "loss": 2.2413,
4841
+ "step": 799
4842
+ },
4843
+ {
4844
+ "epoch": 0.4,
4845
+ "learning_rate": 0.0005333333333333334,
4846
+ "loss": 2.307,
4847
+ "step": 800
4848
+ },
4849
+ {
4850
+ "epoch": 0.4,
4851
+ "eval_gen_len": 1023.0,
4852
+ "eval_loss": 2.158494710922241,
4853
+ "eval_rouge1": 13.1246,
4854
+ "eval_rouge2": 4.3442,
4855
+ "eval_rougeL": 8.3035,
4856
+ "eval_rougeLsum": 8.2848,
4857
+ "eval_runtime": 9293.9809,
4858
+ "eval_samples_per_second": 0.054,
4859
+ "eval_steps_per_second": 0.054,
4860
+ "step": 800
4861
  }
4862
  ],
4863
  "max_steps": 2000,
4864
  "num_train_epochs": 9223372036854775807,
4865
+ "total_flos": 6.440623327611003e+17,
4866
  "trial_name": null,
4867
  "trial_params": null
4868
  }
pytorch_model.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:bca52973073c7ff1e3e1b1320c55cfdba551b1acc405e671c24804149380d1fc
3
  size 2368281769
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:13d97f15adc41397e040b1276339005dcc4183c282bc569b80bbabc18a3e5da7
3
  size 2368281769