Joemgu commited on
Commit
2852f89
1 Parent(s): 935d258

Training in progress, step 1000

Browse files
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:4f65a9357a3b13a32cb1771d8d3d54fda21610e2f927e2b097b8984f87c58bb1
3
  size 4736616809
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e34fd194c900dfbb532dd49072c091a0c6a0c93eae978ac46c0d8de5d9d521c4
3
  size 4736616809
last-checkpoint/pytorch_model.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:13d97f15adc41397e040b1276339005dcc4183c282bc569b80bbabc18a3e5da7
3
  size 2368281769
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5331d64ba5ca3beab2d415de92525a4958f53e7f5ddaf2156cd41c76144da4e7
3
  size 2368281769
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:1185b9f269b6f6c5c36dd83644735ab968d01c77551fcdab8caad4927690c5dd
3
  size 14575
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ccb6beb7550f03b332650b67283b418728340a5f3e4176119d4d68b5168c0ec6
3
  size 14575
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:96705910f49b796948adf4805354cef92505b767c8e6d0a6e64c4e33427725e4
3
  size 627
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c0566977bd7f1a02cda14ad6d892def99634adfbe1b61c415f070638d97bb106
3
  size 627
last-checkpoint/trainer_state.json CHANGED
@@ -1,8 +1,8 @@
1
  {
2
- "best_metric": 2.158494710922241,
3
- "best_model_checkpoint": "output/checkpoint-800",
4
- "epoch": 0.4,
5
- "global_step": 800,
6
  "is_hyper_param_search": false,
7
  "is_local_process_zero": true,
8
  "is_world_process_zero": true,
@@ -4858,11 +4858,1224 @@
4858
  "eval_samples_per_second": 0.054,
4859
  "eval_steps_per_second": 0.054,
4860
  "step": 800
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4861
  }
4862
  ],
4863
  "max_steps": 2000,
4864
  "num_train_epochs": 9223372036854775807,
4865
- "total_flos": 6.440623327611003e+17,
4866
  "trial_name": null,
4867
  "trial_params": null
4868
  }
 
1
  {
2
+ "best_metric": 2.1341190338134766,
3
+ "best_model_checkpoint": "output/checkpoint-1000",
4
+ "epoch": 0.5,
5
+ "global_step": 1000,
6
  "is_hyper_param_search": false,
7
  "is_local_process_zero": true,
8
  "is_world_process_zero": true,
 
4858
  "eval_samples_per_second": 0.054,
4859
  "eval_steps_per_second": 0.054,
4860
  "step": 800
4861
+ },
4862
+ {
4863
+ "epoch": 0.4,
4864
+ "learning_rate": 0.000532888888888889,
4865
+ "loss": 2.2131,
4866
+ "step": 801
4867
+ },
4868
+ {
4869
+ "epoch": 0.4,
4870
+ "learning_rate": 0.0005324444444444444,
4871
+ "loss": 2.2893,
4872
+ "step": 802
4873
+ },
4874
+ {
4875
+ "epoch": 0.4,
4876
+ "learning_rate": 0.000532,
4877
+ "loss": 2.2613,
4878
+ "step": 803
4879
+ },
4880
+ {
4881
+ "epoch": 0.4,
4882
+ "learning_rate": 0.0005315555555555555,
4883
+ "loss": 2.2145,
4884
+ "step": 804
4885
+ },
4886
+ {
4887
+ "epoch": 0.4,
4888
+ "learning_rate": 0.0005311111111111111,
4889
+ "loss": 2.2878,
4890
+ "step": 805
4891
+ },
4892
+ {
4893
+ "epoch": 0.4,
4894
+ "learning_rate": 0.0005306666666666667,
4895
+ "loss": 2.3126,
4896
+ "step": 806
4897
+ },
4898
+ {
4899
+ "epoch": 0.4,
4900
+ "learning_rate": 0.0005302222222222223,
4901
+ "loss": 2.2385,
4902
+ "step": 807
4903
+ },
4904
+ {
4905
+ "epoch": 0.4,
4906
+ "learning_rate": 0.0005297777777777779,
4907
+ "loss": 2.2998,
4908
+ "step": 808
4909
+ },
4910
+ {
4911
+ "epoch": 0.4,
4912
+ "learning_rate": 0.0005293333333333334,
4913
+ "loss": 2.3374,
4914
+ "step": 809
4915
+ },
4916
+ {
4917
+ "epoch": 0.41,
4918
+ "learning_rate": 0.0005288888888888889,
4919
+ "loss": 2.2379,
4920
+ "step": 810
4921
+ },
4922
+ {
4923
+ "epoch": 0.41,
4924
+ "learning_rate": 0.0005284444444444444,
4925
+ "loss": 2.2535,
4926
+ "step": 811
4927
+ },
4928
+ {
4929
+ "epoch": 0.41,
4930
+ "learning_rate": 0.000528,
4931
+ "loss": 2.2459,
4932
+ "step": 812
4933
+ },
4934
+ {
4935
+ "epoch": 0.41,
4936
+ "learning_rate": 0.0005275555555555556,
4937
+ "loss": 2.2305,
4938
+ "step": 813
4939
+ },
4940
+ {
4941
+ "epoch": 0.41,
4942
+ "learning_rate": 0.0005271111111111111,
4943
+ "loss": 2.2622,
4944
+ "step": 814
4945
+ },
4946
+ {
4947
+ "epoch": 0.41,
4948
+ "learning_rate": 0.0005266666666666667,
4949
+ "loss": 2.2552,
4950
+ "step": 815
4951
+ },
4952
+ {
4953
+ "epoch": 0.41,
4954
+ "learning_rate": 0.0005262222222222223,
4955
+ "loss": 2.1605,
4956
+ "step": 816
4957
+ },
4958
+ {
4959
+ "epoch": 0.41,
4960
+ "learning_rate": 0.0005257777777777778,
4961
+ "loss": 2.2563,
4962
+ "step": 817
4963
+ },
4964
+ {
4965
+ "epoch": 0.41,
4966
+ "learning_rate": 0.0005253333333333333,
4967
+ "loss": 2.283,
4968
+ "step": 818
4969
+ },
4970
+ {
4971
+ "epoch": 0.41,
4972
+ "learning_rate": 0.0005248888888888889,
4973
+ "loss": 2.222,
4974
+ "step": 819
4975
+ },
4976
+ {
4977
+ "epoch": 0.41,
4978
+ "learning_rate": 0.0005244444444444445,
4979
+ "loss": 2.2059,
4980
+ "step": 820
4981
+ },
4982
+ {
4983
+ "epoch": 0.41,
4984
+ "learning_rate": 0.000524,
4985
+ "loss": 2.3158,
4986
+ "step": 821
4987
+ },
4988
+ {
4989
+ "epoch": 0.41,
4990
+ "learning_rate": 0.0005235555555555556,
4991
+ "loss": 2.2172,
4992
+ "step": 822
4993
+ },
4994
+ {
4995
+ "epoch": 0.41,
4996
+ "learning_rate": 0.0005231111111111111,
4997
+ "loss": 2.3396,
4998
+ "step": 823
4999
+ },
5000
+ {
5001
+ "epoch": 0.41,
5002
+ "learning_rate": 0.0005226666666666667,
5003
+ "loss": 2.2428,
5004
+ "step": 824
5005
+ },
5006
+ {
5007
+ "epoch": 0.41,
5008
+ "learning_rate": 0.0005222222222222222,
5009
+ "loss": 2.2124,
5010
+ "step": 825
5011
+ },
5012
+ {
5013
+ "epoch": 0.41,
5014
+ "learning_rate": 0.0005217777777777778,
5015
+ "loss": 2.2991,
5016
+ "step": 826
5017
+ },
5018
+ {
5019
+ "epoch": 0.41,
5020
+ "learning_rate": 0.0005213333333333333,
5021
+ "loss": 2.269,
5022
+ "step": 827
5023
+ },
5024
+ {
5025
+ "epoch": 0.41,
5026
+ "learning_rate": 0.0005208888888888889,
5027
+ "loss": 2.2231,
5028
+ "step": 828
5029
+ },
5030
+ {
5031
+ "epoch": 0.41,
5032
+ "learning_rate": 0.0005204444444444445,
5033
+ "loss": 2.2159,
5034
+ "step": 829
5035
+ },
5036
+ {
5037
+ "epoch": 0.41,
5038
+ "learning_rate": 0.0005200000000000001,
5039
+ "loss": 2.2804,
5040
+ "step": 830
5041
+ },
5042
+ {
5043
+ "epoch": 0.42,
5044
+ "learning_rate": 0.0005195555555555557,
5045
+ "loss": 2.2807,
5046
+ "step": 831
5047
+ },
5048
+ {
5049
+ "epoch": 0.42,
5050
+ "learning_rate": 0.0005191111111111111,
5051
+ "loss": 2.2809,
5052
+ "step": 832
5053
+ },
5054
+ {
5055
+ "epoch": 0.42,
5056
+ "learning_rate": 0.0005186666666666666,
5057
+ "loss": 2.2411,
5058
+ "step": 833
5059
+ },
5060
+ {
5061
+ "epoch": 0.42,
5062
+ "learning_rate": 0.0005182222222222222,
5063
+ "loss": 2.2695,
5064
+ "step": 834
5065
+ },
5066
+ {
5067
+ "epoch": 0.42,
5068
+ "learning_rate": 0.0005177777777777778,
5069
+ "loss": 2.2816,
5070
+ "step": 835
5071
+ },
5072
+ {
5073
+ "epoch": 0.42,
5074
+ "learning_rate": 0.0005173333333333333,
5075
+ "loss": 2.3263,
5076
+ "step": 836
5077
+ },
5078
+ {
5079
+ "epoch": 0.42,
5080
+ "learning_rate": 0.0005168888888888889,
5081
+ "loss": 2.2066,
5082
+ "step": 837
5083
+ },
5084
+ {
5085
+ "epoch": 0.42,
5086
+ "learning_rate": 0.0005164444444444445,
5087
+ "loss": 2.2367,
5088
+ "step": 838
5089
+ },
5090
+ {
5091
+ "epoch": 0.42,
5092
+ "learning_rate": 0.0005160000000000001,
5093
+ "loss": 2.2495,
5094
+ "step": 839
5095
+ },
5096
+ {
5097
+ "epoch": 0.42,
5098
+ "learning_rate": 0.0005155555555555557,
5099
+ "loss": 2.2021,
5100
+ "step": 840
5101
+ },
5102
+ {
5103
+ "epoch": 0.42,
5104
+ "learning_rate": 0.0005151111111111112,
5105
+ "loss": 2.2198,
5106
+ "step": 841
5107
+ },
5108
+ {
5109
+ "epoch": 0.42,
5110
+ "learning_rate": 0.0005146666666666666,
5111
+ "loss": 2.2663,
5112
+ "step": 842
5113
+ },
5114
+ {
5115
+ "epoch": 0.42,
5116
+ "learning_rate": 0.0005142222222222222,
5117
+ "loss": 2.2334,
5118
+ "step": 843
5119
+ },
5120
+ {
5121
+ "epoch": 0.42,
5122
+ "learning_rate": 0.0005137777777777778,
5123
+ "loss": 2.2378,
5124
+ "step": 844
5125
+ },
5126
+ {
5127
+ "epoch": 0.42,
5128
+ "learning_rate": 0.0005133333333333334,
5129
+ "loss": 2.3457,
5130
+ "step": 845
5131
+ },
5132
+ {
5133
+ "epoch": 0.42,
5134
+ "learning_rate": 0.0005128888888888889,
5135
+ "loss": 2.2211,
5136
+ "step": 846
5137
+ },
5138
+ {
5139
+ "epoch": 0.42,
5140
+ "learning_rate": 0.0005124444444444445,
5141
+ "loss": 2.2252,
5142
+ "step": 847
5143
+ },
5144
+ {
5145
+ "epoch": 0.42,
5146
+ "learning_rate": 0.0005120000000000001,
5147
+ "loss": 2.2159,
5148
+ "step": 848
5149
+ },
5150
+ {
5151
+ "epoch": 0.42,
5152
+ "learning_rate": 0.0005115555555555556,
5153
+ "loss": 2.2757,
5154
+ "step": 849
5155
+ },
5156
+ {
5157
+ "epoch": 0.42,
5158
+ "learning_rate": 0.0005111111111111111,
5159
+ "loss": 2.2497,
5160
+ "step": 850
5161
+ },
5162
+ {
5163
+ "epoch": 0.43,
5164
+ "learning_rate": 0.0005106666666666666,
5165
+ "loss": 2.2116,
5166
+ "step": 851
5167
+ },
5168
+ {
5169
+ "epoch": 0.43,
5170
+ "learning_rate": 0.0005102222222222222,
5171
+ "loss": 2.2416,
5172
+ "step": 852
5173
+ },
5174
+ {
5175
+ "epoch": 0.43,
5176
+ "learning_rate": 0.0005097777777777778,
5177
+ "loss": 2.27,
5178
+ "step": 853
5179
+ },
5180
+ {
5181
+ "epoch": 0.43,
5182
+ "learning_rate": 0.0005093333333333334,
5183
+ "loss": 2.2762,
5184
+ "step": 854
5185
+ },
5186
+ {
5187
+ "epoch": 0.43,
5188
+ "learning_rate": 0.0005088888888888889,
5189
+ "loss": 2.3451,
5190
+ "step": 855
5191
+ },
5192
+ {
5193
+ "epoch": 0.43,
5194
+ "learning_rate": 0.0005084444444444445,
5195
+ "loss": 2.2497,
5196
+ "step": 856
5197
+ },
5198
+ {
5199
+ "epoch": 0.43,
5200
+ "learning_rate": 0.000508,
5201
+ "loss": 2.2762,
5202
+ "step": 857
5203
+ },
5204
+ {
5205
+ "epoch": 0.43,
5206
+ "learning_rate": 0.0005075555555555556,
5207
+ "loss": 2.2514,
5208
+ "step": 858
5209
+ },
5210
+ {
5211
+ "epoch": 0.43,
5212
+ "learning_rate": 0.0005071111111111111,
5213
+ "loss": 2.2718,
5214
+ "step": 859
5215
+ },
5216
+ {
5217
+ "epoch": 0.43,
5218
+ "learning_rate": 0.0005066666666666667,
5219
+ "loss": 2.3076,
5220
+ "step": 860
5221
+ },
5222
+ {
5223
+ "epoch": 0.43,
5224
+ "learning_rate": 0.0005062222222222223,
5225
+ "loss": 2.2889,
5226
+ "step": 861
5227
+ },
5228
+ {
5229
+ "epoch": 0.43,
5230
+ "learning_rate": 0.0005057777777777778,
5231
+ "loss": 2.2223,
5232
+ "step": 862
5233
+ },
5234
+ {
5235
+ "epoch": 0.43,
5236
+ "learning_rate": 0.0005053333333333334,
5237
+ "loss": 2.3181,
5238
+ "step": 863
5239
+ },
5240
+ {
5241
+ "epoch": 0.43,
5242
+ "learning_rate": 0.0005048888888888889,
5243
+ "loss": 2.1922,
5244
+ "step": 864
5245
+ },
5246
+ {
5247
+ "epoch": 0.43,
5248
+ "learning_rate": 0.0005044444444444444,
5249
+ "loss": 2.2745,
5250
+ "step": 865
5251
+ },
5252
+ {
5253
+ "epoch": 0.43,
5254
+ "learning_rate": 0.000504,
5255
+ "loss": 2.1848,
5256
+ "step": 866
5257
+ },
5258
+ {
5259
+ "epoch": 0.43,
5260
+ "learning_rate": 0.0005035555555555556,
5261
+ "loss": 2.2627,
5262
+ "step": 867
5263
+ },
5264
+ {
5265
+ "epoch": 0.43,
5266
+ "learning_rate": 0.0005031111111111112,
5267
+ "loss": 2.3022,
5268
+ "step": 868
5269
+ },
5270
+ {
5271
+ "epoch": 0.43,
5272
+ "learning_rate": 0.0005026666666666667,
5273
+ "loss": 2.2763,
5274
+ "step": 869
5275
+ },
5276
+ {
5277
+ "epoch": 0.43,
5278
+ "learning_rate": 0.0005022222222222223,
5279
+ "loss": 2.1709,
5280
+ "step": 870
5281
+ },
5282
+ {
5283
+ "epoch": 0.44,
5284
+ "learning_rate": 0.0005017777777777779,
5285
+ "loss": 2.2644,
5286
+ "step": 871
5287
+ },
5288
+ {
5289
+ "epoch": 0.44,
5290
+ "learning_rate": 0.0005013333333333333,
5291
+ "loss": 2.2751,
5292
+ "step": 872
5293
+ },
5294
+ {
5295
+ "epoch": 0.44,
5296
+ "learning_rate": 0.0005008888888888888,
5297
+ "loss": 2.1292,
5298
+ "step": 873
5299
+ },
5300
+ {
5301
+ "epoch": 0.44,
5302
+ "learning_rate": 0.0005004444444444444,
5303
+ "loss": 2.2523,
5304
+ "step": 874
5305
+ },
5306
+ {
5307
+ "epoch": 0.44,
5308
+ "learning_rate": 0.0005,
5309
+ "loss": 2.2041,
5310
+ "step": 875
5311
+ },
5312
+ {
5313
+ "epoch": 0.44,
5314
+ "learning_rate": 0.0004995555555555556,
5315
+ "loss": 2.2942,
5316
+ "step": 876
5317
+ },
5318
+ {
5319
+ "epoch": 0.44,
5320
+ "learning_rate": 0.0004991111111111112,
5321
+ "loss": 2.2585,
5322
+ "step": 877
5323
+ },
5324
+ {
5325
+ "epoch": 0.44,
5326
+ "learning_rate": 0.0004986666666666667,
5327
+ "loss": 2.2354,
5328
+ "step": 878
5329
+ },
5330
+ {
5331
+ "epoch": 0.44,
5332
+ "learning_rate": 0.0004982222222222223,
5333
+ "loss": 2.1996,
5334
+ "step": 879
5335
+ },
5336
+ {
5337
+ "epoch": 0.44,
5338
+ "learning_rate": 0.0004977777777777778,
5339
+ "loss": 2.2347,
5340
+ "step": 880
5341
+ },
5342
+ {
5343
+ "epoch": 0.44,
5344
+ "learning_rate": 0.0004973333333333334,
5345
+ "loss": 2.2003,
5346
+ "step": 881
5347
+ },
5348
+ {
5349
+ "epoch": 0.44,
5350
+ "learning_rate": 0.0004968888888888888,
5351
+ "loss": 2.184,
5352
+ "step": 882
5353
+ },
5354
+ {
5355
+ "epoch": 0.44,
5356
+ "learning_rate": 0.0004964444444444444,
5357
+ "loss": 2.2678,
5358
+ "step": 883
5359
+ },
5360
+ {
5361
+ "epoch": 0.44,
5362
+ "learning_rate": 0.000496,
5363
+ "loss": 2.2168,
5364
+ "step": 884
5365
+ },
5366
+ {
5367
+ "epoch": 0.44,
5368
+ "learning_rate": 0.0004955555555555556,
5369
+ "loss": 2.3202,
5370
+ "step": 885
5371
+ },
5372
+ {
5373
+ "epoch": 0.44,
5374
+ "learning_rate": 0.0004951111111111112,
5375
+ "loss": 2.2037,
5376
+ "step": 886
5377
+ },
5378
+ {
5379
+ "epoch": 0.44,
5380
+ "learning_rate": 0.0004946666666666667,
5381
+ "loss": 2.1942,
5382
+ "step": 887
5383
+ },
5384
+ {
5385
+ "epoch": 0.44,
5386
+ "learning_rate": 0.0004942222222222223,
5387
+ "loss": 2.2402,
5388
+ "step": 888
5389
+ },
5390
+ {
5391
+ "epoch": 0.44,
5392
+ "learning_rate": 0.0004937777777777778,
5393
+ "loss": 2.2633,
5394
+ "step": 889
5395
+ },
5396
+ {
5397
+ "epoch": 0.45,
5398
+ "learning_rate": 0.0004933333333333334,
5399
+ "loss": 2.334,
5400
+ "step": 890
5401
+ },
5402
+ {
5403
+ "epoch": 0.45,
5404
+ "learning_rate": 0.000492888888888889,
5405
+ "loss": 2.2998,
5406
+ "step": 891
5407
+ },
5408
+ {
5409
+ "epoch": 0.45,
5410
+ "learning_rate": 0.0004924444444444444,
5411
+ "loss": 2.1723,
5412
+ "step": 892
5413
+ },
5414
+ {
5415
+ "epoch": 0.45,
5416
+ "learning_rate": 0.000492,
5417
+ "loss": 2.2382,
5418
+ "step": 893
5419
+ },
5420
+ {
5421
+ "epoch": 0.45,
5422
+ "learning_rate": 0.0004915555555555556,
5423
+ "loss": 2.2423,
5424
+ "step": 894
5425
+ },
5426
+ {
5427
+ "epoch": 0.45,
5428
+ "learning_rate": 0.0004911111111111112,
5429
+ "loss": 2.2987,
5430
+ "step": 895
5431
+ },
5432
+ {
5433
+ "epoch": 0.45,
5434
+ "learning_rate": 0.0004906666666666667,
5435
+ "loss": 2.3003,
5436
+ "step": 896
5437
+ },
5438
+ {
5439
+ "epoch": 0.45,
5440
+ "learning_rate": 0.0004902222222222222,
5441
+ "loss": 2.2559,
5442
+ "step": 897
5443
+ },
5444
+ {
5445
+ "epoch": 0.45,
5446
+ "learning_rate": 0.0004897777777777778,
5447
+ "loss": 2.1604,
5448
+ "step": 898
5449
+ },
5450
+ {
5451
+ "epoch": 0.45,
5452
+ "learning_rate": 0.0004893333333333334,
5453
+ "loss": 2.2234,
5454
+ "step": 899
5455
+ },
5456
+ {
5457
+ "epoch": 0.45,
5458
+ "learning_rate": 0.000488888888888889,
5459
+ "loss": 2.2679,
5460
+ "step": 900
5461
+ },
5462
+ {
5463
+ "epoch": 0.45,
5464
+ "learning_rate": 0.0004884444444444445,
5465
+ "loss": 2.2542,
5466
+ "step": 901
5467
+ },
5468
+ {
5469
+ "epoch": 0.45,
5470
+ "learning_rate": 0.000488,
5471
+ "loss": 2.2124,
5472
+ "step": 902
5473
+ },
5474
+ {
5475
+ "epoch": 0.45,
5476
+ "learning_rate": 0.0004875555555555556,
5477
+ "loss": 2.2489,
5478
+ "step": 903
5479
+ },
5480
+ {
5481
+ "epoch": 0.45,
5482
+ "learning_rate": 0.0004871111111111112,
5483
+ "loss": 2.1796,
5484
+ "step": 904
5485
+ },
5486
+ {
5487
+ "epoch": 0.45,
5488
+ "learning_rate": 0.00048666666666666666,
5489
+ "loss": 2.2739,
5490
+ "step": 905
5491
+ },
5492
+ {
5493
+ "epoch": 0.45,
5494
+ "learning_rate": 0.0004862222222222222,
5495
+ "loss": 2.236,
5496
+ "step": 906
5497
+ },
5498
+ {
5499
+ "epoch": 0.45,
5500
+ "learning_rate": 0.0004857777777777778,
5501
+ "loss": 2.2216,
5502
+ "step": 907
5503
+ },
5504
+ {
5505
+ "epoch": 0.45,
5506
+ "learning_rate": 0.0004853333333333334,
5507
+ "loss": 2.2743,
5508
+ "step": 908
5509
+ },
5510
+ {
5511
+ "epoch": 0.45,
5512
+ "learning_rate": 0.0004848888888888889,
5513
+ "loss": 2.2245,
5514
+ "step": 909
5515
+ },
5516
+ {
5517
+ "epoch": 0.46,
5518
+ "learning_rate": 0.0004844444444444444,
5519
+ "loss": 2.2072,
5520
+ "step": 910
5521
+ },
5522
+ {
5523
+ "epoch": 0.46,
5524
+ "learning_rate": 0.000484,
5525
+ "loss": 2.1766,
5526
+ "step": 911
5527
+ },
5528
+ {
5529
+ "epoch": 0.46,
5530
+ "learning_rate": 0.0004835555555555556,
5531
+ "loss": 2.2321,
5532
+ "step": 912
5533
+ },
5534
+ {
5535
+ "epoch": 0.46,
5536
+ "learning_rate": 0.00048311111111111113,
5537
+ "loss": 2.2446,
5538
+ "step": 913
5539
+ },
5540
+ {
5541
+ "epoch": 0.46,
5542
+ "learning_rate": 0.0004826666666666667,
5543
+ "loss": 2.2288,
5544
+ "step": 914
5545
+ },
5546
+ {
5547
+ "epoch": 0.46,
5548
+ "learning_rate": 0.0004822222222222222,
5549
+ "loss": 2.1877,
5550
+ "step": 915
5551
+ },
5552
+ {
5553
+ "epoch": 0.46,
5554
+ "learning_rate": 0.0004817777777777778,
5555
+ "loss": 2.1947,
5556
+ "step": 916
5557
+ },
5558
+ {
5559
+ "epoch": 0.46,
5560
+ "learning_rate": 0.0004813333333333334,
5561
+ "loss": 2.209,
5562
+ "step": 917
5563
+ },
5564
+ {
5565
+ "epoch": 0.46,
5566
+ "learning_rate": 0.00048088888888888893,
5567
+ "loss": 2.2743,
5568
+ "step": 918
5569
+ },
5570
+ {
5571
+ "epoch": 0.46,
5572
+ "learning_rate": 0.0004804444444444444,
5573
+ "loss": 2.2639,
5574
+ "step": 919
5575
+ },
5576
+ {
5577
+ "epoch": 0.46,
5578
+ "learning_rate": 0.00048,
5579
+ "loss": 2.2736,
5580
+ "step": 920
5581
+ },
5582
+ {
5583
+ "epoch": 0.46,
5584
+ "learning_rate": 0.0004795555555555556,
5585
+ "loss": 2.1983,
5586
+ "step": 921
5587
+ },
5588
+ {
5589
+ "epoch": 0.46,
5590
+ "learning_rate": 0.00047911111111111114,
5591
+ "loss": 2.2792,
5592
+ "step": 922
5593
+ },
5594
+ {
5595
+ "epoch": 0.46,
5596
+ "learning_rate": 0.00047866666666666674,
5597
+ "loss": 2.2279,
5598
+ "step": 923
5599
+ },
5600
+ {
5601
+ "epoch": 0.46,
5602
+ "learning_rate": 0.0004782222222222222,
5603
+ "loss": 2.256,
5604
+ "step": 924
5605
+ },
5606
+ {
5607
+ "epoch": 0.46,
5608
+ "learning_rate": 0.0004777777777777778,
5609
+ "loss": 2.2014,
5610
+ "step": 925
5611
+ },
5612
+ {
5613
+ "epoch": 0.46,
5614
+ "learning_rate": 0.00047733333333333335,
5615
+ "loss": 2.2711,
5616
+ "step": 926
5617
+ },
5618
+ {
5619
+ "epoch": 0.46,
5620
+ "learning_rate": 0.00047688888888888895,
5621
+ "loss": 2.2451,
5622
+ "step": 927
5623
+ },
5624
+ {
5625
+ "epoch": 0.46,
5626
+ "learning_rate": 0.00047644444444444443,
5627
+ "loss": 2.194,
5628
+ "step": 928
5629
+ },
5630
+ {
5631
+ "epoch": 0.46,
5632
+ "learning_rate": 0.000476,
5633
+ "loss": 2.2712,
5634
+ "step": 929
5635
+ },
5636
+ {
5637
+ "epoch": 0.47,
5638
+ "learning_rate": 0.00047555555555555556,
5639
+ "loss": 2.1745,
5640
+ "step": 930
5641
+ },
5642
+ {
5643
+ "epoch": 0.47,
5644
+ "learning_rate": 0.00047511111111111116,
5645
+ "loss": 2.2669,
5646
+ "step": 931
5647
+ },
5648
+ {
5649
+ "epoch": 0.47,
5650
+ "learning_rate": 0.00047466666666666675,
5651
+ "loss": 2.2416,
5652
+ "step": 932
5653
+ },
5654
+ {
5655
+ "epoch": 0.47,
5656
+ "learning_rate": 0.00047422222222222223,
5657
+ "loss": 2.3204,
5658
+ "step": 933
5659
+ },
5660
+ {
5661
+ "epoch": 0.47,
5662
+ "learning_rate": 0.00047377777777777777,
5663
+ "loss": 2.2696,
5664
+ "step": 934
5665
+ },
5666
+ {
5667
+ "epoch": 0.47,
5668
+ "learning_rate": 0.00047333333333333336,
5669
+ "loss": 2.3084,
5670
+ "step": 935
5671
+ },
5672
+ {
5673
+ "epoch": 0.47,
5674
+ "learning_rate": 0.00047288888888888896,
5675
+ "loss": 2.1746,
5676
+ "step": 936
5677
+ },
5678
+ {
5679
+ "epoch": 0.47,
5680
+ "learning_rate": 0.00047244444444444444,
5681
+ "loss": 2.2771,
5682
+ "step": 937
5683
+ },
5684
+ {
5685
+ "epoch": 0.47,
5686
+ "learning_rate": 0.000472,
5687
+ "loss": 2.263,
5688
+ "step": 938
5689
+ },
5690
+ {
5691
+ "epoch": 0.47,
5692
+ "learning_rate": 0.0004715555555555556,
5693
+ "loss": 2.3035,
5694
+ "step": 939
5695
+ },
5696
+ {
5697
+ "epoch": 0.47,
5698
+ "learning_rate": 0.00047111111111111117,
5699
+ "loss": 2.3043,
5700
+ "step": 940
5701
+ },
5702
+ {
5703
+ "epoch": 0.47,
5704
+ "learning_rate": 0.0004706666666666667,
5705
+ "loss": 2.2641,
5706
+ "step": 941
5707
+ },
5708
+ {
5709
+ "epoch": 0.47,
5710
+ "learning_rate": 0.0004702222222222222,
5711
+ "loss": 2.3417,
5712
+ "step": 942
5713
+ },
5714
+ {
5715
+ "epoch": 0.47,
5716
+ "learning_rate": 0.0004697777777777778,
5717
+ "loss": 2.2475,
5718
+ "step": 943
5719
+ },
5720
+ {
5721
+ "epoch": 0.47,
5722
+ "learning_rate": 0.0004693333333333334,
5723
+ "loss": 2.2561,
5724
+ "step": 944
5725
+ },
5726
+ {
5727
+ "epoch": 0.47,
5728
+ "learning_rate": 0.0004688888888888889,
5729
+ "loss": 2.2323,
5730
+ "step": 945
5731
+ },
5732
+ {
5733
+ "epoch": 0.47,
5734
+ "learning_rate": 0.0004684444444444445,
5735
+ "loss": 2.3017,
5736
+ "step": 946
5737
+ },
5738
+ {
5739
+ "epoch": 0.47,
5740
+ "learning_rate": 0.000468,
5741
+ "loss": 2.2547,
5742
+ "step": 947
5743
+ },
5744
+ {
5745
+ "epoch": 0.47,
5746
+ "learning_rate": 0.0004675555555555556,
5747
+ "loss": 2.2893,
5748
+ "step": 948
5749
+ },
5750
+ {
5751
+ "epoch": 0.47,
5752
+ "learning_rate": 0.0004671111111111111,
5753
+ "loss": 2.2159,
5754
+ "step": 949
5755
+ },
5756
+ {
5757
+ "epoch": 0.47,
5758
+ "learning_rate": 0.0004666666666666667,
5759
+ "loss": 2.2515,
5760
+ "step": 950
5761
+ },
5762
+ {
5763
+ "epoch": 0.48,
5764
+ "learning_rate": 0.0004662222222222222,
5765
+ "loss": 2.3363,
5766
+ "step": 951
5767
+ },
5768
+ {
5769
+ "epoch": 0.48,
5770
+ "learning_rate": 0.0004657777777777778,
5771
+ "loss": 2.2332,
5772
+ "step": 952
5773
+ },
5774
+ {
5775
+ "epoch": 0.48,
5776
+ "learning_rate": 0.00046533333333333333,
5777
+ "loss": 2.2265,
5778
+ "step": 953
5779
+ },
5780
+ {
5781
+ "epoch": 0.48,
5782
+ "learning_rate": 0.0004648888888888889,
5783
+ "loss": 2.2548,
5784
+ "step": 954
5785
+ },
5786
+ {
5787
+ "epoch": 0.48,
5788
+ "learning_rate": 0.0004644444444444445,
5789
+ "loss": 2.2425,
5790
+ "step": 955
5791
+ },
5792
+ {
5793
+ "epoch": 0.48,
5794
+ "learning_rate": 0.000464,
5795
+ "loss": 2.2064,
5796
+ "step": 956
5797
+ },
5798
+ {
5799
+ "epoch": 0.48,
5800
+ "learning_rate": 0.00046355555555555554,
5801
+ "loss": 2.1424,
5802
+ "step": 957
5803
+ },
5804
+ {
5805
+ "epoch": 0.48,
5806
+ "learning_rate": 0.00046311111111111113,
5807
+ "loss": 2.2388,
5808
+ "step": 958
5809
+ },
5810
+ {
5811
+ "epoch": 0.48,
5812
+ "learning_rate": 0.00046266666666666673,
5813
+ "loss": 2.2085,
5814
+ "step": 959
5815
+ },
5816
+ {
5817
+ "epoch": 0.48,
5818
+ "learning_rate": 0.0004622222222222222,
5819
+ "loss": 2.2261,
5820
+ "step": 960
5821
+ },
5822
+ {
5823
+ "epoch": 0.48,
5824
+ "learning_rate": 0.00046177777777777775,
5825
+ "loss": 2.3124,
5826
+ "step": 961
5827
+ },
5828
+ {
5829
+ "epoch": 0.48,
5830
+ "learning_rate": 0.00046133333333333334,
5831
+ "loss": 2.1604,
5832
+ "step": 962
5833
+ },
5834
+ {
5835
+ "epoch": 0.48,
5836
+ "learning_rate": 0.00046088888888888894,
5837
+ "loss": 2.31,
5838
+ "step": 963
5839
+ },
5840
+ {
5841
+ "epoch": 0.48,
5842
+ "learning_rate": 0.0004604444444444445,
5843
+ "loss": 2.2804,
5844
+ "step": 964
5845
+ },
5846
+ {
5847
+ "epoch": 0.48,
5848
+ "learning_rate": 0.00045999999999999996,
5849
+ "loss": 2.2126,
5850
+ "step": 965
5851
+ },
5852
+ {
5853
+ "epoch": 0.48,
5854
+ "learning_rate": 0.00045955555555555555,
5855
+ "loss": 2.3328,
5856
+ "step": 966
5857
+ },
5858
+ {
5859
+ "epoch": 0.48,
5860
+ "learning_rate": 0.00045911111111111115,
5861
+ "loss": 2.1793,
5862
+ "step": 967
5863
+ },
5864
+ {
5865
+ "epoch": 0.48,
5866
+ "learning_rate": 0.0004586666666666667,
5867
+ "loss": 2.2972,
5868
+ "step": 968
5869
+ },
5870
+ {
5871
+ "epoch": 0.48,
5872
+ "learning_rate": 0.0004582222222222223,
5873
+ "loss": 2.2291,
5874
+ "step": 969
5875
+ },
5876
+ {
5877
+ "epoch": 0.48,
5878
+ "learning_rate": 0.00045777777777777776,
5879
+ "loss": 2.2419,
5880
+ "step": 970
5881
+ },
5882
+ {
5883
+ "epoch": 0.49,
5884
+ "learning_rate": 0.00045733333333333335,
5885
+ "loss": 2.1676,
5886
+ "step": 971
5887
+ },
5888
+ {
5889
+ "epoch": 0.49,
5890
+ "learning_rate": 0.00045688888888888895,
5891
+ "loss": 2.2912,
5892
+ "step": 972
5893
+ },
5894
+ {
5895
+ "epoch": 0.49,
5896
+ "learning_rate": 0.0004564444444444445,
5897
+ "loss": 2.2042,
5898
+ "step": 973
5899
+ },
5900
+ {
5901
+ "epoch": 0.49,
5902
+ "learning_rate": 0.00045599999999999997,
5903
+ "loss": 2.2094,
5904
+ "step": 974
5905
+ },
5906
+ {
5907
+ "epoch": 0.49,
5908
+ "learning_rate": 0.00045555555555555556,
5909
+ "loss": 2.2714,
5910
+ "step": 975
5911
+ },
5912
+ {
5913
+ "epoch": 0.49,
5914
+ "learning_rate": 0.00045511111111111116,
5915
+ "loss": 2.239,
5916
+ "step": 976
5917
+ },
5918
+ {
5919
+ "epoch": 0.49,
5920
+ "learning_rate": 0.0004546666666666667,
5921
+ "loss": 2.2624,
5922
+ "step": 977
5923
+ },
5924
+ {
5925
+ "epoch": 0.49,
5926
+ "learning_rate": 0.0004542222222222223,
5927
+ "loss": 2.2396,
5928
+ "step": 978
5929
+ },
5930
+ {
5931
+ "epoch": 0.49,
5932
+ "learning_rate": 0.0004537777777777778,
5933
+ "loss": 2.2247,
5934
+ "step": 979
5935
+ },
5936
+ {
5937
+ "epoch": 0.49,
5938
+ "learning_rate": 0.00045333333333333337,
5939
+ "loss": 2.3075,
5940
+ "step": 980
5941
+ },
5942
+ {
5943
+ "epoch": 0.49,
5944
+ "learning_rate": 0.0004528888888888889,
5945
+ "loss": 2.2015,
5946
+ "step": 981
5947
+ },
5948
+ {
5949
+ "epoch": 0.49,
5950
+ "learning_rate": 0.0004524444444444445,
5951
+ "loss": 2.266,
5952
+ "step": 982
5953
+ },
5954
+ {
5955
+ "epoch": 0.49,
5956
+ "learning_rate": 0.000452,
5957
+ "loss": 2.2702,
5958
+ "step": 983
5959
+ },
5960
+ {
5961
+ "epoch": 0.49,
5962
+ "learning_rate": 0.0004515555555555556,
5963
+ "loss": 2.1914,
5964
+ "step": 984
5965
+ },
5966
+ {
5967
+ "epoch": 0.49,
5968
+ "learning_rate": 0.0004511111111111111,
5969
+ "loss": 2.2207,
5970
+ "step": 985
5971
+ },
5972
+ {
5973
+ "epoch": 0.49,
5974
+ "learning_rate": 0.0004506666666666667,
5975
+ "loss": 2.2352,
5976
+ "step": 986
5977
+ },
5978
+ {
5979
+ "epoch": 0.49,
5980
+ "learning_rate": 0.0004502222222222223,
5981
+ "loss": 2.2538,
5982
+ "step": 987
5983
+ },
5984
+ {
5985
+ "epoch": 0.49,
5986
+ "learning_rate": 0.0004497777777777778,
5987
+ "loss": 2.3808,
5988
+ "step": 988
5989
+ },
5990
+ {
5991
+ "epoch": 0.49,
5992
+ "learning_rate": 0.0004493333333333333,
5993
+ "loss": 2.2134,
5994
+ "step": 989
5995
+ },
5996
+ {
5997
+ "epoch": 0.49,
5998
+ "learning_rate": 0.0004488888888888889,
5999
+ "loss": 2.2423,
6000
+ "step": 990
6001
+ },
6002
+ {
6003
+ "epoch": 0.5,
6004
+ "learning_rate": 0.0004484444444444445,
6005
+ "loss": 2.1774,
6006
+ "step": 991
6007
+ },
6008
+ {
6009
+ "epoch": 0.5,
6010
+ "learning_rate": 0.00044800000000000005,
6011
+ "loss": 2.1726,
6012
+ "step": 992
6013
+ },
6014
+ {
6015
+ "epoch": 0.5,
6016
+ "learning_rate": 0.00044755555555555553,
6017
+ "loss": 2.2462,
6018
+ "step": 993
6019
+ },
6020
+ {
6021
+ "epoch": 0.5,
6022
+ "learning_rate": 0.0004471111111111111,
6023
+ "loss": 2.2331,
6024
+ "step": 994
6025
+ },
6026
+ {
6027
+ "epoch": 0.5,
6028
+ "learning_rate": 0.0004466666666666667,
6029
+ "loss": 2.2157,
6030
+ "step": 995
6031
+ },
6032
+ {
6033
+ "epoch": 0.5,
6034
+ "learning_rate": 0.00044622222222222226,
6035
+ "loss": 2.2249,
6036
+ "step": 996
6037
+ },
6038
+ {
6039
+ "epoch": 0.5,
6040
+ "learning_rate": 0.00044577777777777774,
6041
+ "loss": 2.2261,
6042
+ "step": 997
6043
+ },
6044
+ {
6045
+ "epoch": 0.5,
6046
+ "learning_rate": 0.00044533333333333333,
6047
+ "loss": 2.2146,
6048
+ "step": 998
6049
+ },
6050
+ {
6051
+ "epoch": 0.5,
6052
+ "learning_rate": 0.0004448888888888889,
6053
+ "loss": 2.2727,
6054
+ "step": 999
6055
+ },
6056
+ {
6057
+ "epoch": 0.5,
6058
+ "learning_rate": 0.00044444444444444447,
6059
+ "loss": 2.257,
6060
+ "step": 1000
6061
+ },
6062
+ {
6063
+ "epoch": 0.5,
6064
+ "eval_gen_len": 1023.0,
6065
+ "eval_loss": 2.1341190338134766,
6066
+ "eval_rouge1": 13.159,
6067
+ "eval_rouge2": 4.3165,
6068
+ "eval_rougeL": 8.2736,
6069
+ "eval_rougeLsum": 8.2843,
6070
+ "eval_runtime": 9293.0241,
6071
+ "eval_samples_per_second": 0.054,
6072
+ "eval_steps_per_second": 0.054,
6073
+ "step": 1000
6074
  }
6075
  ],
6076
  "max_steps": 2000,
6077
  "num_train_epochs": 9223372036854775807,
6078
+ "total_flos": 8.042817961377516e+17,
6079
  "trial_name": null,
6080
  "trial_params": null
6081
  }
pytorch_model.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:13d97f15adc41397e040b1276339005dcc4183c282bc569b80bbabc18a3e5da7
3
  size 2368281769
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5331d64ba5ca3beab2d415de92525a4958f53e7f5ddaf2156cd41c76144da4e7
3
  size 2368281769