Joemgu commited on
Commit
4d11192
1 Parent(s): 648b742

Training in progress, step 1200

Browse files
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:ac64079a0330d63c2055aac2d6c2fdd2bdd9007c85e42939ced7054a4deb4102
3
  size 4736616809
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f4f097c06024d14288c4d1c2bc97399ae4b68afab45866d17001b282195997bc
3
  size 4736616809
last-checkpoint/pytorch_model.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:18d064e377257d8b4962000d02ab7ff4990aabdaf29ea0066e9c7e06266ac53f
3
  size 2368281769
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:485523d0b25487f4a3d1b4546753423187678c8f9d2e0c8e59a5bb81d3922724
3
  size 2368281769
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c99e0c5c4d03d18376b499a14aa2de3c961e0b17bd1755ddc51098c9bdc845ed
3
  size 14575
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ad3c9dc8981cc2c459913f24dacaaf669fa2a450e9a9a470b32679073465d6e3
3
  size 14575
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e958ac3a412653c5a55518335f9da8afd5387ca22d1d3dbfc5f94de4bbb91f7f
3
  size 627
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a0e9ea3b27fd701dd988bf6b88748faba7a045c4e47b69a9334392e6db3776b4
3
  size 627
last-checkpoint/trainer_state.json CHANGED
@@ -1,8 +1,8 @@
1
  {
2
- "best_metric": 1.9985228776931763,
3
- "best_model_checkpoint": "output/checkpoint-800",
4
- "epoch": 0.5469471907531741,
5
- "global_step": 800,
6
  "is_hyper_param_search": false,
7
  "is_local_process_zero": true,
8
  "is_world_process_zero": true,
@@ -4822,11 +4822,2419 @@
4822
  "eval_samples_per_second": 9.904,
4823
  "eval_steps_per_second": 9.904,
4824
  "step": 800
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4825
  }
4826
  ],
4827
  "max_steps": 5848,
4828
  "num_train_epochs": 4,
4829
- "total_flos": 9.813169375148851e+17,
4830
  "trial_name": null,
4831
  "trial_params": null
4832
  }
 
1
  {
2
+ "best_metric": 1.987623929977417,
3
+ "best_model_checkpoint": "output/checkpoint-1200",
4
+ "epoch": 0.8204207861297611,
5
+ "global_step": 1200,
6
  "is_hyper_param_search": false,
7
  "is_local_process_zero": true,
8
  "is_world_process_zero": true,
 
4822
  "eval_samples_per_second": 9.904,
4823
  "eval_steps_per_second": 9.904,
4824
  "step": 800
4825
+ },
4826
+ {
4827
+ "epoch": 0.55,
4828
+ "learning_rate": 0.0005361543909348441,
4829
+ "loss": 1.9264,
4830
+ "step": 801
4831
+ },
4832
+ {
4833
+ "epoch": 0.55,
4834
+ "learning_rate": 0.0005360481586402266,
4835
+ "loss": 1.8821,
4836
+ "step": 802
4837
+ },
4838
+ {
4839
+ "epoch": 0.55,
4840
+ "learning_rate": 0.000535941926345609,
4841
+ "loss": 2.0427,
4842
+ "step": 803
4843
+ },
4844
+ {
4845
+ "epoch": 0.55,
4846
+ "learning_rate": 0.0005358356940509915,
4847
+ "loss": 1.8675,
4848
+ "step": 804
4849
+ },
4850
+ {
4851
+ "epoch": 0.55,
4852
+ "learning_rate": 0.0005357294617563739,
4853
+ "loss": 1.9315,
4854
+ "step": 805
4855
+ },
4856
+ {
4857
+ "epoch": 0.55,
4858
+ "learning_rate": 0.0005356232294617563,
4859
+ "loss": 2.0091,
4860
+ "step": 806
4861
+ },
4862
+ {
4863
+ "epoch": 0.55,
4864
+ "learning_rate": 0.0005355169971671388,
4865
+ "loss": 1.9447,
4866
+ "step": 807
4867
+ },
4868
+ {
4869
+ "epoch": 0.55,
4870
+ "learning_rate": 0.0005354107648725212,
4871
+ "loss": 1.9089,
4872
+ "step": 808
4873
+ },
4874
+ {
4875
+ "epoch": 0.55,
4876
+ "learning_rate": 0.0005353045325779037,
4877
+ "loss": 1.8641,
4878
+ "step": 809
4879
+ },
4880
+ {
4881
+ "epoch": 0.55,
4882
+ "learning_rate": 0.000535198300283286,
4883
+ "loss": 1.858,
4884
+ "step": 810
4885
+ },
4886
+ {
4887
+ "epoch": 0.55,
4888
+ "learning_rate": 0.0005350920679886684,
4889
+ "loss": 1.9707,
4890
+ "step": 811
4891
+ },
4892
+ {
4893
+ "epoch": 0.56,
4894
+ "learning_rate": 0.0005349858356940509,
4895
+ "loss": 1.9646,
4896
+ "step": 812
4897
+ },
4898
+ {
4899
+ "epoch": 0.56,
4900
+ "learning_rate": 0.0005348796033994334,
4901
+ "loss": 1.8502,
4902
+ "step": 813
4903
+ },
4904
+ {
4905
+ "epoch": 0.56,
4906
+ "learning_rate": 0.0005347733711048158,
4907
+ "loss": 1.9738,
4908
+ "step": 814
4909
+ },
4910
+ {
4911
+ "epoch": 0.56,
4912
+ "learning_rate": 0.0005346671388101983,
4913
+ "loss": 1.9471,
4914
+ "step": 815
4915
+ },
4916
+ {
4917
+ "epoch": 0.56,
4918
+ "learning_rate": 0.0005345609065155807,
4919
+ "loss": 1.8659,
4920
+ "step": 816
4921
+ },
4922
+ {
4923
+ "epoch": 0.56,
4924
+ "learning_rate": 0.0005344546742209631,
4925
+ "loss": 1.8747,
4926
+ "step": 817
4927
+ },
4928
+ {
4929
+ "epoch": 0.56,
4930
+ "learning_rate": 0.0005343484419263456,
4931
+ "loss": 1.8295,
4932
+ "step": 818
4933
+ },
4934
+ {
4935
+ "epoch": 0.56,
4936
+ "learning_rate": 0.000534242209631728,
4937
+ "loss": 1.906,
4938
+ "step": 819
4939
+ },
4940
+ {
4941
+ "epoch": 0.56,
4942
+ "learning_rate": 0.0005341359773371105,
4943
+ "loss": 1.9628,
4944
+ "step": 820
4945
+ },
4946
+ {
4947
+ "epoch": 0.56,
4948
+ "learning_rate": 0.0005340297450424929,
4949
+ "loss": 1.8916,
4950
+ "step": 821
4951
+ },
4952
+ {
4953
+ "epoch": 0.56,
4954
+ "learning_rate": 0.0005339235127478752,
4955
+ "loss": 1.9851,
4956
+ "step": 822
4957
+ },
4958
+ {
4959
+ "epoch": 0.56,
4960
+ "learning_rate": 0.0005338172804532577,
4961
+ "loss": 1.9781,
4962
+ "step": 823
4963
+ },
4964
+ {
4965
+ "epoch": 0.56,
4966
+ "learning_rate": 0.0005337110481586402,
4967
+ "loss": 1.8828,
4968
+ "step": 824
4969
+ },
4970
+ {
4971
+ "epoch": 0.56,
4972
+ "learning_rate": 0.0005336048158640226,
4973
+ "loss": 1.9323,
4974
+ "step": 825
4975
+ },
4976
+ {
4977
+ "epoch": 0.56,
4978
+ "learning_rate": 0.000533498583569405,
4979
+ "loss": 1.8749,
4980
+ "step": 826
4981
+ },
4982
+ {
4983
+ "epoch": 0.57,
4984
+ "learning_rate": 0.0005333923512747875,
4985
+ "loss": 1.9325,
4986
+ "step": 827
4987
+ },
4988
+ {
4989
+ "epoch": 0.57,
4990
+ "learning_rate": 0.0005332861189801699,
4991
+ "loss": 1.8826,
4992
+ "step": 828
4993
+ },
4994
+ {
4995
+ "epoch": 0.57,
4996
+ "learning_rate": 0.0005331798866855524,
4997
+ "loss": 1.9116,
4998
+ "step": 829
4999
+ },
5000
+ {
5001
+ "epoch": 0.57,
5002
+ "learning_rate": 0.0005330736543909348,
5003
+ "loss": 1.8078,
5004
+ "step": 830
5005
+ },
5006
+ {
5007
+ "epoch": 0.57,
5008
+ "learning_rate": 0.0005329674220963172,
5009
+ "loss": 1.8018,
5010
+ "step": 831
5011
+ },
5012
+ {
5013
+ "epoch": 0.57,
5014
+ "learning_rate": 0.0005328611898016997,
5015
+ "loss": 1.8972,
5016
+ "step": 832
5017
+ },
5018
+ {
5019
+ "epoch": 0.57,
5020
+ "learning_rate": 0.0005327549575070821,
5021
+ "loss": 1.88,
5022
+ "step": 833
5023
+ },
5024
+ {
5025
+ "epoch": 0.57,
5026
+ "learning_rate": 0.0005326487252124646,
5027
+ "loss": 1.8848,
5028
+ "step": 834
5029
+ },
5030
+ {
5031
+ "epoch": 0.57,
5032
+ "learning_rate": 0.000532542492917847,
5033
+ "loss": 1.9582,
5034
+ "step": 835
5035
+ },
5036
+ {
5037
+ "epoch": 0.57,
5038
+ "learning_rate": 0.0005324362606232294,
5039
+ "loss": 1.9269,
5040
+ "step": 836
5041
+ },
5042
+ {
5043
+ "epoch": 0.57,
5044
+ "learning_rate": 0.0005323300283286118,
5045
+ "loss": 2.041,
5046
+ "step": 837
5047
+ },
5048
+ {
5049
+ "epoch": 0.57,
5050
+ "learning_rate": 0.0005322237960339943,
5051
+ "loss": 2.0065,
5052
+ "step": 838
5053
+ },
5054
+ {
5055
+ "epoch": 0.57,
5056
+ "learning_rate": 0.0005321175637393767,
5057
+ "loss": 1.8516,
5058
+ "step": 839
5059
+ },
5060
+ {
5061
+ "epoch": 0.57,
5062
+ "learning_rate": 0.0005320113314447592,
5063
+ "loss": 1.913,
5064
+ "step": 840
5065
+ },
5066
+ {
5067
+ "epoch": 0.57,
5068
+ "learning_rate": 0.0005319050991501416,
5069
+ "loss": 1.9794,
5070
+ "step": 841
5071
+ },
5072
+ {
5073
+ "epoch": 0.58,
5074
+ "learning_rate": 0.000531798866855524,
5075
+ "loss": 1.9203,
5076
+ "step": 842
5077
+ },
5078
+ {
5079
+ "epoch": 0.58,
5080
+ "learning_rate": 0.0005316926345609065,
5081
+ "loss": 1.928,
5082
+ "step": 843
5083
+ },
5084
+ {
5085
+ "epoch": 0.58,
5086
+ "learning_rate": 0.0005315864022662889,
5087
+ "loss": 1.9136,
5088
+ "step": 844
5089
+ },
5090
+ {
5091
+ "epoch": 0.58,
5092
+ "learning_rate": 0.0005314801699716713,
5093
+ "loss": 1.9003,
5094
+ "step": 845
5095
+ },
5096
+ {
5097
+ "epoch": 0.58,
5098
+ "learning_rate": 0.0005313739376770538,
5099
+ "loss": 1.8607,
5100
+ "step": 846
5101
+ },
5102
+ {
5103
+ "epoch": 0.58,
5104
+ "learning_rate": 0.0005312677053824363,
5105
+ "loss": 1.9404,
5106
+ "step": 847
5107
+ },
5108
+ {
5109
+ "epoch": 0.58,
5110
+ "learning_rate": 0.0005311614730878186,
5111
+ "loss": 1.8756,
5112
+ "step": 848
5113
+ },
5114
+ {
5115
+ "epoch": 0.58,
5116
+ "learning_rate": 0.0005310552407932011,
5117
+ "loss": 1.9147,
5118
+ "step": 849
5119
+ },
5120
+ {
5121
+ "epoch": 0.58,
5122
+ "learning_rate": 0.0005309490084985835,
5123
+ "loss": 1.9053,
5124
+ "step": 850
5125
+ },
5126
+ {
5127
+ "epoch": 0.58,
5128
+ "learning_rate": 0.0005308427762039659,
5129
+ "loss": 1.8758,
5130
+ "step": 851
5131
+ },
5132
+ {
5133
+ "epoch": 0.58,
5134
+ "learning_rate": 0.0005307365439093484,
5135
+ "loss": 1.9473,
5136
+ "step": 852
5137
+ },
5138
+ {
5139
+ "epoch": 0.58,
5140
+ "learning_rate": 0.0005306303116147308,
5141
+ "loss": 1.8892,
5142
+ "step": 853
5143
+ },
5144
+ {
5145
+ "epoch": 0.58,
5146
+ "learning_rate": 0.0005305240793201133,
5147
+ "loss": 1.854,
5148
+ "step": 854
5149
+ },
5150
+ {
5151
+ "epoch": 0.58,
5152
+ "learning_rate": 0.0005304178470254957,
5153
+ "loss": 1.9216,
5154
+ "step": 855
5155
+ },
5156
+ {
5157
+ "epoch": 0.59,
5158
+ "learning_rate": 0.0005303116147308781,
5159
+ "loss": 1.9903,
5160
+ "step": 856
5161
+ },
5162
+ {
5163
+ "epoch": 0.59,
5164
+ "learning_rate": 0.0005302053824362606,
5165
+ "loss": 1.8707,
5166
+ "step": 857
5167
+ },
5168
+ {
5169
+ "epoch": 0.59,
5170
+ "learning_rate": 0.0005300991501416431,
5171
+ "loss": 1.9148,
5172
+ "step": 858
5173
+ },
5174
+ {
5175
+ "epoch": 0.59,
5176
+ "learning_rate": 0.0005299929178470255,
5177
+ "loss": 1.9627,
5178
+ "step": 859
5179
+ },
5180
+ {
5181
+ "epoch": 0.59,
5182
+ "learning_rate": 0.000529886685552408,
5183
+ "loss": 1.9643,
5184
+ "step": 860
5185
+ },
5186
+ {
5187
+ "epoch": 0.59,
5188
+ "learning_rate": 0.0005297804532577903,
5189
+ "loss": 1.9943,
5190
+ "step": 861
5191
+ },
5192
+ {
5193
+ "epoch": 0.59,
5194
+ "learning_rate": 0.0005296742209631727,
5195
+ "loss": 1.9124,
5196
+ "step": 862
5197
+ },
5198
+ {
5199
+ "epoch": 0.59,
5200
+ "learning_rate": 0.0005295679886685552,
5201
+ "loss": 1.9824,
5202
+ "step": 863
5203
+ },
5204
+ {
5205
+ "epoch": 0.59,
5206
+ "learning_rate": 0.0005294617563739376,
5207
+ "loss": 1.8462,
5208
+ "step": 864
5209
+ },
5210
+ {
5211
+ "epoch": 0.59,
5212
+ "learning_rate": 0.00052935552407932,
5213
+ "loss": 1.979,
5214
+ "step": 865
5215
+ },
5216
+ {
5217
+ "epoch": 0.59,
5218
+ "learning_rate": 0.0005292492917847025,
5219
+ "loss": 1.9432,
5220
+ "step": 866
5221
+ },
5222
+ {
5223
+ "epoch": 0.59,
5224
+ "learning_rate": 0.0005291430594900849,
5225
+ "loss": 1.8095,
5226
+ "step": 867
5227
+ },
5228
+ {
5229
+ "epoch": 0.59,
5230
+ "learning_rate": 0.0005290368271954674,
5231
+ "loss": 1.892,
5232
+ "step": 868
5233
+ },
5234
+ {
5235
+ "epoch": 0.59,
5236
+ "learning_rate": 0.0005289305949008499,
5237
+ "loss": 1.9231,
5238
+ "step": 869
5239
+ },
5240
+ {
5241
+ "epoch": 0.59,
5242
+ "learning_rate": 0.0005288243626062323,
5243
+ "loss": 1.995,
5244
+ "step": 870
5245
+ },
5246
+ {
5247
+ "epoch": 0.6,
5248
+ "learning_rate": 0.0005287181303116147,
5249
+ "loss": 1.9238,
5250
+ "step": 871
5251
+ },
5252
+ {
5253
+ "epoch": 0.6,
5254
+ "learning_rate": 0.0005286118980169971,
5255
+ "loss": 1.8531,
5256
+ "step": 872
5257
+ },
5258
+ {
5259
+ "epoch": 0.6,
5260
+ "learning_rate": 0.0005285056657223795,
5261
+ "loss": 1.9406,
5262
+ "step": 873
5263
+ },
5264
+ {
5265
+ "epoch": 0.6,
5266
+ "learning_rate": 0.000528399433427762,
5267
+ "loss": 1.8503,
5268
+ "step": 874
5269
+ },
5270
+ {
5271
+ "epoch": 0.6,
5272
+ "learning_rate": 0.0005282932011331444,
5273
+ "loss": 1.8353,
5274
+ "step": 875
5275
+ },
5276
+ {
5277
+ "epoch": 0.6,
5278
+ "learning_rate": 0.0005281869688385268,
5279
+ "loss": 1.8922,
5280
+ "step": 876
5281
+ },
5282
+ {
5283
+ "epoch": 0.6,
5284
+ "learning_rate": 0.0005280807365439093,
5285
+ "loss": 1.9666,
5286
+ "step": 877
5287
+ },
5288
+ {
5289
+ "epoch": 0.6,
5290
+ "learning_rate": 0.0005279745042492917,
5291
+ "loss": 2.0114,
5292
+ "step": 878
5293
+ },
5294
+ {
5295
+ "epoch": 0.6,
5296
+ "learning_rate": 0.0005278682719546742,
5297
+ "loss": 1.9562,
5298
+ "step": 879
5299
+ },
5300
+ {
5301
+ "epoch": 0.6,
5302
+ "learning_rate": 0.0005277620396600567,
5303
+ "loss": 1.9049,
5304
+ "step": 880
5305
+ },
5306
+ {
5307
+ "epoch": 0.6,
5308
+ "learning_rate": 0.0005276558073654391,
5309
+ "loss": 1.9307,
5310
+ "step": 881
5311
+ },
5312
+ {
5313
+ "epoch": 0.6,
5314
+ "learning_rate": 0.0005275495750708215,
5315
+ "loss": 2.001,
5316
+ "step": 882
5317
+ },
5318
+ {
5319
+ "epoch": 0.6,
5320
+ "learning_rate": 0.000527443342776204,
5321
+ "loss": 1.9832,
5322
+ "step": 883
5323
+ },
5324
+ {
5325
+ "epoch": 0.6,
5326
+ "learning_rate": 0.0005273371104815863,
5327
+ "loss": 1.928,
5328
+ "step": 884
5329
+ },
5330
+ {
5331
+ "epoch": 0.61,
5332
+ "learning_rate": 0.0005272308781869687,
5333
+ "loss": 1.959,
5334
+ "step": 885
5335
+ },
5336
+ {
5337
+ "epoch": 0.61,
5338
+ "learning_rate": 0.0005271246458923512,
5339
+ "loss": 1.9206,
5340
+ "step": 886
5341
+ },
5342
+ {
5343
+ "epoch": 0.61,
5344
+ "learning_rate": 0.0005270184135977336,
5345
+ "loss": 1.8442,
5346
+ "step": 887
5347
+ },
5348
+ {
5349
+ "epoch": 0.61,
5350
+ "learning_rate": 0.0005269121813031161,
5351
+ "loss": 1.7504,
5352
+ "step": 888
5353
+ },
5354
+ {
5355
+ "epoch": 0.61,
5356
+ "learning_rate": 0.0005268059490084985,
5357
+ "loss": 1.8934,
5358
+ "step": 889
5359
+ },
5360
+ {
5361
+ "epoch": 0.61,
5362
+ "learning_rate": 0.000526699716713881,
5363
+ "loss": 1.8794,
5364
+ "step": 890
5365
+ },
5366
+ {
5367
+ "epoch": 0.61,
5368
+ "learning_rate": 0.0005265934844192634,
5369
+ "loss": 1.8589,
5370
+ "step": 891
5371
+ },
5372
+ {
5373
+ "epoch": 0.61,
5374
+ "learning_rate": 0.0005264872521246459,
5375
+ "loss": 1.8441,
5376
+ "step": 892
5377
+ },
5378
+ {
5379
+ "epoch": 0.61,
5380
+ "learning_rate": 0.0005263810198300283,
5381
+ "loss": 1.8841,
5382
+ "step": 893
5383
+ },
5384
+ {
5385
+ "epoch": 0.61,
5386
+ "learning_rate": 0.0005262747875354108,
5387
+ "loss": 1.929,
5388
+ "step": 894
5389
+ },
5390
+ {
5391
+ "epoch": 0.61,
5392
+ "learning_rate": 0.0005261685552407932,
5393
+ "loss": 1.9099,
5394
+ "step": 895
5395
+ },
5396
+ {
5397
+ "epoch": 0.61,
5398
+ "learning_rate": 0.0005260623229461755,
5399
+ "loss": 1.8891,
5400
+ "step": 896
5401
+ },
5402
+ {
5403
+ "epoch": 0.61,
5404
+ "learning_rate": 0.000525956090651558,
5405
+ "loss": 1.9476,
5406
+ "step": 897
5407
+ },
5408
+ {
5409
+ "epoch": 0.61,
5410
+ "learning_rate": 0.0005258498583569404,
5411
+ "loss": 1.8918,
5412
+ "step": 898
5413
+ },
5414
+ {
5415
+ "epoch": 0.61,
5416
+ "learning_rate": 0.0005257436260623229,
5417
+ "loss": 1.9186,
5418
+ "step": 899
5419
+ },
5420
+ {
5421
+ "epoch": 0.62,
5422
+ "learning_rate": 0.0005256373937677053,
5423
+ "loss": 1.8635,
5424
+ "step": 900
5425
+ },
5426
+ {
5427
+ "epoch": 0.62,
5428
+ "learning_rate": 0.0005255311614730878,
5429
+ "loss": 2.0291,
5430
+ "step": 901
5431
+ },
5432
+ {
5433
+ "epoch": 0.62,
5434
+ "learning_rate": 0.0005254249291784702,
5435
+ "loss": 1.9284,
5436
+ "step": 902
5437
+ },
5438
+ {
5439
+ "epoch": 0.62,
5440
+ "learning_rate": 0.0005253186968838527,
5441
+ "loss": 1.8926,
5442
+ "step": 903
5443
+ },
5444
+ {
5445
+ "epoch": 0.62,
5446
+ "learning_rate": 0.0005252124645892351,
5447
+ "loss": 1.866,
5448
+ "step": 904
5449
+ },
5450
+ {
5451
+ "epoch": 0.62,
5452
+ "learning_rate": 0.0005251062322946175,
5453
+ "loss": 1.9719,
5454
+ "step": 905
5455
+ },
5456
+ {
5457
+ "epoch": 0.62,
5458
+ "learning_rate": 0.000525,
5459
+ "loss": 1.8531,
5460
+ "step": 906
5461
+ },
5462
+ {
5463
+ "epoch": 0.62,
5464
+ "learning_rate": 0.0005248937677053824,
5465
+ "loss": 1.9524,
5466
+ "step": 907
5467
+ },
5468
+ {
5469
+ "epoch": 0.62,
5470
+ "learning_rate": 0.0005247875354107649,
5471
+ "loss": 1.8973,
5472
+ "step": 908
5473
+ },
5474
+ {
5475
+ "epoch": 0.62,
5476
+ "learning_rate": 0.0005246813031161472,
5477
+ "loss": 1.8233,
5478
+ "step": 909
5479
+ },
5480
+ {
5481
+ "epoch": 0.62,
5482
+ "learning_rate": 0.0005245750708215296,
5483
+ "loss": 1.9966,
5484
+ "step": 910
5485
+ },
5486
+ {
5487
+ "epoch": 0.62,
5488
+ "learning_rate": 0.0005244688385269121,
5489
+ "loss": 1.9708,
5490
+ "step": 911
5491
+ },
5492
+ {
5493
+ "epoch": 0.62,
5494
+ "learning_rate": 0.0005243626062322946,
5495
+ "loss": 1.8901,
5496
+ "step": 912
5497
+ },
5498
+ {
5499
+ "epoch": 0.62,
5500
+ "learning_rate": 0.000524256373937677,
5501
+ "loss": 2.0427,
5502
+ "step": 913
5503
+ },
5504
+ {
5505
+ "epoch": 0.62,
5506
+ "learning_rate": 0.0005241501416430595,
5507
+ "loss": 1.7927,
5508
+ "step": 914
5509
+ },
5510
+ {
5511
+ "epoch": 0.63,
5512
+ "learning_rate": 0.0005240439093484419,
5513
+ "loss": 1.9332,
5514
+ "step": 915
5515
+ },
5516
+ {
5517
+ "epoch": 0.63,
5518
+ "learning_rate": 0.0005239376770538243,
5519
+ "loss": 1.9916,
5520
+ "step": 916
5521
+ },
5522
+ {
5523
+ "epoch": 0.63,
5524
+ "learning_rate": 0.0005238314447592068,
5525
+ "loss": 1.9279,
5526
+ "step": 917
5527
+ },
5528
+ {
5529
+ "epoch": 0.63,
5530
+ "learning_rate": 0.0005237252124645892,
5531
+ "loss": 1.8911,
5532
+ "step": 918
5533
+ },
5534
+ {
5535
+ "epoch": 0.63,
5536
+ "learning_rate": 0.0005236189801699717,
5537
+ "loss": 1.8922,
5538
+ "step": 919
5539
+ },
5540
+ {
5541
+ "epoch": 0.63,
5542
+ "learning_rate": 0.000523512747875354,
5543
+ "loss": 2.0017,
5544
+ "step": 920
5545
+ },
5546
+ {
5547
+ "epoch": 0.63,
5548
+ "learning_rate": 0.0005234065155807364,
5549
+ "loss": 1.9189,
5550
+ "step": 921
5551
+ },
5552
+ {
5553
+ "epoch": 0.63,
5554
+ "learning_rate": 0.0005233002832861189,
5555
+ "loss": 1.9797,
5556
+ "step": 922
5557
+ },
5558
+ {
5559
+ "epoch": 0.63,
5560
+ "learning_rate": 0.0005231940509915014,
5561
+ "loss": 1.9341,
5562
+ "step": 923
5563
+ },
5564
+ {
5565
+ "epoch": 0.63,
5566
+ "learning_rate": 0.0005230878186968838,
5567
+ "loss": 1.8676,
5568
+ "step": 924
5569
+ },
5570
+ {
5571
+ "epoch": 0.63,
5572
+ "learning_rate": 0.0005229815864022662,
5573
+ "loss": 2.0161,
5574
+ "step": 925
5575
+ },
5576
+ {
5577
+ "epoch": 0.63,
5578
+ "learning_rate": 0.0005228753541076487,
5579
+ "loss": 1.9621,
5580
+ "step": 926
5581
+ },
5582
+ {
5583
+ "epoch": 0.63,
5584
+ "learning_rate": 0.0005227691218130311,
5585
+ "loss": 1.9889,
5586
+ "step": 927
5587
+ },
5588
+ {
5589
+ "epoch": 0.63,
5590
+ "learning_rate": 0.0005226628895184136,
5591
+ "loss": 2.0333,
5592
+ "step": 928
5593
+ },
5594
+ {
5595
+ "epoch": 0.64,
5596
+ "learning_rate": 0.000522556657223796,
5597
+ "loss": 2.0584,
5598
+ "step": 929
5599
+ },
5600
+ {
5601
+ "epoch": 0.64,
5602
+ "learning_rate": 0.0005224504249291784,
5603
+ "loss": 1.8608,
5604
+ "step": 930
5605
+ },
5606
+ {
5607
+ "epoch": 0.64,
5608
+ "learning_rate": 0.0005223441926345609,
5609
+ "loss": 1.8649,
5610
+ "step": 931
5611
+ },
5612
+ {
5613
+ "epoch": 0.64,
5614
+ "learning_rate": 0.0005222379603399432,
5615
+ "loss": 1.9765,
5616
+ "step": 932
5617
+ },
5618
+ {
5619
+ "epoch": 0.64,
5620
+ "learning_rate": 0.0005221317280453257,
5621
+ "loss": 1.9244,
5622
+ "step": 933
5623
+ },
5624
+ {
5625
+ "epoch": 0.64,
5626
+ "learning_rate": 0.0005220254957507082,
5627
+ "loss": 1.9518,
5628
+ "step": 934
5629
+ },
5630
+ {
5631
+ "epoch": 0.64,
5632
+ "learning_rate": 0.0005219192634560906,
5633
+ "loss": 1.8535,
5634
+ "step": 935
5635
+ },
5636
+ {
5637
+ "epoch": 0.64,
5638
+ "learning_rate": 0.000521813031161473,
5639
+ "loss": 1.8148,
5640
+ "step": 936
5641
+ },
5642
+ {
5643
+ "epoch": 0.64,
5644
+ "learning_rate": 0.0005217067988668555,
5645
+ "loss": 1.881,
5646
+ "step": 937
5647
+ },
5648
+ {
5649
+ "epoch": 0.64,
5650
+ "learning_rate": 0.0005216005665722379,
5651
+ "loss": 1.9989,
5652
+ "step": 938
5653
+ },
5654
+ {
5655
+ "epoch": 0.64,
5656
+ "learning_rate": 0.0005214943342776204,
5657
+ "loss": 1.9885,
5658
+ "step": 939
5659
+ },
5660
+ {
5661
+ "epoch": 0.64,
5662
+ "learning_rate": 0.0005213881019830028,
5663
+ "loss": 1.9382,
5664
+ "step": 940
5665
+ },
5666
+ {
5667
+ "epoch": 0.64,
5668
+ "learning_rate": 0.0005212818696883852,
5669
+ "loss": 1.897,
5670
+ "step": 941
5671
+ },
5672
+ {
5673
+ "epoch": 0.64,
5674
+ "learning_rate": 0.0005211756373937677,
5675
+ "loss": 1.9608,
5676
+ "step": 942
5677
+ },
5678
+ {
5679
+ "epoch": 0.64,
5680
+ "learning_rate": 0.0005210694050991501,
5681
+ "loss": 2.0054,
5682
+ "step": 943
5683
+ },
5684
+ {
5685
+ "epoch": 0.65,
5686
+ "learning_rate": 0.0005209631728045324,
5687
+ "loss": 1.8902,
5688
+ "step": 944
5689
+ },
5690
+ {
5691
+ "epoch": 0.65,
5692
+ "learning_rate": 0.0005208569405099149,
5693
+ "loss": 1.887,
5694
+ "step": 945
5695
+ },
5696
+ {
5697
+ "epoch": 0.65,
5698
+ "learning_rate": 0.0005207507082152974,
5699
+ "loss": 1.8734,
5700
+ "step": 946
5701
+ },
5702
+ {
5703
+ "epoch": 0.65,
5704
+ "learning_rate": 0.0005206444759206798,
5705
+ "loss": 1.8166,
5706
+ "step": 947
5707
+ },
5708
+ {
5709
+ "epoch": 0.65,
5710
+ "learning_rate": 0.0005205382436260623,
5711
+ "loss": 1.9099,
5712
+ "step": 948
5713
+ },
5714
+ {
5715
+ "epoch": 0.65,
5716
+ "learning_rate": 0.0005204320113314447,
5717
+ "loss": 2.0139,
5718
+ "step": 949
5719
+ },
5720
+ {
5721
+ "epoch": 0.65,
5722
+ "learning_rate": 0.0005203257790368271,
5723
+ "loss": 1.8796,
5724
+ "step": 950
5725
+ },
5726
+ {
5727
+ "epoch": 0.65,
5728
+ "learning_rate": 0.0005202195467422096,
5729
+ "loss": 1.9342,
5730
+ "step": 951
5731
+ },
5732
+ {
5733
+ "epoch": 0.65,
5734
+ "learning_rate": 0.000520113314447592,
5735
+ "loss": 1.9592,
5736
+ "step": 952
5737
+ },
5738
+ {
5739
+ "epoch": 0.65,
5740
+ "learning_rate": 0.0005200070821529745,
5741
+ "loss": 1.9208,
5742
+ "step": 953
5743
+ },
5744
+ {
5745
+ "epoch": 0.65,
5746
+ "learning_rate": 0.0005199008498583569,
5747
+ "loss": 1.9498,
5748
+ "step": 954
5749
+ },
5750
+ {
5751
+ "epoch": 0.65,
5752
+ "learning_rate": 0.0005197946175637393,
5753
+ "loss": 1.9403,
5754
+ "step": 955
5755
+ },
5756
+ {
5757
+ "epoch": 0.65,
5758
+ "learning_rate": 0.0005196883852691218,
5759
+ "loss": 1.8585,
5760
+ "step": 956
5761
+ },
5762
+ {
5763
+ "epoch": 0.65,
5764
+ "learning_rate": 0.0005195821529745043,
5765
+ "loss": 1.8344,
5766
+ "step": 957
5767
+ },
5768
+ {
5769
+ "epoch": 0.65,
5770
+ "learning_rate": 0.0005194759206798866,
5771
+ "loss": 1.8947,
5772
+ "step": 958
5773
+ },
5774
+ {
5775
+ "epoch": 0.66,
5776
+ "learning_rate": 0.0005193696883852691,
5777
+ "loss": 2.0165,
5778
+ "step": 959
5779
+ },
5780
+ {
5781
+ "epoch": 0.66,
5782
+ "learning_rate": 0.0005192634560906515,
5783
+ "loss": 1.9441,
5784
+ "step": 960
5785
+ },
5786
+ {
5787
+ "epoch": 0.66,
5788
+ "learning_rate": 0.0005191572237960339,
5789
+ "loss": 1.9187,
5790
+ "step": 961
5791
+ },
5792
+ {
5793
+ "epoch": 0.66,
5794
+ "learning_rate": 0.0005190509915014164,
5795
+ "loss": 1.8554,
5796
+ "step": 962
5797
+ },
5798
+ {
5799
+ "epoch": 0.66,
5800
+ "learning_rate": 0.0005189447592067988,
5801
+ "loss": 1.9357,
5802
+ "step": 963
5803
+ },
5804
+ {
5805
+ "epoch": 0.66,
5806
+ "learning_rate": 0.0005188385269121813,
5807
+ "loss": 1.886,
5808
+ "step": 964
5809
+ },
5810
+ {
5811
+ "epoch": 0.66,
5812
+ "learning_rate": 0.0005187322946175637,
5813
+ "loss": 1.9487,
5814
+ "step": 965
5815
+ },
5816
+ {
5817
+ "epoch": 0.66,
5818
+ "learning_rate": 0.0005186260623229461,
5819
+ "loss": 2.0203,
5820
+ "step": 966
5821
+ },
5822
+ {
5823
+ "epoch": 0.66,
5824
+ "learning_rate": 0.0005185198300283286,
5825
+ "loss": 1.9021,
5826
+ "step": 967
5827
+ },
5828
+ {
5829
+ "epoch": 0.66,
5830
+ "learning_rate": 0.0005184135977337111,
5831
+ "loss": 1.8394,
5832
+ "step": 968
5833
+ },
5834
+ {
5835
+ "epoch": 0.66,
5836
+ "learning_rate": 0.0005183073654390935,
5837
+ "loss": 1.9888,
5838
+ "step": 969
5839
+ },
5840
+ {
5841
+ "epoch": 0.66,
5842
+ "learning_rate": 0.0005182011331444758,
5843
+ "loss": 1.9302,
5844
+ "step": 970
5845
+ },
5846
+ {
5847
+ "epoch": 0.66,
5848
+ "learning_rate": 0.0005180949008498583,
5849
+ "loss": 1.9058,
5850
+ "step": 971
5851
+ },
5852
+ {
5853
+ "epoch": 0.66,
5854
+ "learning_rate": 0.0005179886685552407,
5855
+ "loss": 1.9338,
5856
+ "step": 972
5857
+ },
5858
+ {
5859
+ "epoch": 0.67,
5860
+ "learning_rate": 0.0005178824362606232,
5861
+ "loss": 1.8802,
5862
+ "step": 973
5863
+ },
5864
+ {
5865
+ "epoch": 0.67,
5866
+ "learning_rate": 0.0005177762039660056,
5867
+ "loss": 1.9089,
5868
+ "step": 974
5869
+ },
5870
+ {
5871
+ "epoch": 0.67,
5872
+ "learning_rate": 0.000517669971671388,
5873
+ "loss": 1.846,
5874
+ "step": 975
5875
+ },
5876
+ {
5877
+ "epoch": 0.67,
5878
+ "learning_rate": 0.0005175637393767705,
5879
+ "loss": 1.9375,
5880
+ "step": 976
5881
+ },
5882
+ {
5883
+ "epoch": 0.67,
5884
+ "learning_rate": 0.0005174575070821529,
5885
+ "loss": 1.9994,
5886
+ "step": 977
5887
+ },
5888
+ {
5889
+ "epoch": 0.67,
5890
+ "learning_rate": 0.0005173512747875354,
5891
+ "loss": 1.9906,
5892
+ "step": 978
5893
+ },
5894
+ {
5895
+ "epoch": 0.67,
5896
+ "learning_rate": 0.0005172450424929179,
5897
+ "loss": 1.8686,
5898
+ "step": 979
5899
+ },
5900
+ {
5901
+ "epoch": 0.67,
5902
+ "learning_rate": 0.0005171388101983003,
5903
+ "loss": 2.0107,
5904
+ "step": 980
5905
+ },
5906
+ {
5907
+ "epoch": 0.67,
5908
+ "learning_rate": 0.0005170325779036827,
5909
+ "loss": 1.9346,
5910
+ "step": 981
5911
+ },
5912
+ {
5913
+ "epoch": 0.67,
5914
+ "learning_rate": 0.0005169263456090651,
5915
+ "loss": 1.8315,
5916
+ "step": 982
5917
+ },
5918
+ {
5919
+ "epoch": 0.67,
5920
+ "learning_rate": 0.0005168201133144475,
5921
+ "loss": 1.9107,
5922
+ "step": 983
5923
+ },
5924
+ {
5925
+ "epoch": 0.67,
5926
+ "learning_rate": 0.00051671388101983,
5927
+ "loss": 1.8907,
5928
+ "step": 984
5929
+ },
5930
+ {
5931
+ "epoch": 0.67,
5932
+ "learning_rate": 0.0005166076487252124,
5933
+ "loss": 1.8357,
5934
+ "step": 985
5935
+ },
5936
+ {
5937
+ "epoch": 0.67,
5938
+ "learning_rate": 0.0005165014164305948,
5939
+ "loss": 1.914,
5940
+ "step": 986
5941
+ },
5942
+ {
5943
+ "epoch": 0.67,
5944
+ "learning_rate": 0.0005163951841359773,
5945
+ "loss": 1.8738,
5946
+ "step": 987
5947
+ },
5948
+ {
5949
+ "epoch": 0.68,
5950
+ "learning_rate": 0.0005162889518413597,
5951
+ "loss": 1.925,
5952
+ "step": 988
5953
+ },
5954
+ {
5955
+ "epoch": 0.68,
5956
+ "learning_rate": 0.0005161827195467422,
5957
+ "loss": 1.9579,
5958
+ "step": 989
5959
+ },
5960
+ {
5961
+ "epoch": 0.68,
5962
+ "learning_rate": 0.0005160764872521246,
5963
+ "loss": 1.8535,
5964
+ "step": 990
5965
+ },
5966
+ {
5967
+ "epoch": 0.68,
5968
+ "learning_rate": 0.0005159702549575071,
5969
+ "loss": 1.8589,
5970
+ "step": 991
5971
+ },
5972
+ {
5973
+ "epoch": 0.68,
5974
+ "learning_rate": 0.0005158640226628895,
5975
+ "loss": 1.8919,
5976
+ "step": 992
5977
+ },
5978
+ {
5979
+ "epoch": 0.68,
5980
+ "learning_rate": 0.000515757790368272,
5981
+ "loss": 1.9084,
5982
+ "step": 993
5983
+ },
5984
+ {
5985
+ "epoch": 0.68,
5986
+ "learning_rate": 0.0005156515580736543,
5987
+ "loss": 1.9123,
5988
+ "step": 994
5989
+ },
5990
+ {
5991
+ "epoch": 0.68,
5992
+ "learning_rate": 0.0005155453257790367,
5993
+ "loss": 1.9736,
5994
+ "step": 995
5995
+ },
5996
+ {
5997
+ "epoch": 0.68,
5998
+ "learning_rate": 0.0005154390934844192,
5999
+ "loss": 1.852,
6000
+ "step": 996
6001
+ },
6002
+ {
6003
+ "epoch": 0.68,
6004
+ "learning_rate": 0.0005153328611898016,
6005
+ "loss": 1.8952,
6006
+ "step": 997
6007
+ },
6008
+ {
6009
+ "epoch": 0.68,
6010
+ "learning_rate": 0.0005152266288951841,
6011
+ "loss": 1.9945,
6012
+ "step": 998
6013
+ },
6014
+ {
6015
+ "epoch": 0.68,
6016
+ "learning_rate": 0.0005151203966005665,
6017
+ "loss": 1.9205,
6018
+ "step": 999
6019
+ },
6020
+ {
6021
+ "epoch": 0.68,
6022
+ "learning_rate": 0.000515014164305949,
6023
+ "loss": 1.8991,
6024
+ "step": 1000
6025
+ },
6026
+ {
6027
+ "epoch": 0.68,
6028
+ "learning_rate": 0.0005149079320113314,
6029
+ "loss": 1.9652,
6030
+ "step": 1001
6031
+ },
6032
+ {
6033
+ "epoch": 0.69,
6034
+ "learning_rate": 0.0005148016997167139,
6035
+ "loss": 1.8882,
6036
+ "step": 1002
6037
+ },
6038
+ {
6039
+ "epoch": 0.69,
6040
+ "learning_rate": 0.0005146954674220963,
6041
+ "loss": 1.8064,
6042
+ "step": 1003
6043
+ },
6044
+ {
6045
+ "epoch": 0.69,
6046
+ "learning_rate": 0.0005145892351274788,
6047
+ "loss": 1.9101,
6048
+ "step": 1004
6049
+ },
6050
+ {
6051
+ "epoch": 0.69,
6052
+ "learning_rate": 0.0005144830028328612,
6053
+ "loss": 1.9095,
6054
+ "step": 1005
6055
+ },
6056
+ {
6057
+ "epoch": 0.69,
6058
+ "learning_rate": 0.0005143767705382435,
6059
+ "loss": 1.7793,
6060
+ "step": 1006
6061
+ },
6062
+ {
6063
+ "epoch": 0.69,
6064
+ "learning_rate": 0.000514270538243626,
6065
+ "loss": 1.8314,
6066
+ "step": 1007
6067
+ },
6068
+ {
6069
+ "epoch": 0.69,
6070
+ "learning_rate": 0.0005141643059490084,
6071
+ "loss": 1.8174,
6072
+ "step": 1008
6073
+ },
6074
+ {
6075
+ "epoch": 0.69,
6076
+ "learning_rate": 0.0005140580736543908,
6077
+ "loss": 1.8951,
6078
+ "step": 1009
6079
+ },
6080
+ {
6081
+ "epoch": 0.69,
6082
+ "learning_rate": 0.0005139518413597733,
6083
+ "loss": 1.947,
6084
+ "step": 1010
6085
+ },
6086
+ {
6087
+ "epoch": 0.69,
6088
+ "learning_rate": 0.0005138456090651558,
6089
+ "loss": 1.9609,
6090
+ "step": 1011
6091
+ },
6092
+ {
6093
+ "epoch": 0.69,
6094
+ "learning_rate": 0.0005137393767705382,
6095
+ "loss": 1.9234,
6096
+ "step": 1012
6097
+ },
6098
+ {
6099
+ "epoch": 0.69,
6100
+ "learning_rate": 0.0005136331444759207,
6101
+ "loss": 1.9117,
6102
+ "step": 1013
6103
+ },
6104
+ {
6105
+ "epoch": 0.69,
6106
+ "learning_rate": 0.0005135269121813031,
6107
+ "loss": 1.9156,
6108
+ "step": 1014
6109
+ },
6110
+ {
6111
+ "epoch": 0.69,
6112
+ "learning_rate": 0.0005134206798866855,
6113
+ "loss": 1.9459,
6114
+ "step": 1015
6115
+ },
6116
+ {
6117
+ "epoch": 0.69,
6118
+ "learning_rate": 0.000513314447592068,
6119
+ "loss": 1.948,
6120
+ "step": 1016
6121
+ },
6122
+ {
6123
+ "epoch": 0.7,
6124
+ "learning_rate": 0.0005132082152974504,
6125
+ "loss": 1.8795,
6126
+ "step": 1017
6127
+ },
6128
+ {
6129
+ "epoch": 0.7,
6130
+ "learning_rate": 0.0005131019830028329,
6131
+ "loss": 2.0597,
6132
+ "step": 1018
6133
+ },
6134
+ {
6135
+ "epoch": 0.7,
6136
+ "learning_rate": 0.0005129957507082152,
6137
+ "loss": 1.9661,
6138
+ "step": 1019
6139
+ },
6140
+ {
6141
+ "epoch": 0.7,
6142
+ "learning_rate": 0.0005128895184135976,
6143
+ "loss": 1.9242,
6144
+ "step": 1020
6145
+ },
6146
+ {
6147
+ "epoch": 0.7,
6148
+ "learning_rate": 0.0005127832861189801,
6149
+ "loss": 1.9773,
6150
+ "step": 1021
6151
+ },
6152
+ {
6153
+ "epoch": 0.7,
6154
+ "learning_rate": 0.0005126770538243626,
6155
+ "loss": 2.0018,
6156
+ "step": 1022
6157
+ },
6158
+ {
6159
+ "epoch": 0.7,
6160
+ "learning_rate": 0.000512570821529745,
6161
+ "loss": 1.8503,
6162
+ "step": 1023
6163
+ },
6164
+ {
6165
+ "epoch": 0.7,
6166
+ "learning_rate": 0.0005124645892351275,
6167
+ "loss": 1.8622,
6168
+ "step": 1024
6169
+ },
6170
+ {
6171
+ "epoch": 0.7,
6172
+ "learning_rate": 0.0005123583569405099,
6173
+ "loss": 2.0041,
6174
+ "step": 1025
6175
+ },
6176
+ {
6177
+ "epoch": 0.7,
6178
+ "learning_rate": 0.0005122521246458923,
6179
+ "loss": 1.9051,
6180
+ "step": 1026
6181
+ },
6182
+ {
6183
+ "epoch": 0.7,
6184
+ "learning_rate": 0.0005121458923512748,
6185
+ "loss": 1.9256,
6186
+ "step": 1027
6187
+ },
6188
+ {
6189
+ "epoch": 0.7,
6190
+ "learning_rate": 0.0005120396600566572,
6191
+ "loss": 1.8081,
6192
+ "step": 1028
6193
+ },
6194
+ {
6195
+ "epoch": 0.7,
6196
+ "learning_rate": 0.0005119334277620396,
6197
+ "loss": 1.9711,
6198
+ "step": 1029
6199
+ },
6200
+ {
6201
+ "epoch": 0.7,
6202
+ "learning_rate": 0.000511827195467422,
6203
+ "loss": 1.8529,
6204
+ "step": 1030
6205
+ },
6206
+ {
6207
+ "epoch": 0.7,
6208
+ "learning_rate": 0.0005117209631728044,
6209
+ "loss": 1.9109,
6210
+ "step": 1031
6211
+ },
6212
+ {
6213
+ "epoch": 0.71,
6214
+ "learning_rate": 0.0005116147308781869,
6215
+ "loss": 1.8838,
6216
+ "step": 1032
6217
+ },
6218
+ {
6219
+ "epoch": 0.71,
6220
+ "learning_rate": 0.0005115084985835694,
6221
+ "loss": 1.9032,
6222
+ "step": 1033
6223
+ },
6224
+ {
6225
+ "epoch": 0.71,
6226
+ "learning_rate": 0.0005114022662889518,
6227
+ "loss": 1.9147,
6228
+ "step": 1034
6229
+ },
6230
+ {
6231
+ "epoch": 0.71,
6232
+ "learning_rate": 0.0005112960339943342,
6233
+ "loss": 1.9068,
6234
+ "step": 1035
6235
+ },
6236
+ {
6237
+ "epoch": 0.71,
6238
+ "learning_rate": 0.0005111898016997167,
6239
+ "loss": 1.9089,
6240
+ "step": 1036
6241
+ },
6242
+ {
6243
+ "epoch": 0.71,
6244
+ "learning_rate": 0.0005110835694050991,
6245
+ "loss": 1.9809,
6246
+ "step": 1037
6247
+ },
6248
+ {
6249
+ "epoch": 0.71,
6250
+ "learning_rate": 0.0005109773371104816,
6251
+ "loss": 1.9325,
6252
+ "step": 1038
6253
+ },
6254
+ {
6255
+ "epoch": 0.71,
6256
+ "learning_rate": 0.000510871104815864,
6257
+ "loss": 1.9286,
6258
+ "step": 1039
6259
+ },
6260
+ {
6261
+ "epoch": 0.71,
6262
+ "learning_rate": 0.0005107648725212464,
6263
+ "loss": 1.89,
6264
+ "step": 1040
6265
+ },
6266
+ {
6267
+ "epoch": 0.71,
6268
+ "learning_rate": 0.0005106586402266289,
6269
+ "loss": 1.8083,
6270
+ "step": 1041
6271
+ },
6272
+ {
6273
+ "epoch": 0.71,
6274
+ "learning_rate": 0.0005105524079320113,
6275
+ "loss": 1.9368,
6276
+ "step": 1042
6277
+ },
6278
+ {
6279
+ "epoch": 0.71,
6280
+ "learning_rate": 0.0005104461756373937,
6281
+ "loss": 1.8549,
6282
+ "step": 1043
6283
+ },
6284
+ {
6285
+ "epoch": 0.71,
6286
+ "learning_rate": 0.0005103399433427762,
6287
+ "loss": 1.9071,
6288
+ "step": 1044
6289
+ },
6290
+ {
6291
+ "epoch": 0.71,
6292
+ "learning_rate": 0.0005102337110481586,
6293
+ "loss": 1.8773,
6294
+ "step": 1045
6295
+ },
6296
+ {
6297
+ "epoch": 0.72,
6298
+ "learning_rate": 0.000510127478753541,
6299
+ "loss": 1.8871,
6300
+ "step": 1046
6301
+ },
6302
+ {
6303
+ "epoch": 0.72,
6304
+ "learning_rate": 0.0005100212464589235,
6305
+ "loss": 1.9191,
6306
+ "step": 1047
6307
+ },
6308
+ {
6309
+ "epoch": 0.72,
6310
+ "learning_rate": 0.0005099150141643059,
6311
+ "loss": 1.9498,
6312
+ "step": 1048
6313
+ },
6314
+ {
6315
+ "epoch": 0.72,
6316
+ "learning_rate": 0.0005098087818696883,
6317
+ "loss": 1.9836,
6318
+ "step": 1049
6319
+ },
6320
+ {
6321
+ "epoch": 0.72,
6322
+ "learning_rate": 0.0005097025495750708,
6323
+ "loss": 1.8851,
6324
+ "step": 1050
6325
+ },
6326
+ {
6327
+ "epoch": 0.72,
6328
+ "learning_rate": 0.0005095963172804532,
6329
+ "loss": 1.9971,
6330
+ "step": 1051
6331
+ },
6332
+ {
6333
+ "epoch": 0.72,
6334
+ "learning_rate": 0.0005094900849858357,
6335
+ "loss": 1.9359,
6336
+ "step": 1052
6337
+ },
6338
+ {
6339
+ "epoch": 0.72,
6340
+ "learning_rate": 0.0005093838526912181,
6341
+ "loss": 1.8921,
6342
+ "step": 1053
6343
+ },
6344
+ {
6345
+ "epoch": 0.72,
6346
+ "learning_rate": 0.0005092776203966004,
6347
+ "loss": 1.815,
6348
+ "step": 1054
6349
+ },
6350
+ {
6351
+ "epoch": 0.72,
6352
+ "learning_rate": 0.0005091713881019829,
6353
+ "loss": 1.8988,
6354
+ "step": 1055
6355
+ },
6356
+ {
6357
+ "epoch": 0.72,
6358
+ "learning_rate": 0.0005090651558073654,
6359
+ "loss": 1.8765,
6360
+ "step": 1056
6361
+ },
6362
+ {
6363
+ "epoch": 0.72,
6364
+ "learning_rate": 0.0005089589235127478,
6365
+ "loss": 1.9362,
6366
+ "step": 1057
6367
+ },
6368
+ {
6369
+ "epoch": 0.72,
6370
+ "learning_rate": 0.0005088526912181303,
6371
+ "loss": 1.9116,
6372
+ "step": 1058
6373
+ },
6374
+ {
6375
+ "epoch": 0.72,
6376
+ "learning_rate": 0.0005087464589235127,
6377
+ "loss": 1.8551,
6378
+ "step": 1059
6379
+ },
6380
+ {
6381
+ "epoch": 0.72,
6382
+ "learning_rate": 0.0005086402266288951,
6383
+ "loss": 1.9469,
6384
+ "step": 1060
6385
+ },
6386
+ {
6387
+ "epoch": 0.73,
6388
+ "learning_rate": 0.0005085339943342776,
6389
+ "loss": 1.8255,
6390
+ "step": 1061
6391
+ },
6392
+ {
6393
+ "epoch": 0.73,
6394
+ "learning_rate": 0.00050842776203966,
6395
+ "loss": 1.8748,
6396
+ "step": 1062
6397
+ },
6398
+ {
6399
+ "epoch": 0.73,
6400
+ "learning_rate": 0.0005083215297450425,
6401
+ "loss": 1.9767,
6402
+ "step": 1063
6403
+ },
6404
+ {
6405
+ "epoch": 0.73,
6406
+ "learning_rate": 0.0005082152974504249,
6407
+ "loss": 1.8532,
6408
+ "step": 1064
6409
+ },
6410
+ {
6411
+ "epoch": 0.73,
6412
+ "learning_rate": 0.0005081090651558073,
6413
+ "loss": 1.9841,
6414
+ "step": 1065
6415
+ },
6416
+ {
6417
+ "epoch": 0.73,
6418
+ "learning_rate": 0.0005080028328611898,
6419
+ "loss": 1.9048,
6420
+ "step": 1066
6421
+ },
6422
+ {
6423
+ "epoch": 0.73,
6424
+ "learning_rate": 0.0005078966005665723,
6425
+ "loss": 1.9636,
6426
+ "step": 1067
6427
+ },
6428
+ {
6429
+ "epoch": 0.73,
6430
+ "learning_rate": 0.0005077903682719546,
6431
+ "loss": 1.8621,
6432
+ "step": 1068
6433
+ },
6434
+ {
6435
+ "epoch": 0.73,
6436
+ "learning_rate": 0.000507684135977337,
6437
+ "loss": 1.8718,
6438
+ "step": 1069
6439
+ },
6440
+ {
6441
+ "epoch": 0.73,
6442
+ "learning_rate": 0.0005075779036827195,
6443
+ "loss": 2.0384,
6444
+ "step": 1070
6445
+ },
6446
+ {
6447
+ "epoch": 0.73,
6448
+ "learning_rate": 0.0005074716713881019,
6449
+ "loss": 1.9328,
6450
+ "step": 1071
6451
+ },
6452
+ {
6453
+ "epoch": 0.73,
6454
+ "learning_rate": 0.0005073654390934844,
6455
+ "loss": 1.8559,
6456
+ "step": 1072
6457
+ },
6458
+ {
6459
+ "epoch": 0.73,
6460
+ "learning_rate": 0.0005072592067988668,
6461
+ "loss": 1.8485,
6462
+ "step": 1073
6463
+ },
6464
+ {
6465
+ "epoch": 0.73,
6466
+ "learning_rate": 0.0005071529745042492,
6467
+ "loss": 1.9306,
6468
+ "step": 1074
6469
+ },
6470
+ {
6471
+ "epoch": 0.73,
6472
+ "learning_rate": 0.0005070467422096317,
6473
+ "loss": 1.9929,
6474
+ "step": 1075
6475
+ },
6476
+ {
6477
+ "epoch": 0.74,
6478
+ "learning_rate": 0.0005069405099150141,
6479
+ "loss": 1.9442,
6480
+ "step": 1076
6481
+ },
6482
+ {
6483
+ "epoch": 0.74,
6484
+ "learning_rate": 0.0005068342776203966,
6485
+ "loss": 1.869,
6486
+ "step": 1077
6487
+ },
6488
+ {
6489
+ "epoch": 0.74,
6490
+ "learning_rate": 0.0005067280453257791,
6491
+ "loss": 1.9625,
6492
+ "step": 1078
6493
+ },
6494
+ {
6495
+ "epoch": 0.74,
6496
+ "learning_rate": 0.0005066218130311615,
6497
+ "loss": 1.9757,
6498
+ "step": 1079
6499
+ },
6500
+ {
6501
+ "epoch": 0.74,
6502
+ "learning_rate": 0.0005065155807365438,
6503
+ "loss": 1.9721,
6504
+ "step": 1080
6505
+ },
6506
+ {
6507
+ "epoch": 0.74,
6508
+ "learning_rate": 0.0005064093484419263,
6509
+ "loss": 1.9313,
6510
+ "step": 1081
6511
+ },
6512
+ {
6513
+ "epoch": 0.74,
6514
+ "learning_rate": 0.0005063031161473087,
6515
+ "loss": 1.9032,
6516
+ "step": 1082
6517
+ },
6518
+ {
6519
+ "epoch": 0.74,
6520
+ "learning_rate": 0.0005061968838526912,
6521
+ "loss": 1.8946,
6522
+ "step": 1083
6523
+ },
6524
+ {
6525
+ "epoch": 0.74,
6526
+ "learning_rate": 0.0005060906515580736,
6527
+ "loss": 1.927,
6528
+ "step": 1084
6529
+ },
6530
+ {
6531
+ "epoch": 0.74,
6532
+ "learning_rate": 0.000505984419263456,
6533
+ "loss": 1.9355,
6534
+ "step": 1085
6535
+ },
6536
+ {
6537
+ "epoch": 0.74,
6538
+ "learning_rate": 0.0005058781869688385,
6539
+ "loss": 1.9144,
6540
+ "step": 1086
6541
+ },
6542
+ {
6543
+ "epoch": 0.74,
6544
+ "learning_rate": 0.0005057719546742209,
6545
+ "loss": 1.8711,
6546
+ "step": 1087
6547
+ },
6548
+ {
6549
+ "epoch": 0.74,
6550
+ "learning_rate": 0.0005056657223796033,
6551
+ "loss": 1.908,
6552
+ "step": 1088
6553
+ },
6554
+ {
6555
+ "epoch": 0.74,
6556
+ "learning_rate": 0.0005055594900849858,
6557
+ "loss": 1.8863,
6558
+ "step": 1089
6559
+ },
6560
+ {
6561
+ "epoch": 0.75,
6562
+ "learning_rate": 0.0005054532577903683,
6563
+ "loss": 1.8877,
6564
+ "step": 1090
6565
+ },
6566
+ {
6567
+ "epoch": 0.75,
6568
+ "learning_rate": 0.0005053470254957507,
6569
+ "loss": 1.9125,
6570
+ "step": 1091
6571
+ },
6572
+ {
6573
+ "epoch": 0.75,
6574
+ "learning_rate": 0.0005052407932011331,
6575
+ "loss": 1.9083,
6576
+ "step": 1092
6577
+ },
6578
+ {
6579
+ "epoch": 0.75,
6580
+ "learning_rate": 0.0005051345609065155,
6581
+ "loss": 1.9148,
6582
+ "step": 1093
6583
+ },
6584
+ {
6585
+ "epoch": 0.75,
6586
+ "learning_rate": 0.0005050283286118979,
6587
+ "loss": 1.9313,
6588
+ "step": 1094
6589
+ },
6590
+ {
6591
+ "epoch": 0.75,
6592
+ "learning_rate": 0.0005049220963172804,
6593
+ "loss": 1.9542,
6594
+ "step": 1095
6595
+ },
6596
+ {
6597
+ "epoch": 0.75,
6598
+ "learning_rate": 0.0005048158640226628,
6599
+ "loss": 1.8714,
6600
+ "step": 1096
6601
+ },
6602
+ {
6603
+ "epoch": 0.75,
6604
+ "learning_rate": 0.0005047096317280453,
6605
+ "loss": 1.9771,
6606
+ "step": 1097
6607
+ },
6608
+ {
6609
+ "epoch": 0.75,
6610
+ "learning_rate": 0.0005046033994334277,
6611
+ "loss": 1.8602,
6612
+ "step": 1098
6613
+ },
6614
+ {
6615
+ "epoch": 0.75,
6616
+ "learning_rate": 0.0005044971671388101,
6617
+ "loss": 1.8857,
6618
+ "step": 1099
6619
+ },
6620
+ {
6621
+ "epoch": 0.75,
6622
+ "learning_rate": 0.0005043909348441926,
6623
+ "loss": 1.8951,
6624
+ "step": 1100
6625
+ },
6626
+ {
6627
+ "epoch": 0.75,
6628
+ "learning_rate": 0.0005042847025495751,
6629
+ "loss": 1.9468,
6630
+ "step": 1101
6631
+ },
6632
+ {
6633
+ "epoch": 0.75,
6634
+ "learning_rate": 0.0005041784702549575,
6635
+ "loss": 1.8194,
6636
+ "step": 1102
6637
+ },
6638
+ {
6639
+ "epoch": 0.75,
6640
+ "learning_rate": 0.00050407223796034,
6641
+ "loss": 1.9466,
6642
+ "step": 1103
6643
+ },
6644
+ {
6645
+ "epoch": 0.75,
6646
+ "learning_rate": 0.0005039660056657223,
6647
+ "loss": 1.8048,
6648
+ "step": 1104
6649
+ },
6650
+ {
6651
+ "epoch": 0.76,
6652
+ "learning_rate": 0.0005038597733711047,
6653
+ "loss": 1.8586,
6654
+ "step": 1105
6655
+ },
6656
+ {
6657
+ "epoch": 0.76,
6658
+ "learning_rate": 0.0005037535410764872,
6659
+ "loss": 1.8783,
6660
+ "step": 1106
6661
+ },
6662
+ {
6663
+ "epoch": 0.76,
6664
+ "learning_rate": 0.0005036473087818696,
6665
+ "loss": 1.8999,
6666
+ "step": 1107
6667
+ },
6668
+ {
6669
+ "epoch": 0.76,
6670
+ "learning_rate": 0.000503541076487252,
6671
+ "loss": 1.9716,
6672
+ "step": 1108
6673
+ },
6674
+ {
6675
+ "epoch": 0.76,
6676
+ "learning_rate": 0.0005034348441926345,
6677
+ "loss": 1.9234,
6678
+ "step": 1109
6679
+ },
6680
+ {
6681
+ "epoch": 0.76,
6682
+ "learning_rate": 0.0005033286118980169,
6683
+ "loss": 1.9661,
6684
+ "step": 1110
6685
+ },
6686
+ {
6687
+ "epoch": 0.76,
6688
+ "learning_rate": 0.0005032223796033994,
6689
+ "loss": 1.9817,
6690
+ "step": 1111
6691
+ },
6692
+ {
6693
+ "epoch": 0.76,
6694
+ "learning_rate": 0.0005031161473087819,
6695
+ "loss": 1.9502,
6696
+ "step": 1112
6697
+ },
6698
+ {
6699
+ "epoch": 0.76,
6700
+ "learning_rate": 0.0005030099150141643,
6701
+ "loss": 1.9734,
6702
+ "step": 1113
6703
+ },
6704
+ {
6705
+ "epoch": 0.76,
6706
+ "learning_rate": 0.0005029036827195467,
6707
+ "loss": 1.8585,
6708
+ "step": 1114
6709
+ },
6710
+ {
6711
+ "epoch": 0.76,
6712
+ "learning_rate": 0.0005027974504249292,
6713
+ "loss": 1.9161,
6714
+ "step": 1115
6715
+ },
6716
+ {
6717
+ "epoch": 0.76,
6718
+ "learning_rate": 0.0005026912181303115,
6719
+ "loss": 1.9213,
6720
+ "step": 1116
6721
+ },
6722
+ {
6723
+ "epoch": 0.76,
6724
+ "learning_rate": 0.000502584985835694,
6725
+ "loss": 1.9839,
6726
+ "step": 1117
6727
+ },
6728
+ {
6729
+ "epoch": 0.76,
6730
+ "learning_rate": 0.0005024787535410764,
6731
+ "loss": 1.9189,
6732
+ "step": 1118
6733
+ },
6734
+ {
6735
+ "epoch": 0.77,
6736
+ "learning_rate": 0.0005023725212464588,
6737
+ "loss": 2.0178,
6738
+ "step": 1119
6739
+ },
6740
+ {
6741
+ "epoch": 0.77,
6742
+ "learning_rate": 0.0005022662889518413,
6743
+ "loss": 1.9683,
6744
+ "step": 1120
6745
+ },
6746
+ {
6747
+ "epoch": 0.77,
6748
+ "learning_rate": 0.0005021600566572237,
6749
+ "loss": 1.9482,
6750
+ "step": 1121
6751
+ },
6752
+ {
6753
+ "epoch": 0.77,
6754
+ "learning_rate": 0.0005020538243626062,
6755
+ "loss": 1.9666,
6756
+ "step": 1122
6757
+ },
6758
+ {
6759
+ "epoch": 0.77,
6760
+ "learning_rate": 0.0005019475920679887,
6761
+ "loss": 1.9685,
6762
+ "step": 1123
6763
+ },
6764
+ {
6765
+ "epoch": 0.77,
6766
+ "learning_rate": 0.0005018413597733711,
6767
+ "loss": 1.8652,
6768
+ "step": 1124
6769
+ },
6770
+ {
6771
+ "epoch": 0.77,
6772
+ "learning_rate": 0.0005017351274787535,
6773
+ "loss": 1.9892,
6774
+ "step": 1125
6775
+ },
6776
+ {
6777
+ "epoch": 0.77,
6778
+ "learning_rate": 0.000501628895184136,
6779
+ "loss": 1.8648,
6780
+ "step": 1126
6781
+ },
6782
+ {
6783
+ "epoch": 0.77,
6784
+ "learning_rate": 0.0005015226628895184,
6785
+ "loss": 1.9587,
6786
+ "step": 1127
6787
+ },
6788
+ {
6789
+ "epoch": 0.77,
6790
+ "learning_rate": 0.0005014164305949007,
6791
+ "loss": 1.9027,
6792
+ "step": 1128
6793
+ },
6794
+ {
6795
+ "epoch": 0.77,
6796
+ "learning_rate": 0.0005013101983002832,
6797
+ "loss": 1.8348,
6798
+ "step": 1129
6799
+ },
6800
+ {
6801
+ "epoch": 0.77,
6802
+ "learning_rate": 0.0005012039660056656,
6803
+ "loss": 1.9392,
6804
+ "step": 1130
6805
+ },
6806
+ {
6807
+ "epoch": 0.77,
6808
+ "learning_rate": 0.0005010977337110481,
6809
+ "loss": 1.9353,
6810
+ "step": 1131
6811
+ },
6812
+ {
6813
+ "epoch": 0.77,
6814
+ "learning_rate": 0.0005009915014164305,
6815
+ "loss": 1.8492,
6816
+ "step": 1132
6817
+ },
6818
+ {
6819
+ "epoch": 0.77,
6820
+ "learning_rate": 0.000500885269121813,
6821
+ "loss": 1.9305,
6822
+ "step": 1133
6823
+ },
6824
+ {
6825
+ "epoch": 0.78,
6826
+ "learning_rate": 0.0005007790368271954,
6827
+ "loss": 1.824,
6828
+ "step": 1134
6829
+ },
6830
+ {
6831
+ "epoch": 0.78,
6832
+ "learning_rate": 0.0005006728045325779,
6833
+ "loss": 1.8344,
6834
+ "step": 1135
6835
+ },
6836
+ {
6837
+ "epoch": 0.78,
6838
+ "learning_rate": 0.0005005665722379603,
6839
+ "loss": 1.9966,
6840
+ "step": 1136
6841
+ },
6842
+ {
6843
+ "epoch": 0.78,
6844
+ "learning_rate": 0.0005004603399433428,
6845
+ "loss": 1.9755,
6846
+ "step": 1137
6847
+ },
6848
+ {
6849
+ "epoch": 0.78,
6850
+ "learning_rate": 0.0005003541076487252,
6851
+ "loss": 1.9514,
6852
+ "step": 1138
6853
+ },
6854
+ {
6855
+ "epoch": 0.78,
6856
+ "learning_rate": 0.0005002478753541076,
6857
+ "loss": 1.876,
6858
+ "step": 1139
6859
+ },
6860
+ {
6861
+ "epoch": 0.78,
6862
+ "learning_rate": 0.00050014164305949,
6863
+ "loss": 1.8808,
6864
+ "step": 1140
6865
+ },
6866
+ {
6867
+ "epoch": 0.78,
6868
+ "learning_rate": 0.0005000354107648724,
6869
+ "loss": 1.8629,
6870
+ "step": 1141
6871
+ },
6872
+ {
6873
+ "epoch": 0.78,
6874
+ "learning_rate": 0.0004999291784702549,
6875
+ "loss": 1.8372,
6876
+ "step": 1142
6877
+ },
6878
+ {
6879
+ "epoch": 0.78,
6880
+ "learning_rate": 0.0004998229461756373,
6881
+ "loss": 1.9778,
6882
+ "step": 1143
6883
+ },
6884
+ {
6885
+ "epoch": 0.78,
6886
+ "learning_rate": 0.0004997167138810198,
6887
+ "loss": 1.9397,
6888
+ "step": 1144
6889
+ },
6890
+ {
6891
+ "epoch": 0.78,
6892
+ "learning_rate": 0.0004996104815864022,
6893
+ "loss": 1.9774,
6894
+ "step": 1145
6895
+ },
6896
+ {
6897
+ "epoch": 0.78,
6898
+ "learning_rate": 0.0004995042492917847,
6899
+ "loss": 1.8552,
6900
+ "step": 1146
6901
+ },
6902
+ {
6903
+ "epoch": 0.78,
6904
+ "learning_rate": 0.0004993980169971671,
6905
+ "loss": 1.8838,
6906
+ "step": 1147
6907
+ },
6908
+ {
6909
+ "epoch": 0.78,
6910
+ "learning_rate": 0.0004992917847025496,
6911
+ "loss": 1.981,
6912
+ "step": 1148
6913
+ },
6914
+ {
6915
+ "epoch": 0.79,
6916
+ "learning_rate": 0.000499185552407932,
6917
+ "loss": 1.987,
6918
+ "step": 1149
6919
+ },
6920
+ {
6921
+ "epoch": 0.79,
6922
+ "learning_rate": 0.0004990793201133144,
6923
+ "loss": 1.9077,
6924
+ "step": 1150
6925
+ },
6926
+ {
6927
+ "epoch": 0.79,
6928
+ "learning_rate": 0.0004989730878186969,
6929
+ "loss": 1.9345,
6930
+ "step": 1151
6931
+ },
6932
+ {
6933
+ "epoch": 0.79,
6934
+ "learning_rate": 0.0004988668555240793,
6935
+ "loss": 1.8886,
6936
+ "step": 1152
6937
+ },
6938
+ {
6939
+ "epoch": 0.79,
6940
+ "learning_rate": 0.0004987606232294616,
6941
+ "loss": 1.8028,
6942
+ "step": 1153
6943
+ },
6944
+ {
6945
+ "epoch": 0.79,
6946
+ "learning_rate": 0.0004986543909348441,
6947
+ "loss": 1.8515,
6948
+ "step": 1154
6949
+ },
6950
+ {
6951
+ "epoch": 0.79,
6952
+ "learning_rate": 0.0004985481586402266,
6953
+ "loss": 1.9281,
6954
+ "step": 1155
6955
+ },
6956
+ {
6957
+ "epoch": 0.79,
6958
+ "learning_rate": 0.000498441926345609,
6959
+ "loss": 1.9567,
6960
+ "step": 1156
6961
+ },
6962
+ {
6963
+ "epoch": 0.79,
6964
+ "learning_rate": 0.0004983356940509915,
6965
+ "loss": 1.8555,
6966
+ "step": 1157
6967
+ },
6968
+ {
6969
+ "epoch": 0.79,
6970
+ "learning_rate": 0.0004982294617563739,
6971
+ "loss": 1.9253,
6972
+ "step": 1158
6973
+ },
6974
+ {
6975
+ "epoch": 0.79,
6976
+ "learning_rate": 0.0004981232294617563,
6977
+ "loss": 1.9719,
6978
+ "step": 1159
6979
+ },
6980
+ {
6981
+ "epoch": 0.79,
6982
+ "learning_rate": 0.0004980169971671388,
6983
+ "loss": 1.934,
6984
+ "step": 1160
6985
+ },
6986
+ {
6987
+ "epoch": 0.79,
6988
+ "learning_rate": 0.0004979107648725212,
6989
+ "loss": 1.8554,
6990
+ "step": 1161
6991
+ },
6992
+ {
6993
+ "epoch": 0.79,
6994
+ "learning_rate": 0.0004978045325779037,
6995
+ "loss": 1.9549,
6996
+ "step": 1162
6997
+ },
6998
+ {
6999
+ "epoch": 0.8,
7000
+ "learning_rate": 0.0004976983002832861,
7001
+ "loss": 1.8785,
7002
+ "step": 1163
7003
+ },
7004
+ {
7005
+ "epoch": 0.8,
7006
+ "learning_rate": 0.0004975920679886684,
7007
+ "loss": 1.902,
7008
+ "step": 1164
7009
+ },
7010
+ {
7011
+ "epoch": 0.8,
7012
+ "learning_rate": 0.0004974858356940509,
7013
+ "loss": 1.8741,
7014
+ "step": 1165
7015
+ },
7016
+ {
7017
+ "epoch": 0.8,
7018
+ "learning_rate": 0.0004973796033994334,
7019
+ "loss": 1.9525,
7020
+ "step": 1166
7021
+ },
7022
+ {
7023
+ "epoch": 0.8,
7024
+ "learning_rate": 0.0004972733711048158,
7025
+ "loss": 1.8687,
7026
+ "step": 1167
7027
+ },
7028
+ {
7029
+ "epoch": 0.8,
7030
+ "learning_rate": 0.0004971671388101983,
7031
+ "loss": 1.9317,
7032
+ "step": 1168
7033
+ },
7034
+ {
7035
+ "epoch": 0.8,
7036
+ "learning_rate": 0.0004970609065155807,
7037
+ "loss": 1.937,
7038
+ "step": 1169
7039
+ },
7040
+ {
7041
+ "epoch": 0.8,
7042
+ "learning_rate": 0.0004969546742209631,
7043
+ "loss": 1.917,
7044
+ "step": 1170
7045
+ },
7046
+ {
7047
+ "epoch": 0.8,
7048
+ "learning_rate": 0.0004968484419263456,
7049
+ "loss": 1.9639,
7050
+ "step": 1171
7051
+ },
7052
+ {
7053
+ "epoch": 0.8,
7054
+ "learning_rate": 0.000496742209631728,
7055
+ "loss": 1.908,
7056
+ "step": 1172
7057
+ },
7058
+ {
7059
+ "epoch": 0.8,
7060
+ "learning_rate": 0.0004966359773371104,
7061
+ "loss": 1.8845,
7062
+ "step": 1173
7063
+ },
7064
+ {
7065
+ "epoch": 0.8,
7066
+ "learning_rate": 0.0004965297450424929,
7067
+ "loss": 1.9162,
7068
+ "step": 1174
7069
+ },
7070
+ {
7071
+ "epoch": 0.8,
7072
+ "learning_rate": 0.0004964235127478753,
7073
+ "loss": 1.921,
7074
+ "step": 1175
7075
+ },
7076
+ {
7077
+ "epoch": 0.8,
7078
+ "learning_rate": 0.0004963172804532578,
7079
+ "loss": 1.8296,
7080
+ "step": 1176
7081
+ },
7082
+ {
7083
+ "epoch": 0.8,
7084
+ "learning_rate": 0.0004962110481586403,
7085
+ "loss": 1.8656,
7086
+ "step": 1177
7087
+ },
7088
+ {
7089
+ "epoch": 0.81,
7090
+ "learning_rate": 0.0004961048158640226,
7091
+ "loss": 1.9953,
7092
+ "step": 1178
7093
+ },
7094
+ {
7095
+ "epoch": 0.81,
7096
+ "learning_rate": 0.000495998583569405,
7097
+ "loss": 1.8856,
7098
+ "step": 1179
7099
+ },
7100
+ {
7101
+ "epoch": 0.81,
7102
+ "learning_rate": 0.0004958923512747875,
7103
+ "loss": 1.9518,
7104
+ "step": 1180
7105
+ },
7106
+ {
7107
+ "epoch": 0.81,
7108
+ "learning_rate": 0.0004957861189801699,
7109
+ "loss": 1.9682,
7110
+ "step": 1181
7111
+ },
7112
+ {
7113
+ "epoch": 0.81,
7114
+ "learning_rate": 0.0004956798866855524,
7115
+ "loss": 1.9359,
7116
+ "step": 1182
7117
+ },
7118
+ {
7119
+ "epoch": 0.81,
7120
+ "learning_rate": 0.0004955736543909348,
7121
+ "loss": 1.7835,
7122
+ "step": 1183
7123
+ },
7124
+ {
7125
+ "epoch": 0.81,
7126
+ "learning_rate": 0.0004954674220963172,
7127
+ "loss": 2.0103,
7128
+ "step": 1184
7129
+ },
7130
+ {
7131
+ "epoch": 0.81,
7132
+ "learning_rate": 0.0004953611898016997,
7133
+ "loss": 2.0312,
7134
+ "step": 1185
7135
+ },
7136
+ {
7137
+ "epoch": 0.81,
7138
+ "learning_rate": 0.0004952549575070821,
7139
+ "loss": 1.9787,
7140
+ "step": 1186
7141
+ },
7142
+ {
7143
+ "epoch": 0.81,
7144
+ "learning_rate": 0.0004951487252124646,
7145
+ "loss": 1.9269,
7146
+ "step": 1187
7147
+ },
7148
+ {
7149
+ "epoch": 0.81,
7150
+ "learning_rate": 0.0004950424929178471,
7151
+ "loss": 1.8983,
7152
+ "step": 1188
7153
+ },
7154
+ {
7155
+ "epoch": 0.81,
7156
+ "learning_rate": 0.0004949362606232295,
7157
+ "loss": 1.9233,
7158
+ "step": 1189
7159
+ },
7160
+ {
7161
+ "epoch": 0.81,
7162
+ "learning_rate": 0.0004948300283286118,
7163
+ "loss": 1.9143,
7164
+ "step": 1190
7165
+ },
7166
+ {
7167
+ "epoch": 0.81,
7168
+ "learning_rate": 0.0004947237960339943,
7169
+ "loss": 1.9361,
7170
+ "step": 1191
7171
+ },
7172
+ {
7173
+ "epoch": 0.81,
7174
+ "learning_rate": 0.0004946175637393767,
7175
+ "loss": 2.0513,
7176
+ "step": 1192
7177
+ },
7178
+ {
7179
+ "epoch": 0.82,
7180
+ "learning_rate": 0.0004945113314447591,
7181
+ "loss": 1.8629,
7182
+ "step": 1193
7183
+ },
7184
+ {
7185
+ "epoch": 0.82,
7186
+ "learning_rate": 0.0004944050991501416,
7187
+ "loss": 1.9171,
7188
+ "step": 1194
7189
+ },
7190
+ {
7191
+ "epoch": 0.82,
7192
+ "learning_rate": 0.000494298866855524,
7193
+ "loss": 1.9711,
7194
+ "step": 1195
7195
+ },
7196
+ {
7197
+ "epoch": 0.82,
7198
+ "learning_rate": 0.0004941926345609065,
7199
+ "loss": 1.8462,
7200
+ "step": 1196
7201
+ },
7202
+ {
7203
+ "epoch": 0.82,
7204
+ "learning_rate": 0.0004940864022662889,
7205
+ "loss": 1.9059,
7206
+ "step": 1197
7207
+ },
7208
+ {
7209
+ "epoch": 0.82,
7210
+ "learning_rate": 0.0004939801699716713,
7211
+ "loss": 1.9364,
7212
+ "step": 1198
7213
+ },
7214
+ {
7215
+ "epoch": 0.82,
7216
+ "learning_rate": 0.0004938739376770538,
7217
+ "loss": 1.9621,
7218
+ "step": 1199
7219
+ },
7220
+ {
7221
+ "epoch": 0.82,
7222
+ "learning_rate": 0.0004937677053824363,
7223
+ "loss": 1.9355,
7224
+ "step": 1200
7225
+ },
7226
+ {
7227
+ "epoch": 0.82,
7228
+ "eval_loss": 1.987623929977417,
7229
+ "eval_runtime": 1467.5466,
7230
+ "eval_samples_per_second": 9.909,
7231
+ "eval_steps_per_second": 9.909,
7232
+ "step": 1200
7233
  }
7234
  ],
7235
  "max_steps": 5848,
7236
  "num_train_epochs": 4,
7237
+ "total_flos": 1.469431232616066e+18,
7238
  "trial_name": null,
7239
  "trial_params": null
7240
  }
pytorch_model.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:18d064e377257d8b4962000d02ab7ff4990aabdaf29ea0066e9c7e06266ac53f
3
  size 2368281769
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:485523d0b25487f4a3d1b4546753423187678c8f9d2e0c8e59a5bb81d3922724
3
  size 2368281769