jssky commited on
Commit
77c27d1
·
verified ·
1 Parent(s): 0558952

Training in progress, step 919, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f212644a0cd324f13f98f43316aca08835829b15bf8bfc5508a4c2a894fca74a
3
  size 80792096
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1515b702eceb2f51b86a9fdf1a1ce0ea88ee1a6339e9a98a87eb3042e469511c
3
  size 80792096
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c41407dd6a3fc49049806005f08183644a15d5127931800b1dd67460fa1f776a
3
  size 41460084
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d2f2298f7d9f22736b05dc0d3b31a935f9e586ee545c06b4aa4ae6dfb8c04c0e
3
  size 41460084
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e23933b92c88b26587a4443c950db196e34ce48e3430951403845a7648082839
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:028c7f31433a21c7b3b1e4d127a97a8c315b426a21e4b4211c587af6a44cbe05
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:ed629266a4ba8e17e36ce38d17b5ca21c7fb0604be69080348e4c94fe3590c5a
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:35e84ece30fd0b4a6c153a215e13d9b4959be67da893dc5bfcddc6528f0c0d70
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.750816104461371,
5
  "eval_steps": 230,
6
- "global_step": 690,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -4861,6 +4861,1609 @@
4861
  "eval_samples_per_second": 15.867,
4862
  "eval_steps_per_second": 7.954,
4863
  "step": 690
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4864
  }
4865
  ],
4866
  "logging_steps": 1,
@@ -4875,12 +6478,12 @@
4875
  "should_evaluate": false,
4876
  "should_log": false,
4877
  "should_save": true,
4878
- "should_training_stop": false
4879
  },
4880
  "attributes": {}
4881
  }
4882
  },
4883
- "total_flos": 2.744651772592128e+17,
4884
  "train_batch_size": 2,
4885
  "trial_name": null,
4886
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 1.0,
5
  "eval_steps": 230,
6
+ "global_step": 919,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
4861
  "eval_samples_per_second": 15.867,
4862
  "eval_steps_per_second": 7.954,
4863
  "step": 690
4864
+ },
4865
+ {
4866
+ "epoch": 0.7519042437431991,
4867
+ "grad_norm": 0.21464985609054565,
4868
+ "learning_rate": 2.9472846472869298e-05,
4869
+ "loss": 0.0963,
4870
+ "step": 691
4871
+ },
4872
+ {
4873
+ "epoch": 0.7529923830250272,
4874
+ "grad_norm": 0.19391842186450958,
4875
+ "learning_rate": 2.922825253307947e-05,
4876
+ "loss": 0.078,
4877
+ "step": 692
4878
+ },
4879
+ {
4880
+ "epoch": 0.7540805223068553,
4881
+ "grad_norm": 0.5395727157592773,
4882
+ "learning_rate": 2.898450393337977e-05,
4883
+ "loss": 0.2525,
4884
+ "step": 693
4885
+ },
4886
+ {
4887
+ "epoch": 0.7551686615886833,
4888
+ "grad_norm": 0.25584131479263306,
4889
+ "learning_rate": 2.874160358524931e-05,
4890
+ "loss": 0.1305,
4891
+ "step": 694
4892
+ },
4893
+ {
4894
+ "epoch": 0.7562568008705114,
4895
+ "grad_norm": 0.37683942914009094,
4896
+ "learning_rate": 2.8499554390035143e-05,
4897
+ "loss": 0.1649,
4898
+ "step": 695
4899
+ },
4900
+ {
4901
+ "epoch": 0.7573449401523396,
4902
+ "grad_norm": 0.5291657447814941,
4903
+ "learning_rate": 2.8258359238917665e-05,
4904
+ "loss": 0.401,
4905
+ "step": 696
4906
+ },
4907
+ {
4908
+ "epoch": 0.7584330794341676,
4909
+ "grad_norm": 0.3864194452762604,
4910
+ "learning_rate": 2.8018021012875994e-05,
4911
+ "loss": 0.1678,
4912
+ "step": 697
4913
+ },
4914
+ {
4915
+ "epoch": 0.7595212187159956,
4916
+ "grad_norm": 0.582097589969635,
4917
+ "learning_rate": 2.7778542582653744e-05,
4918
+ "loss": 0.3378,
4919
+ "step": 698
4920
+ },
4921
+ {
4922
+ "epoch": 0.7606093579978237,
4923
+ "grad_norm": 0.5892650485038757,
4924
+ "learning_rate": 2.753992680872457e-05,
4925
+ "loss": 0.3441,
4926
+ "step": 699
4927
+ },
4928
+ {
4929
+ "epoch": 0.7616974972796517,
4930
+ "grad_norm": 0.5687892436981201,
4931
+ "learning_rate": 2.7302176541257986e-05,
4932
+ "loss": 0.1971,
4933
+ "step": 700
4934
+ },
4935
+ {
4936
+ "epoch": 0.7627856365614799,
4937
+ "grad_norm": 0.05355902388691902,
4938
+ "learning_rate": 2.7065294620085424e-05,
4939
+ "loss": 0.04,
4940
+ "step": 701
4941
+ },
4942
+ {
4943
+ "epoch": 0.763873775843308,
4944
+ "grad_norm": 0.06114435940980911,
4945
+ "learning_rate": 2.6829283874666233e-05,
4946
+ "loss": 0.0591,
4947
+ "step": 702
4948
+ },
4949
+ {
4950
+ "epoch": 0.764961915125136,
4951
+ "grad_norm": 0.07170981913805008,
4952
+ "learning_rate": 2.659414712405398e-05,
4953
+ "loss": 0.0786,
4954
+ "step": 703
4955
+ },
4956
+ {
4957
+ "epoch": 0.766050054406964,
4958
+ "grad_norm": 0.06378500908613205,
4959
+ "learning_rate": 2.6359887176862718e-05,
4960
+ "loss": 0.0583,
4961
+ "step": 704
4962
+ },
4963
+ {
4964
+ "epoch": 0.7671381936887922,
4965
+ "grad_norm": 0.07413233816623688,
4966
+ "learning_rate": 2.6126506831233344e-05,
4967
+ "loss": 0.0649,
4968
+ "step": 705
4969
+ },
4970
+ {
4971
+ "epoch": 0.7682263329706203,
4972
+ "grad_norm": 0.08822925388813019,
4973
+ "learning_rate": 2.5894008874800325e-05,
4974
+ "loss": 0.0867,
4975
+ "step": 706
4976
+ },
4977
+ {
4978
+ "epoch": 0.7693144722524483,
4979
+ "grad_norm": 0.08858999609947205,
4980
+ "learning_rate": 2.566239608465838e-05,
4981
+ "loss": 0.097,
4982
+ "step": 707
4983
+ },
4984
+ {
4985
+ "epoch": 0.7704026115342764,
4986
+ "grad_norm": 0.08912277966737747,
4987
+ "learning_rate": 2.543167122732918e-05,
4988
+ "loss": 0.0789,
4989
+ "step": 708
4990
+ },
4991
+ {
4992
+ "epoch": 0.7714907508161044,
4993
+ "grad_norm": 0.09791934490203857,
4994
+ "learning_rate": 2.5201837058728505e-05,
4995
+ "loss": 0.0694,
4996
+ "step": 709
4997
+ },
4998
+ {
4999
+ "epoch": 0.7725788900979326,
5000
+ "grad_norm": 0.08719997853040695,
5001
+ "learning_rate": 2.4972896324133144e-05,
5002
+ "loss": 0.0815,
5003
+ "step": 710
5004
+ },
5005
+ {
5006
+ "epoch": 0.7736670293797606,
5007
+ "grad_norm": 0.09913161396980286,
5008
+ "learning_rate": 2.4744851758148156e-05,
5009
+ "loss": 0.0781,
5010
+ "step": 711
5011
+ },
5012
+ {
5013
+ "epoch": 0.7747551686615887,
5014
+ "grad_norm": 0.09172407537698746,
5015
+ "learning_rate": 2.451770608467432e-05,
5016
+ "loss": 0.0924,
5017
+ "step": 712
5018
+ },
5019
+ {
5020
+ "epoch": 0.7758433079434167,
5021
+ "grad_norm": 0.08026967942714691,
5022
+ "learning_rate": 2.429146201687538e-05,
5023
+ "loss": 0.0716,
5024
+ "step": 713
5025
+ },
5026
+ {
5027
+ "epoch": 0.7769314472252449,
5028
+ "grad_norm": 0.11445032805204391,
5029
+ "learning_rate": 2.4066122257145894e-05,
5030
+ "loss": 0.1015,
5031
+ "step": 714
5032
+ },
5033
+ {
5034
+ "epoch": 0.7780195865070729,
5035
+ "grad_norm": 0.09224435687065125,
5036
+ "learning_rate": 2.3841689497078746e-05,
5037
+ "loss": 0.0694,
5038
+ "step": 715
5039
+ },
5040
+ {
5041
+ "epoch": 0.779107725788901,
5042
+ "grad_norm": 0.08717647194862366,
5043
+ "learning_rate": 2.361816641743303e-05,
5044
+ "loss": 0.0592,
5045
+ "step": 716
5046
+ },
5047
+ {
5048
+ "epoch": 0.780195865070729,
5049
+ "grad_norm": 0.0966147854924202,
5050
+ "learning_rate": 2.339555568810221e-05,
5051
+ "loss": 0.0786,
5052
+ "step": 717
5053
+ },
5054
+ {
5055
+ "epoch": 0.7812840043525572,
5056
+ "grad_norm": 0.1080668717622757,
5057
+ "learning_rate": 2.3173859968081944e-05,
5058
+ "loss": 0.0977,
5059
+ "step": 718
5060
+ },
5061
+ {
5062
+ "epoch": 0.7823721436343852,
5063
+ "grad_norm": 0.10351711511611938,
5064
+ "learning_rate": 2.295308190543859e-05,
5065
+ "loss": 0.0867,
5066
+ "step": 719
5067
+ },
5068
+ {
5069
+ "epoch": 0.7834602829162133,
5070
+ "grad_norm": 0.11572374403476715,
5071
+ "learning_rate": 2.2733224137277366e-05,
5072
+ "loss": 0.0998,
5073
+ "step": 720
5074
+ },
5075
+ {
5076
+ "epoch": 0.7845484221980413,
5077
+ "grad_norm": 0.09316647052764893,
5078
+ "learning_rate": 2.251428928971102e-05,
5079
+ "loss": 0.0702,
5080
+ "step": 721
5081
+ },
5082
+ {
5083
+ "epoch": 0.7856365614798694,
5084
+ "grad_norm": 0.10631789267063141,
5085
+ "learning_rate": 2.2296279977828337e-05,
5086
+ "loss": 0.0631,
5087
+ "step": 722
5088
+ },
5089
+ {
5090
+ "epoch": 0.7867247007616975,
5091
+ "grad_norm": 0.11438383907079697,
5092
+ "learning_rate": 2.2079198805662914e-05,
5093
+ "loss": 0.0969,
5094
+ "step": 723
5095
+ },
5096
+ {
5097
+ "epoch": 0.7878128400435256,
5098
+ "grad_norm": 0.11713221669197083,
5099
+ "learning_rate": 2.1863048366162208e-05,
5100
+ "loss": 0.0966,
5101
+ "step": 724
5102
+ },
5103
+ {
5104
+ "epoch": 0.7889009793253536,
5105
+ "grad_norm": 0.12945635616779327,
5106
+ "learning_rate": 2.1647831241156302e-05,
5107
+ "loss": 0.1063,
5108
+ "step": 725
5109
+ },
5110
+ {
5111
+ "epoch": 0.7899891186071817,
5112
+ "grad_norm": 0.10376941412687302,
5113
+ "learning_rate": 2.1433550001327373e-05,
5114
+ "loss": 0.0658,
5115
+ "step": 726
5116
+ },
5117
+ {
5118
+ "epoch": 0.7910772578890098,
5119
+ "grad_norm": 0.13715630769729614,
5120
+ "learning_rate": 2.1220207206178688e-05,
5121
+ "loss": 0.1085,
5122
+ "step": 727
5123
+ },
5124
+ {
5125
+ "epoch": 0.7921653971708379,
5126
+ "grad_norm": 0.12354642152786255,
5127
+ "learning_rate": 2.1007805404004242e-05,
5128
+ "loss": 0.0897,
5129
+ "step": 728
5130
+ },
5131
+ {
5132
+ "epoch": 0.7932535364526659,
5133
+ "grad_norm": 0.12347663193941116,
5134
+ "learning_rate": 2.0796347131858186e-05,
5135
+ "loss": 0.086,
5136
+ "step": 729
5137
+ },
5138
+ {
5139
+ "epoch": 0.794341675734494,
5140
+ "grad_norm": 0.12429869920015335,
5141
+ "learning_rate": 2.058583491552465e-05,
5142
+ "loss": 0.1008,
5143
+ "step": 730
5144
+ },
5145
+ {
5146
+ "epoch": 0.795429815016322,
5147
+ "grad_norm": 0.12943844497203827,
5148
+ "learning_rate": 2.0376271269487514e-05,
5149
+ "loss": 0.0773,
5150
+ "step": 731
5151
+ },
5152
+ {
5153
+ "epoch": 0.7965179542981502,
5154
+ "grad_norm": 0.1839335411787033,
5155
+ "learning_rate": 2.0167658696900317e-05,
5156
+ "loss": 0.1115,
5157
+ "step": 732
5158
+ },
5159
+ {
5160
+ "epoch": 0.7976060935799782,
5161
+ "grad_norm": 0.15224863588809967,
5162
+ "learning_rate": 1.995999968955641e-05,
5163
+ "loss": 0.0847,
5164
+ "step": 733
5165
+ },
5166
+ {
5167
+ "epoch": 0.7986942328618063,
5168
+ "grad_norm": 0.19822123646736145,
5169
+ "learning_rate": 1.9753296727859195e-05,
5170
+ "loss": 0.1225,
5171
+ "step": 734
5172
+ },
5173
+ {
5174
+ "epoch": 0.7997823721436343,
5175
+ "grad_norm": 0.20507045090198517,
5176
+ "learning_rate": 1.9547552280792524e-05,
5177
+ "loss": 0.104,
5178
+ "step": 735
5179
+ },
5180
+ {
5181
+ "epoch": 0.8008705114254625,
5182
+ "grad_norm": 0.1983303725719452,
5183
+ "learning_rate": 1.9342768805891178e-05,
5184
+ "loss": 0.1208,
5185
+ "step": 736
5186
+ },
5187
+ {
5188
+ "epoch": 0.8019586507072906,
5189
+ "grad_norm": 0.18087254464626312,
5190
+ "learning_rate": 1.9138948749211472e-05,
5191
+ "loss": 0.1085,
5192
+ "step": 737
5193
+ },
5194
+ {
5195
+ "epoch": 0.8030467899891186,
5196
+ "grad_norm": 0.20106813311576843,
5197
+ "learning_rate": 1.8936094545302095e-05,
5198
+ "loss": 0.106,
5199
+ "step": 738
5200
+ },
5201
+ {
5202
+ "epoch": 0.8041349292709467,
5203
+ "grad_norm": 0.2678329348564148,
5204
+ "learning_rate": 1.8734208617174988e-05,
5205
+ "loss": 0.1376,
5206
+ "step": 739
5207
+ },
5208
+ {
5209
+ "epoch": 0.8052230685527747,
5210
+ "grad_norm": 0.3087542951107025,
5211
+ "learning_rate": 1.8533293376276472e-05,
5212
+ "loss": 0.1685,
5213
+ "step": 740
5214
+ },
5215
+ {
5216
+ "epoch": 0.8063112078346029,
5217
+ "grad_norm": 0.21778535842895508,
5218
+ "learning_rate": 1.8333351222458407e-05,
5219
+ "loss": 0.1088,
5220
+ "step": 741
5221
+ },
5222
+ {
5223
+ "epoch": 0.8073993471164309,
5224
+ "grad_norm": 0.30875080823898315,
5225
+ "learning_rate": 1.8134384543949478e-05,
5226
+ "loss": 0.1272,
5227
+ "step": 742
5228
+ },
5229
+ {
5230
+ "epoch": 0.808487486398259,
5231
+ "grad_norm": 0.28981634974479675,
5232
+ "learning_rate": 1.7936395717326704e-05,
5233
+ "loss": 0.0876,
5234
+ "step": 743
5235
+ },
5236
+ {
5237
+ "epoch": 0.809575625680087,
5238
+ "grad_norm": 0.4402623474597931,
5239
+ "learning_rate": 1.773938710748706e-05,
5240
+ "loss": 0.1671,
5241
+ "step": 744
5242
+ },
5243
+ {
5244
+ "epoch": 0.8106637649619152,
5245
+ "grad_norm": 0.3520585894584656,
5246
+ "learning_rate": 1.754336106761927e-05,
5247
+ "loss": 0.1063,
5248
+ "step": 745
5249
+ },
5250
+ {
5251
+ "epoch": 0.8117519042437432,
5252
+ "grad_norm": 0.31854307651519775,
5253
+ "learning_rate": 1.7348319939175637e-05,
5254
+ "loss": 0.1521,
5255
+ "step": 746
5256
+ },
5257
+ {
5258
+ "epoch": 0.8128400435255713,
5259
+ "grad_norm": 0.4468978941440582,
5260
+ "learning_rate": 1.715426605184407e-05,
5261
+ "loss": 0.2484,
5262
+ "step": 747
5263
+ },
5264
+ {
5265
+ "epoch": 0.8139281828073993,
5266
+ "grad_norm": 0.385442316532135,
5267
+ "learning_rate": 1.696120172352025e-05,
5268
+ "loss": 0.2066,
5269
+ "step": 748
5270
+ },
5271
+ {
5272
+ "epoch": 0.8150163220892275,
5273
+ "grad_norm": 0.5463036894798279,
5274
+ "learning_rate": 1.676912926028007e-05,
5275
+ "loss": 0.2398,
5276
+ "step": 749
5277
+ },
5278
+ {
5279
+ "epoch": 0.8161044613710555,
5280
+ "grad_norm": 0.8237993717193604,
5281
+ "learning_rate": 1.6578050956351886e-05,
5282
+ "loss": 0.2319,
5283
+ "step": 750
5284
+ },
5285
+ {
5286
+ "epoch": 0.8171926006528836,
5287
+ "grad_norm": 0.056420858949422836,
5288
+ "learning_rate": 1.6387969094089316e-05,
5289
+ "loss": 0.0726,
5290
+ "step": 751
5291
+ },
5292
+ {
5293
+ "epoch": 0.8182807399347116,
5294
+ "grad_norm": 0.0559864416718483,
5295
+ "learning_rate": 1.619888594394382e-05,
5296
+ "loss": 0.0535,
5297
+ "step": 752
5298
+ },
5299
+ {
5300
+ "epoch": 0.8193688792165397,
5301
+ "grad_norm": 0.0695619061589241,
5302
+ "learning_rate": 1.601080376443763e-05,
5303
+ "loss": 0.0764,
5304
+ "step": 753
5305
+ },
5306
+ {
5307
+ "epoch": 0.8204570184983678,
5308
+ "grad_norm": 0.06585152447223663,
5309
+ "learning_rate": 1.5823724802136865e-05,
5310
+ "loss": 0.0583,
5311
+ "step": 754
5312
+ },
5313
+ {
5314
+ "epoch": 0.8215451577801959,
5315
+ "grad_norm": 0.09294595569372177,
5316
+ "learning_rate": 1.5637651291624523e-05,
5317
+ "loss": 0.0952,
5318
+ "step": 755
5319
+ },
5320
+ {
5321
+ "epoch": 0.8226332970620239,
5322
+ "grad_norm": 0.07608404755592346,
5323
+ "learning_rate": 1.5452585455473977e-05,
5324
+ "loss": 0.0665,
5325
+ "step": 756
5326
+ },
5327
+ {
5328
+ "epoch": 0.823721436343852,
5329
+ "grad_norm": 0.09707889705896378,
5330
+ "learning_rate": 1.526852950422226e-05,
5331
+ "loss": 0.101,
5332
+ "step": 757
5333
+ },
5334
+ {
5335
+ "epoch": 0.8248095756256801,
5336
+ "grad_norm": 0.086356520652771,
5337
+ "learning_rate": 1.5085485636343755e-05,
5338
+ "loss": 0.0713,
5339
+ "step": 758
5340
+ },
5341
+ {
5342
+ "epoch": 0.8258977149075082,
5343
+ "grad_norm": 0.10413988679647446,
5344
+ "learning_rate": 1.4903456038223939e-05,
5345
+ "loss": 0.0931,
5346
+ "step": 759
5347
+ },
5348
+ {
5349
+ "epoch": 0.8269858541893362,
5350
+ "grad_norm": 0.11106099933385849,
5351
+ "learning_rate": 1.4722442884133214e-05,
5352
+ "loss": 0.0637,
5353
+ "step": 760
5354
+ },
5355
+ {
5356
+ "epoch": 0.8280739934711643,
5357
+ "grad_norm": 0.07780591398477554,
5358
+ "learning_rate": 1.454244833620102e-05,
5359
+ "loss": 0.0736,
5360
+ "step": 761
5361
+ },
5362
+ {
5363
+ "epoch": 0.8291621327529923,
5364
+ "grad_norm": 0.08770725876092911,
5365
+ "learning_rate": 1.4363474544389877e-05,
5366
+ "loss": 0.0743,
5367
+ "step": 762
5368
+ },
5369
+ {
5370
+ "epoch": 0.8302502720348205,
5371
+ "grad_norm": 0.10190238058567047,
5372
+ "learning_rate": 1.4185523646469822e-05,
5373
+ "loss": 0.0983,
5374
+ "step": 763
5375
+ },
5376
+ {
5377
+ "epoch": 0.8313384113166485,
5378
+ "grad_norm": 0.09307550638914108,
5379
+ "learning_rate": 1.4008597767992871e-05,
5380
+ "loss": 0.0814,
5381
+ "step": 764
5382
+ },
5383
+ {
5384
+ "epoch": 0.8324265505984766,
5385
+ "grad_norm": 0.1155632883310318,
5386
+ "learning_rate": 1.3832699022267515e-05,
5387
+ "loss": 0.0876,
5388
+ "step": 765
5389
+ },
5390
+ {
5391
+ "epoch": 0.8335146898803046,
5392
+ "grad_norm": 0.09275174140930176,
5393
+ "learning_rate": 1.3657829510333654e-05,
5394
+ "loss": 0.0754,
5395
+ "step": 766
5396
+ },
5397
+ {
5398
+ "epoch": 0.8346028291621328,
5399
+ "grad_norm": 0.08752154558897018,
5400
+ "learning_rate": 1.3483991320937306e-05,
5401
+ "loss": 0.0775,
5402
+ "step": 767
5403
+ },
5404
+ {
5405
+ "epoch": 0.8356909684439608,
5406
+ "grad_norm": 0.10071904957294464,
5407
+ "learning_rate": 1.3311186530505838e-05,
5408
+ "loss": 0.0957,
5409
+ "step": 768
5410
+ },
5411
+ {
5412
+ "epoch": 0.8367791077257889,
5413
+ "grad_norm": 0.11828504502773285,
5414
+ "learning_rate": 1.3139417203123027e-05,
5415
+ "loss": 0.0915,
5416
+ "step": 769
5417
+ },
5418
+ {
5419
+ "epoch": 0.8378672470076169,
5420
+ "grad_norm": 0.1135001927614212,
5421
+ "learning_rate": 1.2968685390504465e-05,
5422
+ "loss": 0.0925,
5423
+ "step": 770
5424
+ },
5425
+ {
5426
+ "epoch": 0.8389553862894451,
5427
+ "grad_norm": 0.10750744491815567,
5428
+ "learning_rate": 1.2798993131973091e-05,
5429
+ "loss": 0.0955,
5430
+ "step": 771
5431
+ },
5432
+ {
5433
+ "epoch": 0.8400435255712732,
5434
+ "grad_norm": 0.1162073016166687,
5435
+ "learning_rate": 1.263034245443473e-05,
5436
+ "loss": 0.089,
5437
+ "step": 772
5438
+ },
5439
+ {
5440
+ "epoch": 0.8411316648531012,
5441
+ "grad_norm": 0.12537071108818054,
5442
+ "learning_rate": 1.2462735372353996e-05,
5443
+ "loss": 0.0955,
5444
+ "step": 773
5445
+ },
5446
+ {
5447
+ "epoch": 0.8422198041349293,
5448
+ "grad_norm": 0.13251665234565735,
5449
+ "learning_rate": 1.2296173887730123e-05,
5450
+ "loss": 0.1036,
5451
+ "step": 774
5452
+ },
5453
+ {
5454
+ "epoch": 0.8433079434167573,
5455
+ "grad_norm": 0.13233721256256104,
5456
+ "learning_rate": 1.2130659990073146e-05,
5457
+ "loss": 0.1139,
5458
+ "step": 775
5459
+ },
5460
+ {
5461
+ "epoch": 0.8443960826985855,
5462
+ "grad_norm": 0.1206088662147522,
5463
+ "learning_rate": 1.1966195656380031e-05,
5464
+ "loss": 0.0853,
5465
+ "step": 776
5466
+ },
5467
+ {
5468
+ "epoch": 0.8454842219804135,
5469
+ "grad_norm": 0.10946936160326004,
5470
+ "learning_rate": 1.1802782851111205e-05,
5471
+ "loss": 0.074,
5472
+ "step": 777
5473
+ },
5474
+ {
5475
+ "epoch": 0.8465723612622416,
5476
+ "grad_norm": 0.1602969467639923,
5477
+ "learning_rate": 1.1640423526166988e-05,
5478
+ "loss": 0.1153,
5479
+ "step": 778
5480
+ },
5481
+ {
5482
+ "epoch": 0.8476605005440696,
5483
+ "grad_norm": 0.1147325336933136,
5484
+ "learning_rate": 1.1479119620864276e-05,
5485
+ "loss": 0.0542,
5486
+ "step": 779
5487
+ },
5488
+ {
5489
+ "epoch": 0.8487486398258978,
5490
+ "grad_norm": 0.16215886175632477,
5491
+ "learning_rate": 1.1318873061913405e-05,
5492
+ "loss": 0.1048,
5493
+ "step": 780
5494
+ },
5495
+ {
5496
+ "epoch": 0.8498367791077258,
5497
+ "grad_norm": 0.15750151872634888,
5498
+ "learning_rate": 1.1159685763395111e-05,
5499
+ "loss": 0.1229,
5500
+ "step": 781
5501
+ },
5502
+ {
5503
+ "epoch": 0.8509249183895539,
5504
+ "grad_norm": 0.16287699341773987,
5505
+ "learning_rate": 1.1001559626737756e-05,
5506
+ "loss": 0.0973,
5507
+ "step": 782
5508
+ },
5509
+ {
5510
+ "epoch": 0.8520130576713819,
5511
+ "grad_norm": 0.14996270835399628,
5512
+ "learning_rate": 1.0844496540694515e-05,
5513
+ "loss": 0.0959,
5514
+ "step": 783
5515
+ },
5516
+ {
5517
+ "epoch": 0.85310119695321,
5518
+ "grad_norm": 0.2524786591529846,
5519
+ "learning_rate": 1.0688498381320855e-05,
5520
+ "loss": 0.255,
5521
+ "step": 784
5522
+ },
5523
+ {
5524
+ "epoch": 0.8541893362350381,
5525
+ "grad_norm": 0.19718289375305176,
5526
+ "learning_rate": 1.0533567011952094e-05,
5527
+ "loss": 0.1131,
5528
+ "step": 785
5529
+ },
5530
+ {
5531
+ "epoch": 0.8552774755168662,
5532
+ "grad_norm": 0.21403737366199493,
5533
+ "learning_rate": 1.0379704283181179e-05,
5534
+ "loss": 0.1055,
5535
+ "step": 786
5536
+ },
5537
+ {
5538
+ "epoch": 0.8563656147986942,
5539
+ "grad_norm": 0.2776722013950348,
5540
+ "learning_rate": 1.0226912032836611e-05,
5541
+ "loss": 0.1149,
5542
+ "step": 787
5543
+ },
5544
+ {
5545
+ "epoch": 0.8574537540805223,
5546
+ "grad_norm": 0.2056991308927536,
5547
+ "learning_rate": 1.007519208596045e-05,
5548
+ "loss": 0.078,
5549
+ "step": 788
5550
+ },
5551
+ {
5552
+ "epoch": 0.8585418933623504,
5553
+ "grad_norm": 0.3096133768558502,
5554
+ "learning_rate": 9.924546254786493e-06,
5555
+ "loss": 0.1237,
5556
+ "step": 789
5557
+ },
5558
+ {
5559
+ "epoch": 0.8596300326441785,
5560
+ "grad_norm": 0.38796815276145935,
5561
+ "learning_rate": 9.774976338718677e-06,
5562
+ "loss": 0.1631,
5563
+ "step": 790
5564
+ },
5565
+ {
5566
+ "epoch": 0.8607181719260065,
5567
+ "grad_norm": 0.2669233977794647,
5568
+ "learning_rate": 9.62648412430951e-06,
5569
+ "loss": 0.1011,
5570
+ "step": 791
5571
+ },
5572
+ {
5573
+ "epoch": 0.8618063112078346,
5574
+ "grad_norm": 0.4013719856739044,
5575
+ "learning_rate": 9.479071385238892e-06,
5576
+ "loss": 0.2422,
5577
+ "step": 792
5578
+ },
5579
+ {
5580
+ "epoch": 0.8628944504896626,
5581
+ "grad_norm": 0.35241514444351196,
5582
+ "learning_rate": 9.332739882292752e-06,
5583
+ "loss": 0.1604,
5584
+ "step": 793
5585
+ },
5586
+ {
5587
+ "epoch": 0.8639825897714908,
5588
+ "grad_norm": 0.3863401710987091,
5589
+ "learning_rate": 9.187491363342093e-06,
5590
+ "loss": 0.1977,
5591
+ "step": 794
5592
+ },
5593
+ {
5594
+ "epoch": 0.8650707290533188,
5595
+ "grad_norm": 0.4365151524543762,
5596
+ "learning_rate": 9.043327563322112e-06,
5597
+ "loss": 0.2164,
5598
+ "step": 795
5599
+ },
5600
+ {
5601
+ "epoch": 0.8661588683351469,
5602
+ "grad_norm": 0.4250886142253876,
5603
+ "learning_rate": 8.900250204211514e-06,
5604
+ "loss": 0.2607,
5605
+ "step": 796
5606
+ },
5607
+ {
5608
+ "epoch": 0.8672470076169749,
5609
+ "grad_norm": 0.6903502345085144,
5610
+ "learning_rate": 8.758260995011825e-06,
5611
+ "loss": 0.2994,
5612
+ "step": 797
5613
+ },
5614
+ {
5615
+ "epoch": 0.8683351468988031,
5616
+ "grad_norm": 0.6091783046722412,
5617
+ "learning_rate": 8.617361631727138e-06,
5618
+ "loss": 0.3278,
5619
+ "step": 798
5620
+ },
5621
+ {
5622
+ "epoch": 0.8694232861806311,
5623
+ "grad_norm": 0.7825955152511597,
5624
+ "learning_rate": 8.47755379734373e-06,
5625
+ "loss": 0.2998,
5626
+ "step": 799
5627
+ },
5628
+ {
5629
+ "epoch": 0.8705114254624592,
5630
+ "grad_norm": 0.5094212293624878,
5631
+ "learning_rate": 8.338839161809997e-06,
5632
+ "loss": 0.1437,
5633
+ "step": 800
5634
+ },
5635
+ {
5636
+ "epoch": 0.8715995647442872,
5637
+ "grad_norm": 0.047669120132923126,
5638
+ "learning_rate": 8.201219382016556e-06,
5639
+ "loss": 0.0489,
5640
+ "step": 801
5641
+ },
5642
+ {
5643
+ "epoch": 0.8726877040261154,
5644
+ "grad_norm": 0.06768417358398438,
5645
+ "learning_rate": 8.064696101776358e-06,
5646
+ "loss": 0.0689,
5647
+ "step": 802
5648
+ },
5649
+ {
5650
+ "epoch": 0.8737758433079434,
5651
+ "grad_norm": 0.06095738708972931,
5652
+ "learning_rate": 7.929270951805178e-06,
5653
+ "loss": 0.0639,
5654
+ "step": 803
5655
+ },
5656
+ {
5657
+ "epoch": 0.8748639825897715,
5658
+ "grad_norm": 0.07757483422756195,
5659
+ "learning_rate": 7.794945549701993e-06,
5660
+ "loss": 0.077,
5661
+ "step": 804
5662
+ },
5663
+ {
5664
+ "epoch": 0.8759521218715995,
5665
+ "grad_norm": 0.07621616870164871,
5666
+ "learning_rate": 7.661721499929753e-06,
5667
+ "loss": 0.0679,
5668
+ "step": 805
5669
+ },
5670
+ {
5671
+ "epoch": 0.8770402611534276,
5672
+ "grad_norm": 0.06622826308012009,
5673
+ "learning_rate": 7.529600393796232e-06,
5674
+ "loss": 0.0554,
5675
+ "step": 806
5676
+ },
5677
+ {
5678
+ "epoch": 0.8781284004352558,
5679
+ "grad_norm": 0.0733778178691864,
5680
+ "learning_rate": 7.3985838094349444e-06,
5681
+ "loss": 0.0443,
5682
+ "step": 807
5683
+ },
5684
+ {
5685
+ "epoch": 0.8792165397170838,
5686
+ "grad_norm": 0.0740467980504036,
5687
+ "learning_rate": 7.2686733117863784e-06,
5688
+ "loss": 0.0663,
5689
+ "step": 808
5690
+ },
5691
+ {
5692
+ "epoch": 0.8803046789989118,
5693
+ "grad_norm": 0.073309525847435,
5694
+ "learning_rate": 7.1398704525792e-06,
5695
+ "loss": 0.0549,
5696
+ "step": 809
5697
+ },
5698
+ {
5699
+ "epoch": 0.8813928182807399,
5700
+ "grad_norm": 0.08254940807819366,
5701
+ "learning_rate": 7.012176770311862e-06,
5702
+ "loss": 0.0849,
5703
+ "step": 810
5704
+ },
5705
+ {
5706
+ "epoch": 0.8824809575625681,
5707
+ "grad_norm": 0.0972483903169632,
5708
+ "learning_rate": 6.8855937902340576e-06,
5709
+ "loss": 0.0861,
5710
+ "step": 811
5711
+ },
5712
+ {
5713
+ "epoch": 0.8835690968443961,
5714
+ "grad_norm": 0.08929561078548431,
5715
+ "learning_rate": 6.760123024328624e-06,
5716
+ "loss": 0.0626,
5717
+ "step": 812
5718
+ },
5719
+ {
5720
+ "epoch": 0.8846572361262242,
5721
+ "grad_norm": 0.08776423335075378,
5722
+ "learning_rate": 6.635765971293484e-06,
5723
+ "loss": 0.0781,
5724
+ "step": 813
5725
+ },
5726
+ {
5727
+ "epoch": 0.8857453754080522,
5728
+ "grad_norm": 0.09048158675432205,
5729
+ "learning_rate": 6.512524116523633e-06,
5730
+ "loss": 0.0748,
5731
+ "step": 814
5732
+ },
5733
+ {
5734
+ "epoch": 0.8868335146898803,
5735
+ "grad_norm": 0.09002123028039932,
5736
+ "learning_rate": 6.390398932093555e-06,
5737
+ "loss": 0.0743,
5738
+ "step": 815
5739
+ },
5740
+ {
5741
+ "epoch": 0.8879216539717084,
5742
+ "grad_norm": 0.08896075189113617,
5743
+ "learning_rate": 6.269391876739495e-06,
5744
+ "loss": 0.0759,
5745
+ "step": 816
5746
+ },
5747
+ {
5748
+ "epoch": 0.8890097932535365,
5749
+ "grad_norm": 0.09824143350124359,
5750
+ "learning_rate": 6.149504395842087e-06,
5751
+ "loss": 0.0944,
5752
+ "step": 817
5753
+ },
5754
+ {
5755
+ "epoch": 0.8900979325353645,
5756
+ "grad_norm": 0.11370905488729477,
5757
+ "learning_rate": 6.030737921409169e-06,
5758
+ "loss": 0.1098,
5759
+ "step": 818
5760
+ },
5761
+ {
5762
+ "epoch": 0.8911860718171926,
5763
+ "grad_norm": 0.09926322102546692,
5764
+ "learning_rate": 5.913093872058528e-06,
5765
+ "loss": 0.0721,
5766
+ "step": 819
5767
+ },
5768
+ {
5769
+ "epoch": 0.8922742110990207,
5770
+ "grad_norm": 0.11143568158149719,
5771
+ "learning_rate": 5.7965736530010916e-06,
5772
+ "loss": 0.0838,
5773
+ "step": 820
5774
+ },
5775
+ {
5776
+ "epoch": 0.8933623503808488,
5777
+ "grad_norm": 0.10661139339208603,
5778
+ "learning_rate": 5.681178656024055e-06,
5779
+ "loss": 0.0828,
5780
+ "step": 821
5781
+ },
5782
+ {
5783
+ "epoch": 0.8944504896626768,
5784
+ "grad_norm": 0.09252527356147766,
5785
+ "learning_rate": 5.566910259474289e-06,
5786
+ "loss": 0.0607,
5787
+ "step": 822
5788
+ },
5789
+ {
5790
+ "epoch": 0.8955386289445049,
5791
+ "grad_norm": 0.11243504285812378,
5792
+ "learning_rate": 5.453769828241872e-06,
5793
+ "loss": 0.0883,
5794
+ "step": 823
5795
+ },
5796
+ {
5797
+ "epoch": 0.8966267682263329,
5798
+ "grad_norm": 0.08846960961818695,
5799
+ "learning_rate": 5.341758713743828e-06,
5800
+ "loss": 0.0726,
5801
+ "step": 824
5802
+ },
5803
+ {
5804
+ "epoch": 0.8977149075081611,
5805
+ "grad_norm": 0.09837763756513596,
5806
+ "learning_rate": 5.230878253907912e-06,
5807
+ "loss": 0.0761,
5808
+ "step": 825
5809
+ },
5810
+ {
5811
+ "epoch": 0.8988030467899891,
5812
+ "grad_norm": 0.0819426029920578,
5813
+ "learning_rate": 5.121129773156663e-06,
5814
+ "loss": 0.0521,
5815
+ "step": 826
5816
+ },
5817
+ {
5818
+ "epoch": 0.8998911860718172,
5819
+ "grad_norm": 0.11781435459852219,
5820
+ "learning_rate": 5.012514582391592e-06,
5821
+ "loss": 0.0843,
5822
+ "step": 827
5823
+ },
5824
+ {
5825
+ "epoch": 0.9009793253536452,
5826
+ "grad_norm": 0.1131996214389801,
5827
+ "learning_rate": 4.905033978977491e-06,
5828
+ "loss": 0.0716,
5829
+ "step": 828
5830
+ },
5831
+ {
5832
+ "epoch": 0.9020674646354734,
5833
+ "grad_norm": 0.11639894545078278,
5834
+ "learning_rate": 4.798689246727006e-06,
5835
+ "loss": 0.0872,
5836
+ "step": 829
5837
+ },
5838
+ {
5839
+ "epoch": 0.9031556039173014,
5840
+ "grad_norm": 0.12089676409959793,
5841
+ "learning_rate": 4.693481655885257e-06,
5842
+ "loss": 0.0776,
5843
+ "step": 830
5844
+ },
5845
+ {
5846
+ "epoch": 0.9042437431991295,
5847
+ "grad_norm": 0.13454534113407135,
5848
+ "learning_rate": 4.58941246311464e-06,
5849
+ "loss": 0.0824,
5850
+ "step": 831
5851
+ },
5852
+ {
5853
+ "epoch": 0.9053318824809575,
5854
+ "grad_norm": 0.13089610636234283,
5855
+ "learning_rate": 4.486482911479839e-06,
5856
+ "loss": 0.0841,
5857
+ "step": 832
5858
+ },
5859
+ {
5860
+ "epoch": 0.9064200217627857,
5861
+ "grad_norm": 0.12023388594388962,
5862
+ "learning_rate": 4.384694230432984e-06,
5863
+ "loss": 0.0799,
5864
+ "step": 833
5865
+ },
5866
+ {
5867
+ "epoch": 0.9075081610446137,
5868
+ "grad_norm": 0.17653657495975494,
5869
+ "learning_rate": 4.2840476357989825e-06,
5870
+ "loss": 0.1006,
5871
+ "step": 834
5872
+ },
5873
+ {
5874
+ "epoch": 0.9085963003264418,
5875
+ "grad_norm": 0.16812124848365784,
5876
+ "learning_rate": 4.184544329761009e-06,
5877
+ "loss": 0.0959,
5878
+ "step": 835
5879
+ },
5880
+ {
5881
+ "epoch": 0.9096844396082698,
5882
+ "grad_norm": 0.12245675921440125,
5883
+ "learning_rate": 4.0861855008460405e-06,
5884
+ "loss": 0.0525,
5885
+ "step": 836
5886
+ },
5887
+ {
5888
+ "epoch": 0.9107725788900979,
5889
+ "grad_norm": 0.17066197097301483,
5890
+ "learning_rate": 3.988972323910778e-06,
5891
+ "loss": 0.0974,
5892
+ "step": 837
5893
+ },
5894
+ {
5895
+ "epoch": 0.911860718171926,
5896
+ "grad_norm": 0.23829351365566254,
5897
+ "learning_rate": 3.892905960127546e-06,
5898
+ "loss": 0.1489,
5899
+ "step": 838
5900
+ },
5901
+ {
5902
+ "epoch": 0.9129488574537541,
5903
+ "grad_norm": 0.18741947412490845,
5904
+ "learning_rate": 3.797987556970495e-06,
5905
+ "loss": 0.0845,
5906
+ "step": 839
5907
+ },
5908
+ {
5909
+ "epoch": 0.9140369967355821,
5910
+ "grad_norm": 0.31613054871559143,
5911
+ "learning_rate": 3.7042182482018075e-06,
5912
+ "loss": 0.1522,
5913
+ "step": 840
5914
+ },
5915
+ {
5916
+ "epoch": 0.9151251360174102,
5917
+ "grad_norm": 0.30818799138069153,
5918
+ "learning_rate": 3.611599153858214e-06,
5919
+ "loss": 0.1807,
5920
+ "step": 841
5921
+ },
5922
+ {
5923
+ "epoch": 0.9162132752992383,
5924
+ "grad_norm": 0.19653384387493134,
5925
+ "learning_rate": 3.5201313802375456e-06,
5926
+ "loss": 0.073,
5927
+ "step": 842
5928
+ },
5929
+ {
5930
+ "epoch": 0.9173014145810664,
5931
+ "grad_norm": 0.311813622713089,
5932
+ "learning_rate": 3.4298160198856568e-06,
5933
+ "loss": 0.1273,
5934
+ "step": 843
5935
+ },
5936
+ {
5937
+ "epoch": 0.9183895538628944,
5938
+ "grad_norm": 0.3088919520378113,
5939
+ "learning_rate": 3.3406541515832003e-06,
5940
+ "loss": 0.1707,
5941
+ "step": 844
5942
+ },
5943
+ {
5944
+ "epoch": 0.9194776931447225,
5945
+ "grad_norm": 0.34374913573265076,
5946
+ "learning_rate": 3.252646840332918e-06,
5947
+ "loss": 0.1326,
5948
+ "step": 845
5949
+ },
5950
+ {
5951
+ "epoch": 0.9205658324265505,
5952
+ "grad_norm": 0.4254063069820404,
5953
+ "learning_rate": 3.1657951373467497e-06,
5954
+ "loss": 0.2334,
5955
+ "step": 846
5956
+ },
5957
+ {
5958
+ "epoch": 0.9216539717083787,
5959
+ "grad_norm": 0.3956216275691986,
5960
+ "learning_rate": 3.0801000800333877e-06,
5961
+ "loss": 0.2152,
5962
+ "step": 847
5963
+ },
5964
+ {
5965
+ "epoch": 0.9227421109902068,
5966
+ "grad_norm": 0.41808605194091797,
5967
+ "learning_rate": 2.995562691985898e-06,
5968
+ "loss": 0.1875,
5969
+ "step": 848
5970
+ },
5971
+ {
5972
+ "epoch": 0.9238302502720348,
5973
+ "grad_norm": 0.48160499334335327,
5974
+ "learning_rate": 2.912183982969385e-06,
5975
+ "loss": 0.1849,
5976
+ "step": 849
5977
+ },
5978
+ {
5979
+ "epoch": 0.9249183895538629,
5980
+ "grad_norm": 0.5654423832893372,
5981
+ "learning_rate": 2.8299649489090475e-06,
5982
+ "loss": 0.175,
5983
+ "step": 850
5984
+ },
5985
+ {
5986
+ "epoch": 0.926006528835691,
5987
+ "grad_norm": 0.04587412625551224,
5988
+ "learning_rate": 2.748906571878207e-06,
5989
+ "loss": 0.0362,
5990
+ "step": 851
5991
+ },
5992
+ {
5993
+ "epoch": 0.9270946681175191,
5994
+ "grad_norm": 0.05238286778330803,
5995
+ "learning_rate": 2.6690098200866098e-06,
5996
+ "loss": 0.0459,
5997
+ "step": 852
5998
+ },
5999
+ {
6000
+ "epoch": 0.9281828073993471,
6001
+ "grad_norm": 0.05864802002906799,
6002
+ "learning_rate": 2.590275647868867e-06,
6003
+ "loss": 0.0568,
6004
+ "step": 853
6005
+ },
6006
+ {
6007
+ "epoch": 0.9292709466811752,
6008
+ "grad_norm": 0.06772205978631973,
6009
+ "learning_rate": 2.5127049956730207e-06,
6010
+ "loss": 0.0671,
6011
+ "step": 854
6012
+ },
6013
+ {
6014
+ "epoch": 0.9303590859630033,
6015
+ "grad_norm": 0.07428263127803802,
6016
+ "learning_rate": 2.436298790049363e-06,
6017
+ "loss": 0.0653,
6018
+ "step": 855
6019
+ },
6020
+ {
6021
+ "epoch": 0.9314472252448314,
6022
+ "grad_norm": 0.06716316193342209,
6023
+ "learning_rate": 2.3610579436393e-06,
6024
+ "loss": 0.0608,
6025
+ "step": 856
6026
+ },
6027
+ {
6028
+ "epoch": 0.9325353645266594,
6029
+ "grad_norm": 0.07774016261100769,
6030
+ "learning_rate": 2.286983355164529e-06,
6031
+ "loss": 0.0641,
6032
+ "step": 857
6033
+ },
6034
+ {
6035
+ "epoch": 0.9336235038084875,
6036
+ "grad_norm": 0.07007763534784317,
6037
+ "learning_rate": 2.2140759094162467e-06,
6038
+ "loss": 0.0688,
6039
+ "step": 858
6040
+ },
6041
+ {
6042
+ "epoch": 0.9347116430903155,
6043
+ "grad_norm": 0.08392661809921265,
6044
+ "learning_rate": 2.1423364772445887e-06,
6045
+ "loss": 0.0862,
6046
+ "step": 859
6047
+ },
6048
+ {
6049
+ "epoch": 0.9357997823721437,
6050
+ "grad_norm": 0.08616143465042114,
6051
+ "learning_rate": 2.0717659155482738e-06,
6052
+ "loss": 0.084,
6053
+ "step": 860
6054
+ },
6055
+ {
6056
+ "epoch": 0.9368879216539717,
6057
+ "grad_norm": 0.08230069279670715,
6058
+ "learning_rate": 2.002365067264289e-06,
6059
+ "loss": 0.0671,
6060
+ "step": 861
6061
+ },
6062
+ {
6063
+ "epoch": 0.9379760609357998,
6064
+ "grad_norm": 0.10698749870061874,
6065
+ "learning_rate": 1.9341347613579087e-06,
6066
+ "loss": 0.0856,
6067
+ "step": 862
6068
+ },
6069
+ {
6070
+ "epoch": 0.9390642002176278,
6071
+ "grad_norm": 0.07910988479852676,
6072
+ "learning_rate": 1.8670758128126909e-06,
6073
+ "loss": 0.0643,
6074
+ "step": 863
6075
+ },
6076
+ {
6077
+ "epoch": 0.940152339499456,
6078
+ "grad_norm": 0.08783937990665436,
6079
+ "learning_rate": 1.8011890226208527e-06,
6080
+ "loss": 0.0921,
6081
+ "step": 864
6082
+ },
6083
+ {
6084
+ "epoch": 0.941240478781284,
6085
+ "grad_norm": 0.09200912714004517,
6086
+ "learning_rate": 1.7364751777736332e-06,
6087
+ "loss": 0.0853,
6088
+ "step": 865
6089
+ },
6090
+ {
6091
+ "epoch": 0.9423286180631121,
6092
+ "grad_norm": 0.0886380597949028,
6093
+ "learning_rate": 1.6729350512519005e-06,
6094
+ "loss": 0.0655,
6095
+ "step": 866
6096
+ },
6097
+ {
6098
+ "epoch": 0.9434167573449401,
6099
+ "grad_norm": 0.08538145571947098,
6100
+ "learning_rate": 1.6105694020169593e-06,
6101
+ "loss": 0.069,
6102
+ "step": 867
6103
+ },
6104
+ {
6105
+ "epoch": 0.9445048966267682,
6106
+ "grad_norm": 0.10413581132888794,
6107
+ "learning_rate": 1.5493789750014031e-06,
6108
+ "loss": 0.0789,
6109
+ "step": 868
6110
+ },
6111
+ {
6112
+ "epoch": 0.9455930359085963,
6113
+ "grad_norm": 0.09816232323646545,
6114
+ "learning_rate": 1.489364501100332e-06,
6115
+ "loss": 0.0749,
6116
+ "step": 869
6117
+ },
6118
+ {
6119
+ "epoch": 0.9466811751904244,
6120
+ "grad_norm": 0.10278590023517609,
6121
+ "learning_rate": 1.430526697162482e-06,
6122
+ "loss": 0.0895,
6123
+ "step": 870
6124
+ },
6125
+ {
6126
+ "epoch": 0.9477693144722524,
6127
+ "grad_norm": 0.10024615377187729,
6128
+ "learning_rate": 1.3728662659818204e-06,
6129
+ "loss": 0.0869,
6130
+ "step": 871
6131
+ },
6132
+ {
6133
+ "epoch": 0.9488574537540805,
6134
+ "grad_norm": 0.08774451911449432,
6135
+ "learning_rate": 1.3163838962890195e-06,
6136
+ "loss": 0.0631,
6137
+ "step": 872
6138
+ },
6139
+ {
6140
+ "epoch": 0.9499455930359086,
6141
+ "grad_norm": 0.08854610472917557,
6142
+ "learning_rate": 1.261080262743297e-06,
6143
+ "loss": 0.061,
6144
+ "step": 873
6145
+ },
6146
+ {
6147
+ "epoch": 0.9510337323177367,
6148
+ "grad_norm": 0.08709405362606049,
6149
+ "learning_rate": 1.2069560259243328e-06,
6150
+ "loss": 0.0547,
6151
+ "step": 874
6152
+ },
6153
+ {
6154
+ "epoch": 0.9521218715995647,
6155
+ "grad_norm": 0.11931779980659485,
6156
+ "learning_rate": 1.1540118323243865e-06,
6157
+ "loss": 0.0876,
6158
+ "step": 875
6159
+ },
6160
+ {
6161
+ "epoch": 0.9532100108813928,
6162
+ "grad_norm": 0.11160387098789215,
6163
+ "learning_rate": 1.1022483143405705e-06,
6164
+ "loss": 0.0894,
6165
+ "step": 876
6166
+ },
6167
+ {
6168
+ "epoch": 0.9542981501632208,
6169
+ "grad_norm": 0.1185893788933754,
6170
+ "learning_rate": 1.0516660902673448e-06,
6171
+ "loss": 0.0966,
6172
+ "step": 877
6173
+ },
6174
+ {
6175
+ "epoch": 0.955386289445049,
6176
+ "grad_norm": 0.1318797916173935,
6177
+ "learning_rate": 1.0022657642890231e-06,
6178
+ "loss": 0.1193,
6179
+ "step": 878
6180
+ },
6181
+ {
6182
+ "epoch": 0.956474428726877,
6183
+ "grad_norm": 0.11834029108285904,
6184
+ "learning_rate": 9.540479264726676e-07,
6185
+ "loss": 0.0869,
6186
+ "step": 879
6187
+ },
6188
+ {
6189
+ "epoch": 0.9575625680087051,
6190
+ "grad_norm": 0.11685867607593536,
6191
+ "learning_rate": 9.070131527609604e-07,
6192
+ "loss": 0.07,
6193
+ "step": 880
6194
+ },
6195
+ {
6196
+ "epoch": 0.9586507072905331,
6197
+ "grad_norm": 0.12375818938016891,
6198
+ "learning_rate": 8.611620049653879e-07,
6199
+ "loss": 0.0742,
6200
+ "step": 881
6201
+ },
6202
+ {
6203
+ "epoch": 0.9597388465723613,
6204
+ "grad_norm": 0.14064817130565643,
6205
+ "learning_rate": 8.16495030759501e-07,
6206
+ "loss": 0.1006,
6207
+ "step": 882
6208
+ },
6209
+ {
6210
+ "epoch": 0.9608269858541894,
6211
+ "grad_norm": 0.1763945370912552,
6212
+ "learning_rate": 7.730127636723539e-07,
6213
+ "loss": 0.0958,
6214
+ "step": 883
6215
+ },
6216
+ {
6217
+ "epoch": 0.9619151251360174,
6218
+ "grad_norm": 0.1824800968170166,
6219
+ "learning_rate": 7.307157230821426e-07,
6220
+ "loss": 0.0771,
6221
+ "step": 884
6222
+ },
6223
+ {
6224
+ "epoch": 0.9630032644178455,
6225
+ "grad_norm": 0.1460670381784439,
6226
+ "learning_rate": 6.896044142100433e-07,
6227
+ "loss": 0.0701,
6228
+ "step": 885
6229
+ },
6230
+ {
6231
+ "epoch": 0.9640914036996736,
6232
+ "grad_norm": 0.22308966517448425,
6233
+ "learning_rate": 6.496793281141056e-07,
6234
+ "loss": 0.1186,
6235
+ "step": 886
6236
+ },
6237
+ {
6238
+ "epoch": 0.9651795429815017,
6239
+ "grad_norm": 0.24287503957748413,
6240
+ "learning_rate": 6.109409416834688e-07,
6241
+ "loss": 0.1604,
6242
+ "step": 887
6243
+ },
6244
+ {
6245
+ "epoch": 0.9662676822633297,
6246
+ "grad_norm": 0.19692181050777435,
6247
+ "learning_rate": 5.733897176325665e-07,
6248
+ "loss": 0.0767,
6249
+ "step": 888
6250
+ },
6251
+ {
6252
+ "epoch": 0.9673558215451578,
6253
+ "grad_norm": 0.20672950148582458,
6254
+ "learning_rate": 5.370261044956971e-07,
6255
+ "loss": 0.0995,
6256
+ "step": 889
6257
+ },
6258
+ {
6259
+ "epoch": 0.9684439608269858,
6260
+ "grad_norm": 0.30662739276885986,
6261
+ "learning_rate": 5.018505366216175e-07,
6262
+ "loss": 0.1752,
6263
+ "step": 890
6264
+ },
6265
+ {
6266
+ "epoch": 0.969532100108814,
6267
+ "grad_norm": 0.30604445934295654,
6268
+ "learning_rate": 4.678634341683252e-07,
6269
+ "loss": 0.2206,
6270
+ "step": 891
6271
+ },
6272
+ {
6273
+ "epoch": 0.970620239390642,
6274
+ "grad_norm": 0.3338996469974518,
6275
+ "learning_rate": 4.3506520309813947e-07,
6276
+ "loss": 0.0772,
6277
+ "step": 892
6278
+ },
6279
+ {
6280
+ "epoch": 0.9717083786724701,
6281
+ "grad_norm": 0.40458595752716064,
6282
+ "learning_rate": 4.034562351727389e-07,
6283
+ "loss": 0.1714,
6284
+ "step": 893
6285
+ },
6286
+ {
6287
+ "epoch": 0.9727965179542981,
6288
+ "grad_norm": 0.20113840699195862,
6289
+ "learning_rate": 3.73036907948543e-07,
6290
+ "loss": 0.0493,
6291
+ "step": 894
6292
+ },
6293
+ {
6294
+ "epoch": 0.9738846572361263,
6295
+ "grad_norm": 0.2628382742404938,
6296
+ "learning_rate": 3.4380758477219333e-07,
6297
+ "loss": 0.0849,
6298
+ "step": 895
6299
+ },
6300
+ {
6301
+ "epoch": 0.9749727965179543,
6302
+ "grad_norm": 0.4046911597251892,
6303
+ "learning_rate": 3.1576861477621287e-07,
6304
+ "loss": 0.1658,
6305
+ "step": 896
6306
+ },
6307
+ {
6308
+ "epoch": 0.9760609357997824,
6309
+ "grad_norm": 0.5590918660163879,
6310
+ "learning_rate": 2.889203328748424e-07,
6311
+ "loss": 0.2407,
6312
+ "step": 897
6313
+ },
6314
+ {
6315
+ "epoch": 0.9771490750816104,
6316
+ "grad_norm": 0.42356160283088684,
6317
+ "learning_rate": 2.6326305976001055e-07,
6318
+ "loss": 0.1904,
6319
+ "step": 898
6320
+ },
6321
+ {
6322
+ "epoch": 0.9782372143634385,
6323
+ "grad_norm": 0.6852498650550842,
6324
+ "learning_rate": 2.3879710189753656e-07,
6325
+ "loss": 0.2016,
6326
+ "step": 899
6327
+ },
6328
+ {
6329
+ "epoch": 0.9793253536452666,
6330
+ "grad_norm": 0.913657546043396,
6331
+ "learning_rate": 2.15522751523467e-07,
6332
+ "loss": 0.3404,
6333
+ "step": 900
6334
+ },
6335
+ {
6336
+ "epoch": 0.9804134929270947,
6337
+ "grad_norm": 0.05817437916994095,
6338
+ "learning_rate": 1.9344028664056713e-07,
6339
+ "loss": 0.0545,
6340
+ "step": 901
6341
+ },
6342
+ {
6343
+ "epoch": 0.9815016322089227,
6344
+ "grad_norm": 0.06097998097538948,
6345
+ "learning_rate": 1.7254997101500137e-07,
6346
+ "loss": 0.0471,
6347
+ "step": 902
6348
+ },
6349
+ {
6350
+ "epoch": 0.9825897714907508,
6351
+ "grad_norm": 0.07131399214267731,
6352
+ "learning_rate": 1.5285205417319149e-07,
6353
+ "loss": 0.0588,
6354
+ "step": 903
6355
+ },
6356
+ {
6357
+ "epoch": 0.9836779107725789,
6358
+ "grad_norm": 0.09075633436441422,
6359
+ "learning_rate": 1.3434677139885222e-07,
6360
+ "loss": 0.0759,
6361
+ "step": 904
6362
+ },
6363
+ {
6364
+ "epoch": 0.984766050054407,
6365
+ "grad_norm": 0.08667346835136414,
6366
+ "learning_rate": 1.170343437301491e-07,
6367
+ "loss": 0.078,
6368
+ "step": 905
6369
+ },
6370
+ {
6371
+ "epoch": 0.985854189336235,
6372
+ "grad_norm": 0.0773538202047348,
6373
+ "learning_rate": 1.0091497795706728e-07,
6374
+ "loss": 0.0658,
6375
+ "step": 906
6376
+ },
6377
+ {
6378
+ "epoch": 0.9869423286180631,
6379
+ "grad_norm": 0.09016713500022888,
6380
+ "learning_rate": 8.598886661895788e-08,
6381
+ "loss": 0.0687,
6382
+ "step": 907
6383
+ },
6384
+ {
6385
+ "epoch": 0.9880304678998912,
6386
+ "grad_norm": 0.10080257803201675,
6387
+ "learning_rate": 7.225618800222877e-08,
6388
+ "loss": 0.0807,
6389
+ "step": 908
6390
+ },
6391
+ {
6392
+ "epoch": 0.9891186071817193,
6393
+ "grad_norm": 0.10645921528339386,
6394
+ "learning_rate": 5.971710613821291e-08,
6395
+ "loss": 0.0832,
6396
+ "step": 909
6397
+ },
6398
+ {
6399
+ "epoch": 0.9902067464635473,
6400
+ "grad_norm": 0.11274649947881699,
6401
+ "learning_rate": 4.837177080119215e-08,
6402
+ "loss": 0.0918,
6403
+ "step": 910
6404
+ },
6405
+ {
6406
+ "epoch": 0.9912948857453754,
6407
+ "grad_norm": 0.12319578975439072,
6408
+ "learning_rate": 3.8220317506654226e-08,
6409
+ "loss": 0.0858,
6410
+ "step": 911
6411
+ },
6412
+ {
6413
+ "epoch": 0.9923830250272034,
6414
+ "grad_norm": 0.12649929523468018,
6415
+ "learning_rate": 2.9262867509605163e-08,
6416
+ "loss": 0.0769,
6417
+ "step": 912
6418
+ },
6419
+ {
6420
+ "epoch": 0.9934711643090316,
6421
+ "grad_norm": 0.1557326763868332,
6422
+ "learning_rate": 2.1499527803214846e-08,
6423
+ "loss": 0.1158,
6424
+ "step": 913
6425
+ },
6426
+ {
6427
+ "epoch": 0.9945593035908596,
6428
+ "grad_norm": 0.1900101900100708,
6429
+ "learning_rate": 1.4930391117451426e-08,
6430
+ "loss": 0.1022,
6431
+ "step": 914
6432
+ },
6433
+ {
6434
+ "epoch": 0.9956474428726877,
6435
+ "grad_norm": 0.2401544153690338,
6436
+ "learning_rate": 9.555535917993297e-09,
6437
+ "loss": 0.1377,
6438
+ "step": 915
6439
+ },
6440
+ {
6441
+ "epoch": 0.9967355821545157,
6442
+ "grad_norm": 0.2791292071342468,
6443
+ "learning_rate": 5.375026405352035e-09,
6444
+ "loss": 0.1531,
6445
+ "step": 916
6446
+ },
6447
+ {
6448
+ "epoch": 0.9978237214363439,
6449
+ "grad_norm": 0.24386504292488098,
6450
+ "learning_rate": 2.388912514017516e-09,
6451
+ "loss": 0.1123,
6452
+ "step": 917
6453
+ },
6454
+ {
6455
+ "epoch": 0.998911860718172,
6456
+ "grad_norm": 0.312024861574173,
6457
+ "learning_rate": 5.972299119250125e-10,
6458
+ "loss": 0.1117,
6459
+ "step": 918
6460
+ },
6461
+ {
6462
+ "epoch": 1.0,
6463
+ "grad_norm": 0.4759993255138397,
6464
+ "learning_rate": 0.0,
6465
+ "loss": 0.2228,
6466
+ "step": 919
6467
  }
6468
  ],
6469
  "logging_steps": 1,
 
6478
  "should_evaluate": false,
6479
  "should_log": false,
6480
  "should_save": true,
6481
+ "should_training_stop": true
6482
  },
6483
  "attributes": {}
6484
  }
6485
  },
6486
+ "total_flos": 3.65038685754753e+17,
6487
  "train_batch_size": 2,
6488
  "trial_name": null,
6489
  "trial_params": null