abdiharyadi commited on
Commit
f4159b0
·
verified ·
1 Parent(s): e629175

Training in progress, epoch 7, checkpoint

Browse files
last-checkpoint/model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:044e91a7c52f50e4043dc236fc046775db89767dd283738cb05dae269d0fe1f9
3
  size 1575259780
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:00790e6eb3aaf7be06f42ed5ebbbf19f51da90eabde4485d44e5afbbaa258042
3
  size 1575259780
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:06fd3b48586725ea6ba928db3bb6432129af3d8438eb526dfaaa3ca8c57e58e5
3
  size 3150397656
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c7b07559a454669087b353898e147242640f3129e044989950556b889a6dbc02
3
  size 3150397656
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:8337dd673478657a1e3e59ab5c0126da6f87ecc51591bad61e39324efa7f5883
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7edf07803f417b0f28032144c1c24e7268187cdee6ec7471783e6c05da595f26
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:10535ed970c1f8b1967fdb1bcf70b29e64c063da0c7c6d212af5b4ef07621922
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:13b3ba23af7cfc783c09d1dceb8d6f5096a2c55f1fa03f3e194a3cfed394453e
3
  size 1064
last-checkpoint/special_tokens_map.json CHANGED
@@ -53,9 +53,27 @@
53
  "gl_ES",
54
  "sl_SI"
55
  ],
56
- "bos_token": "<s>",
57
- "cls_token": "<s>",
58
- "eos_token": "</s>",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
59
  "mask_token": {
60
  "content": "<mask>",
61
  "lstrip": true,
@@ -63,7 +81,25 @@
63
  "rstrip": false,
64
  "single_word": false
65
  },
66
- "pad_token": "<pad>",
67
- "sep_token": "</s>",
68
- "unk_token": "<unk>"
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
69
  }
 
53
  "gl_ES",
54
  "sl_SI"
55
  ],
56
+ "bos_token": {
57
+ "content": "<s>",
58
+ "lstrip": false,
59
+ "normalized": false,
60
+ "rstrip": false,
61
+ "single_word": false
62
+ },
63
+ "cls_token": {
64
+ "content": "<s>",
65
+ "lstrip": false,
66
+ "normalized": false,
67
+ "rstrip": false,
68
+ "single_word": false
69
+ },
70
+ "eos_token": {
71
+ "content": "</s>",
72
+ "lstrip": false,
73
+ "normalized": false,
74
+ "rstrip": false,
75
+ "single_word": false
76
+ },
77
  "mask_token": {
78
  "content": "<mask>",
79
  "lstrip": true,
 
81
  "rstrip": false,
82
  "single_word": false
83
  },
84
+ "pad_token": {
85
+ "content": "<pad>",
86
+ "lstrip": false,
87
+ "normalized": false,
88
+ "rstrip": false,
89
+ "single_word": false
90
+ },
91
+ "sep_token": {
92
+ "content": "</s>",
93
+ "lstrip": false,
94
+ "normalized": false,
95
+ "rstrip": false,
96
+ "single_word": false
97
+ },
98
+ "unk_token": {
99
+ "content": "<unk>",
100
+ "lstrip": false,
101
+ "normalized": false,
102
+ "rstrip": false,
103
+ "single_word": false
104
+ }
105
  }
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
- "best_metric": 0.5081,
3
- "best_model_checkpoint": "/kaggle/tmp/amr-tst-indo/AMRBART-id/fine-tune/../outputs/mbart-en-id-smaller-fted/checkpoint-19347",
4
- "epoch": 4.999870784339062,
5
  "eval_steps": 500,
6
- "global_step": 19347,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -5865,6 +5865,2348 @@
5865
  "eval_samples_per_second": 1.019,
5866
  "eval_steps_per_second": 0.51,
5867
  "step": 19347
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5868
  }
5869
  ],
5870
  "logging_steps": 20,
@@ -5884,7 +8226,7 @@
5884
  "attributes": {}
5885
  }
5886
  },
5887
- "total_flos": 1.2701974646813491e+17,
5888
  "train_batch_size": 2,
5889
  "trial_name": null,
5890
  "trial_params": null
 
1
  {
2
+ "best_metric": 5.2201,
3
+ "best_model_checkpoint": "/kaggle/tmp/amr-tst-indo/AMRBART-id/fine-tune/../outputs/mbart-en-id-smaller-fted/checkpoint-27084",
4
+ "epoch": 7.0,
5
  "eval_steps": 500,
6
+ "global_step": 27084,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
5865
  "eval_samples_per_second": 1.019,
5866
  "eval_steps_per_second": 0.51,
5867
  "step": 19347
5868
+ },
5869
+ {
5870
+ "epoch": 5.0038764698281435,
5871
+ "learning_rate": 1.6894852845844678e-07,
5872
+ "loss": 2.6522,
5873
+ "step": 19360
5874
+ },
5875
+ {
5876
+ "epoch": 5.009045096265667,
5877
+ "learning_rate": 1.6891611564890445e-07,
5878
+ "loss": 2.6008,
5879
+ "step": 19380
5880
+ },
5881
+ {
5882
+ "epoch": 5.014213722703191,
5883
+ "learning_rate": 1.688837028393621e-07,
5884
+ "loss": 2.6294,
5885
+ "step": 19400
5886
+ },
5887
+ {
5888
+ "epoch": 5.019382349140716,
5889
+ "learning_rate": 1.6885129002981977e-07,
5890
+ "loss": 2.6519,
5891
+ "step": 19420
5892
+ },
5893
+ {
5894
+ "epoch": 5.02455097557824,
5895
+ "learning_rate": 1.6881887722027743e-07,
5896
+ "loss": 2.6537,
5897
+ "step": 19440
5898
+ },
5899
+ {
5900
+ "epoch": 5.029719602015764,
5901
+ "learning_rate": 1.6878646441073512e-07,
5902
+ "loss": 2.6256,
5903
+ "step": 19460
5904
+ },
5905
+ {
5906
+ "epoch": 5.034888228453289,
5907
+ "learning_rate": 1.6875405160119278e-07,
5908
+ "loss": 2.6721,
5909
+ "step": 19480
5910
+ },
5911
+ {
5912
+ "epoch": 5.040056854890813,
5913
+ "learning_rate": 1.6872163879165044e-07,
5914
+ "loss": 2.6894,
5915
+ "step": 19500
5916
+ },
5917
+ {
5918
+ "epoch": 5.045225481328337,
5919
+ "learning_rate": 1.6868922598210813e-07,
5920
+ "loss": 2.6702,
5921
+ "step": 19520
5922
+ },
5923
+ {
5924
+ "epoch": 5.050394107765861,
5925
+ "learning_rate": 1.686568131725658e-07,
5926
+ "loss": 2.7041,
5927
+ "step": 19540
5928
+ },
5929
+ {
5930
+ "epoch": 5.055562734203385,
5931
+ "learning_rate": 1.6862440036302346e-07,
5932
+ "loss": 2.7243,
5933
+ "step": 19560
5934
+ },
5935
+ {
5936
+ "epoch": 5.06073136064091,
5937
+ "learning_rate": 1.6859198755348114e-07,
5938
+ "loss": 2.7082,
5939
+ "step": 19580
5940
+ },
5941
+ {
5942
+ "epoch": 5.065899987078434,
5943
+ "learning_rate": 1.685595747439388e-07,
5944
+ "loss": 2.6755,
5945
+ "step": 19600
5946
+ },
5947
+ {
5948
+ "epoch": 5.071068613515958,
5949
+ "learning_rate": 1.6852716193439647e-07,
5950
+ "loss": 2.6075,
5951
+ "step": 19620
5952
+ },
5953
+ {
5954
+ "epoch": 5.076237239953483,
5955
+ "learning_rate": 1.6849474912485413e-07,
5956
+ "loss": 2.6402,
5957
+ "step": 19640
5958
+ },
5959
+ {
5960
+ "epoch": 5.081405866391006,
5961
+ "learning_rate": 1.684623363153118e-07,
5962
+ "loss": 2.6928,
5963
+ "step": 19660
5964
+ },
5965
+ {
5966
+ "epoch": 5.086574492828531,
5967
+ "learning_rate": 1.6842992350576948e-07,
5968
+ "loss": 2.6689,
5969
+ "step": 19680
5970
+ },
5971
+ {
5972
+ "epoch": 5.091743119266055,
5973
+ "learning_rate": 1.6839751069622714e-07,
5974
+ "loss": 2.6848,
5975
+ "step": 19700
5976
+ },
5977
+ {
5978
+ "epoch": 5.096911745703579,
5979
+ "learning_rate": 1.683650978866848e-07,
5980
+ "loss": 2.6315,
5981
+ "step": 19720
5982
+ },
5983
+ {
5984
+ "epoch": 5.102080372141104,
5985
+ "learning_rate": 1.683326850771425e-07,
5986
+ "loss": 2.6936,
5987
+ "step": 19740
5988
+ },
5989
+ {
5990
+ "epoch": 5.107248998578628,
5991
+ "learning_rate": 1.6830027226760015e-07,
5992
+ "loss": 2.6354,
5993
+ "step": 19760
5994
+ },
5995
+ {
5996
+ "epoch": 5.112417625016152,
5997
+ "learning_rate": 1.6826785945805782e-07,
5998
+ "loss": 2.6376,
5999
+ "step": 19780
6000
+ },
6001
+ {
6002
+ "epoch": 5.117586251453676,
6003
+ "learning_rate": 1.6823544664851548e-07,
6004
+ "loss": 2.7595,
6005
+ "step": 19800
6006
+ },
6007
+ {
6008
+ "epoch": 5.1227548778912,
6009
+ "learning_rate": 1.6820303383897317e-07,
6010
+ "loss": 2.5688,
6011
+ "step": 19820
6012
+ },
6013
+ {
6014
+ "epoch": 5.127923504328725,
6015
+ "learning_rate": 1.6817062102943083e-07,
6016
+ "loss": 2.6504,
6017
+ "step": 19840
6018
+ },
6019
+ {
6020
+ "epoch": 5.133092130766249,
6021
+ "learning_rate": 1.681382082198885e-07,
6022
+ "loss": 2.701,
6023
+ "step": 19860
6024
+ },
6025
+ {
6026
+ "epoch": 5.138260757203773,
6027
+ "learning_rate": 1.6810579541034615e-07,
6028
+ "loss": 2.6691,
6029
+ "step": 19880
6030
+ },
6031
+ {
6032
+ "epoch": 5.143429383641298,
6033
+ "learning_rate": 1.6807338260080384e-07,
6034
+ "loss": 2.6396,
6035
+ "step": 19900
6036
+ },
6037
+ {
6038
+ "epoch": 5.148598010078821,
6039
+ "learning_rate": 1.680409697912615e-07,
6040
+ "loss": 2.6752,
6041
+ "step": 19920
6042
+ },
6043
+ {
6044
+ "epoch": 5.1537666365163455,
6045
+ "learning_rate": 1.6800855698171916e-07,
6046
+ "loss": 2.567,
6047
+ "step": 19940
6048
+ },
6049
+ {
6050
+ "epoch": 5.15893526295387,
6051
+ "learning_rate": 1.6797614417217685e-07,
6052
+ "loss": 2.6691,
6053
+ "step": 19960
6054
+ },
6055
+ {
6056
+ "epoch": 5.164103889391394,
6057
+ "learning_rate": 1.6794373136263451e-07,
6058
+ "loss": 2.6172,
6059
+ "step": 19980
6060
+ },
6061
+ {
6062
+ "epoch": 5.169272515828919,
6063
+ "learning_rate": 1.6791131855309218e-07,
6064
+ "loss": 2.6856,
6065
+ "step": 20000
6066
+ },
6067
+ {
6068
+ "epoch": 5.174441142266443,
6069
+ "learning_rate": 1.6787890574354984e-07,
6070
+ "loss": 2.6874,
6071
+ "step": 20020
6072
+ },
6073
+ {
6074
+ "epoch": 5.179609768703967,
6075
+ "learning_rate": 1.678464929340075e-07,
6076
+ "loss": 2.6737,
6077
+ "step": 20040
6078
+ },
6079
+ {
6080
+ "epoch": 5.184778395141491,
6081
+ "learning_rate": 1.678140801244652e-07,
6082
+ "loss": 2.6503,
6083
+ "step": 20060
6084
+ },
6085
+ {
6086
+ "epoch": 5.189947021579015,
6087
+ "learning_rate": 1.6778166731492285e-07,
6088
+ "loss": 2.6155,
6089
+ "step": 20080
6090
+ },
6091
+ {
6092
+ "epoch": 5.1951156480165395,
6093
+ "learning_rate": 1.677492545053805e-07,
6094
+ "loss": 2.7035,
6095
+ "step": 20100
6096
+ },
6097
+ {
6098
+ "epoch": 5.200284274454064,
6099
+ "learning_rate": 1.677168416958382e-07,
6100
+ "loss": 2.6192,
6101
+ "step": 20120
6102
+ },
6103
+ {
6104
+ "epoch": 5.205452900891588,
6105
+ "learning_rate": 1.6768442888629586e-07,
6106
+ "loss": 2.5974,
6107
+ "step": 20140
6108
+ },
6109
+ {
6110
+ "epoch": 5.2106215273291125,
6111
+ "learning_rate": 1.6765201607675352e-07,
6112
+ "loss": 2.694,
6113
+ "step": 20160
6114
+ },
6115
+ {
6116
+ "epoch": 5.215790153766637,
6117
+ "learning_rate": 1.676196032672112e-07,
6118
+ "loss": 2.6391,
6119
+ "step": 20180
6120
+ },
6121
+ {
6122
+ "epoch": 5.22095878020416,
6123
+ "learning_rate": 1.6758719045766887e-07,
6124
+ "loss": 2.6428,
6125
+ "step": 20200
6126
+ },
6127
+ {
6128
+ "epoch": 5.226127406641685,
6129
+ "learning_rate": 1.6755477764812654e-07,
6130
+ "loss": 2.6796,
6131
+ "step": 20220
6132
+ },
6133
+ {
6134
+ "epoch": 5.231296033079209,
6135
+ "learning_rate": 1.675223648385842e-07,
6136
+ "loss": 2.6819,
6137
+ "step": 20240
6138
+ },
6139
+ {
6140
+ "epoch": 5.2364646595167335,
6141
+ "learning_rate": 1.6748995202904186e-07,
6142
+ "loss": 2.6714,
6143
+ "step": 20260
6144
+ },
6145
+ {
6146
+ "epoch": 5.241633285954258,
6147
+ "learning_rate": 1.6745753921949955e-07,
6148
+ "loss": 2.6392,
6149
+ "step": 20280
6150
+ },
6151
+ {
6152
+ "epoch": 5.246801912391782,
6153
+ "learning_rate": 1.674251264099572e-07,
6154
+ "loss": 2.7057,
6155
+ "step": 20300
6156
+ },
6157
+ {
6158
+ "epoch": 5.2519705388293065,
6159
+ "learning_rate": 1.6739271360041487e-07,
6160
+ "loss": 2.6676,
6161
+ "step": 20320
6162
+ },
6163
+ {
6164
+ "epoch": 5.25713916526683,
6165
+ "learning_rate": 1.6736030079087256e-07,
6166
+ "loss": 2.7037,
6167
+ "step": 20340
6168
+ },
6169
+ {
6170
+ "epoch": 5.262307791704354,
6171
+ "learning_rate": 1.6732788798133022e-07,
6172
+ "loss": 2.7595,
6173
+ "step": 20360
6174
+ },
6175
+ {
6176
+ "epoch": 5.267476418141879,
6177
+ "learning_rate": 1.6729547517178788e-07,
6178
+ "loss": 2.6665,
6179
+ "step": 20380
6180
+ },
6181
+ {
6182
+ "epoch": 5.272645044579403,
6183
+ "learning_rate": 1.6726306236224554e-07,
6184
+ "loss": 2.6281,
6185
+ "step": 20400
6186
+ },
6187
+ {
6188
+ "epoch": 5.277813671016927,
6189
+ "learning_rate": 1.6723064955270323e-07,
6190
+ "loss": 2.6047,
6191
+ "step": 20420
6192
+ },
6193
+ {
6194
+ "epoch": 5.282982297454452,
6195
+ "learning_rate": 1.671982367431609e-07,
6196
+ "loss": 2.6466,
6197
+ "step": 20440
6198
+ },
6199
+ {
6200
+ "epoch": 5.288150923891976,
6201
+ "learning_rate": 1.6716582393361856e-07,
6202
+ "loss": 2.6026,
6203
+ "step": 20460
6204
+ },
6205
+ {
6206
+ "epoch": 5.2933195503295,
6207
+ "learning_rate": 1.6713341112407622e-07,
6208
+ "loss": 2.6714,
6209
+ "step": 20480
6210
+ },
6211
+ {
6212
+ "epoch": 5.298488176767024,
6213
+ "learning_rate": 1.671009983145339e-07,
6214
+ "loss": 2.6351,
6215
+ "step": 20500
6216
+ },
6217
+ {
6218
+ "epoch": 5.303656803204548,
6219
+ "learning_rate": 1.6706858550499157e-07,
6220
+ "loss": 2.6293,
6221
+ "step": 20520
6222
+ },
6223
+ {
6224
+ "epoch": 5.308825429642073,
6225
+ "learning_rate": 1.6703617269544923e-07,
6226
+ "loss": 2.6368,
6227
+ "step": 20540
6228
+ },
6229
+ {
6230
+ "epoch": 5.313994056079597,
6231
+ "learning_rate": 1.6700375988590692e-07,
6232
+ "loss": 2.6963,
6233
+ "step": 20560
6234
+ },
6235
+ {
6236
+ "epoch": 5.319162682517121,
6237
+ "learning_rate": 1.6697134707636458e-07,
6238
+ "loss": 2.6401,
6239
+ "step": 20580
6240
+ },
6241
+ {
6242
+ "epoch": 5.324331308954645,
6243
+ "learning_rate": 1.6693893426682224e-07,
6244
+ "loss": 2.669,
6245
+ "step": 20600
6246
+ },
6247
+ {
6248
+ "epoch": 5.329499935392169,
6249
+ "learning_rate": 1.669065214572799e-07,
6250
+ "loss": 2.6384,
6251
+ "step": 20620
6252
+ },
6253
+ {
6254
+ "epoch": 5.334668561829694,
6255
+ "learning_rate": 1.6687410864773757e-07,
6256
+ "loss": 2.7073,
6257
+ "step": 20640
6258
+ },
6259
+ {
6260
+ "epoch": 5.339837188267218,
6261
+ "learning_rate": 1.6684169583819526e-07,
6262
+ "loss": 2.6507,
6263
+ "step": 20660
6264
+ },
6265
+ {
6266
+ "epoch": 5.345005814704742,
6267
+ "learning_rate": 1.6680928302865292e-07,
6268
+ "loss": 2.6378,
6269
+ "step": 20680
6270
+ },
6271
+ {
6272
+ "epoch": 5.350174441142267,
6273
+ "learning_rate": 1.6677687021911058e-07,
6274
+ "loss": 2.6756,
6275
+ "step": 20700
6276
+ },
6277
+ {
6278
+ "epoch": 5.355343067579791,
6279
+ "learning_rate": 1.6674445740956827e-07,
6280
+ "loss": 2.6667,
6281
+ "step": 20720
6282
+ },
6283
+ {
6284
+ "epoch": 5.3605116940173145,
6285
+ "learning_rate": 1.6671204460002593e-07,
6286
+ "loss": 2.6714,
6287
+ "step": 20740
6288
+ },
6289
+ {
6290
+ "epoch": 5.365680320454839,
6291
+ "learning_rate": 1.666796317904836e-07,
6292
+ "loss": 2.6117,
6293
+ "step": 20760
6294
+ },
6295
+ {
6296
+ "epoch": 5.370848946892363,
6297
+ "learning_rate": 1.6664721898094128e-07,
6298
+ "loss": 2.6513,
6299
+ "step": 20780
6300
+ },
6301
+ {
6302
+ "epoch": 5.376017573329888,
6303
+ "learning_rate": 1.6661480617139894e-07,
6304
+ "loss": 2.6997,
6305
+ "step": 20800
6306
+ },
6307
+ {
6308
+ "epoch": 5.381186199767412,
6309
+ "learning_rate": 1.665823933618566e-07,
6310
+ "loss": 2.6395,
6311
+ "step": 20820
6312
+ },
6313
+ {
6314
+ "epoch": 5.386354826204936,
6315
+ "learning_rate": 1.6654998055231426e-07,
6316
+ "loss": 2.6615,
6317
+ "step": 20840
6318
+ },
6319
+ {
6320
+ "epoch": 5.39152345264246,
6321
+ "learning_rate": 1.6651756774277193e-07,
6322
+ "loss": 2.6915,
6323
+ "step": 20860
6324
+ },
6325
+ {
6326
+ "epoch": 5.396692079079984,
6327
+ "learning_rate": 1.6648515493322961e-07,
6328
+ "loss": 2.6248,
6329
+ "step": 20880
6330
+ },
6331
+ {
6332
+ "epoch": 5.4018607055175085,
6333
+ "learning_rate": 1.6645274212368728e-07,
6334
+ "loss": 2.7061,
6335
+ "step": 20900
6336
+ },
6337
+ {
6338
+ "epoch": 5.407029331955033,
6339
+ "learning_rate": 1.6642032931414494e-07,
6340
+ "loss": 2.642,
6341
+ "step": 20920
6342
+ },
6343
+ {
6344
+ "epoch": 5.412197958392557,
6345
+ "learning_rate": 1.6638791650460263e-07,
6346
+ "loss": 2.6377,
6347
+ "step": 20940
6348
+ },
6349
+ {
6350
+ "epoch": 5.417366584830082,
6351
+ "learning_rate": 1.663555036950603e-07,
6352
+ "loss": 2.6452,
6353
+ "step": 20960
6354
+ },
6355
+ {
6356
+ "epoch": 5.422535211267606,
6357
+ "learning_rate": 1.6632309088551795e-07,
6358
+ "loss": 2.7206,
6359
+ "step": 20980
6360
+ },
6361
+ {
6362
+ "epoch": 5.427703837705129,
6363
+ "learning_rate": 1.662906780759756e-07,
6364
+ "loss": 2.6524,
6365
+ "step": 21000
6366
+ },
6367
+ {
6368
+ "epoch": 5.432872464142654,
6369
+ "learning_rate": 1.662582652664333e-07,
6370
+ "loss": 2.6398,
6371
+ "step": 21020
6372
+ },
6373
+ {
6374
+ "epoch": 5.438041090580178,
6375
+ "learning_rate": 1.6622585245689096e-07,
6376
+ "loss": 2.6486,
6377
+ "step": 21040
6378
+ },
6379
+ {
6380
+ "epoch": 5.4432097170177025,
6381
+ "learning_rate": 1.6619343964734862e-07,
6382
+ "loss": 2.6466,
6383
+ "step": 21060
6384
+ },
6385
+ {
6386
+ "epoch": 5.448378343455227,
6387
+ "learning_rate": 1.6616102683780629e-07,
6388
+ "loss": 2.6818,
6389
+ "step": 21080
6390
+ },
6391
+ {
6392
+ "epoch": 5.453546969892751,
6393
+ "learning_rate": 1.6612861402826397e-07,
6394
+ "loss": 2.6826,
6395
+ "step": 21100
6396
+ },
6397
+ {
6398
+ "epoch": 5.458715596330276,
6399
+ "learning_rate": 1.6609620121872164e-07,
6400
+ "loss": 2.665,
6401
+ "step": 21120
6402
+ },
6403
+ {
6404
+ "epoch": 5.463884222767799,
6405
+ "learning_rate": 1.660637884091793e-07,
6406
+ "loss": 2.6018,
6407
+ "step": 21140
6408
+ },
6409
+ {
6410
+ "epoch": 5.469052849205323,
6411
+ "learning_rate": 1.66031375599637e-07,
6412
+ "loss": 2.6867,
6413
+ "step": 21160
6414
+ },
6415
+ {
6416
+ "epoch": 5.474221475642848,
6417
+ "learning_rate": 1.6599896279009465e-07,
6418
+ "loss": 2.6972,
6419
+ "step": 21180
6420
+ },
6421
+ {
6422
+ "epoch": 5.479390102080372,
6423
+ "learning_rate": 1.659665499805523e-07,
6424
+ "loss": 2.6775,
6425
+ "step": 21200
6426
+ },
6427
+ {
6428
+ "epoch": 5.4845587285178965,
6429
+ "learning_rate": 1.6593413717100997e-07,
6430
+ "loss": 2.7239,
6431
+ "step": 21220
6432
+ },
6433
+ {
6434
+ "epoch": 5.489727354955421,
6435
+ "learning_rate": 1.6590172436146763e-07,
6436
+ "loss": 2.6349,
6437
+ "step": 21240
6438
+ },
6439
+ {
6440
+ "epoch": 5.494895981392945,
6441
+ "learning_rate": 1.6586931155192532e-07,
6442
+ "loss": 2.6607,
6443
+ "step": 21260
6444
+ },
6445
+ {
6446
+ "epoch": 5.500064607830469,
6447
+ "learning_rate": 1.6583689874238298e-07,
6448
+ "loss": 2.6806,
6449
+ "step": 21280
6450
+ },
6451
+ {
6452
+ "epoch": 5.505233234267993,
6453
+ "learning_rate": 1.6580448593284065e-07,
6454
+ "loss": 2.7212,
6455
+ "step": 21300
6456
+ },
6457
+ {
6458
+ "epoch": 5.510401860705517,
6459
+ "learning_rate": 1.6577207312329833e-07,
6460
+ "loss": 2.6997,
6461
+ "step": 21320
6462
+ },
6463
+ {
6464
+ "epoch": 5.515570487143042,
6465
+ "learning_rate": 1.65739660313756e-07,
6466
+ "loss": 2.6277,
6467
+ "step": 21340
6468
+ },
6469
+ {
6470
+ "epoch": 5.520739113580566,
6471
+ "learning_rate": 1.6570724750421366e-07,
6472
+ "loss": 2.6953,
6473
+ "step": 21360
6474
+ },
6475
+ {
6476
+ "epoch": 5.5259077400180905,
6477
+ "learning_rate": 1.6567483469467135e-07,
6478
+ "loss": 2.7586,
6479
+ "step": 21380
6480
+ },
6481
+ {
6482
+ "epoch": 5.531076366455615,
6483
+ "learning_rate": 1.65642421885129e-07,
6484
+ "loss": 2.5887,
6485
+ "step": 21400
6486
+ },
6487
+ {
6488
+ "epoch": 5.536244992893138,
6489
+ "learning_rate": 1.6561000907558667e-07,
6490
+ "loss": 2.6364,
6491
+ "step": 21420
6492
+ },
6493
+ {
6494
+ "epoch": 5.541413619330663,
6495
+ "learning_rate": 1.6557759626604433e-07,
6496
+ "loss": 2.5951,
6497
+ "step": 21440
6498
+ },
6499
+ {
6500
+ "epoch": 5.546582245768187,
6501
+ "learning_rate": 1.65545183456502e-07,
6502
+ "loss": 2.6595,
6503
+ "step": 21460
6504
+ },
6505
+ {
6506
+ "epoch": 5.551750872205711,
6507
+ "learning_rate": 1.6551277064695968e-07,
6508
+ "loss": 2.602,
6509
+ "step": 21480
6510
+ },
6511
+ {
6512
+ "epoch": 5.556919498643236,
6513
+ "learning_rate": 1.6548035783741734e-07,
6514
+ "loss": 2.5996,
6515
+ "step": 21500
6516
+ },
6517
+ {
6518
+ "epoch": 5.56208812508076,
6519
+ "learning_rate": 1.65447945027875e-07,
6520
+ "loss": 2.6529,
6521
+ "step": 21520
6522
+ },
6523
+ {
6524
+ "epoch": 5.5672567515182845,
6525
+ "learning_rate": 1.654155322183327e-07,
6526
+ "loss": 2.6917,
6527
+ "step": 21540
6528
+ },
6529
+ {
6530
+ "epoch": 5.572425377955808,
6531
+ "learning_rate": 1.6538311940879036e-07,
6532
+ "loss": 2.6509,
6533
+ "step": 21560
6534
+ },
6535
+ {
6536
+ "epoch": 5.577594004393332,
6537
+ "learning_rate": 1.6535070659924802e-07,
6538
+ "loss": 2.6524,
6539
+ "step": 21580
6540
+ },
6541
+ {
6542
+ "epoch": 5.582762630830857,
6543
+ "learning_rate": 1.6531829378970568e-07,
6544
+ "loss": 2.6894,
6545
+ "step": 21600
6546
+ },
6547
+ {
6548
+ "epoch": 5.587931257268381,
6549
+ "learning_rate": 1.6528588098016334e-07,
6550
+ "loss": 2.6451,
6551
+ "step": 21620
6552
+ },
6553
+ {
6554
+ "epoch": 5.593099883705905,
6555
+ "learning_rate": 1.6525346817062103e-07,
6556
+ "loss": 2.6636,
6557
+ "step": 21640
6558
+ },
6559
+ {
6560
+ "epoch": 5.59826851014343,
6561
+ "learning_rate": 1.652210553610787e-07,
6562
+ "loss": 2.6696,
6563
+ "step": 21660
6564
+ },
6565
+ {
6566
+ "epoch": 5.603437136580954,
6567
+ "learning_rate": 1.6518864255153635e-07,
6568
+ "loss": 2.6577,
6569
+ "step": 21680
6570
+ },
6571
+ {
6572
+ "epoch": 5.608605763018478,
6573
+ "learning_rate": 1.6515622974199404e-07,
6574
+ "loss": 2.5968,
6575
+ "step": 21700
6576
+ },
6577
+ {
6578
+ "epoch": 5.613774389456002,
6579
+ "learning_rate": 1.651238169324517e-07,
6580
+ "loss": 2.6492,
6581
+ "step": 21720
6582
+ },
6583
+ {
6584
+ "epoch": 5.618943015893526,
6585
+ "learning_rate": 1.6509140412290937e-07,
6586
+ "loss": 2.6357,
6587
+ "step": 21740
6588
+ },
6589
+ {
6590
+ "epoch": 5.624111642331051,
6591
+ "learning_rate": 1.6505899131336705e-07,
6592
+ "loss": 2.6401,
6593
+ "step": 21760
6594
+ },
6595
+ {
6596
+ "epoch": 5.629280268768575,
6597
+ "learning_rate": 1.650265785038247e-07,
6598
+ "loss": 2.5984,
6599
+ "step": 21780
6600
+ },
6601
+ {
6602
+ "epoch": 5.6344488952060985,
6603
+ "learning_rate": 1.6499416569428238e-07,
6604
+ "loss": 2.6678,
6605
+ "step": 21800
6606
+ },
6607
+ {
6608
+ "epoch": 5.639617521643623,
6609
+ "learning_rate": 1.6496175288474004e-07,
6610
+ "loss": 2.6161,
6611
+ "step": 21820
6612
+ },
6613
+ {
6614
+ "epoch": 5.644786148081147,
6615
+ "learning_rate": 1.649293400751977e-07,
6616
+ "loss": 2.6262,
6617
+ "step": 21840
6618
+ },
6619
+ {
6620
+ "epoch": 5.649954774518672,
6621
+ "learning_rate": 1.648969272656554e-07,
6622
+ "loss": 2.6514,
6623
+ "step": 21860
6624
+ },
6625
+ {
6626
+ "epoch": 5.655123400956196,
6627
+ "learning_rate": 1.6486451445611305e-07,
6628
+ "loss": 2.6629,
6629
+ "step": 21880
6630
+ },
6631
+ {
6632
+ "epoch": 5.66029202739372,
6633
+ "learning_rate": 1.6483210164657071e-07,
6634
+ "loss": 2.6764,
6635
+ "step": 21900
6636
+ },
6637
+ {
6638
+ "epoch": 5.665460653831245,
6639
+ "learning_rate": 1.647996888370284e-07,
6640
+ "loss": 2.6414,
6641
+ "step": 21920
6642
+ },
6643
+ {
6644
+ "epoch": 5.670629280268768,
6645
+ "learning_rate": 1.6476727602748604e-07,
6646
+ "loss": 2.5379,
6647
+ "step": 21940
6648
+ },
6649
+ {
6650
+ "epoch": 5.6757979067062925,
6651
+ "learning_rate": 1.6473486321794373e-07,
6652
+ "loss": 2.6744,
6653
+ "step": 21960
6654
+ },
6655
+ {
6656
+ "epoch": 5.680966533143817,
6657
+ "learning_rate": 1.647024504084014e-07,
6658
+ "loss": 2.7254,
6659
+ "step": 21980
6660
+ },
6661
+ {
6662
+ "epoch": 5.686135159581341,
6663
+ "learning_rate": 1.6467003759885905e-07,
6664
+ "loss": 2.6408,
6665
+ "step": 22000
6666
+ },
6667
+ {
6668
+ "epoch": 5.6913037860188656,
6669
+ "learning_rate": 1.6463762478931674e-07,
6670
+ "loss": 2.6751,
6671
+ "step": 22020
6672
+ },
6673
+ {
6674
+ "epoch": 5.69647241245639,
6675
+ "learning_rate": 1.646052119797744e-07,
6676
+ "loss": 2.6391,
6677
+ "step": 22040
6678
+ },
6679
+ {
6680
+ "epoch": 5.701641038893914,
6681
+ "learning_rate": 1.6457279917023206e-07,
6682
+ "loss": 2.625,
6683
+ "step": 22060
6684
+ },
6685
+ {
6686
+ "epoch": 5.706809665331438,
6687
+ "learning_rate": 1.6454038636068975e-07,
6688
+ "loss": 2.607,
6689
+ "step": 22080
6690
+ },
6691
+ {
6692
+ "epoch": 5.711978291768962,
6693
+ "learning_rate": 1.6450797355114739e-07,
6694
+ "loss": 2.6629,
6695
+ "step": 22100
6696
+ },
6697
+ {
6698
+ "epoch": 5.7171469182064865,
6699
+ "learning_rate": 1.6447556074160507e-07,
6700
+ "loss": 2.6358,
6701
+ "step": 22120
6702
+ },
6703
+ {
6704
+ "epoch": 5.722315544644011,
6705
+ "learning_rate": 1.6444314793206274e-07,
6706
+ "loss": 2.6962,
6707
+ "step": 22140
6708
+ },
6709
+ {
6710
+ "epoch": 5.727484171081535,
6711
+ "learning_rate": 1.644107351225204e-07,
6712
+ "loss": 2.6403,
6713
+ "step": 22160
6714
+ },
6715
+ {
6716
+ "epoch": 5.7326527975190595,
6717
+ "learning_rate": 1.6437832231297809e-07,
6718
+ "loss": 2.641,
6719
+ "step": 22180
6720
+ },
6721
+ {
6722
+ "epoch": 5.737821423956584,
6723
+ "learning_rate": 1.6434590950343575e-07,
6724
+ "loss": 2.6213,
6725
+ "step": 22200
6726
+ },
6727
+ {
6728
+ "epoch": 5.742990050394107,
6729
+ "learning_rate": 1.643134966938934e-07,
6730
+ "loss": 2.6508,
6731
+ "step": 22220
6732
+ },
6733
+ {
6734
+ "epoch": 5.748158676831632,
6735
+ "learning_rate": 1.642810838843511e-07,
6736
+ "loss": 2.6528,
6737
+ "step": 22240
6738
+ },
6739
+ {
6740
+ "epoch": 5.753327303269156,
6741
+ "learning_rate": 1.6424867107480873e-07,
6742
+ "loss": 2.5921,
6743
+ "step": 22260
6744
+ },
6745
+ {
6746
+ "epoch": 5.7584959297066804,
6747
+ "learning_rate": 1.6421625826526642e-07,
6748
+ "loss": 2.6379,
6749
+ "step": 22280
6750
+ },
6751
+ {
6752
+ "epoch": 5.763664556144205,
6753
+ "learning_rate": 1.641838454557241e-07,
6754
+ "loss": 2.6838,
6755
+ "step": 22300
6756
+ },
6757
+ {
6758
+ "epoch": 5.768833182581729,
6759
+ "learning_rate": 1.6415143264618175e-07,
6760
+ "loss": 2.6511,
6761
+ "step": 22320
6762
+ },
6763
+ {
6764
+ "epoch": 5.7740018090192535,
6765
+ "learning_rate": 1.6411901983663943e-07,
6766
+ "loss": 2.6547,
6767
+ "step": 22340
6768
+ },
6769
+ {
6770
+ "epoch": 5.779170435456777,
6771
+ "learning_rate": 1.640866070270971e-07,
6772
+ "loss": 2.5962,
6773
+ "step": 22360
6774
+ },
6775
+ {
6776
+ "epoch": 5.784339061894301,
6777
+ "learning_rate": 1.6405419421755476e-07,
6778
+ "loss": 2.6074,
6779
+ "step": 22380
6780
+ },
6781
+ {
6782
+ "epoch": 5.789507688331826,
6783
+ "learning_rate": 1.6402178140801245e-07,
6784
+ "loss": 2.5927,
6785
+ "step": 22400
6786
+ },
6787
+ {
6788
+ "epoch": 5.79467631476935,
6789
+ "learning_rate": 1.6398936859847008e-07,
6790
+ "loss": 2.6697,
6791
+ "step": 22420
6792
+ },
6793
+ {
6794
+ "epoch": 5.799844941206874,
6795
+ "learning_rate": 1.6395695578892777e-07,
6796
+ "loss": 2.6267,
6797
+ "step": 22440
6798
+ },
6799
+ {
6800
+ "epoch": 5.805013567644399,
6801
+ "learning_rate": 1.6392454297938546e-07,
6802
+ "loss": 2.6833,
6803
+ "step": 22460
6804
+ },
6805
+ {
6806
+ "epoch": 5.810182194081923,
6807
+ "learning_rate": 1.638921301698431e-07,
6808
+ "loss": 2.6647,
6809
+ "step": 22480
6810
+ },
6811
+ {
6812
+ "epoch": 5.815350820519447,
6813
+ "learning_rate": 1.6385971736030078e-07,
6814
+ "loss": 2.6619,
6815
+ "step": 22500
6816
+ },
6817
+ {
6818
+ "epoch": 5.820519446956971,
6819
+ "learning_rate": 1.6382730455075847e-07,
6820
+ "loss": 2.6341,
6821
+ "step": 22520
6822
+ },
6823
+ {
6824
+ "epoch": 5.825688073394495,
6825
+ "learning_rate": 1.637948917412161e-07,
6826
+ "loss": 2.604,
6827
+ "step": 22540
6828
+ },
6829
+ {
6830
+ "epoch": 5.83085669983202,
6831
+ "learning_rate": 1.637624789316738e-07,
6832
+ "loss": 2.6344,
6833
+ "step": 22560
6834
+ },
6835
+ {
6836
+ "epoch": 5.836025326269544,
6837
+ "learning_rate": 1.6373006612213146e-07,
6838
+ "loss": 2.6453,
6839
+ "step": 22580
6840
+ },
6841
+ {
6842
+ "epoch": 5.841193952707068,
6843
+ "learning_rate": 1.6369765331258912e-07,
6844
+ "loss": 2.6433,
6845
+ "step": 22600
6846
+ },
6847
+ {
6848
+ "epoch": 5.846362579144593,
6849
+ "learning_rate": 1.636652405030468e-07,
6850
+ "loss": 2.5673,
6851
+ "step": 22620
6852
+ },
6853
+ {
6854
+ "epoch": 5.851531205582116,
6855
+ "learning_rate": 1.6363282769350444e-07,
6856
+ "loss": 2.6455,
6857
+ "step": 22640
6858
+ },
6859
+ {
6860
+ "epoch": 5.856699832019641,
6861
+ "learning_rate": 1.6360041488396213e-07,
6862
+ "loss": 2.6617,
6863
+ "step": 22660
6864
+ },
6865
+ {
6866
+ "epoch": 5.861868458457165,
6867
+ "learning_rate": 1.6356800207441982e-07,
6868
+ "loss": 2.6395,
6869
+ "step": 22680
6870
+ },
6871
+ {
6872
+ "epoch": 5.867037084894689,
6873
+ "learning_rate": 1.6353558926487745e-07,
6874
+ "loss": 2.6358,
6875
+ "step": 22700
6876
+ },
6877
+ {
6878
+ "epoch": 5.872205711332214,
6879
+ "learning_rate": 1.6350317645533514e-07,
6880
+ "loss": 2.618,
6881
+ "step": 22720
6882
+ },
6883
+ {
6884
+ "epoch": 5.877374337769738,
6885
+ "learning_rate": 1.634707636457928e-07,
6886
+ "loss": 2.6219,
6887
+ "step": 22740
6888
+ },
6889
+ {
6890
+ "epoch": 5.882542964207262,
6891
+ "learning_rate": 1.6343835083625047e-07,
6892
+ "loss": 2.6028,
6893
+ "step": 22760
6894
+ },
6895
+ {
6896
+ "epoch": 5.887711590644786,
6897
+ "learning_rate": 1.6340593802670815e-07,
6898
+ "loss": 2.599,
6899
+ "step": 22780
6900
+ },
6901
+ {
6902
+ "epoch": 5.89288021708231,
6903
+ "learning_rate": 1.633735252171658e-07,
6904
+ "loss": 2.6062,
6905
+ "step": 22800
6906
+ },
6907
+ {
6908
+ "epoch": 5.898048843519835,
6909
+ "learning_rate": 1.6334111240762348e-07,
6910
+ "loss": 2.5854,
6911
+ "step": 22820
6912
+ },
6913
+ {
6914
+ "epoch": 5.903217469957359,
6915
+ "learning_rate": 1.6330869959808117e-07,
6916
+ "loss": 2.5416,
6917
+ "step": 22840
6918
+ },
6919
+ {
6920
+ "epoch": 5.908386096394883,
6921
+ "learning_rate": 1.632762867885388e-07,
6922
+ "loss": 2.6731,
6923
+ "step": 22860
6924
+ },
6925
+ {
6926
+ "epoch": 5.913554722832407,
6927
+ "learning_rate": 1.632438739789965e-07,
6928
+ "loss": 2.6271,
6929
+ "step": 22880
6930
+ },
6931
+ {
6932
+ "epoch": 5.918723349269931,
6933
+ "learning_rate": 1.6321146116945418e-07,
6934
+ "loss": 2.5896,
6935
+ "step": 22900
6936
+ },
6937
+ {
6938
+ "epoch": 5.9238919757074555,
6939
+ "learning_rate": 1.6317904835991181e-07,
6940
+ "loss": 2.6794,
6941
+ "step": 22920
6942
+ },
6943
+ {
6944
+ "epoch": 5.92906060214498,
6945
+ "learning_rate": 1.631466355503695e-07,
6946
+ "loss": 2.6051,
6947
+ "step": 22940
6948
+ },
6949
+ {
6950
+ "epoch": 5.934229228582504,
6951
+ "learning_rate": 1.6311422274082716e-07,
6952
+ "loss": 2.6901,
6953
+ "step": 22960
6954
+ },
6955
+ {
6956
+ "epoch": 5.939397855020029,
6957
+ "learning_rate": 1.6308180993128483e-07,
6958
+ "loss": 2.6288,
6959
+ "step": 22980
6960
+ },
6961
+ {
6962
+ "epoch": 5.944566481457553,
6963
+ "learning_rate": 1.6304939712174251e-07,
6964
+ "loss": 2.6806,
6965
+ "step": 23000
6966
+ },
6967
+ {
6968
+ "epoch": 5.949735107895076,
6969
+ "learning_rate": 1.6301698431220015e-07,
6970
+ "loss": 2.6003,
6971
+ "step": 23020
6972
+ },
6973
+ {
6974
+ "epoch": 5.954903734332601,
6975
+ "learning_rate": 1.6298457150265784e-07,
6976
+ "loss": 2.6595,
6977
+ "step": 23040
6978
+ },
6979
+ {
6980
+ "epoch": 5.960072360770125,
6981
+ "learning_rate": 1.6295215869311553e-07,
6982
+ "loss": 2.6563,
6983
+ "step": 23060
6984
+ },
6985
+ {
6986
+ "epoch": 5.9652409872076495,
6987
+ "learning_rate": 1.6291974588357316e-07,
6988
+ "loss": 2.6499,
6989
+ "step": 23080
6990
+ },
6991
+ {
6992
+ "epoch": 5.970409613645174,
6993
+ "learning_rate": 1.6288733307403085e-07,
6994
+ "loss": 2.6836,
6995
+ "step": 23100
6996
+ },
6997
+ {
6998
+ "epoch": 5.975578240082698,
6999
+ "learning_rate": 1.6285492026448854e-07,
7000
+ "loss": 2.6193,
7001
+ "step": 23120
7002
+ },
7003
+ {
7004
+ "epoch": 5.980746866520223,
7005
+ "learning_rate": 1.6282250745494617e-07,
7006
+ "loss": 2.6293,
7007
+ "step": 23140
7008
+ },
7009
+ {
7010
+ "epoch": 5.985915492957746,
7011
+ "learning_rate": 1.6279009464540386e-07,
7012
+ "loss": 2.7275,
7013
+ "step": 23160
7014
+ },
7015
+ {
7016
+ "epoch": 5.99108411939527,
7017
+ "learning_rate": 1.6275768183586152e-07,
7018
+ "loss": 2.6021,
7019
+ "step": 23180
7020
+ },
7021
+ {
7022
+ "epoch": 5.996252745832795,
7023
+ "learning_rate": 1.6272526902631919e-07,
7024
+ "loss": 2.6331,
7025
+ "step": 23200
7026
+ },
7027
+ {
7028
+ "epoch": 5.999870784339062,
7029
+ "eval_bleu": 1.6991,
7030
+ "eval_gen_len": 66.9245,
7031
+ "eval_loss": 2.596095085144043,
7032
+ "eval_runtime": 1347.5897,
7033
+ "eval_samples_per_second": 1.278,
7034
+ "eval_steps_per_second": 0.639,
7035
+ "step": 23214
7036
+ },
7037
+ {
7038
+ "epoch": 6.001421372270319,
7039
+ "learning_rate": 1.6269285621677687e-07,
7040
+ "loss": 2.6423,
7041
+ "step": 23220
7042
+ },
7043
+ {
7044
+ "epoch": 6.0065899987078435,
7045
+ "learning_rate": 1.626604434072345e-07,
7046
+ "loss": 2.667,
7047
+ "step": 23240
7048
+ },
7049
+ {
7050
+ "epoch": 6.011758625145368,
7051
+ "learning_rate": 1.626280305976922e-07,
7052
+ "loss": 2.6741,
7053
+ "step": 23260
7054
+ },
7055
+ {
7056
+ "epoch": 6.016927251582892,
7057
+ "learning_rate": 1.6259561778814989e-07,
7058
+ "loss": 2.6269,
7059
+ "step": 23280
7060
+ },
7061
+ {
7062
+ "epoch": 6.022095878020416,
7063
+ "learning_rate": 1.6256320497860752e-07,
7064
+ "loss": 2.6817,
7065
+ "step": 23300
7066
+ },
7067
+ {
7068
+ "epoch": 6.02726450445794,
7069
+ "learning_rate": 1.625307921690652e-07,
7070
+ "loss": 2.6804,
7071
+ "step": 23320
7072
+ },
7073
+ {
7074
+ "epoch": 6.032433130895464,
7075
+ "learning_rate": 1.6249837935952287e-07,
7076
+ "loss": 2.6283,
7077
+ "step": 23340
7078
+ },
7079
+ {
7080
+ "epoch": 6.037601757332989,
7081
+ "learning_rate": 1.6246596654998053e-07,
7082
+ "loss": 2.6344,
7083
+ "step": 23360
7084
+ },
7085
+ {
7086
+ "epoch": 6.042770383770513,
7087
+ "learning_rate": 1.6243355374043822e-07,
7088
+ "loss": 2.6453,
7089
+ "step": 23380
7090
+ },
7091
+ {
7092
+ "epoch": 6.0479390102080375,
7093
+ "learning_rate": 1.6240114093089586e-07,
7094
+ "loss": 2.5926,
7095
+ "step": 23400
7096
+ },
7097
+ {
7098
+ "epoch": 6.053107636645562,
7099
+ "learning_rate": 1.6236872812135355e-07,
7100
+ "loss": 2.6709,
7101
+ "step": 23420
7102
+ },
7103
+ {
7104
+ "epoch": 6.058276263083085,
7105
+ "learning_rate": 1.6233631531181123e-07,
7106
+ "loss": 2.6228,
7107
+ "step": 23440
7108
+ },
7109
+ {
7110
+ "epoch": 6.06344488952061,
7111
+ "learning_rate": 1.6230390250226887e-07,
7112
+ "loss": 2.6006,
7113
+ "step": 23460
7114
+ },
7115
+ {
7116
+ "epoch": 6.068613515958134,
7117
+ "learning_rate": 1.6227148969272656e-07,
7118
+ "loss": 2.6179,
7119
+ "step": 23480
7120
+ },
7121
+ {
7122
+ "epoch": 6.073782142395658,
7123
+ "learning_rate": 1.6223907688318425e-07,
7124
+ "loss": 2.63,
7125
+ "step": 23500
7126
+ },
7127
+ {
7128
+ "epoch": 6.078950768833183,
7129
+ "learning_rate": 1.6220666407364188e-07,
7130
+ "loss": 2.653,
7131
+ "step": 23520
7132
+ },
7133
+ {
7134
+ "epoch": 6.084119395270707,
7135
+ "learning_rate": 1.6217425126409957e-07,
7136
+ "loss": 2.6129,
7137
+ "step": 23540
7138
+ },
7139
+ {
7140
+ "epoch": 6.0892880217082315,
7141
+ "learning_rate": 1.6214183845455723e-07,
7142
+ "loss": 2.6008,
7143
+ "step": 23560
7144
+ },
7145
+ {
7146
+ "epoch": 6.094456648145755,
7147
+ "learning_rate": 1.621094256450149e-07,
7148
+ "loss": 2.6594,
7149
+ "step": 23580
7150
+ },
7151
+ {
7152
+ "epoch": 6.099625274583279,
7153
+ "learning_rate": 1.6207701283547258e-07,
7154
+ "loss": 2.617,
7155
+ "step": 23600
7156
+ },
7157
+ {
7158
+ "epoch": 6.104793901020804,
7159
+ "learning_rate": 1.6204460002593022e-07,
7160
+ "loss": 2.6392,
7161
+ "step": 23620
7162
+ },
7163
+ {
7164
+ "epoch": 6.109962527458328,
7165
+ "learning_rate": 1.620121872163879e-07,
7166
+ "loss": 2.6315,
7167
+ "step": 23640
7168
+ },
7169
+ {
7170
+ "epoch": 6.115131153895852,
7171
+ "learning_rate": 1.619797744068456e-07,
7172
+ "loss": 2.6131,
7173
+ "step": 23660
7174
+ },
7175
+ {
7176
+ "epoch": 6.120299780333377,
7177
+ "learning_rate": 1.6194736159730323e-07,
7178
+ "loss": 2.6512,
7179
+ "step": 23680
7180
+ },
7181
+ {
7182
+ "epoch": 6.1254684067709,
7183
+ "learning_rate": 1.6191494878776092e-07,
7184
+ "loss": 2.6196,
7185
+ "step": 23700
7186
+ },
7187
+ {
7188
+ "epoch": 6.130637033208425,
7189
+ "learning_rate": 1.618825359782186e-07,
7190
+ "loss": 2.6234,
7191
+ "step": 23720
7192
+ },
7193
+ {
7194
+ "epoch": 6.135805659645949,
7195
+ "learning_rate": 1.6185012316867624e-07,
7196
+ "loss": 2.5817,
7197
+ "step": 23740
7198
+ },
7199
+ {
7200
+ "epoch": 6.140974286083473,
7201
+ "learning_rate": 1.6181771035913393e-07,
7202
+ "loss": 2.5873,
7203
+ "step": 23760
7204
+ },
7205
+ {
7206
+ "epoch": 6.146142912520998,
7207
+ "learning_rate": 1.617852975495916e-07,
7208
+ "loss": 2.5957,
7209
+ "step": 23780
7210
+ },
7211
+ {
7212
+ "epoch": 6.151311538958522,
7213
+ "learning_rate": 1.6175288474004925e-07,
7214
+ "loss": 2.613,
7215
+ "step": 23800
7216
+ },
7217
+ {
7218
+ "epoch": 6.156480165396046,
7219
+ "learning_rate": 1.6172047193050694e-07,
7220
+ "loss": 2.5577,
7221
+ "step": 23820
7222
+ },
7223
+ {
7224
+ "epoch": 6.16164879183357,
7225
+ "learning_rate": 1.6168805912096458e-07,
7226
+ "loss": 2.6101,
7227
+ "step": 23840
7228
+ },
7229
+ {
7230
+ "epoch": 6.166817418271094,
7231
+ "learning_rate": 1.6165564631142227e-07,
7232
+ "loss": 2.5553,
7233
+ "step": 23860
7234
+ },
7235
+ {
7236
+ "epoch": 6.171986044708619,
7237
+ "learning_rate": 1.6162323350187995e-07,
7238
+ "loss": 2.6326,
7239
+ "step": 23880
7240
+ },
7241
+ {
7242
+ "epoch": 6.177154671146143,
7243
+ "learning_rate": 1.615908206923376e-07,
7244
+ "loss": 2.5922,
7245
+ "step": 23900
7246
+ },
7247
+ {
7248
+ "epoch": 6.182323297583667,
7249
+ "learning_rate": 1.6155840788279528e-07,
7250
+ "loss": 2.5913,
7251
+ "step": 23920
7252
+ },
7253
+ {
7254
+ "epoch": 6.187491924021192,
7255
+ "learning_rate": 1.6152599507325294e-07,
7256
+ "loss": 2.6378,
7257
+ "step": 23940
7258
+ },
7259
+ {
7260
+ "epoch": 6.192660550458716,
7261
+ "learning_rate": 1.614935822637106e-07,
7262
+ "loss": 2.5969,
7263
+ "step": 23960
7264
+ },
7265
+ {
7266
+ "epoch": 6.1978291768962395,
7267
+ "learning_rate": 1.614611694541683e-07,
7268
+ "loss": 2.5971,
7269
+ "step": 23980
7270
+ },
7271
+ {
7272
+ "epoch": 6.202997803333764,
7273
+ "learning_rate": 1.6142875664462593e-07,
7274
+ "loss": 2.616,
7275
+ "step": 24000
7276
+ },
7277
+ {
7278
+ "epoch": 6.208166429771288,
7279
+ "learning_rate": 1.6139634383508361e-07,
7280
+ "loss": 2.6352,
7281
+ "step": 24020
7282
+ },
7283
+ {
7284
+ "epoch": 6.2133350562088125,
7285
+ "learning_rate": 1.613639310255413e-07,
7286
+ "loss": 2.6371,
7287
+ "step": 24040
7288
+ },
7289
+ {
7290
+ "epoch": 6.218503682646337,
7291
+ "learning_rate": 1.6133151821599894e-07,
7292
+ "loss": 2.5946,
7293
+ "step": 24060
7294
+ },
7295
+ {
7296
+ "epoch": 6.223672309083861,
7297
+ "learning_rate": 1.6129910540645663e-07,
7298
+ "loss": 2.6379,
7299
+ "step": 24080
7300
+ },
7301
+ {
7302
+ "epoch": 6.228840935521385,
7303
+ "learning_rate": 1.6126669259691431e-07,
7304
+ "loss": 2.6046,
7305
+ "step": 24100
7306
+ },
7307
+ {
7308
+ "epoch": 6.234009561958909,
7309
+ "learning_rate": 1.6123427978737195e-07,
7310
+ "loss": 2.653,
7311
+ "step": 24120
7312
+ },
7313
+ {
7314
+ "epoch": 6.2391781883964335,
7315
+ "learning_rate": 1.6120186697782964e-07,
7316
+ "loss": 2.6409,
7317
+ "step": 24140
7318
+ },
7319
+ {
7320
+ "epoch": 6.244346814833958,
7321
+ "learning_rate": 1.611694541682873e-07,
7322
+ "loss": 2.6077,
7323
+ "step": 24160
7324
+ },
7325
+ {
7326
+ "epoch": 6.249515441271482,
7327
+ "learning_rate": 1.6113704135874496e-07,
7328
+ "loss": 2.5993,
7329
+ "step": 24180
7330
+ },
7331
+ {
7332
+ "epoch": 6.2546840677090065,
7333
+ "learning_rate": 1.6110462854920265e-07,
7334
+ "loss": 2.6326,
7335
+ "step": 24200
7336
+ },
7337
+ {
7338
+ "epoch": 6.259852694146531,
7339
+ "learning_rate": 1.6107221573966029e-07,
7340
+ "loss": 2.612,
7341
+ "step": 24220
7342
+ },
7343
+ {
7344
+ "epoch": 6.265021320584054,
7345
+ "learning_rate": 1.6103980293011797e-07,
7346
+ "loss": 2.662,
7347
+ "step": 24240
7348
+ },
7349
+ {
7350
+ "epoch": 6.270189947021579,
7351
+ "learning_rate": 1.6100739012057566e-07,
7352
+ "loss": 2.6377,
7353
+ "step": 24260
7354
+ },
7355
+ {
7356
+ "epoch": 6.275358573459103,
7357
+ "learning_rate": 1.609749773110333e-07,
7358
+ "loss": 2.6113,
7359
+ "step": 24280
7360
+ },
7361
+ {
7362
+ "epoch": 6.280527199896627,
7363
+ "learning_rate": 1.6094256450149099e-07,
7364
+ "loss": 2.6094,
7365
+ "step": 24300
7366
+ },
7367
+ {
7368
+ "epoch": 6.285695826334152,
7369
+ "learning_rate": 1.6091015169194867e-07,
7370
+ "loss": 2.6185,
7371
+ "step": 24320
7372
+ },
7373
+ {
7374
+ "epoch": 6.290864452771676,
7375
+ "learning_rate": 1.608777388824063e-07,
7376
+ "loss": 2.6523,
7377
+ "step": 24340
7378
+ },
7379
+ {
7380
+ "epoch": 6.2960330792092005,
7381
+ "learning_rate": 1.60845326072864e-07,
7382
+ "loss": 2.6458,
7383
+ "step": 24360
7384
+ },
7385
+ {
7386
+ "epoch": 6.301201705646724,
7387
+ "learning_rate": 1.6081291326332166e-07,
7388
+ "loss": 2.5826,
7389
+ "step": 24380
7390
+ },
7391
+ {
7392
+ "epoch": 6.306370332084248,
7393
+ "learning_rate": 1.6078050045377932e-07,
7394
+ "loss": 2.6395,
7395
+ "step": 24400
7396
+ },
7397
+ {
7398
+ "epoch": 6.311538958521773,
7399
+ "learning_rate": 1.60748087644237e-07,
7400
+ "loss": 2.6305,
7401
+ "step": 24420
7402
+ },
7403
+ {
7404
+ "epoch": 6.316707584959297,
7405
+ "learning_rate": 1.6071567483469465e-07,
7406
+ "loss": 2.6493,
7407
+ "step": 24440
7408
+ },
7409
+ {
7410
+ "epoch": 6.321876211396821,
7411
+ "learning_rate": 1.6068326202515233e-07,
7412
+ "loss": 2.6198,
7413
+ "step": 24460
7414
+ },
7415
+ {
7416
+ "epoch": 6.327044837834346,
7417
+ "learning_rate": 1.6065084921561002e-07,
7418
+ "loss": 2.5705,
7419
+ "step": 24480
7420
+ },
7421
+ {
7422
+ "epoch": 6.33221346427187,
7423
+ "learning_rate": 1.6061843640606766e-07,
7424
+ "loss": 2.5797,
7425
+ "step": 24500
7426
+ },
7427
+ {
7428
+ "epoch": 6.337382090709394,
7429
+ "learning_rate": 1.6058602359652535e-07,
7430
+ "loss": 2.6152,
7431
+ "step": 24520
7432
+ },
7433
+ {
7434
+ "epoch": 6.342550717146918,
7435
+ "learning_rate": 1.60553610786983e-07,
7436
+ "loss": 2.6075,
7437
+ "step": 24540
7438
+ },
7439
+ {
7440
+ "epoch": 6.347719343584442,
7441
+ "learning_rate": 1.6052119797744067e-07,
7442
+ "loss": 2.6446,
7443
+ "step": 24560
7444
+ },
7445
+ {
7446
+ "epoch": 6.352887970021967,
7447
+ "learning_rate": 1.6048878516789836e-07,
7448
+ "loss": 2.6204,
7449
+ "step": 24580
7450
+ },
7451
+ {
7452
+ "epoch": 6.358056596459491,
7453
+ "learning_rate": 1.60456372358356e-07,
7454
+ "loss": 2.6079,
7455
+ "step": 24600
7456
+ },
7457
+ {
7458
+ "epoch": 6.363225222897015,
7459
+ "learning_rate": 1.6042395954881368e-07,
7460
+ "loss": 2.59,
7461
+ "step": 24620
7462
+ },
7463
+ {
7464
+ "epoch": 6.36839384933454,
7465
+ "learning_rate": 1.6039154673927137e-07,
7466
+ "loss": 2.6417,
7467
+ "step": 24640
7468
+ },
7469
+ {
7470
+ "epoch": 6.373562475772063,
7471
+ "learning_rate": 1.60359133929729e-07,
7472
+ "loss": 2.6426,
7473
+ "step": 24660
7474
+ },
7475
+ {
7476
+ "epoch": 6.378731102209588,
7477
+ "learning_rate": 1.603267211201867e-07,
7478
+ "loss": 2.6004,
7479
+ "step": 24680
7480
+ },
7481
+ {
7482
+ "epoch": 6.383899728647112,
7483
+ "learning_rate": 1.6029430831064438e-07,
7484
+ "loss": 2.6422,
7485
+ "step": 24700
7486
+ },
7487
+ {
7488
+ "epoch": 6.389068355084636,
7489
+ "learning_rate": 1.6026189550110202e-07,
7490
+ "loss": 2.595,
7491
+ "step": 24720
7492
+ },
7493
+ {
7494
+ "epoch": 6.394236981522161,
7495
+ "learning_rate": 1.602294826915597e-07,
7496
+ "loss": 2.6091,
7497
+ "step": 24740
7498
+ },
7499
+ {
7500
+ "epoch": 6.399405607959685,
7501
+ "learning_rate": 1.6019706988201737e-07,
7502
+ "loss": 2.5978,
7503
+ "step": 24760
7504
+ },
7505
+ {
7506
+ "epoch": 6.404574234397209,
7507
+ "learning_rate": 1.6016465707247503e-07,
7508
+ "loss": 2.5525,
7509
+ "step": 24780
7510
+ },
7511
+ {
7512
+ "epoch": 6.409742860834733,
7513
+ "learning_rate": 1.6013224426293272e-07,
7514
+ "loss": 2.6011,
7515
+ "step": 24800
7516
+ },
7517
+ {
7518
+ "epoch": 6.414911487272257,
7519
+ "learning_rate": 1.6009983145339035e-07,
7520
+ "loss": 2.5727,
7521
+ "step": 24820
7522
+ },
7523
+ {
7524
+ "epoch": 6.420080113709782,
7525
+ "learning_rate": 1.6006741864384804e-07,
7526
+ "loss": 2.6214,
7527
+ "step": 24840
7528
+ },
7529
+ {
7530
+ "epoch": 6.425248740147306,
7531
+ "learning_rate": 1.6003500583430573e-07,
7532
+ "loss": 2.6492,
7533
+ "step": 24860
7534
+ },
7535
+ {
7536
+ "epoch": 6.43041736658483,
7537
+ "learning_rate": 1.6000259302476336e-07,
7538
+ "loss": 2.628,
7539
+ "step": 24880
7540
+ },
7541
+ {
7542
+ "epoch": 6.435585993022355,
7543
+ "learning_rate": 1.5997018021522105e-07,
7544
+ "loss": 2.6282,
7545
+ "step": 24900
7546
+ },
7547
+ {
7548
+ "epoch": 6.440754619459878,
7549
+ "learning_rate": 1.5993776740567874e-07,
7550
+ "loss": 2.6483,
7551
+ "step": 24920
7552
+ },
7553
+ {
7554
+ "epoch": 6.4459232458974025,
7555
+ "learning_rate": 1.5990535459613638e-07,
7556
+ "loss": 2.6026,
7557
+ "step": 24940
7558
+ },
7559
+ {
7560
+ "epoch": 6.451091872334927,
7561
+ "learning_rate": 1.5987294178659407e-07,
7562
+ "loss": 2.6324,
7563
+ "step": 24960
7564
+ },
7565
+ {
7566
+ "epoch": 6.456260498772451,
7567
+ "learning_rate": 1.5984052897705173e-07,
7568
+ "loss": 2.5601,
7569
+ "step": 24980
7570
+ },
7571
+ {
7572
+ "epoch": 6.461429125209976,
7573
+ "learning_rate": 1.598081161675094e-07,
7574
+ "loss": 2.6437,
7575
+ "step": 25000
7576
+ },
7577
+ {
7578
+ "epoch": 6.4665977516475,
7579
+ "learning_rate": 1.5977570335796708e-07,
7580
+ "loss": 2.6326,
7581
+ "step": 25020
7582
+ },
7583
+ {
7584
+ "epoch": 6.471766378085024,
7585
+ "learning_rate": 1.597432905484247e-07,
7586
+ "loss": 2.6664,
7587
+ "step": 25040
7588
+ },
7589
+ {
7590
+ "epoch": 6.476935004522548,
7591
+ "learning_rate": 1.597108777388824e-07,
7592
+ "loss": 2.6057,
7593
+ "step": 25060
7594
+ },
7595
+ {
7596
+ "epoch": 6.482103630960072,
7597
+ "learning_rate": 1.596784649293401e-07,
7598
+ "loss": 2.6007,
7599
+ "step": 25080
7600
+ },
7601
+ {
7602
+ "epoch": 6.4872722573975965,
7603
+ "learning_rate": 1.5964605211979772e-07,
7604
+ "loss": 2.5935,
7605
+ "step": 25100
7606
+ },
7607
+ {
7608
+ "epoch": 6.492440883835121,
7609
+ "learning_rate": 1.5961363931025541e-07,
7610
+ "loss": 2.5344,
7611
+ "step": 25120
7612
+ },
7613
+ {
7614
+ "epoch": 6.497609510272645,
7615
+ "learning_rate": 1.5958122650071308e-07,
7616
+ "loss": 2.6249,
7617
+ "step": 25140
7618
+ },
7619
+ {
7620
+ "epoch": 6.50277813671017,
7621
+ "learning_rate": 1.5954881369117074e-07,
7622
+ "loss": 2.5882,
7623
+ "step": 25160
7624
+ },
7625
+ {
7626
+ "epoch": 6.507946763147693,
7627
+ "learning_rate": 1.5951640088162843e-07,
7628
+ "loss": 2.6219,
7629
+ "step": 25180
7630
+ },
7631
+ {
7632
+ "epoch": 6.513115389585217,
7633
+ "learning_rate": 1.5948398807208606e-07,
7634
+ "loss": 2.5838,
7635
+ "step": 25200
7636
+ },
7637
+ {
7638
+ "epoch": 6.518284016022742,
7639
+ "learning_rate": 1.5945157526254375e-07,
7640
+ "loss": 2.5943,
7641
+ "step": 25220
7642
+ },
7643
+ {
7644
+ "epoch": 6.523452642460266,
7645
+ "learning_rate": 1.5941916245300144e-07,
7646
+ "loss": 2.6468,
7647
+ "step": 25240
7648
+ },
7649
+ {
7650
+ "epoch": 6.5286212688977905,
7651
+ "learning_rate": 1.5938674964345907e-07,
7652
+ "loss": 2.6726,
7653
+ "step": 25260
7654
+ },
7655
+ {
7656
+ "epoch": 6.533789895335315,
7657
+ "learning_rate": 1.5935433683391676e-07,
7658
+ "loss": 2.5732,
7659
+ "step": 25280
7660
+ },
7661
+ {
7662
+ "epoch": 6.538958521772839,
7663
+ "learning_rate": 1.5932192402437442e-07,
7664
+ "loss": 2.5739,
7665
+ "step": 25300
7666
+ },
7667
+ {
7668
+ "epoch": 6.544127148210363,
7669
+ "learning_rate": 1.5928951121483208e-07,
7670
+ "loss": 2.5914,
7671
+ "step": 25320
7672
+ },
7673
+ {
7674
+ "epoch": 6.549295774647887,
7675
+ "learning_rate": 1.5925709840528977e-07,
7676
+ "loss": 2.6142,
7677
+ "step": 25340
7678
+ },
7679
+ {
7680
+ "epoch": 6.554464401085411,
7681
+ "learning_rate": 1.5922468559574744e-07,
7682
+ "loss": 2.6145,
7683
+ "step": 25360
7684
+ },
7685
+ {
7686
+ "epoch": 6.559633027522936,
7687
+ "learning_rate": 1.591922727862051e-07,
7688
+ "loss": 2.6449,
7689
+ "step": 25380
7690
+ },
7691
+ {
7692
+ "epoch": 6.56480165396046,
7693
+ "learning_rate": 1.5915985997666279e-07,
7694
+ "loss": 2.586,
7695
+ "step": 25400
7696
+ },
7697
+ {
7698
+ "epoch": 6.5699702803979845,
7699
+ "learning_rate": 1.5912744716712042e-07,
7700
+ "loss": 2.6136,
7701
+ "step": 25420
7702
+ },
7703
+ {
7704
+ "epoch": 6.575138906835509,
7705
+ "learning_rate": 1.590950343575781e-07,
7706
+ "loss": 2.6556,
7707
+ "step": 25440
7708
+ },
7709
+ {
7710
+ "epoch": 6.580307533273032,
7711
+ "learning_rate": 1.5906262154803577e-07,
7712
+ "loss": 2.6557,
7713
+ "step": 25460
7714
+ },
7715
+ {
7716
+ "epoch": 6.585476159710557,
7717
+ "learning_rate": 1.5903020873849343e-07,
7718
+ "loss": 2.5518,
7719
+ "step": 25480
7720
+ },
7721
+ {
7722
+ "epoch": 6.590644786148081,
7723
+ "learning_rate": 1.5899779592895112e-07,
7724
+ "loss": 2.6054,
7725
+ "step": 25500
7726
+ },
7727
+ {
7728
+ "epoch": 6.595813412585605,
7729
+ "learning_rate": 1.5896538311940878e-07,
7730
+ "loss": 2.5766,
7731
+ "step": 25520
7732
+ },
7733
+ {
7734
+ "epoch": 6.60098203902313,
7735
+ "learning_rate": 1.5893297030986644e-07,
7736
+ "loss": 2.5573,
7737
+ "step": 25540
7738
+ },
7739
+ {
7740
+ "epoch": 6.606150665460654,
7741
+ "learning_rate": 1.5890055750032413e-07,
7742
+ "loss": 2.6429,
7743
+ "step": 25560
7744
+ },
7745
+ {
7746
+ "epoch": 6.6113192918981785,
7747
+ "learning_rate": 1.588681446907818e-07,
7748
+ "loss": 2.6795,
7749
+ "step": 25580
7750
+ },
7751
+ {
7752
+ "epoch": 6.616487918335702,
7753
+ "learning_rate": 1.5883573188123946e-07,
7754
+ "loss": 2.6573,
7755
+ "step": 25600
7756
+ },
7757
+ {
7758
+ "epoch": 6.621656544773226,
7759
+ "learning_rate": 1.5880331907169712e-07,
7760
+ "loss": 2.5762,
7761
+ "step": 25620
7762
+ },
7763
+ {
7764
+ "epoch": 6.626825171210751,
7765
+ "learning_rate": 1.5877090626215478e-07,
7766
+ "loss": 2.6336,
7767
+ "step": 25640
7768
+ },
7769
+ {
7770
+ "epoch": 6.631993797648275,
7771
+ "learning_rate": 1.5873849345261247e-07,
7772
+ "loss": 2.5999,
7773
+ "step": 25660
7774
+ },
7775
+ {
7776
+ "epoch": 6.637162424085799,
7777
+ "learning_rate": 1.5870608064307013e-07,
7778
+ "loss": 2.6625,
7779
+ "step": 25680
7780
+ },
7781
+ {
7782
+ "epoch": 6.642331050523324,
7783
+ "learning_rate": 1.586736678335278e-07,
7784
+ "loss": 2.5277,
7785
+ "step": 25700
7786
+ },
7787
+ {
7788
+ "epoch": 6.647499676960848,
7789
+ "learning_rate": 1.5864125502398548e-07,
7790
+ "loss": 2.5688,
7791
+ "step": 25720
7792
+ },
7793
+ {
7794
+ "epoch": 6.652668303398372,
7795
+ "learning_rate": 1.5860884221444314e-07,
7796
+ "loss": 2.5813,
7797
+ "step": 25740
7798
+ },
7799
+ {
7800
+ "epoch": 6.657836929835896,
7801
+ "learning_rate": 1.585764294049008e-07,
7802
+ "loss": 2.622,
7803
+ "step": 25760
7804
+ },
7805
+ {
7806
+ "epoch": 6.66300555627342,
7807
+ "learning_rate": 1.5854401659535847e-07,
7808
+ "loss": 2.5956,
7809
+ "step": 25780
7810
+ },
7811
+ {
7812
+ "epoch": 6.668174182710945,
7813
+ "learning_rate": 1.5851160378581613e-07,
7814
+ "loss": 2.5834,
7815
+ "step": 25800
7816
+ },
7817
+ {
7818
+ "epoch": 6.673342809148469,
7819
+ "learning_rate": 1.5847919097627382e-07,
7820
+ "loss": 2.5737,
7821
+ "step": 25820
7822
+ },
7823
+ {
7824
+ "epoch": 6.678511435585993,
7825
+ "learning_rate": 1.5844677816673148e-07,
7826
+ "loss": 2.5815,
7827
+ "step": 25840
7828
+ },
7829
+ {
7830
+ "epoch": 6.683680062023518,
7831
+ "learning_rate": 1.5841436535718914e-07,
7832
+ "loss": 2.5868,
7833
+ "step": 25860
7834
+ },
7835
+ {
7836
+ "epoch": 6.688848688461041,
7837
+ "learning_rate": 1.5838195254764683e-07,
7838
+ "loss": 2.6376,
7839
+ "step": 25880
7840
+ },
7841
+ {
7842
+ "epoch": 6.6940173148985656,
7843
+ "learning_rate": 1.583495397381045e-07,
7844
+ "loss": 2.5857,
7845
+ "step": 25900
7846
+ },
7847
+ {
7848
+ "epoch": 6.69918594133609,
7849
+ "learning_rate": 1.5831712692856215e-07,
7850
+ "loss": 2.6078,
7851
+ "step": 25920
7852
+ },
7853
+ {
7854
+ "epoch": 6.704354567773614,
7855
+ "learning_rate": 1.5828471411901981e-07,
7856
+ "loss": 2.6262,
7857
+ "step": 25940
7858
+ },
7859
+ {
7860
+ "epoch": 6.709523194211139,
7861
+ "learning_rate": 1.582523013094775e-07,
7862
+ "loss": 2.5676,
7863
+ "step": 25960
7864
+ },
7865
+ {
7866
+ "epoch": 6.714691820648663,
7867
+ "learning_rate": 1.5821988849993516e-07,
7868
+ "loss": 2.6036,
7869
+ "step": 25980
7870
+ },
7871
+ {
7872
+ "epoch": 6.7198604470861865,
7873
+ "learning_rate": 1.5818747569039283e-07,
7874
+ "loss": 2.5575,
7875
+ "step": 26000
7876
+ },
7877
+ {
7878
+ "epoch": 6.725029073523711,
7879
+ "learning_rate": 1.581550628808505e-07,
7880
+ "loss": 2.5708,
7881
+ "step": 26020
7882
+ },
7883
+ {
7884
+ "epoch": 6.730197699961235,
7885
+ "learning_rate": 1.5812265007130818e-07,
7886
+ "loss": 2.6489,
7887
+ "step": 26040
7888
+ },
7889
+ {
7890
+ "epoch": 6.7353663263987595,
7891
+ "learning_rate": 1.5809023726176584e-07,
7892
+ "loss": 2.6338,
7893
+ "step": 26060
7894
+ },
7895
+ {
7896
+ "epoch": 6.740534952836284,
7897
+ "learning_rate": 1.580578244522235e-07,
7898
+ "loss": 2.6506,
7899
+ "step": 26080
7900
+ },
7901
+ {
7902
+ "epoch": 6.745703579273808,
7903
+ "learning_rate": 1.5802541164268116e-07,
7904
+ "loss": 2.541,
7905
+ "step": 26100
7906
+ },
7907
+ {
7908
+ "epoch": 6.750872205711332,
7909
+ "learning_rate": 1.5799299883313885e-07,
7910
+ "loss": 2.5367,
7911
+ "step": 26120
7912
+ },
7913
+ {
7914
+ "epoch": 6.756040832148856,
7915
+ "learning_rate": 1.579605860235965e-07,
7916
+ "loss": 2.5891,
7917
+ "step": 26140
7918
+ },
7919
+ {
7920
+ "epoch": 6.7612094585863804,
7921
+ "learning_rate": 1.5792817321405417e-07,
7922
+ "loss": 2.6226,
7923
+ "step": 26160
7924
+ },
7925
+ {
7926
+ "epoch": 6.766378085023905,
7927
+ "learning_rate": 1.5789576040451186e-07,
7928
+ "loss": 2.6313,
7929
+ "step": 26180
7930
+ },
7931
+ {
7932
+ "epoch": 6.771546711461429,
7933
+ "learning_rate": 1.5786334759496952e-07,
7934
+ "loss": 2.5891,
7935
+ "step": 26200
7936
+ },
7937
+ {
7938
+ "epoch": 6.7767153378989535,
7939
+ "learning_rate": 1.5783093478542719e-07,
7940
+ "loss": 2.5806,
7941
+ "step": 26220
7942
+ },
7943
+ {
7944
+ "epoch": 6.781883964336478,
7945
+ "learning_rate": 1.5779852197588485e-07,
7946
+ "loss": 2.5518,
7947
+ "step": 26240
7948
+ },
7949
+ {
7950
+ "epoch": 6.787052590774001,
7951
+ "learning_rate": 1.5776610916634254e-07,
7952
+ "loss": 2.6104,
7953
+ "step": 26260
7954
+ },
7955
+ {
7956
+ "epoch": 6.792221217211526,
7957
+ "learning_rate": 1.577336963568002e-07,
7958
+ "loss": 2.6052,
7959
+ "step": 26280
7960
+ },
7961
+ {
7962
+ "epoch": 6.79738984364905,
7963
+ "learning_rate": 1.5770128354725786e-07,
7964
+ "loss": 2.5845,
7965
+ "step": 26300
7966
+ },
7967
+ {
7968
+ "epoch": 6.802558470086574,
7969
+ "learning_rate": 1.5766887073771552e-07,
7970
+ "loss": 2.6096,
7971
+ "step": 26320
7972
+ },
7973
+ {
7974
+ "epoch": 6.807727096524099,
7975
+ "learning_rate": 1.576364579281732e-07,
7976
+ "loss": 2.5916,
7977
+ "step": 26340
7978
+ },
7979
+ {
7980
+ "epoch": 6.812895722961623,
7981
+ "learning_rate": 1.5760404511863087e-07,
7982
+ "loss": 2.584,
7983
+ "step": 26360
7984
+ },
7985
+ {
7986
+ "epoch": 6.8180643493991475,
7987
+ "learning_rate": 1.5757163230908853e-07,
7988
+ "loss": 2.6194,
7989
+ "step": 26380
7990
+ },
7991
+ {
7992
+ "epoch": 6.823232975836671,
7993
+ "learning_rate": 1.575392194995462e-07,
7994
+ "loss": 2.6581,
7995
+ "step": 26400
7996
+ },
7997
+ {
7998
+ "epoch": 6.828401602274195,
7999
+ "learning_rate": 1.5750680669000388e-07,
8000
+ "loss": 2.6636,
8001
+ "step": 26420
8002
+ },
8003
+ {
8004
+ "epoch": 6.83357022871172,
8005
+ "learning_rate": 1.5747439388046155e-07,
8006
+ "loss": 2.6135,
8007
+ "step": 26440
8008
+ },
8009
+ {
8010
+ "epoch": 6.838738855149244,
8011
+ "learning_rate": 1.574419810709192e-07,
8012
+ "loss": 2.609,
8013
+ "step": 26460
8014
+ },
8015
+ {
8016
+ "epoch": 6.843907481586768,
8017
+ "learning_rate": 1.574095682613769e-07,
8018
+ "loss": 2.6168,
8019
+ "step": 26480
8020
+ },
8021
+ {
8022
+ "epoch": 6.849076108024293,
8023
+ "learning_rate": 1.5737715545183456e-07,
8024
+ "loss": 2.5408,
8025
+ "step": 26500
8026
+ },
8027
+ {
8028
+ "epoch": 6.854244734461817,
8029
+ "learning_rate": 1.5734474264229222e-07,
8030
+ "loss": 2.6252,
8031
+ "step": 26520
8032
+ },
8033
+ {
8034
+ "epoch": 6.859413360899341,
8035
+ "learning_rate": 1.5731232983274988e-07,
8036
+ "loss": 2.5935,
8037
+ "step": 26540
8038
+ },
8039
+ {
8040
+ "epoch": 6.864581987336865,
8041
+ "learning_rate": 1.5727991702320757e-07,
8042
+ "loss": 2.5767,
8043
+ "step": 26560
8044
+ },
8045
+ {
8046
+ "epoch": 6.869750613774389,
8047
+ "learning_rate": 1.5724750421366523e-07,
8048
+ "loss": 2.6351,
8049
+ "step": 26580
8050
+ },
8051
+ {
8052
+ "epoch": 6.874919240211914,
8053
+ "learning_rate": 1.572150914041229e-07,
8054
+ "loss": 2.5793,
8055
+ "step": 26600
8056
+ },
8057
+ {
8058
+ "epoch": 6.880087866649438,
8059
+ "learning_rate": 1.5718267859458056e-07,
8060
+ "loss": 2.6026,
8061
+ "step": 26620
8062
+ },
8063
+ {
8064
+ "epoch": 6.885256493086962,
8065
+ "learning_rate": 1.5715026578503824e-07,
8066
+ "loss": 2.5796,
8067
+ "step": 26640
8068
+ },
8069
+ {
8070
+ "epoch": 6.890425119524487,
8071
+ "learning_rate": 1.571178529754959e-07,
8072
+ "loss": 2.6488,
8073
+ "step": 26660
8074
+ },
8075
+ {
8076
+ "epoch": 6.89559374596201,
8077
+ "learning_rate": 1.5708544016595357e-07,
8078
+ "loss": 2.6461,
8079
+ "step": 26680
8080
+ },
8081
+ {
8082
+ "epoch": 6.900762372399535,
8083
+ "learning_rate": 1.5705302735641123e-07,
8084
+ "loss": 2.5738,
8085
+ "step": 26700
8086
+ },
8087
+ {
8088
+ "epoch": 6.905930998837059,
8089
+ "learning_rate": 1.5702061454686892e-07,
8090
+ "loss": 2.5407,
8091
+ "step": 26720
8092
+ },
8093
+ {
8094
+ "epoch": 6.911099625274583,
8095
+ "learning_rate": 1.5698820173732658e-07,
8096
+ "loss": 2.6304,
8097
+ "step": 26740
8098
+ },
8099
+ {
8100
+ "epoch": 6.916268251712108,
8101
+ "learning_rate": 1.5695578892778424e-07,
8102
+ "loss": 2.576,
8103
+ "step": 26760
8104
+ },
8105
+ {
8106
+ "epoch": 6.921436878149632,
8107
+ "learning_rate": 1.5692337611824193e-07,
8108
+ "loss": 2.5784,
8109
+ "step": 26780
8110
+ },
8111
+ {
8112
+ "epoch": 6.926605504587156,
8113
+ "learning_rate": 1.568909633086996e-07,
8114
+ "loss": 2.6124,
8115
+ "step": 26800
8116
+ },
8117
+ {
8118
+ "epoch": 6.93177413102468,
8119
+ "learning_rate": 1.5685855049915725e-07,
8120
+ "loss": 2.5992,
8121
+ "step": 26820
8122
+ },
8123
+ {
8124
+ "epoch": 6.936942757462204,
8125
+ "learning_rate": 1.5682613768961492e-07,
8126
+ "loss": 2.5961,
8127
+ "step": 26840
8128
+ },
8129
+ {
8130
+ "epoch": 6.942111383899729,
8131
+ "learning_rate": 1.567937248800726e-07,
8132
+ "loss": 2.5989,
8133
+ "step": 26860
8134
+ },
8135
+ {
8136
+ "epoch": 6.947280010337253,
8137
+ "learning_rate": 1.5676131207053027e-07,
8138
+ "loss": 2.6514,
8139
+ "step": 26880
8140
+ },
8141
+ {
8142
+ "epoch": 6.952448636774777,
8143
+ "learning_rate": 1.5672889926098793e-07,
8144
+ "loss": 2.5921,
8145
+ "step": 26900
8146
+ },
8147
+ {
8148
+ "epoch": 6.957617263212302,
8149
+ "learning_rate": 1.566964864514456e-07,
8150
+ "loss": 2.5907,
8151
+ "step": 26920
8152
+ },
8153
+ {
8154
+ "epoch": 6.962785889649826,
8155
+ "learning_rate": 1.5666407364190328e-07,
8156
+ "loss": 2.5183,
8157
+ "step": 26940
8158
+ },
8159
+ {
8160
+ "epoch": 6.9679545160873495,
8161
+ "learning_rate": 1.5663166083236094e-07,
8162
+ "loss": 2.6151,
8163
+ "step": 26960
8164
+ },
8165
+ {
8166
+ "epoch": 6.973123142524874,
8167
+ "learning_rate": 1.565992480228186e-07,
8168
+ "loss": 2.5454,
8169
+ "step": 26980
8170
+ },
8171
+ {
8172
+ "epoch": 6.978291768962398,
8173
+ "learning_rate": 1.5656683521327626e-07,
8174
+ "loss": 2.5349,
8175
+ "step": 27000
8176
+ },
8177
+ {
8178
+ "epoch": 6.983460395399923,
8179
+ "learning_rate": 1.5653442240373395e-07,
8180
+ "loss": 2.6422,
8181
+ "step": 27020
8182
+ },
8183
+ {
8184
+ "epoch": 6.988629021837447,
8185
+ "learning_rate": 1.5650200959419161e-07,
8186
+ "loss": 2.6273,
8187
+ "step": 27040
8188
+ },
8189
+ {
8190
+ "epoch": 6.993797648274971,
8191
+ "learning_rate": 1.5646959678464928e-07,
8192
+ "loss": 2.5851,
8193
+ "step": 27060
8194
+ },
8195
+ {
8196
+ "epoch": 6.998966274712495,
8197
+ "learning_rate": 1.5643718397510696e-07,
8198
+ "loss": 2.5716,
8199
+ "step": 27080
8200
+ },
8201
+ {
8202
+ "epoch": 7.0,
8203
+ "eval_bleu": 5.2201,
8204
+ "eval_gen_len": 46.1405,
8205
+ "eval_loss": 2.561117172241211,
8206
+ "eval_runtime": 958.6568,
8207
+ "eval_samples_per_second": 1.796,
8208
+ "eval_steps_per_second": 0.898,
8209
+ "step": 27084
8210
  }
8211
  ],
8212
  "logging_steps": 20,
 
8226
  "attributes": {}
8227
  }
8228
  },
8229
+ "total_flos": 1.7781178479766733e+17,
8230
  "train_batch_size": 2,
8231
  "trial_name": null,
8232
  "trial_params": null
last-checkpoint/training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:581ac533a892239697e45b2f3ff1f250e5eee0be2c398f8f8ef23a485abea95b
3
- size 5688
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6d11a3b4036b5ce40442d47a4051217581bc97fdd9805ef76304488e63693998
3
+ size 5752