Alphatao commited on
Commit
748d6f4
·
verified ·
1 Parent(s): cd9f21e

Training in progress, step 1200, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:a2e30b8eb71c75917dc53dc021ce76179da6ff1ddc57ed501cd8f2170df1ea20
3
  size 35237104
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6a8ea02f63b71e9ecc281715285720652652fca4f282320a62cc716249a6ef2c
3
  size 35237104
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:5a5649edf183bac0fd49cc8bb77ff4996498e4a2342ecbc19507d2b16b756222
3
  size 18810356
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8dae95bb49116e81bed3c68d86278f66e9b0452f468bf29d48fecf5e625ba7e0
3
  size 18810356
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:55efe0fdedeb3aabf3711868667a8b9d1adcffe6440d9e5347d8fa8bfb07e987
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2ea4a928811810f84d0f8b5936c44f2709f0f2cadb34cf4fa9a714f98b7ed5c0
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e9b96617578bfc230d7a81fb4950d7c67ffa18c14dffcf3189f0dd3ecbd4b36d
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b30780423ff45c94e8ad2d6a438363a868ec26f078372884947da902f24979de
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": 1.8883090019226074,
3
  "best_model_checkpoint": "miner_id_24/checkpoint-1000",
4
- "epoch": 1.0793572917944314,
5
  "eval_steps": 100,
6
- "global_step": 1100,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -7803,6 +7803,714 @@
7803
  "eval_samples_per_second": 58.854,
7804
  "eval_steps_per_second": 14.724,
7805
  "step": 1100
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7806
  }
7807
  ],
7808
  "logging_steps": 1,
@@ -7817,7 +8525,7 @@
7817
  "early_stopping_threshold": 0.0
7818
  },
7819
  "attributes": {
7820
- "early_stopping_patience_counter": 1
7821
  }
7822
  },
7823
  "TrainerControl": {
@@ -7826,12 +8534,12 @@
7826
  "should_evaluate": false,
7827
  "should_log": false,
7828
  "should_save": true,
7829
- "should_training_stop": false
7830
  },
7831
  "attributes": {}
7832
  }
7833
  },
7834
- "total_flos": 7.929821414424576e+16,
7835
  "train_batch_size": 4,
7836
  "trial_name": null,
7837
  "trial_params": null
 
1
  {
2
  "best_metric": 1.8883090019226074,
3
  "best_model_checkpoint": "miner_id_24/checkpoint-1000",
4
+ "epoch": 1.1774806819575616,
5
  "eval_steps": 100,
6
+ "global_step": 1200,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
7803
  "eval_samples_per_second": 58.854,
7804
  "eval_steps_per_second": 14.724,
7805
  "step": 1100
7806
+ },
7807
+ {
7808
+ "epoch": 1.0803385256960627,
7809
+ "grad_norm": 2.066479444503784,
7810
+ "learning_rate": 8.818283612384952e-05,
7811
+ "loss": 1.6725,
7812
+ "step": 1101
7813
+ },
7814
+ {
7815
+ "epoch": 1.081319759597694,
7816
+ "grad_norm": 2.083176851272583,
7817
+ "learning_rate": 8.80291007154402e-05,
7818
+ "loss": 1.5404,
7819
+ "step": 1102
7820
+ },
7821
+ {
7822
+ "epoch": 1.0823009934993255,
7823
+ "grad_norm": 2.1391541957855225,
7824
+ "learning_rate": 8.787539400573867e-05,
7825
+ "loss": 1.6664,
7826
+ "step": 1103
7827
+ },
7828
+ {
7829
+ "epoch": 1.0832822274009568,
7830
+ "grad_norm": 1.8939257860183716,
7831
+ "learning_rate": 8.772171636323714e-05,
7832
+ "loss": 1.6494,
7833
+ "step": 1104
7834
+ },
7835
+ {
7836
+ "epoch": 1.084263461302588,
7837
+ "grad_norm": 2.128265619277954,
7838
+ "learning_rate": 8.75680681563582e-05,
7839
+ "loss": 1.7697,
7840
+ "step": 1105
7841
+ },
7842
+ {
7843
+ "epoch": 1.0852446952042194,
7844
+ "grad_norm": 1.9691377878189087,
7845
+ "learning_rate": 8.74144497534539e-05,
7846
+ "loss": 1.6618,
7847
+ "step": 1106
7848
+ },
7849
+ {
7850
+ "epoch": 1.0862259291058507,
7851
+ "grad_norm": 2.111213445663452,
7852
+ "learning_rate": 8.726086152280483e-05,
7853
+ "loss": 1.6478,
7854
+ "step": 1107
7855
+ },
7856
+ {
7857
+ "epoch": 1.087207163007482,
7858
+ "grad_norm": 2.051668882369995,
7859
+ "learning_rate": 8.710730383261916e-05,
7860
+ "loss": 1.7054,
7861
+ "step": 1108
7862
+ },
7863
+ {
7864
+ "epoch": 1.0881883969091133,
7865
+ "grad_norm": 1.7977656126022339,
7866
+ "learning_rate": 8.695377705103199e-05,
7867
+ "loss": 1.4778,
7868
+ "step": 1109
7869
+ },
7870
+ {
7871
+ "epoch": 1.0891696308107446,
7872
+ "grad_norm": 2.13419246673584,
7873
+ "learning_rate": 8.680028154610419e-05,
7874
+ "loss": 1.8192,
7875
+ "step": 1110
7876
+ },
7877
+ {
7878
+ "epoch": 1.0901508647123759,
7879
+ "grad_norm": 1.9920395612716675,
7880
+ "learning_rate": 8.66468176858217e-05,
7881
+ "loss": 1.6159,
7882
+ "step": 1111
7883
+ },
7884
+ {
7885
+ "epoch": 1.0911320986140072,
7886
+ "grad_norm": 1.8859739303588867,
7887
+ "learning_rate": 8.649338583809466e-05,
7888
+ "loss": 1.4988,
7889
+ "step": 1112
7890
+ },
7891
+ {
7892
+ "epoch": 1.0921133325156385,
7893
+ "grad_norm": 1.9767767190933228,
7894
+ "learning_rate": 8.633998637075634e-05,
7895
+ "loss": 1.6233,
7896
+ "step": 1113
7897
+ },
7898
+ {
7899
+ "epoch": 1.0930945664172698,
7900
+ "grad_norm": 1.9266538619995117,
7901
+ "learning_rate": 8.618661965156243e-05,
7902
+ "loss": 1.6353,
7903
+ "step": 1114
7904
+ },
7905
+ {
7906
+ "epoch": 1.094075800318901,
7907
+ "grad_norm": 2.1085169315338135,
7908
+ "learning_rate": 8.60332860481902e-05,
7909
+ "loss": 1.5874,
7910
+ "step": 1115
7911
+ },
7912
+ {
7913
+ "epoch": 1.0950570342205324,
7914
+ "grad_norm": 1.8933839797973633,
7915
+ "learning_rate": 8.587998592823738e-05,
7916
+ "loss": 1.574,
7917
+ "step": 1116
7918
+ },
7919
+ {
7920
+ "epoch": 1.0960382681221637,
7921
+ "grad_norm": 2.0371503829956055,
7922
+ "learning_rate": 8.572671965922148e-05,
7923
+ "loss": 1.7796,
7924
+ "step": 1117
7925
+ },
7926
+ {
7927
+ "epoch": 1.097019502023795,
7928
+ "grad_norm": 1.9261376857757568,
7929
+ "learning_rate": 8.557348760857899e-05,
7930
+ "loss": 1.4353,
7931
+ "step": 1118
7932
+ },
7933
+ {
7934
+ "epoch": 1.0980007359254262,
7935
+ "grad_norm": 2.089020252227783,
7936
+ "learning_rate": 8.542029014366419e-05,
7937
+ "loss": 1.7129,
7938
+ "step": 1119
7939
+ },
7940
+ {
7941
+ "epoch": 1.0989819698270575,
7942
+ "grad_norm": 1.8985182046890259,
7943
+ "learning_rate": 8.526712763174844e-05,
7944
+ "loss": 1.5255,
7945
+ "step": 1120
7946
+ },
7947
+ {
7948
+ "epoch": 1.0999632037286888,
7949
+ "grad_norm": 2.0458781719207764,
7950
+ "learning_rate": 8.511400044001948e-05,
7951
+ "loss": 1.742,
7952
+ "step": 1121
7953
+ },
7954
+ {
7955
+ "epoch": 1.1009444376303201,
7956
+ "grad_norm": 1.925270438194275,
7957
+ "learning_rate": 8.496090893558019e-05,
7958
+ "loss": 1.5204,
7959
+ "step": 1122
7960
+ },
7961
+ {
7962
+ "epoch": 1.1019256715319514,
7963
+ "grad_norm": 1.7764109373092651,
7964
+ "learning_rate": 8.480785348544802e-05,
7965
+ "loss": 1.4883,
7966
+ "step": 1123
7967
+ },
7968
+ {
7969
+ "epoch": 1.1029069054335827,
7970
+ "grad_norm": 2.034646511077881,
7971
+ "learning_rate": 8.465483445655394e-05,
7972
+ "loss": 1.7298,
7973
+ "step": 1124
7974
+ },
7975
+ {
7976
+ "epoch": 1.103888139335214,
7977
+ "grad_norm": 1.8433154821395874,
7978
+ "learning_rate": 8.450185221574152e-05,
7979
+ "loss": 1.5534,
7980
+ "step": 1125
7981
+ },
7982
+ {
7983
+ "epoch": 1.1048693732368453,
7984
+ "grad_norm": 2.088686943054199,
7985
+ "learning_rate": 8.434890712976632e-05,
7986
+ "loss": 1.5524,
7987
+ "step": 1126
7988
+ },
7989
+ {
7990
+ "epoch": 1.1058506071384766,
7991
+ "grad_norm": 2.0298330783843994,
7992
+ "learning_rate": 8.419599956529466e-05,
7993
+ "loss": 1.7555,
7994
+ "step": 1127
7995
+ },
7996
+ {
7997
+ "epoch": 1.106831841040108,
7998
+ "grad_norm": 1.9726227521896362,
7999
+ "learning_rate": 8.404312988890299e-05,
8000
+ "loss": 1.6304,
8001
+ "step": 1128
8002
+ },
8003
+ {
8004
+ "epoch": 1.1078130749417392,
8005
+ "grad_norm": 1.998617172241211,
8006
+ "learning_rate": 8.389029846707688e-05,
8007
+ "loss": 1.6792,
8008
+ "step": 1129
8009
+ },
8010
+ {
8011
+ "epoch": 1.1087943088433705,
8012
+ "grad_norm": 1.983628749847412,
8013
+ "learning_rate": 8.373750566621027e-05,
8014
+ "loss": 1.5545,
8015
+ "step": 1130
8016
+ },
8017
+ {
8018
+ "epoch": 1.1097755427450018,
8019
+ "grad_norm": 1.913836121559143,
8020
+ "learning_rate": 8.358475185260438e-05,
8021
+ "loss": 1.5676,
8022
+ "step": 1131
8023
+ },
8024
+ {
8025
+ "epoch": 1.110756776646633,
8026
+ "grad_norm": 1.8630105257034302,
8027
+ "learning_rate": 8.343203739246712e-05,
8028
+ "loss": 1.4564,
8029
+ "step": 1132
8030
+ },
8031
+ {
8032
+ "epoch": 1.1117380105482644,
8033
+ "grad_norm": 2.2467024326324463,
8034
+ "learning_rate": 8.32793626519119e-05,
8035
+ "loss": 1.7565,
8036
+ "step": 1133
8037
+ },
8038
+ {
8039
+ "epoch": 1.1127192444498957,
8040
+ "grad_norm": 1.967323899269104,
8041
+ "learning_rate": 8.312672799695702e-05,
8042
+ "loss": 1.5484,
8043
+ "step": 1134
8044
+ },
8045
+ {
8046
+ "epoch": 1.113700478351527,
8047
+ "grad_norm": 1.8815773725509644,
8048
+ "learning_rate": 8.297413379352469e-05,
8049
+ "loss": 1.5544,
8050
+ "step": 1135
8051
+ },
8052
+ {
8053
+ "epoch": 1.1146817122531583,
8054
+ "grad_norm": 2.087390422821045,
8055
+ "learning_rate": 8.282158040744003e-05,
8056
+ "loss": 1.5492,
8057
+ "step": 1136
8058
+ },
8059
+ {
8060
+ "epoch": 1.1156629461547896,
8061
+ "grad_norm": 2.0206923484802246,
8062
+ "learning_rate": 8.266906820443036e-05,
8063
+ "loss": 1.5578,
8064
+ "step": 1137
8065
+ },
8066
+ {
8067
+ "epoch": 1.1166441800564209,
8068
+ "grad_norm": 2.1264116764068604,
8069
+ "learning_rate": 8.251659755012435e-05,
8070
+ "loss": 1.7562,
8071
+ "step": 1138
8072
+ },
8073
+ {
8074
+ "epoch": 1.1176254139580521,
8075
+ "grad_norm": 2.1084797382354736,
8076
+ "learning_rate": 8.236416881005093e-05,
8077
+ "loss": 1.8296,
8078
+ "step": 1139
8079
+ },
8080
+ {
8081
+ "epoch": 1.1186066478596834,
8082
+ "grad_norm": 2.130791425704956,
8083
+ "learning_rate": 8.22117823496386e-05,
8084
+ "loss": 1.6879,
8085
+ "step": 1140
8086
+ },
8087
+ {
8088
+ "epoch": 1.1195878817613147,
8089
+ "grad_norm": 1.9630494117736816,
8090
+ "learning_rate": 8.205943853421457e-05,
8091
+ "loss": 1.6107,
8092
+ "step": 1141
8093
+ },
8094
+ {
8095
+ "epoch": 1.1205691156629463,
8096
+ "grad_norm": 2.180497407913208,
8097
+ "learning_rate": 8.190713772900374e-05,
8098
+ "loss": 1.7211,
8099
+ "step": 1142
8100
+ },
8101
+ {
8102
+ "epoch": 1.1215503495645776,
8103
+ "grad_norm": 1.846765160560608,
8104
+ "learning_rate": 8.175488029912783e-05,
8105
+ "loss": 1.5607,
8106
+ "step": 1143
8107
+ },
8108
+ {
8109
+ "epoch": 1.1225315834662088,
8110
+ "grad_norm": 2.244673252105713,
8111
+ "learning_rate": 8.160266660960472e-05,
8112
+ "loss": 1.8069,
8113
+ "step": 1144
8114
+ },
8115
+ {
8116
+ "epoch": 1.1235128173678401,
8117
+ "grad_norm": 2.002246141433716,
8118
+ "learning_rate": 8.14504970253474e-05,
8119
+ "loss": 1.6429,
8120
+ "step": 1145
8121
+ },
8122
+ {
8123
+ "epoch": 1.1244940512694714,
8124
+ "grad_norm": 1.974992275238037,
8125
+ "learning_rate": 8.129837191116298e-05,
8126
+ "loss": 1.5133,
8127
+ "step": 1146
8128
+ },
8129
+ {
8130
+ "epoch": 1.1254752851711027,
8131
+ "grad_norm": 1.9683125019073486,
8132
+ "learning_rate": 8.114629163175215e-05,
8133
+ "loss": 1.5906,
8134
+ "step": 1147
8135
+ },
8136
+ {
8137
+ "epoch": 1.126456519072734,
8138
+ "grad_norm": 1.8641992807388306,
8139
+ "learning_rate": 8.099425655170801e-05,
8140
+ "loss": 1.4253,
8141
+ "step": 1148
8142
+ },
8143
+ {
8144
+ "epoch": 1.1274377529743653,
8145
+ "grad_norm": 1.923235535621643,
8146
+ "learning_rate": 8.084226703551528e-05,
8147
+ "loss": 1.591,
8148
+ "step": 1149
8149
+ },
8150
+ {
8151
+ "epoch": 1.1284189868759966,
8152
+ "grad_norm": 1.962015151977539,
8153
+ "learning_rate": 8.06903234475495e-05,
8154
+ "loss": 1.573,
8155
+ "step": 1150
8156
+ },
8157
+ {
8158
+ "epoch": 1.129400220777628,
8159
+ "grad_norm": 1.9990873336791992,
8160
+ "learning_rate": 8.053842615207615e-05,
8161
+ "loss": 1.7404,
8162
+ "step": 1151
8163
+ },
8164
+ {
8165
+ "epoch": 1.1303814546792592,
8166
+ "grad_norm": 2.225425958633423,
8167
+ "learning_rate": 8.038657551324955e-05,
8168
+ "loss": 1.8477,
8169
+ "step": 1152
8170
+ },
8171
+ {
8172
+ "epoch": 1.1313626885808905,
8173
+ "grad_norm": 1.7779438495635986,
8174
+ "learning_rate": 8.02347718951124e-05,
8175
+ "loss": 1.5567,
8176
+ "step": 1153
8177
+ },
8178
+ {
8179
+ "epoch": 1.1323439224825218,
8180
+ "grad_norm": 2.0244076251983643,
8181
+ "learning_rate": 8.008301566159447e-05,
8182
+ "loss": 1.6891,
8183
+ "step": 1154
8184
+ },
8185
+ {
8186
+ "epoch": 1.133325156384153,
8187
+ "grad_norm": 1.987186074256897,
8188
+ "learning_rate": 7.993130717651207e-05,
8189
+ "loss": 1.7452,
8190
+ "step": 1155
8191
+ },
8192
+ {
8193
+ "epoch": 1.1343063902857844,
8194
+ "grad_norm": 2.076939344406128,
8195
+ "learning_rate": 7.977964680356696e-05,
8196
+ "loss": 1.7669,
8197
+ "step": 1156
8198
+ },
8199
+ {
8200
+ "epoch": 1.1352876241874157,
8201
+ "grad_norm": 1.9476886987686157,
8202
+ "learning_rate": 7.962803490634563e-05,
8203
+ "loss": 1.6541,
8204
+ "step": 1157
8205
+ },
8206
+ {
8207
+ "epoch": 1.136268858089047,
8208
+ "grad_norm": 2.047985792160034,
8209
+ "learning_rate": 7.947647184831824e-05,
8210
+ "loss": 1.486,
8211
+ "step": 1158
8212
+ },
8213
+ {
8214
+ "epoch": 1.1372500919906783,
8215
+ "grad_norm": 2.015349864959717,
8216
+ "learning_rate": 7.932495799283801e-05,
8217
+ "loss": 1.5786,
8218
+ "step": 1159
8219
+ },
8220
+ {
8221
+ "epoch": 1.1382313258923096,
8222
+ "grad_norm": 1.8462163209915161,
8223
+ "learning_rate": 7.917349370314007e-05,
8224
+ "loss": 1.483,
8225
+ "step": 1160
8226
+ },
8227
+ {
8228
+ "epoch": 1.1392125597939409,
8229
+ "grad_norm": 1.9125447273254395,
8230
+ "learning_rate": 7.902207934234078e-05,
8231
+ "loss": 1.6106,
8232
+ "step": 1161
8233
+ },
8234
+ {
8235
+ "epoch": 1.1401937936955722,
8236
+ "grad_norm": 1.9936769008636475,
8237
+ "learning_rate": 7.887071527343687e-05,
8238
+ "loss": 1.748,
8239
+ "step": 1162
8240
+ },
8241
+ {
8242
+ "epoch": 1.1411750275972035,
8243
+ "grad_norm": 2.2277896404266357,
8244
+ "learning_rate": 7.871940185930438e-05,
8245
+ "loss": 1.9264,
8246
+ "step": 1163
8247
+ },
8248
+ {
8249
+ "epoch": 1.1421562614988348,
8250
+ "grad_norm": 2.0859293937683105,
8251
+ "learning_rate": 7.856813946269795e-05,
8252
+ "loss": 1.5817,
8253
+ "step": 1164
8254
+ },
8255
+ {
8256
+ "epoch": 1.143137495400466,
8257
+ "grad_norm": 1.9917875528335571,
8258
+ "learning_rate": 7.841692844624999e-05,
8259
+ "loss": 1.7425,
8260
+ "step": 1165
8261
+ },
8262
+ {
8263
+ "epoch": 1.1441187293020973,
8264
+ "grad_norm": 1.9697751998901367,
8265
+ "learning_rate": 7.826576917246961e-05,
8266
+ "loss": 1.4807,
8267
+ "step": 1166
8268
+ },
8269
+ {
8270
+ "epoch": 1.1450999632037286,
8271
+ "grad_norm": 2.149662733078003,
8272
+ "learning_rate": 7.811466200374194e-05,
8273
+ "loss": 1.902,
8274
+ "step": 1167
8275
+ },
8276
+ {
8277
+ "epoch": 1.14608119710536,
8278
+ "grad_norm": 2.1379075050354004,
8279
+ "learning_rate": 7.796360730232724e-05,
8280
+ "loss": 1.7285,
8281
+ "step": 1168
8282
+ },
8283
+ {
8284
+ "epoch": 1.1470624310069912,
8285
+ "grad_norm": 1.9367038011550903,
8286
+ "learning_rate": 7.78126054303599e-05,
8287
+ "loss": 1.5475,
8288
+ "step": 1169
8289
+ },
8290
+ {
8291
+ "epoch": 1.1480436649086225,
8292
+ "grad_norm": 1.949225902557373,
8293
+ "learning_rate": 7.766165674984766e-05,
8294
+ "loss": 1.6411,
8295
+ "step": 1170
8296
+ },
8297
+ {
8298
+ "epoch": 1.1490248988102538,
8299
+ "grad_norm": 1.9248489141464233,
8300
+ "learning_rate": 7.751076162267086e-05,
8301
+ "loss": 1.4931,
8302
+ "step": 1171
8303
+ },
8304
+ {
8305
+ "epoch": 1.1500061327118851,
8306
+ "grad_norm": 2.1530492305755615,
8307
+ "learning_rate": 7.735992041058126e-05,
8308
+ "loss": 1.7015,
8309
+ "step": 1172
8310
+ },
8311
+ {
8312
+ "epoch": 1.1509873666135164,
8313
+ "grad_norm": 1.9067368507385254,
8314
+ "learning_rate": 7.720913347520154e-05,
8315
+ "loss": 1.723,
8316
+ "step": 1173
8317
+ },
8318
+ {
8319
+ "epoch": 1.1519686005151477,
8320
+ "grad_norm": 2.1236000061035156,
8321
+ "learning_rate": 7.705840117802418e-05,
8322
+ "loss": 1.4677,
8323
+ "step": 1174
8324
+ },
8325
+ {
8326
+ "epoch": 1.152949834416779,
8327
+ "grad_norm": 2.022383213043213,
8328
+ "learning_rate": 7.69077238804107e-05,
8329
+ "loss": 1.6665,
8330
+ "step": 1175
8331
+ },
8332
+ {
8333
+ "epoch": 1.1539310683184105,
8334
+ "grad_norm": 2.1001341342926025,
8335
+ "learning_rate": 7.675710194359069e-05,
8336
+ "loss": 1.832,
8337
+ "step": 1176
8338
+ },
8339
+ {
8340
+ "epoch": 1.1549123022200418,
8341
+ "grad_norm": 1.9974193572998047,
8342
+ "learning_rate": 7.660653572866112e-05,
8343
+ "loss": 1.4889,
8344
+ "step": 1177
8345
+ },
8346
+ {
8347
+ "epoch": 1.1558935361216731,
8348
+ "grad_norm": 1.9368098974227905,
8349
+ "learning_rate": 7.645602559658533e-05,
8350
+ "loss": 1.471,
8351
+ "step": 1178
8352
+ },
8353
+ {
8354
+ "epoch": 1.1568747700233044,
8355
+ "grad_norm": 2.0265512466430664,
8356
+ "learning_rate": 7.630557190819217e-05,
8357
+ "loss": 1.5049,
8358
+ "step": 1179
8359
+ },
8360
+ {
8361
+ "epoch": 1.1578560039249357,
8362
+ "grad_norm": 1.9389729499816895,
8363
+ "learning_rate": 7.61551750241753e-05,
8364
+ "loss": 1.591,
8365
+ "step": 1180
8366
+ },
8367
+ {
8368
+ "epoch": 1.158837237826567,
8369
+ "grad_norm": 2.064378023147583,
8370
+ "learning_rate": 7.600483530509204e-05,
8371
+ "loss": 1.6401,
8372
+ "step": 1181
8373
+ },
8374
+ {
8375
+ "epoch": 1.1598184717281983,
8376
+ "grad_norm": 1.7993282079696655,
8377
+ "learning_rate": 7.58545531113627e-05,
8378
+ "loss": 1.4952,
8379
+ "step": 1182
8380
+ },
8381
+ {
8382
+ "epoch": 1.1607997056298296,
8383
+ "grad_norm": 1.8726584911346436,
8384
+ "learning_rate": 7.57043288032698e-05,
8385
+ "loss": 1.5525,
8386
+ "step": 1183
8387
+ },
8388
+ {
8389
+ "epoch": 1.1617809395314609,
8390
+ "grad_norm": 1.9391907453536987,
8391
+ "learning_rate": 7.555416274095694e-05,
8392
+ "loss": 1.6255,
8393
+ "step": 1184
8394
+ },
8395
+ {
8396
+ "epoch": 1.1627621734330922,
8397
+ "grad_norm": 2.114257574081421,
8398
+ "learning_rate": 7.540405528442822e-05,
8399
+ "loss": 1.7399,
8400
+ "step": 1185
8401
+ },
8402
+ {
8403
+ "epoch": 1.1637434073347235,
8404
+ "grad_norm": 2.2467081546783447,
8405
+ "learning_rate": 7.525400679354712e-05,
8406
+ "loss": 1.7055,
8407
+ "step": 1186
8408
+ },
8409
+ {
8410
+ "epoch": 1.1647246412363548,
8411
+ "grad_norm": 2.285236120223999,
8412
+ "learning_rate": 7.510401762803575e-05,
8413
+ "loss": 1.783,
8414
+ "step": 1187
8415
+ },
8416
+ {
8417
+ "epoch": 1.165705875137986,
8418
+ "grad_norm": 2.042032480239868,
8419
+ "learning_rate": 7.495408814747418e-05,
8420
+ "loss": 1.5541,
8421
+ "step": 1188
8422
+ },
8423
+ {
8424
+ "epoch": 1.1666871090396174,
8425
+ "grad_norm": 2.073132276535034,
8426
+ "learning_rate": 7.480421871129914e-05,
8427
+ "loss": 1.7099,
8428
+ "step": 1189
8429
+ },
8430
+ {
8431
+ "epoch": 1.1676683429412487,
8432
+ "grad_norm": 1.807121992111206,
8433
+ "learning_rate": 7.465440967880354e-05,
8434
+ "loss": 1.3538,
8435
+ "step": 1190
8436
+ },
8437
+ {
8438
+ "epoch": 1.16864957684288,
8439
+ "grad_norm": 2.3562142848968506,
8440
+ "learning_rate": 7.450466140913557e-05,
8441
+ "loss": 1.8335,
8442
+ "step": 1191
8443
+ },
8444
+ {
8445
+ "epoch": 1.1696308107445113,
8446
+ "grad_norm": 2.075679302215576,
8447
+ "learning_rate": 7.435497426129759e-05,
8448
+ "loss": 1.6448,
8449
+ "step": 1192
8450
+ },
8451
+ {
8452
+ "epoch": 1.1706120446461425,
8453
+ "grad_norm": 2.0627026557922363,
8454
+ "learning_rate": 7.420534859414542e-05,
8455
+ "loss": 1.5626,
8456
+ "step": 1193
8457
+ },
8458
+ {
8459
+ "epoch": 1.1715932785477738,
8460
+ "grad_norm": 2.0521657466888428,
8461
+ "learning_rate": 7.405578476638768e-05,
8462
+ "loss": 1.7099,
8463
+ "step": 1194
8464
+ },
8465
+ {
8466
+ "epoch": 1.1725745124494051,
8467
+ "grad_norm": 1.9551303386688232,
8468
+ "learning_rate": 7.390628313658457e-05,
8469
+ "loss": 1.5361,
8470
+ "step": 1195
8471
+ },
8472
+ {
8473
+ "epoch": 1.1735557463510364,
8474
+ "grad_norm": 1.9095375537872314,
8475
+ "learning_rate": 7.375684406314715e-05,
8476
+ "loss": 1.4968,
8477
+ "step": 1196
8478
+ },
8479
+ {
8480
+ "epoch": 1.1745369802526677,
8481
+ "grad_norm": 2.150273323059082,
8482
+ "learning_rate": 7.360746790433672e-05,
8483
+ "loss": 1.6411,
8484
+ "step": 1197
8485
+ },
8486
+ {
8487
+ "epoch": 1.175518214154299,
8488
+ "grad_norm": 1.9941962957382202,
8489
+ "learning_rate": 7.345815501826353e-05,
8490
+ "loss": 1.6179,
8491
+ "step": 1198
8492
+ },
8493
+ {
8494
+ "epoch": 1.1764994480559303,
8495
+ "grad_norm": 2.2665584087371826,
8496
+ "learning_rate": 7.330890576288619e-05,
8497
+ "loss": 1.8879,
8498
+ "step": 1199
8499
+ },
8500
+ {
8501
+ "epoch": 1.1774806819575616,
8502
+ "grad_norm": 2.202577829360962,
8503
+ "learning_rate": 7.315972049601086e-05,
8504
+ "loss": 1.7252,
8505
+ "step": 1200
8506
+ },
8507
+ {
8508
+ "epoch": 1.1774806819575616,
8509
+ "eval_loss": 1.8954843282699585,
8510
+ "eval_runtime": 23.0768,
8511
+ "eval_samples_per_second": 58.89,
8512
+ "eval_steps_per_second": 14.733,
8513
+ "step": 1200
8514
  }
8515
  ],
8516
  "logging_steps": 1,
 
8525
  "early_stopping_threshold": 0.0
8526
  },
8527
  "attributes": {
8528
+ "early_stopping_patience_counter": 2
8529
  }
8530
  },
8531
  "TrainerControl": {
 
8534
  "should_evaluate": false,
8535
  "should_log": false,
8536
  "should_save": true,
8537
+ "should_training_stop": true
8538
  },
8539
  "attributes": {}
8540
  }
8541
  },
8542
+ "total_flos": 8.650775715250176e+16,
8543
  "train_batch_size": 4,
8544
  "trial_name": null,
8545
  "trial_params": null