Milo-P commited on
Commit
109ea3c
·
verified ·
1 Parent(s): 3ad5961

Upload folder using huggingface_hub

Browse files
Behavioural/behavioural.json ADDED
The diff for this file is too large to render. See raw diff
 
Behavioural/feature_names.pkl ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c1c634fd08dbcc6674cb37ba2d42db0c75a2d99c60d40dd993805adf4d32a3d1
3
+ size 129
Ensemble_Logistic.pkl ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:766e45b1d8f7fc991bd7ef7e5d093d191f36d03063ddd56be992d06e55204f11
3
+ size 1275
Text/checkpoints/checkpoint-14798/config.json ADDED
@@ -0,0 +1,31 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "add_cross_attention": false,
3
+ "architectures": [
4
+ "BertForSequenceClassification"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": null,
8
+ "classifier_dropout": null,
9
+ "dtype": "float32",
10
+ "eos_token_id": null,
11
+ "gradient_checkpointing": false,
12
+ "hidden_act": "gelu",
13
+ "hidden_dropout_prob": 0.1,
14
+ "hidden_size": 768,
15
+ "initializer_range": 0.02,
16
+ "intermediate_size": 3072,
17
+ "is_decoder": false,
18
+ "layer_norm_eps": 1e-12,
19
+ "max_position_embeddings": 512,
20
+ "model_type": "bert",
21
+ "num_attention_heads": 12,
22
+ "num_hidden_layers": 12,
23
+ "pad_token_id": 0,
24
+ "position_embedding_type": "absolute",
25
+ "problem_type": "single_label_classification",
26
+ "tie_word_embeddings": true,
27
+ "transformers_version": "5.1.0",
28
+ "type_vocab_size": 2,
29
+ "use_cache": false,
30
+ "vocab_size": 30522
31
+ }
Text/checkpoints/checkpoint-14798/model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:18182a8a382b796cd8d4c0da79b223387cd03cfb3a905d060178cac009b94665
3
+ size 437958624
Text/checkpoints/checkpoint-14798/optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e826af14b6aa0bace458f616ba76a639a0e5d6fdb466ee2ed8c3e46aec29000c
3
+ size 876041611
Text/checkpoints/checkpoint-14798/rng_state.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1ebd05af1b3dd3198abd430be6c8f1ac853b66b656fe413d3a93202172de89ff
3
+ size 14645
Text/checkpoints/checkpoint-14798/scaler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7189dd67c4c88a5f7c3f49466a51c874a5ad0828a6b0345e6c9d1c4df9b71155
3
+ size 1383
Text/checkpoints/checkpoint-14798/scheduler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b4d17df15ab4369fa8e0182ed4f6052198d23047391f3ed39af7e056c63c6f64
3
+ size 1465
Text/checkpoints/checkpoint-14798/trainer_state.json ADDED
@@ -0,0 +1,2123 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_global_step": 14798,
3
+ "best_metric": 0.13719096779823303,
4
+ "best_model_checkpoint": "/mnt/nfs/homes/penacour/my_project/./saved_models/Text/checkpoints/checkpoint-14798",
5
+ "epoch": 2.0,
6
+ "eval_steps": 500,
7
+ "global_step": 14798,
8
+ "is_hyper_param_search": false,
9
+ "is_local_process_zero": true,
10
+ "is_world_process_zero": true,
11
+ "log_history": [
12
+ {
13
+ "epoch": 0.0067576699553993785,
14
+ "grad_norm": 16.06703758239746,
15
+ "learning_rate": 4.414414414414415e-07,
16
+ "loss": 1.35020751953125,
17
+ "step": 50
18
+ },
19
+ {
20
+ "epoch": 0.013515339910798757,
21
+ "grad_norm": 15.278281211853027,
22
+ "learning_rate": 8.91891891891892e-07,
23
+ "loss": 1.359039306640625,
24
+ "step": 100
25
+ },
26
+ {
27
+ "epoch": 0.020273009866198136,
28
+ "grad_norm": 9.957842826843262,
29
+ "learning_rate": 1.3423423423423422e-06,
30
+ "loss": 1.345301513671875,
31
+ "step": 150
32
+ },
33
+ {
34
+ "epoch": 0.027030679821597514,
35
+ "grad_norm": 9.441655158996582,
36
+ "learning_rate": 1.7927927927927929e-06,
37
+ "loss": 1.291690673828125,
38
+ "step": 200
39
+ },
40
+ {
41
+ "epoch": 0.03378834977699689,
42
+ "grad_norm": 11.737529754638672,
43
+ "learning_rate": 2.2432432432432435e-06,
44
+ "loss": 1.20750244140625,
45
+ "step": 250
46
+ },
47
+ {
48
+ "epoch": 0.04054601973239627,
49
+ "grad_norm": 13.651801109313965,
50
+ "learning_rate": 2.693693693693694e-06,
51
+ "loss": 1.026903076171875,
52
+ "step": 300
53
+ },
54
+ {
55
+ "epoch": 0.04730368968779565,
56
+ "grad_norm": 10.333759307861328,
57
+ "learning_rate": 3.1441441441441444e-06,
58
+ "loss": 0.8750057983398437,
59
+ "step": 350
60
+ },
61
+ {
62
+ "epoch": 0.05406135964319503,
63
+ "grad_norm": 11.845670700073242,
64
+ "learning_rate": 3.5945945945945946e-06,
65
+ "loss": 0.74543701171875,
66
+ "step": 400
67
+ },
68
+ {
69
+ "epoch": 0.06081902959859441,
70
+ "grad_norm": 20.486881256103516,
71
+ "learning_rate": 4.045045045045045e-06,
72
+ "loss": 0.627983627319336,
73
+ "step": 450
74
+ },
75
+ {
76
+ "epoch": 0.06757669955399379,
77
+ "grad_norm": 5.46737003326416,
78
+ "learning_rate": 4.495495495495496e-06,
79
+ "loss": 0.6082597351074219,
80
+ "step": 500
81
+ },
82
+ {
83
+ "epoch": 0.07433436950939316,
84
+ "grad_norm": 33.317134857177734,
85
+ "learning_rate": 4.9459459459459466e-06,
86
+ "loss": 0.5269870758056641,
87
+ "step": 550
88
+ },
89
+ {
90
+ "epoch": 0.08109203946479254,
91
+ "grad_norm": 22.17811393737793,
92
+ "learning_rate": 5.396396396396398e-06,
93
+ "loss": 0.5109220123291016,
94
+ "step": 600
95
+ },
96
+ {
97
+ "epoch": 0.08784970942019192,
98
+ "grad_norm": 65.60385131835938,
99
+ "learning_rate": 5.846846846846848e-06,
100
+ "loss": 0.47735191345214845,
101
+ "step": 650
102
+ },
103
+ {
104
+ "epoch": 0.0946073793755913,
105
+ "grad_norm": 56.5187873840332,
106
+ "learning_rate": 6.297297297297298e-06,
107
+ "loss": 0.4838460159301758,
108
+ "step": 700
109
+ },
110
+ {
111
+ "epoch": 0.10136504933099068,
112
+ "grad_norm": 9.734931945800781,
113
+ "learning_rate": 6.747747747747748e-06,
114
+ "loss": 0.5097962188720703,
115
+ "step": 750
116
+ },
117
+ {
118
+ "epoch": 0.10812271928639006,
119
+ "grad_norm": 40.54719161987305,
120
+ "learning_rate": 7.1981981981981985e-06,
121
+ "loss": 0.439853515625,
122
+ "step": 800
123
+ },
124
+ {
125
+ "epoch": 0.11488038924178944,
126
+ "grad_norm": 1.501684546470642,
127
+ "learning_rate": 7.648648648648649e-06,
128
+ "loss": 0.3697560501098633,
129
+ "step": 850
130
+ },
131
+ {
132
+ "epoch": 0.12163805919718881,
133
+ "grad_norm": 1.2029157876968384,
134
+ "learning_rate": 8.0990990990991e-06,
135
+ "loss": 0.3332023620605469,
136
+ "step": 900
137
+ },
138
+ {
139
+ "epoch": 0.12839572915258818,
140
+ "grad_norm": 1.7254059314727783,
141
+ "learning_rate": 8.549549549549551e-06,
142
+ "loss": 0.7150354766845703,
143
+ "step": 950
144
+ },
145
+ {
146
+ "epoch": 0.13515339910798757,
147
+ "grad_norm": 0.1328679621219635,
148
+ "learning_rate": 9e-06,
149
+ "loss": 0.39909423828125,
150
+ "step": 1000
151
+ },
152
+ {
153
+ "epoch": 0.14191106906338694,
154
+ "grad_norm": 67.52281951904297,
155
+ "learning_rate": 9.450450450450451e-06,
156
+ "loss": 0.4741665267944336,
157
+ "step": 1050
158
+ },
159
+ {
160
+ "epoch": 0.14866873901878633,
161
+ "grad_norm": 0.11982670426368713,
162
+ "learning_rate": 9.900900900900902e-06,
163
+ "loss": 0.4088504028320312,
164
+ "step": 1100
165
+ },
166
+ {
167
+ "epoch": 0.1554264089741857,
168
+ "grad_norm": 73.58162689208984,
169
+ "learning_rate": 1.0351351351351353e-05,
170
+ "loss": 0.5978804397583007,
171
+ "step": 1150
172
+ },
173
+ {
174
+ "epoch": 0.16218407892958508,
175
+ "grad_norm": 16.60240936279297,
176
+ "learning_rate": 1.0801801801801803e-05,
177
+ "loss": 0.4865760040283203,
178
+ "step": 1200
179
+ },
180
+ {
181
+ "epoch": 0.16894174888498445,
182
+ "grad_norm": 0.07922861725091934,
183
+ "learning_rate": 1.1252252252252254e-05,
184
+ "loss": 0.47403549194335937,
185
+ "step": 1250
186
+ },
187
+ {
188
+ "epoch": 0.17569941884038384,
189
+ "grad_norm": 177.65086364746094,
190
+ "learning_rate": 1.1702702702702703e-05,
191
+ "loss": 0.43802192687988284,
192
+ "step": 1300
193
+ },
194
+ {
195
+ "epoch": 0.1824570887957832,
196
+ "grad_norm": 0.34974488615989685,
197
+ "learning_rate": 1.2153153153153154e-05,
198
+ "loss": 0.5690596008300781,
199
+ "step": 1350
200
+ },
201
+ {
202
+ "epoch": 0.1892147587511826,
203
+ "grad_norm": 0.37981438636779785,
204
+ "learning_rate": 1.2603603603603605e-05,
205
+ "loss": 0.5010957336425781,
206
+ "step": 1400
207
+ },
208
+ {
209
+ "epoch": 0.19597242870658196,
210
+ "grad_norm": 42.93001174926758,
211
+ "learning_rate": 1.3054054054054055e-05,
212
+ "loss": 0.4970842742919922,
213
+ "step": 1450
214
+ },
215
+ {
216
+ "epoch": 0.20273009866198136,
217
+ "grad_norm": 30.023513793945312,
218
+ "learning_rate": 1.3504504504504506e-05,
219
+ "loss": 0.5511152648925781,
220
+ "step": 1500
221
+ },
222
+ {
223
+ "epoch": 0.20948776861738072,
224
+ "grad_norm": 7.049088954925537,
225
+ "learning_rate": 1.3954954954954955e-05,
226
+ "loss": 0.4516510009765625,
227
+ "step": 1550
228
+ },
229
+ {
230
+ "epoch": 0.2162454385727801,
231
+ "grad_norm": 0.25647661089897156,
232
+ "learning_rate": 1.4405405405405406e-05,
233
+ "loss": 0.36651172637939455,
234
+ "step": 1600
235
+ },
236
+ {
237
+ "epoch": 0.22300310852817948,
238
+ "grad_norm": 16.453493118286133,
239
+ "learning_rate": 1.4855855855855856e-05,
240
+ "loss": 0.4177054214477539,
241
+ "step": 1650
242
+ },
243
+ {
244
+ "epoch": 0.22976077848357887,
245
+ "grad_norm": 105.5218505859375,
246
+ "learning_rate": 1.5306306306306307e-05,
247
+ "loss": 0.5324158477783203,
248
+ "step": 1700
249
+ },
250
+ {
251
+ "epoch": 0.23651844843897823,
252
+ "grad_norm": 96.71179962158203,
253
+ "learning_rate": 1.5756756756756756e-05,
254
+ "loss": 0.5433593368530274,
255
+ "step": 1750
256
+ },
257
+ {
258
+ "epoch": 0.24327611839437763,
259
+ "grad_norm": 0.2389248162508011,
260
+ "learning_rate": 1.620720720720721e-05,
261
+ "loss": 0.4678084945678711,
262
+ "step": 1800
263
+ },
264
+ {
265
+ "epoch": 0.250033788349777,
266
+ "grad_norm": 153.3388214111328,
267
+ "learning_rate": 1.6657657657657658e-05,
268
+ "loss": 0.5350112533569336,
269
+ "step": 1850
270
+ },
271
+ {
272
+ "epoch": 0.25679145830517636,
273
+ "grad_norm": 38.44563293457031,
274
+ "learning_rate": 1.710810810810811e-05,
275
+ "loss": 0.49324443817138675,
276
+ "step": 1900
277
+ },
278
+ {
279
+ "epoch": 0.26354912826057575,
280
+ "grad_norm": 21.985090255737305,
281
+ "learning_rate": 1.755855855855856e-05,
282
+ "loss": 0.4342898178100586,
283
+ "step": 1950
284
+ },
285
+ {
286
+ "epoch": 0.27030679821597514,
287
+ "grad_norm": 1.6282066106796265,
288
+ "learning_rate": 1.800900900900901e-05,
289
+ "loss": 0.3795098876953125,
290
+ "step": 2000
291
+ },
292
+ {
293
+ "epoch": 0.27706446817137453,
294
+ "grad_norm": 0.3189730644226074,
295
+ "learning_rate": 1.8459459459459462e-05,
296
+ "loss": 0.5205284881591797,
297
+ "step": 2050
298
+ },
299
+ {
300
+ "epoch": 0.28382213812677387,
301
+ "grad_norm": 119.69422912597656,
302
+ "learning_rate": 1.8909909909909912e-05,
303
+ "loss": 0.35589817047119143,
304
+ "step": 2100
305
+ },
306
+ {
307
+ "epoch": 0.29057980808217326,
308
+ "grad_norm": 0.12017817795276642,
309
+ "learning_rate": 1.936036036036036e-05,
310
+ "loss": 0.48412479400634767,
311
+ "step": 2150
312
+ },
313
+ {
314
+ "epoch": 0.29733747803757266,
315
+ "grad_norm": 0.13124582171440125,
316
+ "learning_rate": 1.981081081081081e-05,
317
+ "loss": 0.39202404022216797,
318
+ "step": 2200
319
+ },
320
+ {
321
+ "epoch": 0.30409514799297205,
322
+ "grad_norm": 0.04938481003046036,
323
+ "learning_rate": 1.9970966611603347e-05,
324
+ "loss": 0.4283562469482422,
325
+ "step": 2250
326
+ },
327
+ {
328
+ "epoch": 0.3108528179483714,
329
+ "grad_norm": 0.6524620056152344,
330
+ "learning_rate": 1.9920909045402215e-05,
331
+ "loss": 0.40030643463134763,
332
+ "step": 2300
333
+ },
334
+ {
335
+ "epoch": 0.3176104879037708,
336
+ "grad_norm": 18.973918914794922,
337
+ "learning_rate": 1.9870851479201083e-05,
338
+ "loss": 0.4120947265625,
339
+ "step": 2350
340
+ },
341
+ {
342
+ "epoch": 0.32436815785917017,
343
+ "grad_norm": 71.04777526855469,
344
+ "learning_rate": 1.982079391299995e-05,
345
+ "loss": 0.522302017211914,
346
+ "step": 2400
347
+ },
348
+ {
349
+ "epoch": 0.33112582781456956,
350
+ "grad_norm": 0.29514455795288086,
351
+ "learning_rate": 1.977073634679882e-05,
352
+ "loss": 0.4655706787109375,
353
+ "step": 2450
354
+ },
355
+ {
356
+ "epoch": 0.3378834977699689,
357
+ "grad_norm": 0.18427829444408417,
358
+ "learning_rate": 1.972067878059769e-05,
359
+ "loss": 0.28636587142944336,
360
+ "step": 2500
361
+ },
362
+ {
363
+ "epoch": 0.3446411677253683,
364
+ "grad_norm": 1.2528847455978394,
365
+ "learning_rate": 1.9670621214396557e-05,
366
+ "loss": 0.3846575164794922,
367
+ "step": 2550
368
+ },
369
+ {
370
+ "epoch": 0.3513988376807677,
371
+ "grad_norm": 2.0725510120391846,
372
+ "learning_rate": 1.9620563648195424e-05,
373
+ "loss": 0.5236722564697266,
374
+ "step": 2600
375
+ },
376
+ {
377
+ "epoch": 0.3581565076361671,
378
+ "grad_norm": 0.8594722151756287,
379
+ "learning_rate": 1.9570506081994295e-05,
380
+ "loss": 0.3829684066772461,
381
+ "step": 2650
382
+ },
383
+ {
384
+ "epoch": 0.3649141775915664,
385
+ "grad_norm": 0.1568164974451065,
386
+ "learning_rate": 1.9520448515793166e-05,
387
+ "loss": 0.4368381881713867,
388
+ "step": 2700
389
+ },
390
+ {
391
+ "epoch": 0.3716718475469658,
392
+ "grad_norm": 0.15734773874282837,
393
+ "learning_rate": 1.9470390949592034e-05,
394
+ "loss": 0.2745826721191406,
395
+ "step": 2750
396
+ },
397
+ {
398
+ "epoch": 0.3784295175023652,
399
+ "grad_norm": 0.15169839560985565,
400
+ "learning_rate": 1.94203333833909e-05,
401
+ "loss": 0.5820682525634766,
402
+ "step": 2800
403
+ },
404
+ {
405
+ "epoch": 0.3851871874577646,
406
+ "grad_norm": 0.3607238531112671,
407
+ "learning_rate": 1.937027581718977e-05,
408
+ "loss": 0.40924224853515623,
409
+ "step": 2850
410
+ },
411
+ {
412
+ "epoch": 0.3919448574131639,
413
+ "grad_norm": 26.703046798706055,
414
+ "learning_rate": 1.9320218250988637e-05,
415
+ "loss": 0.4911691284179687,
416
+ "step": 2900
417
+ },
418
+ {
419
+ "epoch": 0.3987025273685633,
420
+ "grad_norm": 4.848247528076172,
421
+ "learning_rate": 1.9270160684787508e-05,
422
+ "loss": 0.4514664840698242,
423
+ "step": 2950
424
+ },
425
+ {
426
+ "epoch": 0.4054601973239627,
427
+ "grad_norm": 0.109466053545475,
428
+ "learning_rate": 1.9220103118586375e-05,
429
+ "loss": 0.37604598999023436,
430
+ "step": 3000
431
+ },
432
+ {
433
+ "epoch": 0.41221786727936205,
434
+ "grad_norm": 16.59686851501465,
435
+ "learning_rate": 1.9170045552385243e-05,
436
+ "loss": 0.29687234878540036,
437
+ "step": 3050
438
+ },
439
+ {
440
+ "epoch": 0.41897553723476144,
441
+ "grad_norm": 21.556055068969727,
442
+ "learning_rate": 1.9119987986184114e-05,
443
+ "loss": 0.5553390121459961,
444
+ "step": 3100
445
+ },
446
+ {
447
+ "epoch": 0.42573320719016083,
448
+ "grad_norm": 0.31334683299064636,
449
+ "learning_rate": 1.906993041998298e-05,
450
+ "loss": 0.34477981567382815,
451
+ "step": 3150
452
+ },
453
+ {
454
+ "epoch": 0.4324908771455602,
455
+ "grad_norm": 0.06408923864364624,
456
+ "learning_rate": 1.9019872853781852e-05,
457
+ "loss": 0.4639363479614258,
458
+ "step": 3200
459
+ },
460
+ {
461
+ "epoch": 0.43924854710095956,
462
+ "grad_norm": 0.039293207228183746,
463
+ "learning_rate": 1.896981528758072e-05,
464
+ "loss": 0.23494468688964842,
465
+ "step": 3250
466
+ },
467
+ {
468
+ "epoch": 0.44600621705635896,
469
+ "grad_norm": 0.04438117891550064,
470
+ "learning_rate": 1.8919757721379588e-05,
471
+ "loss": 0.13365052223205567,
472
+ "step": 3300
473
+ },
474
+ {
475
+ "epoch": 0.45276388701175835,
476
+ "grad_norm": 0.36716172099113464,
477
+ "learning_rate": 1.8869700155178455e-05,
478
+ "loss": 0.28368005752563474,
479
+ "step": 3350
480
+ },
481
+ {
482
+ "epoch": 0.45952155696715774,
483
+ "grad_norm": 0.04489823430776596,
484
+ "learning_rate": 1.8819642588977326e-05,
485
+ "loss": 0.40611759185791013,
486
+ "step": 3400
487
+ },
488
+ {
489
+ "epoch": 0.4662792269225571,
490
+ "grad_norm": 16.726591110229492,
491
+ "learning_rate": 1.8769585022776194e-05,
492
+ "loss": 0.36710128784179685,
493
+ "step": 3450
494
+ },
495
+ {
496
+ "epoch": 0.47303689687795647,
497
+ "grad_norm": 14.693270683288574,
498
+ "learning_rate": 1.871952745657506e-05,
499
+ "loss": 0.37917068481445315,
500
+ "step": 3500
501
+ },
502
+ {
503
+ "epoch": 0.47979456683335586,
504
+ "grad_norm": 73.12869262695312,
505
+ "learning_rate": 1.8669469890373932e-05,
506
+ "loss": 0.2679195594787598,
507
+ "step": 3550
508
+ },
509
+ {
510
+ "epoch": 0.48655223678875525,
511
+ "grad_norm": 1.5196269750595093,
512
+ "learning_rate": 1.86194123241728e-05,
513
+ "loss": 0.4122719955444336,
514
+ "step": 3600
515
+ },
516
+ {
517
+ "epoch": 0.4933099067441546,
518
+ "grad_norm": 24.74604606628418,
519
+ "learning_rate": 1.8569354757971668e-05,
520
+ "loss": 0.25464179992675784,
521
+ "step": 3650
522
+ },
523
+ {
524
+ "epoch": 0.500067576699554,
525
+ "grad_norm": 49.48332977294922,
526
+ "learning_rate": 1.851929719177054e-05,
527
+ "loss": 0.3096816062927246,
528
+ "step": 3700
529
+ },
530
+ {
531
+ "epoch": 0.5068252466549533,
532
+ "grad_norm": 33.84089660644531,
533
+ "learning_rate": 1.8469239625569406e-05,
534
+ "loss": 0.34311264038085937,
535
+ "step": 3750
536
+ },
537
+ {
538
+ "epoch": 0.5135829166103527,
539
+ "grad_norm": 0.0433129221200943,
540
+ "learning_rate": 1.8419182059368274e-05,
541
+ "loss": 0.3423194885253906,
542
+ "step": 3800
543
+ },
544
+ {
545
+ "epoch": 0.5203405865657521,
546
+ "grad_norm": 0.5578937530517578,
547
+ "learning_rate": 1.836912449316714e-05,
548
+ "loss": 0.4252873229980469,
549
+ "step": 3850
550
+ },
551
+ {
552
+ "epoch": 0.5270982565211515,
553
+ "grad_norm": 233.93492126464844,
554
+ "learning_rate": 1.8319066926966012e-05,
555
+ "loss": 0.303822021484375,
556
+ "step": 3900
557
+ },
558
+ {
559
+ "epoch": 0.5338559264765509,
560
+ "grad_norm": 0.005285980179905891,
561
+ "learning_rate": 1.8269009360764883e-05,
562
+ "loss": 0.37970211029052736,
563
+ "step": 3950
564
+ },
565
+ {
566
+ "epoch": 0.5406135964319503,
567
+ "grad_norm": 0.14675083756446838,
568
+ "learning_rate": 1.821895179456375e-05,
569
+ "loss": 0.3994259262084961,
570
+ "step": 4000
571
+ },
572
+ {
573
+ "epoch": 0.5473712663873497,
574
+ "grad_norm": 18.797971725463867,
575
+ "learning_rate": 1.816889422836262e-05,
576
+ "loss": 0.4484566116333008,
577
+ "step": 4050
578
+ },
579
+ {
580
+ "epoch": 0.5541289363427491,
581
+ "grad_norm": 16.081249237060547,
582
+ "learning_rate": 1.8118836662161486e-05,
583
+ "loss": 0.398365364074707,
584
+ "step": 4100
585
+ },
586
+ {
587
+ "epoch": 0.5608866062981483,
588
+ "grad_norm": 0.4474808871746063,
589
+ "learning_rate": 1.8068779095960357e-05,
590
+ "loss": 0.16137269973754884,
591
+ "step": 4150
592
+ },
593
+ {
594
+ "epoch": 0.5676442762535477,
595
+ "grad_norm": 32.02878952026367,
596
+ "learning_rate": 1.8018721529759225e-05,
597
+ "loss": 0.48198543548583983,
598
+ "step": 4200
599
+ },
600
+ {
601
+ "epoch": 0.5744019462089471,
602
+ "grad_norm": 7.520394325256348,
603
+ "learning_rate": 1.7968663963558092e-05,
604
+ "loss": 0.38921875,
605
+ "step": 4250
606
+ },
607
+ {
608
+ "epoch": 0.5811596161643465,
609
+ "grad_norm": 0.21612419188022614,
610
+ "learning_rate": 1.791860639735696e-05,
611
+ "loss": 0.24774662017822266,
612
+ "step": 4300
613
+ },
614
+ {
615
+ "epoch": 0.5879172861197459,
616
+ "grad_norm": 52.803627014160156,
617
+ "learning_rate": 1.786854883115583e-05,
618
+ "loss": 0.4917910385131836,
619
+ "step": 4350
620
+ },
621
+ {
622
+ "epoch": 0.5946749560751453,
623
+ "grad_norm": 2.780160665512085,
624
+ "learning_rate": 1.78184912649547e-05,
625
+ "loss": 0.4956707763671875,
626
+ "step": 4400
627
+ },
628
+ {
629
+ "epoch": 0.6014326260305447,
630
+ "grad_norm": 60.74454116821289,
631
+ "learning_rate": 1.776843369875357e-05,
632
+ "loss": 0.38436222076416016,
633
+ "step": 4450
634
+ },
635
+ {
636
+ "epoch": 0.6081902959859441,
637
+ "grad_norm": 171.72776794433594,
638
+ "learning_rate": 1.7718376132552437e-05,
639
+ "loss": 0.339903678894043,
640
+ "step": 4500
641
+ },
642
+ {
643
+ "epoch": 0.6149479659413434,
644
+ "grad_norm": 0.21840180456638336,
645
+ "learning_rate": 1.7668318566351305e-05,
646
+ "loss": 0.35657142639160155,
647
+ "step": 4550
648
+ },
649
+ {
650
+ "epoch": 0.6217056358967428,
651
+ "grad_norm": 0.1235419437289238,
652
+ "learning_rate": 1.7618261000150173e-05,
653
+ "loss": 0.48563838958740235,
654
+ "step": 4600
655
+ },
656
+ {
657
+ "epoch": 0.6284633058521422,
658
+ "grad_norm": 45.70621109008789,
659
+ "learning_rate": 1.7568203433949044e-05,
660
+ "loss": 0.3387251281738281,
661
+ "step": 4650
662
+ },
663
+ {
664
+ "epoch": 0.6352209758075416,
665
+ "grad_norm": 16.330842971801758,
666
+ "learning_rate": 1.751814586774791e-05,
667
+ "loss": 0.26475383758544924,
668
+ "step": 4700
669
+ },
670
+ {
671
+ "epoch": 0.641978645762941,
672
+ "grad_norm": 0.13989397883415222,
673
+ "learning_rate": 1.746808830154678e-05,
674
+ "loss": 0.23626720428466796,
675
+ "step": 4750
676
+ },
677
+ {
678
+ "epoch": 0.6487363157183403,
679
+ "grad_norm": 0.2098826766014099,
680
+ "learning_rate": 1.7418030735345646e-05,
681
+ "loss": 0.3830945587158203,
682
+ "step": 4800
683
+ },
684
+ {
685
+ "epoch": 0.6554939856737397,
686
+ "grad_norm": 129.06463623046875,
687
+ "learning_rate": 1.7367973169144517e-05,
688
+ "loss": 0.3804433822631836,
689
+ "step": 4850
690
+ },
691
+ {
692
+ "epoch": 0.6622516556291391,
693
+ "grad_norm": 0.03363212198019028,
694
+ "learning_rate": 1.731791560294339e-05,
695
+ "loss": 0.360137939453125,
696
+ "step": 4900
697
+ },
698
+ {
699
+ "epoch": 0.6690093255845384,
700
+ "grad_norm": 0.03238023817539215,
701
+ "learning_rate": 1.7267858036742256e-05,
702
+ "loss": 0.2027187728881836,
703
+ "step": 4950
704
+ },
705
+ {
706
+ "epoch": 0.6757669955399378,
707
+ "grad_norm": 0.06728547066450119,
708
+ "learning_rate": 1.7217800470541124e-05,
709
+ "loss": 0.331846923828125,
710
+ "step": 5000
711
+ },
712
+ {
713
+ "epoch": 0.6825246654953372,
714
+ "grad_norm": 19.55385398864746,
715
+ "learning_rate": 1.716774290433999e-05,
716
+ "loss": 0.4320966339111328,
717
+ "step": 5050
718
+ },
719
+ {
720
+ "epoch": 0.6892823354507366,
721
+ "grad_norm": 30.989242553710938,
722
+ "learning_rate": 1.7117685338138862e-05,
723
+ "loss": 0.39179283142089844,
724
+ "step": 5100
725
+ },
726
+ {
727
+ "epoch": 0.696040005406136,
728
+ "grad_norm": 9.868060111999512,
729
+ "learning_rate": 1.706762777193773e-05,
730
+ "loss": 0.36711841583251953,
731
+ "step": 5150
732
+ },
733
+ {
734
+ "epoch": 0.7027976753615354,
735
+ "grad_norm": 0.5608569383621216,
736
+ "learning_rate": 1.7017570205736597e-05,
737
+ "loss": 0.24337669372558593,
738
+ "step": 5200
739
+ },
740
+ {
741
+ "epoch": 0.7095553453169348,
742
+ "grad_norm": 34.208763122558594,
743
+ "learning_rate": 1.6967512639535465e-05,
744
+ "loss": 0.5551647567749023,
745
+ "step": 5250
746
+ },
747
+ {
748
+ "epoch": 0.7163130152723342,
749
+ "grad_norm": 0.15128108859062195,
750
+ "learning_rate": 1.6917455073334336e-05,
751
+ "loss": 0.32145679473876954,
752
+ "step": 5300
753
+ },
754
+ {
755
+ "epoch": 0.7230706852277334,
756
+ "grad_norm": 35.46443557739258,
757
+ "learning_rate": 1.6867397507133204e-05,
758
+ "loss": 0.2589885330200195,
759
+ "step": 5350
760
+ },
761
+ {
762
+ "epoch": 0.7298283551831328,
763
+ "grad_norm": 26.979644775390625,
764
+ "learning_rate": 1.6817339940932075e-05,
765
+ "loss": 0.4622607421875,
766
+ "step": 5400
767
+ },
768
+ {
769
+ "epoch": 0.7365860251385322,
770
+ "grad_norm": 52.30873489379883,
771
+ "learning_rate": 1.6767282374730942e-05,
772
+ "loss": 0.24140811920166017,
773
+ "step": 5450
774
+ },
775
+ {
776
+ "epoch": 0.7433436950939316,
777
+ "grad_norm": 37.16353988647461,
778
+ "learning_rate": 1.671722480852981e-05,
779
+ "loss": 0.4084646224975586,
780
+ "step": 5500
781
+ },
782
+ {
783
+ "epoch": 0.750101365049331,
784
+ "grad_norm": 1.0389983654022217,
785
+ "learning_rate": 1.6667167242328677e-05,
786
+ "loss": 0.3605424118041992,
787
+ "step": 5550
788
+ },
789
+ {
790
+ "epoch": 0.7568590350047304,
791
+ "grad_norm": 27.835859298706055,
792
+ "learning_rate": 1.661710967612755e-05,
793
+ "loss": 0.3582349395751953,
794
+ "step": 5600
795
+ },
796
+ {
797
+ "epoch": 0.7636167049601298,
798
+ "grad_norm": 76.13422393798828,
799
+ "learning_rate": 1.6567052109926416e-05,
800
+ "loss": 0.407784423828125,
801
+ "step": 5650
802
+ },
803
+ {
804
+ "epoch": 0.7703743749155292,
805
+ "grad_norm": 0.39249739050865173,
806
+ "learning_rate": 1.6516994543725284e-05,
807
+ "loss": 0.39183979034423827,
808
+ "step": 5700
809
+ },
810
+ {
811
+ "epoch": 0.7771320448709285,
812
+ "grad_norm": 24.34403419494629,
813
+ "learning_rate": 1.6466936977524155e-05,
814
+ "loss": 0.2900525093078613,
815
+ "step": 5750
816
+ },
817
+ {
818
+ "epoch": 0.7838897148263279,
819
+ "grad_norm": 0.6838638186454773,
820
+ "learning_rate": 1.6416879411323022e-05,
821
+ "loss": 0.31336002349853515,
822
+ "step": 5800
823
+ },
824
+ {
825
+ "epoch": 0.7906473847817272,
826
+ "grad_norm": 0.06529181450605392,
827
+ "learning_rate": 1.6366821845121893e-05,
828
+ "loss": 0.2243809700012207,
829
+ "step": 5850
830
+ },
831
+ {
832
+ "epoch": 0.7974050547371266,
833
+ "grad_norm": 0.08979305624961853,
834
+ "learning_rate": 1.631676427892076e-05,
835
+ "loss": 0.37539905548095703,
836
+ "step": 5900
837
+ },
838
+ {
839
+ "epoch": 0.804162724692526,
840
+ "grad_norm": 0.36067715287208557,
841
+ "learning_rate": 1.626670671271963e-05,
842
+ "loss": 0.2607468795776367,
843
+ "step": 5950
844
+ },
845
+ {
846
+ "epoch": 0.8109203946479254,
847
+ "grad_norm": 0.07132972776889801,
848
+ "learning_rate": 1.6216649146518496e-05,
849
+ "loss": 0.4599153518676758,
850
+ "step": 6000
851
+ },
852
+ {
853
+ "epoch": 0.8176780646033248,
854
+ "grad_norm": 0.016791321337223053,
855
+ "learning_rate": 1.6166591580317367e-05,
856
+ "loss": 0.29411968231201174,
857
+ "step": 6050
858
+ },
859
+ {
860
+ "epoch": 0.8244357345587241,
861
+ "grad_norm": 31.486772537231445,
862
+ "learning_rate": 1.6116534014116235e-05,
863
+ "loss": 0.4410831069946289,
864
+ "step": 6100
865
+ },
866
+ {
867
+ "epoch": 0.8311934045141235,
868
+ "grad_norm": 0.12318305671215057,
869
+ "learning_rate": 1.6066476447915106e-05,
870
+ "loss": 0.3409576416015625,
871
+ "step": 6150
872
+ },
873
+ {
874
+ "epoch": 0.8379510744695229,
875
+ "grad_norm": 0.03524986654520035,
876
+ "learning_rate": 1.6016418881713973e-05,
877
+ "loss": 0.2761139106750488,
878
+ "step": 6200
879
+ },
880
+ {
881
+ "epoch": 0.8447087444249223,
882
+ "grad_norm": 0.07541833072900772,
883
+ "learning_rate": 1.596636131551284e-05,
884
+ "loss": 0.4007402420043945,
885
+ "step": 6250
886
+ },
887
+ {
888
+ "epoch": 0.8514664143803217,
889
+ "grad_norm": 0.1083996370434761,
890
+ "learning_rate": 1.591630374931171e-05,
891
+ "loss": 0.2156216812133789,
892
+ "step": 6300
893
+ },
894
+ {
895
+ "epoch": 0.8582240843357211,
896
+ "grad_norm": 17.29279899597168,
897
+ "learning_rate": 1.586624618311058e-05,
898
+ "loss": 0.2401065444946289,
899
+ "step": 6350
900
+ },
901
+ {
902
+ "epoch": 0.8649817542911205,
903
+ "grad_norm": 0.163585364818573,
904
+ "learning_rate": 1.5816188616909447e-05,
905
+ "loss": 0.27833726882934573,
906
+ "step": 6400
907
+ },
908
+ {
909
+ "epoch": 0.8717394242465198,
910
+ "grad_norm": 0.12471607327461243,
911
+ "learning_rate": 1.5766131050708315e-05,
912
+ "loss": 0.26960302352905274,
913
+ "step": 6450
914
+ },
915
+ {
916
+ "epoch": 0.8784970942019191,
917
+ "grad_norm": 0.01586587354540825,
918
+ "learning_rate": 1.5716073484507182e-05,
919
+ "loss": 0.24444808959960937,
920
+ "step": 6500
921
+ },
922
+ {
923
+ "epoch": 0.8852547641573185,
924
+ "grad_norm": 0.04108090698719025,
925
+ "learning_rate": 1.5666015918306053e-05,
926
+ "loss": 0.24059207916259764,
927
+ "step": 6550
928
+ },
929
+ {
930
+ "epoch": 0.8920124341127179,
931
+ "grad_norm": 0.6881380081176758,
932
+ "learning_rate": 1.5615958352104924e-05,
933
+ "loss": 0.2879082870483398,
934
+ "step": 6600
935
+ },
936
+ {
937
+ "epoch": 0.8987701040681173,
938
+ "grad_norm": 10.9269437789917,
939
+ "learning_rate": 1.5565900785903792e-05,
940
+ "loss": 0.3690375518798828,
941
+ "step": 6650
942
+ },
943
+ {
944
+ "epoch": 0.9055277740235167,
945
+ "grad_norm": 0.2799762785434723,
946
+ "learning_rate": 1.551584321970266e-05,
947
+ "loss": 0.37917003631591795,
948
+ "step": 6700
949
+ },
950
+ {
951
+ "epoch": 0.9122854439789161,
952
+ "grad_norm": 29.693958282470703,
953
+ "learning_rate": 1.5465785653501527e-05,
954
+ "loss": 0.2966591453552246,
955
+ "step": 6750
956
+ },
957
+ {
958
+ "epoch": 0.9190431139343155,
959
+ "grad_norm": 0.018007883802056313,
960
+ "learning_rate": 1.5415728087300398e-05,
961
+ "loss": 0.1859919548034668,
962
+ "step": 6800
963
+ },
964
+ {
965
+ "epoch": 0.9258007838897149,
966
+ "grad_norm": 61.17789077758789,
967
+ "learning_rate": 1.5365670521099266e-05,
968
+ "loss": 0.3845572662353516,
969
+ "step": 6850
970
+ },
971
+ {
972
+ "epoch": 0.9325584538451142,
973
+ "grad_norm": 20.372512817382812,
974
+ "learning_rate": 1.5315612954898133e-05,
975
+ "loss": 0.4127138900756836,
976
+ "step": 6900
977
+ },
978
+ {
979
+ "epoch": 0.9393161238005135,
980
+ "grad_norm": 10.219191551208496,
981
+ "learning_rate": 1.5265555388697e-05,
982
+ "loss": 0.31619930267333984,
983
+ "step": 6950
984
+ },
985
+ {
986
+ "epoch": 0.9460737937559129,
987
+ "grad_norm": 0.049500029534101486,
988
+ "learning_rate": 1.521549782249587e-05,
989
+ "loss": 0.3062467193603516,
990
+ "step": 7000
991
+ },
992
+ {
993
+ "epoch": 0.9528314637113123,
994
+ "grad_norm": 0.020763445645570755,
995
+ "learning_rate": 1.5165440256294741e-05,
996
+ "loss": 0.31766212463378907,
997
+ "step": 7050
998
+ },
999
+ {
1000
+ "epoch": 0.9595891336667117,
1001
+ "grad_norm": 0.03847825154662132,
1002
+ "learning_rate": 1.5115382690093609e-05,
1003
+ "loss": 0.17821809768676758,
1004
+ "step": 7100
1005
+ },
1006
+ {
1007
+ "epoch": 0.9663468036221111,
1008
+ "grad_norm": 0.1949007511138916,
1009
+ "learning_rate": 1.5065325123892478e-05,
1010
+ "loss": 0.17827264785766603,
1011
+ "step": 7150
1012
+ },
1013
+ {
1014
+ "epoch": 0.9731044735775105,
1015
+ "grad_norm": 0.04745342954993248,
1016
+ "learning_rate": 1.5015267557691346e-05,
1017
+ "loss": 0.25842235565185545,
1018
+ "step": 7200
1019
+ },
1020
+ {
1021
+ "epoch": 0.9798621435329099,
1022
+ "grad_norm": 0.09277615696191788,
1023
+ "learning_rate": 1.4965209991490215e-05,
1024
+ "loss": 0.28848594665527344,
1025
+ "step": 7250
1026
+ },
1027
+ {
1028
+ "epoch": 0.9866198134883092,
1029
+ "grad_norm": 107.77627563476562,
1030
+ "learning_rate": 1.4915152425289083e-05,
1031
+ "loss": 0.3165037727355957,
1032
+ "step": 7300
1033
+ },
1034
+ {
1035
+ "epoch": 0.9933774834437086,
1036
+ "grad_norm": 0.037322066724300385,
1037
+ "learning_rate": 1.4865094859087952e-05,
1038
+ "loss": 0.441009521484375,
1039
+ "step": 7350
1040
+ },
1041
+ {
1042
+ "epoch": 1.0,
1043
+ "eval_accuracy": 0.9648333206194217,
1044
+ "eval_f1": 0.9626145486984024,
1045
+ "eval_loss": 0.17089255154132843,
1046
+ "eval_precision": 0.945666029318037,
1047
+ "eval_recall": 0.9801816680429397,
1048
+ "eval_runtime": 68.5571,
1049
+ "eval_samples_per_second": 191.213,
1050
+ "eval_steps_per_second": 47.814,
1051
+ "step": 7399
1052
+ },
1053
+ {
1054
+ "epoch": 1.000135153399108,
1055
+ "grad_norm": 0.07350551337003708,
1056
+ "learning_rate": 1.481503729288682e-05,
1057
+ "loss": 0.25518951416015623,
1058
+ "step": 7400
1059
+ },
1060
+ {
1061
+ "epoch": 1.0068928233545074,
1062
+ "grad_norm": 0.13678599894046783,
1063
+ "learning_rate": 1.4764979726685689e-05,
1064
+ "loss": 0.18701498031616212,
1065
+ "step": 7450
1066
+ },
1067
+ {
1068
+ "epoch": 1.0136504933099066,
1069
+ "grad_norm": 2.2193477153778076,
1070
+ "learning_rate": 1.471492216048456e-05,
1071
+ "loss": 0.2123020362854004,
1072
+ "step": 7500
1073
+ },
1074
+ {
1075
+ "epoch": 1.0204081632653061,
1076
+ "grad_norm": 0.002282262546941638,
1077
+ "learning_rate": 1.4664864594283427e-05,
1078
+ "loss": 0.06725791931152343,
1079
+ "step": 7550
1080
+ },
1081
+ {
1082
+ "epoch": 1.0271658332207054,
1083
+ "grad_norm": 0.018047912046313286,
1084
+ "learning_rate": 1.4614807028082297e-05,
1085
+ "loss": 0.05762751579284668,
1086
+ "step": 7600
1087
+ },
1088
+ {
1089
+ "epoch": 1.033923503176105,
1090
+ "grad_norm": 0.018197333440184593,
1091
+ "learning_rate": 1.4564749461881164e-05,
1092
+ "loss": 0.2026105308532715,
1093
+ "step": 7650
1094
+ },
1095
+ {
1096
+ "epoch": 1.0406811731315042,
1097
+ "grad_norm": 25.600358963012695,
1098
+ "learning_rate": 1.4514691895680034e-05,
1099
+ "loss": 0.3179864311218262,
1100
+ "step": 7700
1101
+ },
1102
+ {
1103
+ "epoch": 1.0474388430869037,
1104
+ "grad_norm": 0.01227724552154541,
1105
+ "learning_rate": 1.4464634329478901e-05,
1106
+ "loss": 0.17692861557006836,
1107
+ "step": 7750
1108
+ },
1109
+ {
1110
+ "epoch": 1.054196513042303,
1111
+ "grad_norm": 0.00431372644379735,
1112
+ "learning_rate": 1.441457676327777e-05,
1113
+ "loss": 0.16868959426879881,
1114
+ "step": 7800
1115
+ },
1116
+ {
1117
+ "epoch": 1.0609541829977025,
1118
+ "grad_norm": 0.2933880686759949,
1119
+ "learning_rate": 1.4364519197076638e-05,
1120
+ "loss": 0.16839271545410156,
1121
+ "step": 7850
1122
+ },
1123
+ {
1124
+ "epoch": 1.0677118529531018,
1125
+ "grad_norm": 0.08445457369089127,
1126
+ "learning_rate": 1.431446163087551e-05,
1127
+ "loss": 0.23334505081176757,
1128
+ "step": 7900
1129
+ },
1130
+ {
1131
+ "epoch": 1.074469522908501,
1132
+ "grad_norm": 0.008567499928176403,
1133
+ "learning_rate": 1.4264404064674377e-05,
1134
+ "loss": 0.15990480422973632,
1135
+ "step": 7950
1136
+ },
1137
+ {
1138
+ "epoch": 1.0812271928639006,
1139
+ "grad_norm": 0.04676676541566849,
1140
+ "learning_rate": 1.4214346498473246e-05,
1141
+ "loss": 0.16386571884155274,
1142
+ "step": 8000
1143
+ },
1144
+ {
1145
+ "epoch": 1.0879848628192998,
1146
+ "grad_norm": 0.0389719195663929,
1147
+ "learning_rate": 1.4164288932272114e-05,
1148
+ "loss": 0.38469879150390623,
1149
+ "step": 8050
1150
+ },
1151
+ {
1152
+ "epoch": 1.0947425327746994,
1153
+ "grad_norm": 13.620099067687988,
1154
+ "learning_rate": 1.4114231366070983e-05,
1155
+ "loss": 0.15156843185424804,
1156
+ "step": 8100
1157
+ },
1158
+ {
1159
+ "epoch": 1.1015002027300986,
1160
+ "grad_norm": 14.422818183898926,
1161
+ "learning_rate": 1.406417379986985e-05,
1162
+ "loss": 0.23564334869384765,
1163
+ "step": 8150
1164
+ },
1165
+ {
1166
+ "epoch": 1.1082578726854981,
1167
+ "grad_norm": 8.18301773071289,
1168
+ "learning_rate": 1.401411623366872e-05,
1169
+ "loss": 0.18750425338745116,
1170
+ "step": 8200
1171
+ },
1172
+ {
1173
+ "epoch": 1.1150155426408974,
1174
+ "grad_norm": 15.054717063903809,
1175
+ "learning_rate": 1.3964058667467588e-05,
1176
+ "loss": 0.26675054550170896,
1177
+ "step": 8250
1178
+ },
1179
+ {
1180
+ "epoch": 1.1217732125962967,
1181
+ "grad_norm": 0.11389277875423431,
1182
+ "learning_rate": 1.3914001101266457e-05,
1183
+ "loss": 0.12498929023742676,
1184
+ "step": 8300
1185
+ },
1186
+ {
1187
+ "epoch": 1.1285308825516962,
1188
+ "grad_norm": 0.04972947761416435,
1189
+ "learning_rate": 1.3863943535065328e-05,
1190
+ "loss": 0.13664302825927735,
1191
+ "step": 8350
1192
+ },
1193
+ {
1194
+ "epoch": 1.1352885525070955,
1195
+ "grad_norm": 17.056364059448242,
1196
+ "learning_rate": 1.3813885968864195e-05,
1197
+ "loss": 0.33427154541015625,
1198
+ "step": 8400
1199
+ },
1200
+ {
1201
+ "epoch": 1.142046222462495,
1202
+ "grad_norm": 0.040144748985767365,
1203
+ "learning_rate": 1.3763828402663065e-05,
1204
+ "loss": 0.21294273376464845,
1205
+ "step": 8450
1206
+ },
1207
+ {
1208
+ "epoch": 1.1488038924178943,
1209
+ "grad_norm": 0.18602368235588074,
1210
+ "learning_rate": 1.3713770836461932e-05,
1211
+ "loss": 0.18324586868286133,
1212
+ "step": 8500
1213
+ },
1214
+ {
1215
+ "epoch": 1.1555615623732938,
1216
+ "grad_norm": 15.689005851745605,
1217
+ "learning_rate": 1.3663713270260802e-05,
1218
+ "loss": 0.2427196502685547,
1219
+ "step": 8550
1220
+ },
1221
+ {
1222
+ "epoch": 1.162319232328693,
1223
+ "grad_norm": 23.67704200744629,
1224
+ "learning_rate": 1.361365570405967e-05,
1225
+ "loss": 0.1402696418762207,
1226
+ "step": 8600
1227
+ },
1228
+ {
1229
+ "epoch": 1.1690769022840923,
1230
+ "grad_norm": 0.0033212420530617237,
1231
+ "learning_rate": 1.3563598137858539e-05,
1232
+ "loss": 0.12810823440551758,
1233
+ "step": 8650
1234
+ },
1235
+ {
1236
+ "epoch": 1.1758345722394918,
1237
+ "grad_norm": 141.46917724609375,
1238
+ "learning_rate": 1.3513540571657406e-05,
1239
+ "loss": 0.30034215927124025,
1240
+ "step": 8700
1241
+ },
1242
+ {
1243
+ "epoch": 1.1825922421948911,
1244
+ "grad_norm": 0.8686608672142029,
1245
+ "learning_rate": 1.3463483005456275e-05,
1246
+ "loss": 0.1589590072631836,
1247
+ "step": 8750
1248
+ },
1249
+ {
1250
+ "epoch": 1.1893499121502906,
1251
+ "grad_norm": 0.063064344227314,
1252
+ "learning_rate": 1.3413425439255145e-05,
1253
+ "loss": 0.09607341766357422,
1254
+ "step": 8800
1255
+ },
1256
+ {
1257
+ "epoch": 1.19610758210569,
1258
+ "grad_norm": 66.27935791015625,
1259
+ "learning_rate": 1.3363367873054014e-05,
1260
+ "loss": 0.2668747329711914,
1261
+ "step": 8850
1262
+ },
1263
+ {
1264
+ "epoch": 1.2028652520610894,
1265
+ "grad_norm": 0.1408540904521942,
1266
+ "learning_rate": 1.3313310306852882e-05,
1267
+ "loss": 0.20421890258789063,
1268
+ "step": 8900
1269
+ },
1270
+ {
1271
+ "epoch": 1.2096229220164887,
1272
+ "grad_norm": 0.23674733936786652,
1273
+ "learning_rate": 1.3263252740651751e-05,
1274
+ "loss": 0.0837314224243164,
1275
+ "step": 8950
1276
+ },
1277
+ {
1278
+ "epoch": 1.216380591971888,
1279
+ "grad_norm": 0.0018713766476139426,
1280
+ "learning_rate": 1.3213195174450619e-05,
1281
+ "loss": 0.1790580177307129,
1282
+ "step": 9000
1283
+ },
1284
+ {
1285
+ "epoch": 1.2231382619272875,
1286
+ "grad_norm": 21.07696533203125,
1287
+ "learning_rate": 1.3163137608249488e-05,
1288
+ "loss": 0.3062829780578613,
1289
+ "step": 9050
1290
+ },
1291
+ {
1292
+ "epoch": 1.2298959318826868,
1293
+ "grad_norm": 0.0028690961189568043,
1294
+ "learning_rate": 1.3113080042048356e-05,
1295
+ "loss": 0.3135700798034668,
1296
+ "step": 9100
1297
+ },
1298
+ {
1299
+ "epoch": 1.2366536018380863,
1300
+ "grad_norm": 0.03967598080635071,
1301
+ "learning_rate": 1.3063022475847225e-05,
1302
+ "loss": 0.07902798652648926,
1303
+ "step": 9150
1304
+ },
1305
+ {
1306
+ "epoch": 1.2434112717934855,
1307
+ "grad_norm": 0.28184425830841064,
1308
+ "learning_rate": 1.3012964909646092e-05,
1309
+ "loss": 0.3031677055358887,
1310
+ "step": 9200
1311
+ },
1312
+ {
1313
+ "epoch": 1.250168941748885,
1314
+ "grad_norm": 24.878887176513672,
1315
+ "learning_rate": 1.2962907343444963e-05,
1316
+ "loss": 0.1646289825439453,
1317
+ "step": 9250
1318
+ },
1319
+ {
1320
+ "epoch": 1.2569266117042843,
1321
+ "grad_norm": 71.28195190429688,
1322
+ "learning_rate": 1.2912849777243833e-05,
1323
+ "loss": 0.42414035797119143,
1324
+ "step": 9300
1325
+ },
1326
+ {
1327
+ "epoch": 1.2636842816596836,
1328
+ "grad_norm": 0.011118948459625244,
1329
+ "learning_rate": 1.28627922110427e-05,
1330
+ "loss": 0.14453999519348146,
1331
+ "step": 9350
1332
+ },
1333
+ {
1334
+ "epoch": 1.270441951615083,
1335
+ "grad_norm": 1.3121373653411865,
1336
+ "learning_rate": 1.281273464484157e-05,
1337
+ "loss": 0.1707002067565918,
1338
+ "step": 9400
1339
+ },
1340
+ {
1341
+ "epoch": 1.2771996215704826,
1342
+ "grad_norm": 0.003927276004105806,
1343
+ "learning_rate": 1.2762677078640437e-05,
1344
+ "loss": 0.17268417358398438,
1345
+ "step": 9450
1346
+ },
1347
+ {
1348
+ "epoch": 1.283957291525882,
1349
+ "grad_norm": 0.1925577074289322,
1350
+ "learning_rate": 1.2712619512439307e-05,
1351
+ "loss": 0.09306806564331055,
1352
+ "step": 9500
1353
+ },
1354
+ {
1355
+ "epoch": 1.2907149614812812,
1356
+ "grad_norm": 0.32519787549972534,
1357
+ "learning_rate": 1.2662561946238174e-05,
1358
+ "loss": 0.16181667327880858,
1359
+ "step": 9550
1360
+ },
1361
+ {
1362
+ "epoch": 1.2974726314366807,
1363
+ "grad_norm": 0.09728897362947464,
1364
+ "learning_rate": 1.2612504380037043e-05,
1365
+ "loss": 0.15530454635620117,
1366
+ "step": 9600
1367
+ },
1368
+ {
1369
+ "epoch": 1.30423030139208,
1370
+ "grad_norm": 0.5013231635093689,
1371
+ "learning_rate": 1.2562446813835911e-05,
1372
+ "loss": 0.2710952949523926,
1373
+ "step": 9650
1374
+ },
1375
+ {
1376
+ "epoch": 1.3109879713474795,
1377
+ "grad_norm": 0.0033234574366360903,
1378
+ "learning_rate": 1.2512389247634782e-05,
1379
+ "loss": 0.1900665283203125,
1380
+ "step": 9700
1381
+ },
1382
+ {
1383
+ "epoch": 1.3177456413028787,
1384
+ "grad_norm": 6.791006565093994,
1385
+ "learning_rate": 1.246233168143365e-05,
1386
+ "loss": 0.22926794052124022,
1387
+ "step": 9750
1388
+ },
1389
+ {
1390
+ "epoch": 1.3245033112582782,
1391
+ "grad_norm": 0.014930491335690022,
1392
+ "learning_rate": 1.2412274115232519e-05,
1393
+ "loss": 0.19701622009277345,
1394
+ "step": 9800
1395
+ },
1396
+ {
1397
+ "epoch": 1.3312609812136775,
1398
+ "grad_norm": 0.037327345460653305,
1399
+ "learning_rate": 1.2362216549031387e-05,
1400
+ "loss": 0.13671175003051758,
1401
+ "step": 9850
1402
+ },
1403
+ {
1404
+ "epoch": 1.3380186511690768,
1405
+ "grad_norm": 0.11069410294294357,
1406
+ "learning_rate": 1.2312158982830256e-05,
1407
+ "loss": 0.2781560134887695,
1408
+ "step": 9900
1409
+ },
1410
+ {
1411
+ "epoch": 1.3447763211244763,
1412
+ "grad_norm": 0.2557360827922821,
1413
+ "learning_rate": 1.2262101416629123e-05,
1414
+ "loss": 0.2896346664428711,
1415
+ "step": 9950
1416
+ },
1417
+ {
1418
+ "epoch": 1.3515339910798756,
1419
+ "grad_norm": 0.004186369478702545,
1420
+ "learning_rate": 1.2212043850427993e-05,
1421
+ "loss": 0.14058467864990234,
1422
+ "step": 10000
1423
+ },
1424
+ {
1425
+ "epoch": 1.358291661035275,
1426
+ "grad_norm": 0.5735684633255005,
1427
+ "learning_rate": 1.216198628422686e-05,
1428
+ "loss": 0.30132375717163085,
1429
+ "step": 10050
1430
+ },
1431
+ {
1432
+ "epoch": 1.3650493309906744,
1433
+ "grad_norm": 0.061718910932540894,
1434
+ "learning_rate": 1.2111928718025731e-05,
1435
+ "loss": 0.21547920227050782,
1436
+ "step": 10100
1437
+ },
1438
+ {
1439
+ "epoch": 1.3718070009460739,
1440
+ "grad_norm": 0.010497814044356346,
1441
+ "learning_rate": 1.20618711518246e-05,
1442
+ "loss": 0.1678770065307617,
1443
+ "step": 10150
1444
+ },
1445
+ {
1446
+ "epoch": 1.3785646709014732,
1447
+ "grad_norm": 0.01137350220233202,
1448
+ "learning_rate": 1.2011813585623468e-05,
1449
+ "loss": 0.2268022346496582,
1450
+ "step": 10200
1451
+ },
1452
+ {
1453
+ "epoch": 1.3853223408568724,
1454
+ "grad_norm": 73.45201110839844,
1455
+ "learning_rate": 1.1961756019422338e-05,
1456
+ "loss": 0.2648137092590332,
1457
+ "step": 10250
1458
+ },
1459
+ {
1460
+ "epoch": 1.392080010812272,
1461
+ "grad_norm": 0.003874465124681592,
1462
+ "learning_rate": 1.1911698453221205e-05,
1463
+ "loss": 0.26919260025024416,
1464
+ "step": 10300
1465
+ },
1466
+ {
1467
+ "epoch": 1.3988376807676712,
1468
+ "grad_norm": 0.04089919477701187,
1469
+ "learning_rate": 1.1861640887020075e-05,
1470
+ "loss": 0.29294668197631835,
1471
+ "step": 10350
1472
+ },
1473
+ {
1474
+ "epoch": 1.4055953507230707,
1475
+ "grad_norm": 0.14030589163303375,
1476
+ "learning_rate": 1.1811583320818942e-05,
1477
+ "loss": 0.2179054832458496,
1478
+ "step": 10400
1479
+ },
1480
+ {
1481
+ "epoch": 1.41235302067847,
1482
+ "grad_norm": 0.9217932820320129,
1483
+ "learning_rate": 1.1761525754617811e-05,
1484
+ "loss": 0.25105377197265627,
1485
+ "step": 10450
1486
+ },
1487
+ {
1488
+ "epoch": 1.4191106906338695,
1489
+ "grad_norm": 185.11000061035156,
1490
+ "learning_rate": 1.1711468188416679e-05,
1491
+ "loss": 0.22989677429199218,
1492
+ "step": 10500
1493
+ },
1494
+ {
1495
+ "epoch": 1.4258683605892688,
1496
+ "grad_norm": 29.782814025878906,
1497
+ "learning_rate": 1.166141062221555e-05,
1498
+ "loss": 0.20334575653076173,
1499
+ "step": 10550
1500
+ },
1501
+ {
1502
+ "epoch": 1.432626030544668,
1503
+ "grad_norm": 11.781908988952637,
1504
+ "learning_rate": 1.1611353056014418e-05,
1505
+ "loss": 0.1873354721069336,
1506
+ "step": 10600
1507
+ },
1508
+ {
1509
+ "epoch": 1.4393837005000676,
1510
+ "grad_norm": 0.017826354131102562,
1511
+ "learning_rate": 1.1561295489813287e-05,
1512
+ "loss": 0.11134927749633788,
1513
+ "step": 10650
1514
+ },
1515
+ {
1516
+ "epoch": 1.446141370455467,
1517
+ "grad_norm": 0.03723045065999031,
1518
+ "learning_rate": 1.1511237923612155e-05,
1519
+ "loss": 0.19197362899780274,
1520
+ "step": 10700
1521
+ },
1522
+ {
1523
+ "epoch": 1.4528990404108664,
1524
+ "grad_norm": 14.280227661132812,
1525
+ "learning_rate": 1.1461180357411024e-05,
1526
+ "loss": 0.23998620986938476,
1527
+ "step": 10750
1528
+ },
1529
+ {
1530
+ "epoch": 1.4596567103662657,
1531
+ "grad_norm": 0.002761346288025379,
1532
+ "learning_rate": 1.1411122791209891e-05,
1533
+ "loss": 0.07881230354309082,
1534
+ "step": 10800
1535
+ },
1536
+ {
1537
+ "epoch": 1.4664143803216652,
1538
+ "grad_norm": 0.14611680805683136,
1539
+ "learning_rate": 1.136106522500876e-05,
1540
+ "loss": 0.22946516036987305,
1541
+ "step": 10850
1542
+ },
1543
+ {
1544
+ "epoch": 1.4731720502770644,
1545
+ "grad_norm": 2.264693021774292,
1546
+ "learning_rate": 1.1311007658807628e-05,
1547
+ "loss": 0.17156749725341797,
1548
+ "step": 10900
1549
+ },
1550
+ {
1551
+ "epoch": 1.4799297202324637,
1552
+ "grad_norm": 0.5791627764701843,
1553
+ "learning_rate": 1.1260950092606498e-05,
1554
+ "loss": 0.17092864990234374,
1555
+ "step": 10950
1556
+ },
1557
+ {
1558
+ "epoch": 1.4866873901878632,
1559
+ "grad_norm": 0.30093225836753845,
1560
+ "learning_rate": 1.1210892526405369e-05,
1561
+ "loss": 0.30757621765136717,
1562
+ "step": 11000
1563
+ },
1564
+ {
1565
+ "epoch": 1.4934450601432627,
1566
+ "grad_norm": 0.008798571303486824,
1567
+ "learning_rate": 1.1160834960204236e-05,
1568
+ "loss": 0.17301080703735353,
1569
+ "step": 11050
1570
+ },
1571
+ {
1572
+ "epoch": 1.500202730098662,
1573
+ "grad_norm": 0.026798205450177193,
1574
+ "learning_rate": 1.1110777394003106e-05,
1575
+ "loss": 0.15110500335693358,
1576
+ "step": 11100
1577
+ },
1578
+ {
1579
+ "epoch": 1.5069604000540613,
1580
+ "grad_norm": 80.63719177246094,
1581
+ "learning_rate": 1.1060719827801973e-05,
1582
+ "loss": 0.2579657173156738,
1583
+ "step": 11150
1584
+ },
1585
+ {
1586
+ "epoch": 1.5137180700094608,
1587
+ "grad_norm": 0.006884767208248377,
1588
+ "learning_rate": 1.1010662261600842e-05,
1589
+ "loss": 0.1731630325317383,
1590
+ "step": 11200
1591
+ },
1592
+ {
1593
+ "epoch": 1.52047573996486,
1594
+ "grad_norm": 0.020346157252788544,
1595
+ "learning_rate": 1.096060469539971e-05,
1596
+ "loss": 0.08803058624267578,
1597
+ "step": 11250
1598
+ },
1599
+ {
1600
+ "epoch": 1.5272334099202594,
1601
+ "grad_norm": 0.4605032801628113,
1602
+ "learning_rate": 1.091054712919858e-05,
1603
+ "loss": 0.3004783058166504,
1604
+ "step": 11300
1605
+ },
1606
+ {
1607
+ "epoch": 1.5339910798756589,
1608
+ "grad_norm": 54.79648971557617,
1609
+ "learning_rate": 1.0860489562997447e-05,
1610
+ "loss": 0.2580095291137695,
1611
+ "step": 11350
1612
+ },
1613
+ {
1614
+ "epoch": 1.5407487498310584,
1615
+ "grad_norm": 0.007759020198136568,
1616
+ "learning_rate": 1.0810431996796316e-05,
1617
+ "loss": 0.2316766357421875,
1618
+ "step": 11400
1619
+ },
1620
+ {
1621
+ "epoch": 1.5475064197864576,
1622
+ "grad_norm": 1.0416474342346191,
1623
+ "learning_rate": 1.0760374430595186e-05,
1624
+ "loss": 0.10510608673095703,
1625
+ "step": 11450
1626
+ },
1627
+ {
1628
+ "epoch": 1.554264089741857,
1629
+ "grad_norm": 0.029644185677170753,
1630
+ "learning_rate": 1.0710316864394055e-05,
1631
+ "loss": 0.2700320816040039,
1632
+ "step": 11500
1633
+ },
1634
+ {
1635
+ "epoch": 1.5610217596972564,
1636
+ "grad_norm": 0.06986944377422333,
1637
+ "learning_rate": 1.0660259298192923e-05,
1638
+ "loss": 0.27375816345214843,
1639
+ "step": 11550
1640
+ },
1641
+ {
1642
+ "epoch": 1.5677794296526557,
1643
+ "grad_norm": 0.0046129655092954636,
1644
+ "learning_rate": 1.0610201731991792e-05,
1645
+ "loss": 0.13367100715637206,
1646
+ "step": 11600
1647
+ },
1648
+ {
1649
+ "epoch": 1.574537099608055,
1650
+ "grad_norm": 0.007804605178534985,
1651
+ "learning_rate": 1.056014416579066e-05,
1652
+ "loss": 0.2514232063293457,
1653
+ "step": 11650
1654
+ },
1655
+ {
1656
+ "epoch": 1.5812947695634545,
1657
+ "grad_norm": 0.0645962581038475,
1658
+ "learning_rate": 1.0510086599589529e-05,
1659
+ "loss": 0.18371934890747071,
1660
+ "step": 11700
1661
+ },
1662
+ {
1663
+ "epoch": 1.588052439518854,
1664
+ "grad_norm": 0.0033988540526479483,
1665
+ "learning_rate": 1.0460029033388396e-05,
1666
+ "loss": 0.21081953048706054,
1667
+ "step": 11750
1668
+ },
1669
+ {
1670
+ "epoch": 1.5948101094742533,
1671
+ "grad_norm": 0.04411851987242699,
1672
+ "learning_rate": 1.0409971467187266e-05,
1673
+ "loss": 0.12850214004516602,
1674
+ "step": 11800
1675
+ },
1676
+ {
1677
+ "epoch": 1.6015677794296526,
1678
+ "grad_norm": 0.018026337027549744,
1679
+ "learning_rate": 1.0359913900986133e-05,
1680
+ "loss": 0.1492741584777832,
1681
+ "step": 11850
1682
+ },
1683
+ {
1684
+ "epoch": 1.608325449385052,
1685
+ "grad_norm": 0.09057886898517609,
1686
+ "learning_rate": 1.0309856334785004e-05,
1687
+ "loss": 0.1486029529571533,
1688
+ "step": 11900
1689
+ },
1690
+ {
1691
+ "epoch": 1.6150831193404516,
1692
+ "grad_norm": 0.0102351950481534,
1693
+ "learning_rate": 1.0259798768583874e-05,
1694
+ "loss": 0.23811851501464842,
1695
+ "step": 11950
1696
+ },
1697
+ {
1698
+ "epoch": 1.6218407892958506,
1699
+ "grad_norm": 0.05652283504605293,
1700
+ "learning_rate": 1.0209741202382741e-05,
1701
+ "loss": 0.13805081367492675,
1702
+ "step": 12000
1703
+ },
1704
+ {
1705
+ "epoch": 1.6285984592512501,
1706
+ "grad_norm": 0.07080666720867157,
1707
+ "learning_rate": 1.015968363618161e-05,
1708
+ "loss": 0.12881503105163575,
1709
+ "step": 12050
1710
+ },
1711
+ {
1712
+ "epoch": 1.6353561292066496,
1713
+ "grad_norm": 0.018375622108578682,
1714
+ "learning_rate": 1.0109626069980478e-05,
1715
+ "loss": 0.2675124931335449,
1716
+ "step": 12100
1717
+ },
1718
+ {
1719
+ "epoch": 1.642113799162049,
1720
+ "grad_norm": 0.02257567085325718,
1721
+ "learning_rate": 1.0059568503779347e-05,
1722
+ "loss": 0.32150630950927733,
1723
+ "step": 12150
1724
+ },
1725
+ {
1726
+ "epoch": 1.6488714691174482,
1727
+ "grad_norm": 0.1083192378282547,
1728
+ "learning_rate": 1.0009510937578215e-05,
1729
+ "loss": 0.23064302444458007,
1730
+ "step": 12200
1731
+ },
1732
+ {
1733
+ "epoch": 1.6556291390728477,
1734
+ "grad_norm": 0.038683537393808365,
1735
+ "learning_rate": 9.959453371377084e-06,
1736
+ "loss": 0.30872579574584963,
1737
+ "step": 12250
1738
+ },
1739
+ {
1740
+ "epoch": 1.6623868090282472,
1741
+ "grad_norm": 0.009854331612586975,
1742
+ "learning_rate": 9.909395805175954e-06,
1743
+ "loss": 0.2523124885559082,
1744
+ "step": 12300
1745
+ },
1746
+ {
1747
+ "epoch": 1.6691444789836465,
1748
+ "grad_norm": 0.11421715468168259,
1749
+ "learning_rate": 9.859338238974821e-06,
1750
+ "loss": 0.22798009872436523,
1751
+ "step": 12350
1752
+ },
1753
+ {
1754
+ "epoch": 1.6759021489390458,
1755
+ "grad_norm": 0.012904458679258823,
1756
+ "learning_rate": 9.80928067277369e-06,
1757
+ "loss": 0.11912490844726563,
1758
+ "step": 12400
1759
+ },
1760
+ {
1761
+ "epoch": 1.6826598188944453,
1762
+ "grad_norm": 0.004866345319896936,
1763
+ "learning_rate": 9.75922310657256e-06,
1764
+ "loss": 0.17411937713623046,
1765
+ "step": 12450
1766
+ },
1767
+ {
1768
+ "epoch": 1.6894174888498446,
1769
+ "grad_norm": 0.06953968107700348,
1770
+ "learning_rate": 9.709165540371427e-06,
1771
+ "loss": 0.15718982696533204,
1772
+ "step": 12500
1773
+ },
1774
+ {
1775
+ "epoch": 1.6961751588052438,
1776
+ "grad_norm": 0.30232375860214233,
1777
+ "learning_rate": 9.659107974170297e-06,
1778
+ "loss": 0.3242319107055664,
1779
+ "step": 12550
1780
+ },
1781
+ {
1782
+ "epoch": 1.7029328287606433,
1783
+ "grad_norm": 0.009811073541641235,
1784
+ "learning_rate": 9.609050407969164e-06,
1785
+ "loss": 0.16056331634521484,
1786
+ "step": 12600
1787
+ },
1788
+ {
1789
+ "epoch": 1.7096904987160428,
1790
+ "grad_norm": 0.0033976894337683916,
1791
+ "learning_rate": 9.558992841768034e-06,
1792
+ "loss": 0.21641508102416993,
1793
+ "step": 12650
1794
+ },
1795
+ {
1796
+ "epoch": 1.7164481686714421,
1797
+ "grad_norm": 0.019763845950365067,
1798
+ "learning_rate": 9.508935275566903e-06,
1799
+ "loss": 0.20622289657592774,
1800
+ "step": 12700
1801
+ },
1802
+ {
1803
+ "epoch": 1.7232058386268414,
1804
+ "grad_norm": 0.03865963965654373,
1805
+ "learning_rate": 9.45887770936577e-06,
1806
+ "loss": 0.24815959930419923,
1807
+ "step": 12750
1808
+ },
1809
+ {
1810
+ "epoch": 1.729963508582241,
1811
+ "grad_norm": 0.44768020510673523,
1812
+ "learning_rate": 9.40882014316464e-06,
1813
+ "loss": 0.12028050422668457,
1814
+ "step": 12800
1815
+ },
1816
+ {
1817
+ "epoch": 1.7367211785376402,
1818
+ "grad_norm": 0.022567948326468468,
1819
+ "learning_rate": 9.358762576963509e-06,
1820
+ "loss": 0.22824619293212892,
1821
+ "step": 12850
1822
+ },
1823
+ {
1824
+ "epoch": 1.7434788484930395,
1825
+ "grad_norm": 0.004544971976429224,
1826
+ "learning_rate": 9.308705010762378e-06,
1827
+ "loss": 0.12526805877685546,
1828
+ "step": 12900
1829
+ },
1830
+ {
1831
+ "epoch": 1.750236518448439,
1832
+ "grad_norm": 0.21990123391151428,
1833
+ "learning_rate": 9.258647444561246e-06,
1834
+ "loss": 0.3063252067565918,
1835
+ "step": 12950
1836
+ },
1837
+ {
1838
+ "epoch": 1.7569941884038385,
1839
+ "grad_norm": 0.0023501410614699125,
1840
+ "learning_rate": 9.208589878360115e-06,
1841
+ "loss": 0.25366107940673827,
1842
+ "step": 13000
1843
+ },
1844
+ {
1845
+ "epoch": 1.7637518583592378,
1846
+ "grad_norm": 0.20313404500484467,
1847
+ "learning_rate": 9.158532312158983e-06,
1848
+ "loss": 0.1626577377319336,
1849
+ "step": 13050
1850
+ },
1851
+ {
1852
+ "epoch": 1.770509528314637,
1853
+ "grad_norm": 0.14616358280181885,
1854
+ "learning_rate": 9.108474745957852e-06,
1855
+ "loss": 0.16987455368041993,
1856
+ "step": 13100
1857
+ },
1858
+ {
1859
+ "epoch": 1.7772671982700365,
1860
+ "grad_norm": 0.010072534903883934,
1861
+ "learning_rate": 9.058417179756722e-06,
1862
+ "loss": 0.22326894760131835,
1863
+ "step": 13150
1864
+ },
1865
+ {
1866
+ "epoch": 1.7840248682254358,
1867
+ "grad_norm": 0.01229020394384861,
1868
+ "learning_rate": 9.00835961355559e-06,
1869
+ "loss": 0.18657752990722656,
1870
+ "step": 13200
1871
+ },
1872
+ {
1873
+ "epoch": 1.790782538180835,
1874
+ "grad_norm": 0.009742148220539093,
1875
+ "learning_rate": 8.958302047354458e-06,
1876
+ "loss": 0.14471253395080566,
1877
+ "step": 13250
1878
+ },
1879
+ {
1880
+ "epoch": 1.7975402081362346,
1881
+ "grad_norm": 0.3649709224700928,
1882
+ "learning_rate": 8.908244481153328e-06,
1883
+ "loss": 0.2663186264038086,
1884
+ "step": 13300
1885
+ },
1886
+ {
1887
+ "epoch": 1.804297878091634,
1888
+ "grad_norm": 0.7191339135169983,
1889
+ "learning_rate": 8.858186914952195e-06,
1890
+ "loss": 0.17694835662841796,
1891
+ "step": 13350
1892
+ },
1893
+ {
1894
+ "epoch": 1.8110555480470334,
1895
+ "grad_norm": 0.13810834288597107,
1896
+ "learning_rate": 8.808129348751065e-06,
1897
+ "loss": 0.13321252822875976,
1898
+ "step": 13400
1899
+ },
1900
+ {
1901
+ "epoch": 1.8178132180024327,
1902
+ "grad_norm": 0.013841865584254265,
1903
+ "learning_rate": 8.758071782549932e-06,
1904
+ "loss": 0.2504547882080078,
1905
+ "step": 13450
1906
+ },
1907
+ {
1908
+ "epoch": 1.8245708879578322,
1909
+ "grad_norm": 0.02471834421157837,
1910
+ "learning_rate": 8.708014216348802e-06,
1911
+ "loss": 0.16575366973876954,
1912
+ "step": 13500
1913
+ },
1914
+ {
1915
+ "epoch": 1.8313285579132317,
1916
+ "grad_norm": 0.2838708758354187,
1917
+ "learning_rate": 8.657956650147671e-06,
1918
+ "loss": 0.241872615814209,
1919
+ "step": 13550
1920
+ },
1921
+ {
1922
+ "epoch": 1.8380862278686307,
1923
+ "grad_norm": 0.0604943223297596,
1924
+ "learning_rate": 8.607899083946539e-06,
1925
+ "loss": 0.17180231094360351,
1926
+ "step": 13600
1927
+ },
1928
+ {
1929
+ "epoch": 1.8448438978240302,
1930
+ "grad_norm": 70.3255844116211,
1931
+ "learning_rate": 8.557841517745408e-06,
1932
+ "loss": 0.1580354404449463,
1933
+ "step": 13650
1934
+ },
1935
+ {
1936
+ "epoch": 1.8516015677794297,
1937
+ "grad_norm": 3.8454079627990723,
1938
+ "learning_rate": 8.507783951544275e-06,
1939
+ "loss": 0.13566259384155274,
1940
+ "step": 13700
1941
+ },
1942
+ {
1943
+ "epoch": 1.858359237734829,
1944
+ "grad_norm": 0.02096381038427353,
1945
+ "learning_rate": 8.457726385343146e-06,
1946
+ "loss": 0.23864656448364258,
1947
+ "step": 13750
1948
+ },
1949
+ {
1950
+ "epoch": 1.8651169076902283,
1951
+ "grad_norm": 0.010230190120637417,
1952
+ "learning_rate": 8.407668819142014e-06,
1953
+ "loss": 0.18619832992553711,
1954
+ "step": 13800
1955
+ },
1956
+ {
1957
+ "epoch": 1.8718745776456278,
1958
+ "grad_norm": 0.1908511072397232,
1959
+ "learning_rate": 8.357611252940883e-06,
1960
+ "loss": 0.2673153877258301,
1961
+ "step": 13850
1962
+ },
1963
+ {
1964
+ "epoch": 1.8786322476010273,
1965
+ "grad_norm": 11.70110034942627,
1966
+ "learning_rate": 8.307553686739751e-06,
1967
+ "loss": 0.2062428665161133,
1968
+ "step": 13900
1969
+ },
1970
+ {
1971
+ "epoch": 1.8853899175564266,
1972
+ "grad_norm": 24.96676254272461,
1973
+ "learning_rate": 8.25749612053862e-06,
1974
+ "loss": 0.20080638885498048,
1975
+ "step": 13950
1976
+ },
1977
+ {
1978
+ "epoch": 1.8921475875118259,
1979
+ "grad_norm": 0.05246945098042488,
1980
+ "learning_rate": 8.20743855433749e-06,
1981
+ "loss": 0.11393006324768067,
1982
+ "step": 14000
1983
+ },
1984
+ {
1985
+ "epoch": 1.8989052574672254,
1986
+ "grad_norm": 0.15934395790100098,
1987
+ "learning_rate": 8.157380988136357e-06,
1988
+ "loss": 0.11714041709899903,
1989
+ "step": 14050
1990
+ },
1991
+ {
1992
+ "epoch": 1.9056629274226247,
1993
+ "grad_norm": 0.30261462926864624,
1994
+ "learning_rate": 8.107323421935226e-06,
1995
+ "loss": 0.21116409301757813,
1996
+ "step": 14100
1997
+ },
1998
+ {
1999
+ "epoch": 1.912420597378024,
2000
+ "grad_norm": 0.02992912568151951,
2001
+ "learning_rate": 8.057265855734094e-06,
2002
+ "loss": 0.2957320213317871,
2003
+ "step": 14150
2004
+ },
2005
+ {
2006
+ "epoch": 1.9191782673334234,
2007
+ "grad_norm": 556.4647216796875,
2008
+ "learning_rate": 8.007208289532963e-06,
2009
+ "loss": 0.14229880332946776,
2010
+ "step": 14200
2011
+ },
2012
+ {
2013
+ "epoch": 1.925935937288823,
2014
+ "grad_norm": 0.35265979170799255,
2015
+ "learning_rate": 7.957150723331833e-06,
2016
+ "loss": 0.2273382568359375,
2017
+ "step": 14250
2018
+ },
2019
+ {
2020
+ "epoch": 1.9326936072442222,
2021
+ "grad_norm": 0.0018637154716998339,
2022
+ "learning_rate": 7.9070931571307e-06,
2023
+ "loss": 0.1868155097961426,
2024
+ "step": 14300
2025
+ },
2026
+ {
2027
+ "epoch": 1.9394512771996215,
2028
+ "grad_norm": 0.007218921557068825,
2029
+ "learning_rate": 7.85703559092957e-06,
2030
+ "loss": 0.18037618637084962,
2031
+ "step": 14350
2032
+ },
2033
+ {
2034
+ "epoch": 1.946208947155021,
2035
+ "grad_norm": 0.6409568190574646,
2036
+ "learning_rate": 7.806978024728439e-06,
2037
+ "loss": 0.25310573577880857,
2038
+ "step": 14400
2039
+ },
2040
+ {
2041
+ "epoch": 1.9529666171104203,
2042
+ "grad_norm": 0.010283703915774822,
2043
+ "learning_rate": 7.756920458527306e-06,
2044
+ "loss": 0.17320125579833984,
2045
+ "step": 14450
2046
+ },
2047
+ {
2048
+ "epoch": 1.9597242870658196,
2049
+ "grad_norm": 0.012976414524018764,
2050
+ "learning_rate": 7.706862892326176e-06,
2051
+ "loss": 0.2135805892944336,
2052
+ "step": 14500
2053
+ },
2054
+ {
2055
+ "epoch": 1.966481957021219,
2056
+ "grad_norm": 0.0458478182554245,
2057
+ "learning_rate": 7.656805326125043e-06,
2058
+ "loss": 0.1271858787536621,
2059
+ "step": 14550
2060
+ },
2061
+ {
2062
+ "epoch": 1.9732396269766186,
2063
+ "grad_norm": 45.8770637512207,
2064
+ "learning_rate": 7.606747759923913e-06,
2065
+ "loss": 0.2798696327209473,
2066
+ "step": 14600
2067
+ },
2068
+ {
2069
+ "epoch": 1.9799972969320179,
2070
+ "grad_norm": 0.010839959606528282,
2071
+ "learning_rate": 7.556690193722782e-06,
2072
+ "loss": 0.17837514877319335,
2073
+ "step": 14650
2074
+ },
2075
+ {
2076
+ "epoch": 1.9867549668874172,
2077
+ "grad_norm": 0.3253706991672516,
2078
+ "learning_rate": 7.5066326275216505e-06,
2079
+ "loss": 0.16589849472045898,
2080
+ "step": 14700
2081
+ },
2082
+ {
2083
+ "epoch": 1.9935126368428167,
2084
+ "grad_norm": 0.04959991201758385,
2085
+ "learning_rate": 7.456575061320519e-06,
2086
+ "loss": 0.13824424743652344,
2087
+ "step": 14750
2088
+ },
2089
+ {
2090
+ "epoch": 2.0,
2091
+ "eval_accuracy": 0.9710885651079411,
2092
+ "eval_f1": 0.9687783178186012,
2093
+ "eval_loss": 0.13719096779823303,
2094
+ "eval_precision": 0.9664694280078896,
2095
+ "eval_recall": 0.9710982658959537,
2096
+ "eval_runtime": 72.1607,
2097
+ "eval_samples_per_second": 181.664,
2098
+ "eval_steps_per_second": 45.426,
2099
+ "step": 14798
2100
+ }
2101
+ ],
2102
+ "logging_steps": 50,
2103
+ "max_steps": 22197,
2104
+ "num_input_tokens_seen": 0,
2105
+ "num_train_epochs": 3,
2106
+ "save_steps": 500,
2107
+ "stateful_callbacks": {
2108
+ "TrainerControl": {
2109
+ "args": {
2110
+ "should_epoch_stop": false,
2111
+ "should_evaluate": false,
2112
+ "should_log": false,
2113
+ "should_save": true,
2114
+ "should_training_stop": false
2115
+ },
2116
+ "attributes": {}
2117
+ }
2118
+ },
2119
+ "total_flos": 3.11470867335168e+16,
2120
+ "train_batch_size": 4,
2121
+ "trial_name": null,
2122
+ "trial_params": null
2123
+ }
Text/checkpoints/checkpoint-14798/training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6912b48b4d2e5518f51e3368cd92bf072676433461d9ae81c051873d6706f745
3
+ size 5265
Text/checkpoints/checkpoint-22197/config.json ADDED
@@ -0,0 +1,31 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "add_cross_attention": false,
3
+ "architectures": [
4
+ "BertForSequenceClassification"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": null,
8
+ "classifier_dropout": null,
9
+ "dtype": "float32",
10
+ "eos_token_id": null,
11
+ "gradient_checkpointing": false,
12
+ "hidden_act": "gelu",
13
+ "hidden_dropout_prob": 0.1,
14
+ "hidden_size": 768,
15
+ "initializer_range": 0.02,
16
+ "intermediate_size": 3072,
17
+ "is_decoder": false,
18
+ "layer_norm_eps": 1e-12,
19
+ "max_position_embeddings": 512,
20
+ "model_type": "bert",
21
+ "num_attention_heads": 12,
22
+ "num_hidden_layers": 12,
23
+ "pad_token_id": 0,
24
+ "position_embedding_type": "absolute",
25
+ "problem_type": "single_label_classification",
26
+ "tie_word_embeddings": true,
27
+ "transformers_version": "5.1.0",
28
+ "type_vocab_size": 2,
29
+ "use_cache": false,
30
+ "vocab_size": 30522
31
+ }
Text/checkpoints/checkpoint-22197/model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7e79261975159cf564d9cffbf31ac86eae91d2dbf54addc33ba04f5b1a62b949
3
+ size 437958624
Text/checkpoints/checkpoint-22197/optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:14a96aaad5be18cb6d9325126ef169cd2890f2608fce5f796809140559a0b19b
3
+ size 876041611
Text/checkpoints/checkpoint-22197/rng_state.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:48cb788f7e5c98c14cea21ad6cdd19fc42b0bf9d614238f043725dae405dc2dc
3
+ size 14645
Text/checkpoints/checkpoint-22197/scaler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:147666febdf1cf061eb9b1c4c3cd16da3abb0cb5733153fd7e07f27e648a951f
3
+ size 1383
Text/checkpoints/checkpoint-22197/scheduler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4accc1eaad7a78f2d226db7b440190f3b3eb0235b2ab6df97ada954b7180ecef
3
+ size 1465
Text/checkpoints/checkpoint-22197/trainer_state.json ADDED
@@ -0,0 +1,3171 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_global_step": 14798,
3
+ "best_metric": 0.13719096779823303,
4
+ "best_model_checkpoint": "/mnt/nfs/homes/penacour/my_project/./saved_models/Text/checkpoints/checkpoint-14798",
5
+ "epoch": 3.0,
6
+ "eval_steps": 500,
7
+ "global_step": 22197,
8
+ "is_hyper_param_search": false,
9
+ "is_local_process_zero": true,
10
+ "is_world_process_zero": true,
11
+ "log_history": [
12
+ {
13
+ "epoch": 0.0067576699553993785,
14
+ "grad_norm": 16.06703758239746,
15
+ "learning_rate": 4.414414414414415e-07,
16
+ "loss": 1.35020751953125,
17
+ "step": 50
18
+ },
19
+ {
20
+ "epoch": 0.013515339910798757,
21
+ "grad_norm": 15.278281211853027,
22
+ "learning_rate": 8.91891891891892e-07,
23
+ "loss": 1.359039306640625,
24
+ "step": 100
25
+ },
26
+ {
27
+ "epoch": 0.020273009866198136,
28
+ "grad_norm": 9.957842826843262,
29
+ "learning_rate": 1.3423423423423422e-06,
30
+ "loss": 1.345301513671875,
31
+ "step": 150
32
+ },
33
+ {
34
+ "epoch": 0.027030679821597514,
35
+ "grad_norm": 9.441655158996582,
36
+ "learning_rate": 1.7927927927927929e-06,
37
+ "loss": 1.291690673828125,
38
+ "step": 200
39
+ },
40
+ {
41
+ "epoch": 0.03378834977699689,
42
+ "grad_norm": 11.737529754638672,
43
+ "learning_rate": 2.2432432432432435e-06,
44
+ "loss": 1.20750244140625,
45
+ "step": 250
46
+ },
47
+ {
48
+ "epoch": 0.04054601973239627,
49
+ "grad_norm": 13.651801109313965,
50
+ "learning_rate": 2.693693693693694e-06,
51
+ "loss": 1.026903076171875,
52
+ "step": 300
53
+ },
54
+ {
55
+ "epoch": 0.04730368968779565,
56
+ "grad_norm": 10.333759307861328,
57
+ "learning_rate": 3.1441441441441444e-06,
58
+ "loss": 0.8750057983398437,
59
+ "step": 350
60
+ },
61
+ {
62
+ "epoch": 0.05406135964319503,
63
+ "grad_norm": 11.845670700073242,
64
+ "learning_rate": 3.5945945945945946e-06,
65
+ "loss": 0.74543701171875,
66
+ "step": 400
67
+ },
68
+ {
69
+ "epoch": 0.06081902959859441,
70
+ "grad_norm": 20.486881256103516,
71
+ "learning_rate": 4.045045045045045e-06,
72
+ "loss": 0.627983627319336,
73
+ "step": 450
74
+ },
75
+ {
76
+ "epoch": 0.06757669955399379,
77
+ "grad_norm": 5.46737003326416,
78
+ "learning_rate": 4.495495495495496e-06,
79
+ "loss": 0.6082597351074219,
80
+ "step": 500
81
+ },
82
+ {
83
+ "epoch": 0.07433436950939316,
84
+ "grad_norm": 33.317134857177734,
85
+ "learning_rate": 4.9459459459459466e-06,
86
+ "loss": 0.5269870758056641,
87
+ "step": 550
88
+ },
89
+ {
90
+ "epoch": 0.08109203946479254,
91
+ "grad_norm": 22.17811393737793,
92
+ "learning_rate": 5.396396396396398e-06,
93
+ "loss": 0.5109220123291016,
94
+ "step": 600
95
+ },
96
+ {
97
+ "epoch": 0.08784970942019192,
98
+ "grad_norm": 65.60385131835938,
99
+ "learning_rate": 5.846846846846848e-06,
100
+ "loss": 0.47735191345214845,
101
+ "step": 650
102
+ },
103
+ {
104
+ "epoch": 0.0946073793755913,
105
+ "grad_norm": 56.5187873840332,
106
+ "learning_rate": 6.297297297297298e-06,
107
+ "loss": 0.4838460159301758,
108
+ "step": 700
109
+ },
110
+ {
111
+ "epoch": 0.10136504933099068,
112
+ "grad_norm": 9.734931945800781,
113
+ "learning_rate": 6.747747747747748e-06,
114
+ "loss": 0.5097962188720703,
115
+ "step": 750
116
+ },
117
+ {
118
+ "epoch": 0.10812271928639006,
119
+ "grad_norm": 40.54719161987305,
120
+ "learning_rate": 7.1981981981981985e-06,
121
+ "loss": 0.439853515625,
122
+ "step": 800
123
+ },
124
+ {
125
+ "epoch": 0.11488038924178944,
126
+ "grad_norm": 1.501684546470642,
127
+ "learning_rate": 7.648648648648649e-06,
128
+ "loss": 0.3697560501098633,
129
+ "step": 850
130
+ },
131
+ {
132
+ "epoch": 0.12163805919718881,
133
+ "grad_norm": 1.2029157876968384,
134
+ "learning_rate": 8.0990990990991e-06,
135
+ "loss": 0.3332023620605469,
136
+ "step": 900
137
+ },
138
+ {
139
+ "epoch": 0.12839572915258818,
140
+ "grad_norm": 1.7254059314727783,
141
+ "learning_rate": 8.549549549549551e-06,
142
+ "loss": 0.7150354766845703,
143
+ "step": 950
144
+ },
145
+ {
146
+ "epoch": 0.13515339910798757,
147
+ "grad_norm": 0.1328679621219635,
148
+ "learning_rate": 9e-06,
149
+ "loss": 0.39909423828125,
150
+ "step": 1000
151
+ },
152
+ {
153
+ "epoch": 0.14191106906338694,
154
+ "grad_norm": 67.52281951904297,
155
+ "learning_rate": 9.450450450450451e-06,
156
+ "loss": 0.4741665267944336,
157
+ "step": 1050
158
+ },
159
+ {
160
+ "epoch": 0.14866873901878633,
161
+ "grad_norm": 0.11982670426368713,
162
+ "learning_rate": 9.900900900900902e-06,
163
+ "loss": 0.4088504028320312,
164
+ "step": 1100
165
+ },
166
+ {
167
+ "epoch": 0.1554264089741857,
168
+ "grad_norm": 73.58162689208984,
169
+ "learning_rate": 1.0351351351351353e-05,
170
+ "loss": 0.5978804397583007,
171
+ "step": 1150
172
+ },
173
+ {
174
+ "epoch": 0.16218407892958508,
175
+ "grad_norm": 16.60240936279297,
176
+ "learning_rate": 1.0801801801801803e-05,
177
+ "loss": 0.4865760040283203,
178
+ "step": 1200
179
+ },
180
+ {
181
+ "epoch": 0.16894174888498445,
182
+ "grad_norm": 0.07922861725091934,
183
+ "learning_rate": 1.1252252252252254e-05,
184
+ "loss": 0.47403549194335937,
185
+ "step": 1250
186
+ },
187
+ {
188
+ "epoch": 0.17569941884038384,
189
+ "grad_norm": 177.65086364746094,
190
+ "learning_rate": 1.1702702702702703e-05,
191
+ "loss": 0.43802192687988284,
192
+ "step": 1300
193
+ },
194
+ {
195
+ "epoch": 0.1824570887957832,
196
+ "grad_norm": 0.34974488615989685,
197
+ "learning_rate": 1.2153153153153154e-05,
198
+ "loss": 0.5690596008300781,
199
+ "step": 1350
200
+ },
201
+ {
202
+ "epoch": 0.1892147587511826,
203
+ "grad_norm": 0.37981438636779785,
204
+ "learning_rate": 1.2603603603603605e-05,
205
+ "loss": 0.5010957336425781,
206
+ "step": 1400
207
+ },
208
+ {
209
+ "epoch": 0.19597242870658196,
210
+ "grad_norm": 42.93001174926758,
211
+ "learning_rate": 1.3054054054054055e-05,
212
+ "loss": 0.4970842742919922,
213
+ "step": 1450
214
+ },
215
+ {
216
+ "epoch": 0.20273009866198136,
217
+ "grad_norm": 30.023513793945312,
218
+ "learning_rate": 1.3504504504504506e-05,
219
+ "loss": 0.5511152648925781,
220
+ "step": 1500
221
+ },
222
+ {
223
+ "epoch": 0.20948776861738072,
224
+ "grad_norm": 7.049088954925537,
225
+ "learning_rate": 1.3954954954954955e-05,
226
+ "loss": 0.4516510009765625,
227
+ "step": 1550
228
+ },
229
+ {
230
+ "epoch": 0.2162454385727801,
231
+ "grad_norm": 0.25647661089897156,
232
+ "learning_rate": 1.4405405405405406e-05,
233
+ "loss": 0.36651172637939455,
234
+ "step": 1600
235
+ },
236
+ {
237
+ "epoch": 0.22300310852817948,
238
+ "grad_norm": 16.453493118286133,
239
+ "learning_rate": 1.4855855855855856e-05,
240
+ "loss": 0.4177054214477539,
241
+ "step": 1650
242
+ },
243
+ {
244
+ "epoch": 0.22976077848357887,
245
+ "grad_norm": 105.5218505859375,
246
+ "learning_rate": 1.5306306306306307e-05,
247
+ "loss": 0.5324158477783203,
248
+ "step": 1700
249
+ },
250
+ {
251
+ "epoch": 0.23651844843897823,
252
+ "grad_norm": 96.71179962158203,
253
+ "learning_rate": 1.5756756756756756e-05,
254
+ "loss": 0.5433593368530274,
255
+ "step": 1750
256
+ },
257
+ {
258
+ "epoch": 0.24327611839437763,
259
+ "grad_norm": 0.2389248162508011,
260
+ "learning_rate": 1.620720720720721e-05,
261
+ "loss": 0.4678084945678711,
262
+ "step": 1800
263
+ },
264
+ {
265
+ "epoch": 0.250033788349777,
266
+ "grad_norm": 153.3388214111328,
267
+ "learning_rate": 1.6657657657657658e-05,
268
+ "loss": 0.5350112533569336,
269
+ "step": 1850
270
+ },
271
+ {
272
+ "epoch": 0.25679145830517636,
273
+ "grad_norm": 38.44563293457031,
274
+ "learning_rate": 1.710810810810811e-05,
275
+ "loss": 0.49324443817138675,
276
+ "step": 1900
277
+ },
278
+ {
279
+ "epoch": 0.26354912826057575,
280
+ "grad_norm": 21.985090255737305,
281
+ "learning_rate": 1.755855855855856e-05,
282
+ "loss": 0.4342898178100586,
283
+ "step": 1950
284
+ },
285
+ {
286
+ "epoch": 0.27030679821597514,
287
+ "grad_norm": 1.6282066106796265,
288
+ "learning_rate": 1.800900900900901e-05,
289
+ "loss": 0.3795098876953125,
290
+ "step": 2000
291
+ },
292
+ {
293
+ "epoch": 0.27706446817137453,
294
+ "grad_norm": 0.3189730644226074,
295
+ "learning_rate": 1.8459459459459462e-05,
296
+ "loss": 0.5205284881591797,
297
+ "step": 2050
298
+ },
299
+ {
300
+ "epoch": 0.28382213812677387,
301
+ "grad_norm": 119.69422912597656,
302
+ "learning_rate": 1.8909909909909912e-05,
303
+ "loss": 0.35589817047119143,
304
+ "step": 2100
305
+ },
306
+ {
307
+ "epoch": 0.29057980808217326,
308
+ "grad_norm": 0.12017817795276642,
309
+ "learning_rate": 1.936036036036036e-05,
310
+ "loss": 0.48412479400634767,
311
+ "step": 2150
312
+ },
313
+ {
314
+ "epoch": 0.29733747803757266,
315
+ "grad_norm": 0.13124582171440125,
316
+ "learning_rate": 1.981081081081081e-05,
317
+ "loss": 0.39202404022216797,
318
+ "step": 2200
319
+ },
320
+ {
321
+ "epoch": 0.30409514799297205,
322
+ "grad_norm": 0.04938481003046036,
323
+ "learning_rate": 1.9970966611603347e-05,
324
+ "loss": 0.4283562469482422,
325
+ "step": 2250
326
+ },
327
+ {
328
+ "epoch": 0.3108528179483714,
329
+ "grad_norm": 0.6524620056152344,
330
+ "learning_rate": 1.9920909045402215e-05,
331
+ "loss": 0.40030643463134763,
332
+ "step": 2300
333
+ },
334
+ {
335
+ "epoch": 0.3176104879037708,
336
+ "grad_norm": 18.973918914794922,
337
+ "learning_rate": 1.9870851479201083e-05,
338
+ "loss": 0.4120947265625,
339
+ "step": 2350
340
+ },
341
+ {
342
+ "epoch": 0.32436815785917017,
343
+ "grad_norm": 71.04777526855469,
344
+ "learning_rate": 1.982079391299995e-05,
345
+ "loss": 0.522302017211914,
346
+ "step": 2400
347
+ },
348
+ {
349
+ "epoch": 0.33112582781456956,
350
+ "grad_norm": 0.29514455795288086,
351
+ "learning_rate": 1.977073634679882e-05,
352
+ "loss": 0.4655706787109375,
353
+ "step": 2450
354
+ },
355
+ {
356
+ "epoch": 0.3378834977699689,
357
+ "grad_norm": 0.18427829444408417,
358
+ "learning_rate": 1.972067878059769e-05,
359
+ "loss": 0.28636587142944336,
360
+ "step": 2500
361
+ },
362
+ {
363
+ "epoch": 0.3446411677253683,
364
+ "grad_norm": 1.2528847455978394,
365
+ "learning_rate": 1.9670621214396557e-05,
366
+ "loss": 0.3846575164794922,
367
+ "step": 2550
368
+ },
369
+ {
370
+ "epoch": 0.3513988376807677,
371
+ "grad_norm": 2.0725510120391846,
372
+ "learning_rate": 1.9620563648195424e-05,
373
+ "loss": 0.5236722564697266,
374
+ "step": 2600
375
+ },
376
+ {
377
+ "epoch": 0.3581565076361671,
378
+ "grad_norm": 0.8594722151756287,
379
+ "learning_rate": 1.9570506081994295e-05,
380
+ "loss": 0.3829684066772461,
381
+ "step": 2650
382
+ },
383
+ {
384
+ "epoch": 0.3649141775915664,
385
+ "grad_norm": 0.1568164974451065,
386
+ "learning_rate": 1.9520448515793166e-05,
387
+ "loss": 0.4368381881713867,
388
+ "step": 2700
389
+ },
390
+ {
391
+ "epoch": 0.3716718475469658,
392
+ "grad_norm": 0.15734773874282837,
393
+ "learning_rate": 1.9470390949592034e-05,
394
+ "loss": 0.2745826721191406,
395
+ "step": 2750
396
+ },
397
+ {
398
+ "epoch": 0.3784295175023652,
399
+ "grad_norm": 0.15169839560985565,
400
+ "learning_rate": 1.94203333833909e-05,
401
+ "loss": 0.5820682525634766,
402
+ "step": 2800
403
+ },
404
+ {
405
+ "epoch": 0.3851871874577646,
406
+ "grad_norm": 0.3607238531112671,
407
+ "learning_rate": 1.937027581718977e-05,
408
+ "loss": 0.40924224853515623,
409
+ "step": 2850
410
+ },
411
+ {
412
+ "epoch": 0.3919448574131639,
413
+ "grad_norm": 26.703046798706055,
414
+ "learning_rate": 1.9320218250988637e-05,
415
+ "loss": 0.4911691284179687,
416
+ "step": 2900
417
+ },
418
+ {
419
+ "epoch": 0.3987025273685633,
420
+ "grad_norm": 4.848247528076172,
421
+ "learning_rate": 1.9270160684787508e-05,
422
+ "loss": 0.4514664840698242,
423
+ "step": 2950
424
+ },
425
+ {
426
+ "epoch": 0.4054601973239627,
427
+ "grad_norm": 0.109466053545475,
428
+ "learning_rate": 1.9220103118586375e-05,
429
+ "loss": 0.37604598999023436,
430
+ "step": 3000
431
+ },
432
+ {
433
+ "epoch": 0.41221786727936205,
434
+ "grad_norm": 16.59686851501465,
435
+ "learning_rate": 1.9170045552385243e-05,
436
+ "loss": 0.29687234878540036,
437
+ "step": 3050
438
+ },
439
+ {
440
+ "epoch": 0.41897553723476144,
441
+ "grad_norm": 21.556055068969727,
442
+ "learning_rate": 1.9119987986184114e-05,
443
+ "loss": 0.5553390121459961,
444
+ "step": 3100
445
+ },
446
+ {
447
+ "epoch": 0.42573320719016083,
448
+ "grad_norm": 0.31334683299064636,
449
+ "learning_rate": 1.906993041998298e-05,
450
+ "loss": 0.34477981567382815,
451
+ "step": 3150
452
+ },
453
+ {
454
+ "epoch": 0.4324908771455602,
455
+ "grad_norm": 0.06408923864364624,
456
+ "learning_rate": 1.9019872853781852e-05,
457
+ "loss": 0.4639363479614258,
458
+ "step": 3200
459
+ },
460
+ {
461
+ "epoch": 0.43924854710095956,
462
+ "grad_norm": 0.039293207228183746,
463
+ "learning_rate": 1.896981528758072e-05,
464
+ "loss": 0.23494468688964842,
465
+ "step": 3250
466
+ },
467
+ {
468
+ "epoch": 0.44600621705635896,
469
+ "grad_norm": 0.04438117891550064,
470
+ "learning_rate": 1.8919757721379588e-05,
471
+ "loss": 0.13365052223205567,
472
+ "step": 3300
473
+ },
474
+ {
475
+ "epoch": 0.45276388701175835,
476
+ "grad_norm": 0.36716172099113464,
477
+ "learning_rate": 1.8869700155178455e-05,
478
+ "loss": 0.28368005752563474,
479
+ "step": 3350
480
+ },
481
+ {
482
+ "epoch": 0.45952155696715774,
483
+ "grad_norm": 0.04489823430776596,
484
+ "learning_rate": 1.8819642588977326e-05,
485
+ "loss": 0.40611759185791013,
486
+ "step": 3400
487
+ },
488
+ {
489
+ "epoch": 0.4662792269225571,
490
+ "grad_norm": 16.726591110229492,
491
+ "learning_rate": 1.8769585022776194e-05,
492
+ "loss": 0.36710128784179685,
493
+ "step": 3450
494
+ },
495
+ {
496
+ "epoch": 0.47303689687795647,
497
+ "grad_norm": 14.693270683288574,
498
+ "learning_rate": 1.871952745657506e-05,
499
+ "loss": 0.37917068481445315,
500
+ "step": 3500
501
+ },
502
+ {
503
+ "epoch": 0.47979456683335586,
504
+ "grad_norm": 73.12869262695312,
505
+ "learning_rate": 1.8669469890373932e-05,
506
+ "loss": 0.2679195594787598,
507
+ "step": 3550
508
+ },
509
+ {
510
+ "epoch": 0.48655223678875525,
511
+ "grad_norm": 1.5196269750595093,
512
+ "learning_rate": 1.86194123241728e-05,
513
+ "loss": 0.4122719955444336,
514
+ "step": 3600
515
+ },
516
+ {
517
+ "epoch": 0.4933099067441546,
518
+ "grad_norm": 24.74604606628418,
519
+ "learning_rate": 1.8569354757971668e-05,
520
+ "loss": 0.25464179992675784,
521
+ "step": 3650
522
+ },
523
+ {
524
+ "epoch": 0.500067576699554,
525
+ "grad_norm": 49.48332977294922,
526
+ "learning_rate": 1.851929719177054e-05,
527
+ "loss": 0.3096816062927246,
528
+ "step": 3700
529
+ },
530
+ {
531
+ "epoch": 0.5068252466549533,
532
+ "grad_norm": 33.84089660644531,
533
+ "learning_rate": 1.8469239625569406e-05,
534
+ "loss": 0.34311264038085937,
535
+ "step": 3750
536
+ },
537
+ {
538
+ "epoch": 0.5135829166103527,
539
+ "grad_norm": 0.0433129221200943,
540
+ "learning_rate": 1.8419182059368274e-05,
541
+ "loss": 0.3423194885253906,
542
+ "step": 3800
543
+ },
544
+ {
545
+ "epoch": 0.5203405865657521,
546
+ "grad_norm": 0.5578937530517578,
547
+ "learning_rate": 1.836912449316714e-05,
548
+ "loss": 0.4252873229980469,
549
+ "step": 3850
550
+ },
551
+ {
552
+ "epoch": 0.5270982565211515,
553
+ "grad_norm": 233.93492126464844,
554
+ "learning_rate": 1.8319066926966012e-05,
555
+ "loss": 0.303822021484375,
556
+ "step": 3900
557
+ },
558
+ {
559
+ "epoch": 0.5338559264765509,
560
+ "grad_norm": 0.005285980179905891,
561
+ "learning_rate": 1.8269009360764883e-05,
562
+ "loss": 0.37970211029052736,
563
+ "step": 3950
564
+ },
565
+ {
566
+ "epoch": 0.5406135964319503,
567
+ "grad_norm": 0.14675083756446838,
568
+ "learning_rate": 1.821895179456375e-05,
569
+ "loss": 0.3994259262084961,
570
+ "step": 4000
571
+ },
572
+ {
573
+ "epoch": 0.5473712663873497,
574
+ "grad_norm": 18.797971725463867,
575
+ "learning_rate": 1.816889422836262e-05,
576
+ "loss": 0.4484566116333008,
577
+ "step": 4050
578
+ },
579
+ {
580
+ "epoch": 0.5541289363427491,
581
+ "grad_norm": 16.081249237060547,
582
+ "learning_rate": 1.8118836662161486e-05,
583
+ "loss": 0.398365364074707,
584
+ "step": 4100
585
+ },
586
+ {
587
+ "epoch": 0.5608866062981483,
588
+ "grad_norm": 0.4474808871746063,
589
+ "learning_rate": 1.8068779095960357e-05,
590
+ "loss": 0.16137269973754884,
591
+ "step": 4150
592
+ },
593
+ {
594
+ "epoch": 0.5676442762535477,
595
+ "grad_norm": 32.02878952026367,
596
+ "learning_rate": 1.8018721529759225e-05,
597
+ "loss": 0.48198543548583983,
598
+ "step": 4200
599
+ },
600
+ {
601
+ "epoch": 0.5744019462089471,
602
+ "grad_norm": 7.520394325256348,
603
+ "learning_rate": 1.7968663963558092e-05,
604
+ "loss": 0.38921875,
605
+ "step": 4250
606
+ },
607
+ {
608
+ "epoch": 0.5811596161643465,
609
+ "grad_norm": 0.21612419188022614,
610
+ "learning_rate": 1.791860639735696e-05,
611
+ "loss": 0.24774662017822266,
612
+ "step": 4300
613
+ },
614
+ {
615
+ "epoch": 0.5879172861197459,
616
+ "grad_norm": 52.803627014160156,
617
+ "learning_rate": 1.786854883115583e-05,
618
+ "loss": 0.4917910385131836,
619
+ "step": 4350
620
+ },
621
+ {
622
+ "epoch": 0.5946749560751453,
623
+ "grad_norm": 2.780160665512085,
624
+ "learning_rate": 1.78184912649547e-05,
625
+ "loss": 0.4956707763671875,
626
+ "step": 4400
627
+ },
628
+ {
629
+ "epoch": 0.6014326260305447,
630
+ "grad_norm": 60.74454116821289,
631
+ "learning_rate": 1.776843369875357e-05,
632
+ "loss": 0.38436222076416016,
633
+ "step": 4450
634
+ },
635
+ {
636
+ "epoch": 0.6081902959859441,
637
+ "grad_norm": 171.72776794433594,
638
+ "learning_rate": 1.7718376132552437e-05,
639
+ "loss": 0.339903678894043,
640
+ "step": 4500
641
+ },
642
+ {
643
+ "epoch": 0.6149479659413434,
644
+ "grad_norm": 0.21840180456638336,
645
+ "learning_rate": 1.7668318566351305e-05,
646
+ "loss": 0.35657142639160155,
647
+ "step": 4550
648
+ },
649
+ {
650
+ "epoch": 0.6217056358967428,
651
+ "grad_norm": 0.1235419437289238,
652
+ "learning_rate": 1.7618261000150173e-05,
653
+ "loss": 0.48563838958740235,
654
+ "step": 4600
655
+ },
656
+ {
657
+ "epoch": 0.6284633058521422,
658
+ "grad_norm": 45.70621109008789,
659
+ "learning_rate": 1.7568203433949044e-05,
660
+ "loss": 0.3387251281738281,
661
+ "step": 4650
662
+ },
663
+ {
664
+ "epoch": 0.6352209758075416,
665
+ "grad_norm": 16.330842971801758,
666
+ "learning_rate": 1.751814586774791e-05,
667
+ "loss": 0.26475383758544924,
668
+ "step": 4700
669
+ },
670
+ {
671
+ "epoch": 0.641978645762941,
672
+ "grad_norm": 0.13989397883415222,
673
+ "learning_rate": 1.746808830154678e-05,
674
+ "loss": 0.23626720428466796,
675
+ "step": 4750
676
+ },
677
+ {
678
+ "epoch": 0.6487363157183403,
679
+ "grad_norm": 0.2098826766014099,
680
+ "learning_rate": 1.7418030735345646e-05,
681
+ "loss": 0.3830945587158203,
682
+ "step": 4800
683
+ },
684
+ {
685
+ "epoch": 0.6554939856737397,
686
+ "grad_norm": 129.06463623046875,
687
+ "learning_rate": 1.7367973169144517e-05,
688
+ "loss": 0.3804433822631836,
689
+ "step": 4850
690
+ },
691
+ {
692
+ "epoch": 0.6622516556291391,
693
+ "grad_norm": 0.03363212198019028,
694
+ "learning_rate": 1.731791560294339e-05,
695
+ "loss": 0.360137939453125,
696
+ "step": 4900
697
+ },
698
+ {
699
+ "epoch": 0.6690093255845384,
700
+ "grad_norm": 0.03238023817539215,
701
+ "learning_rate": 1.7267858036742256e-05,
702
+ "loss": 0.2027187728881836,
703
+ "step": 4950
704
+ },
705
+ {
706
+ "epoch": 0.6757669955399378,
707
+ "grad_norm": 0.06728547066450119,
708
+ "learning_rate": 1.7217800470541124e-05,
709
+ "loss": 0.331846923828125,
710
+ "step": 5000
711
+ },
712
+ {
713
+ "epoch": 0.6825246654953372,
714
+ "grad_norm": 19.55385398864746,
715
+ "learning_rate": 1.716774290433999e-05,
716
+ "loss": 0.4320966339111328,
717
+ "step": 5050
718
+ },
719
+ {
720
+ "epoch": 0.6892823354507366,
721
+ "grad_norm": 30.989242553710938,
722
+ "learning_rate": 1.7117685338138862e-05,
723
+ "loss": 0.39179283142089844,
724
+ "step": 5100
725
+ },
726
+ {
727
+ "epoch": 0.696040005406136,
728
+ "grad_norm": 9.868060111999512,
729
+ "learning_rate": 1.706762777193773e-05,
730
+ "loss": 0.36711841583251953,
731
+ "step": 5150
732
+ },
733
+ {
734
+ "epoch": 0.7027976753615354,
735
+ "grad_norm": 0.5608569383621216,
736
+ "learning_rate": 1.7017570205736597e-05,
737
+ "loss": 0.24337669372558593,
738
+ "step": 5200
739
+ },
740
+ {
741
+ "epoch": 0.7095553453169348,
742
+ "grad_norm": 34.208763122558594,
743
+ "learning_rate": 1.6967512639535465e-05,
744
+ "loss": 0.5551647567749023,
745
+ "step": 5250
746
+ },
747
+ {
748
+ "epoch": 0.7163130152723342,
749
+ "grad_norm": 0.15128108859062195,
750
+ "learning_rate": 1.6917455073334336e-05,
751
+ "loss": 0.32145679473876954,
752
+ "step": 5300
753
+ },
754
+ {
755
+ "epoch": 0.7230706852277334,
756
+ "grad_norm": 35.46443557739258,
757
+ "learning_rate": 1.6867397507133204e-05,
758
+ "loss": 0.2589885330200195,
759
+ "step": 5350
760
+ },
761
+ {
762
+ "epoch": 0.7298283551831328,
763
+ "grad_norm": 26.979644775390625,
764
+ "learning_rate": 1.6817339940932075e-05,
765
+ "loss": 0.4622607421875,
766
+ "step": 5400
767
+ },
768
+ {
769
+ "epoch": 0.7365860251385322,
770
+ "grad_norm": 52.30873489379883,
771
+ "learning_rate": 1.6767282374730942e-05,
772
+ "loss": 0.24140811920166017,
773
+ "step": 5450
774
+ },
775
+ {
776
+ "epoch": 0.7433436950939316,
777
+ "grad_norm": 37.16353988647461,
778
+ "learning_rate": 1.671722480852981e-05,
779
+ "loss": 0.4084646224975586,
780
+ "step": 5500
781
+ },
782
+ {
783
+ "epoch": 0.750101365049331,
784
+ "grad_norm": 1.0389983654022217,
785
+ "learning_rate": 1.6667167242328677e-05,
786
+ "loss": 0.3605424118041992,
787
+ "step": 5550
788
+ },
789
+ {
790
+ "epoch": 0.7568590350047304,
791
+ "grad_norm": 27.835859298706055,
792
+ "learning_rate": 1.661710967612755e-05,
793
+ "loss": 0.3582349395751953,
794
+ "step": 5600
795
+ },
796
+ {
797
+ "epoch": 0.7636167049601298,
798
+ "grad_norm": 76.13422393798828,
799
+ "learning_rate": 1.6567052109926416e-05,
800
+ "loss": 0.407784423828125,
801
+ "step": 5650
802
+ },
803
+ {
804
+ "epoch": 0.7703743749155292,
805
+ "grad_norm": 0.39249739050865173,
806
+ "learning_rate": 1.6516994543725284e-05,
807
+ "loss": 0.39183979034423827,
808
+ "step": 5700
809
+ },
810
+ {
811
+ "epoch": 0.7771320448709285,
812
+ "grad_norm": 24.34403419494629,
813
+ "learning_rate": 1.6466936977524155e-05,
814
+ "loss": 0.2900525093078613,
815
+ "step": 5750
816
+ },
817
+ {
818
+ "epoch": 0.7838897148263279,
819
+ "grad_norm": 0.6838638186454773,
820
+ "learning_rate": 1.6416879411323022e-05,
821
+ "loss": 0.31336002349853515,
822
+ "step": 5800
823
+ },
824
+ {
825
+ "epoch": 0.7906473847817272,
826
+ "grad_norm": 0.06529181450605392,
827
+ "learning_rate": 1.6366821845121893e-05,
828
+ "loss": 0.2243809700012207,
829
+ "step": 5850
830
+ },
831
+ {
832
+ "epoch": 0.7974050547371266,
833
+ "grad_norm": 0.08979305624961853,
834
+ "learning_rate": 1.631676427892076e-05,
835
+ "loss": 0.37539905548095703,
836
+ "step": 5900
837
+ },
838
+ {
839
+ "epoch": 0.804162724692526,
840
+ "grad_norm": 0.36067715287208557,
841
+ "learning_rate": 1.626670671271963e-05,
842
+ "loss": 0.2607468795776367,
843
+ "step": 5950
844
+ },
845
+ {
846
+ "epoch": 0.8109203946479254,
847
+ "grad_norm": 0.07132972776889801,
848
+ "learning_rate": 1.6216649146518496e-05,
849
+ "loss": 0.4599153518676758,
850
+ "step": 6000
851
+ },
852
+ {
853
+ "epoch": 0.8176780646033248,
854
+ "grad_norm": 0.016791321337223053,
855
+ "learning_rate": 1.6166591580317367e-05,
856
+ "loss": 0.29411968231201174,
857
+ "step": 6050
858
+ },
859
+ {
860
+ "epoch": 0.8244357345587241,
861
+ "grad_norm": 31.486772537231445,
862
+ "learning_rate": 1.6116534014116235e-05,
863
+ "loss": 0.4410831069946289,
864
+ "step": 6100
865
+ },
866
+ {
867
+ "epoch": 0.8311934045141235,
868
+ "grad_norm": 0.12318305671215057,
869
+ "learning_rate": 1.6066476447915106e-05,
870
+ "loss": 0.3409576416015625,
871
+ "step": 6150
872
+ },
873
+ {
874
+ "epoch": 0.8379510744695229,
875
+ "grad_norm": 0.03524986654520035,
876
+ "learning_rate": 1.6016418881713973e-05,
877
+ "loss": 0.2761139106750488,
878
+ "step": 6200
879
+ },
880
+ {
881
+ "epoch": 0.8447087444249223,
882
+ "grad_norm": 0.07541833072900772,
883
+ "learning_rate": 1.596636131551284e-05,
884
+ "loss": 0.4007402420043945,
885
+ "step": 6250
886
+ },
887
+ {
888
+ "epoch": 0.8514664143803217,
889
+ "grad_norm": 0.1083996370434761,
890
+ "learning_rate": 1.591630374931171e-05,
891
+ "loss": 0.2156216812133789,
892
+ "step": 6300
893
+ },
894
+ {
895
+ "epoch": 0.8582240843357211,
896
+ "grad_norm": 17.29279899597168,
897
+ "learning_rate": 1.586624618311058e-05,
898
+ "loss": 0.2401065444946289,
899
+ "step": 6350
900
+ },
901
+ {
902
+ "epoch": 0.8649817542911205,
903
+ "grad_norm": 0.163585364818573,
904
+ "learning_rate": 1.5816188616909447e-05,
905
+ "loss": 0.27833726882934573,
906
+ "step": 6400
907
+ },
908
+ {
909
+ "epoch": 0.8717394242465198,
910
+ "grad_norm": 0.12471607327461243,
911
+ "learning_rate": 1.5766131050708315e-05,
912
+ "loss": 0.26960302352905274,
913
+ "step": 6450
914
+ },
915
+ {
916
+ "epoch": 0.8784970942019191,
917
+ "grad_norm": 0.01586587354540825,
918
+ "learning_rate": 1.5716073484507182e-05,
919
+ "loss": 0.24444808959960937,
920
+ "step": 6500
921
+ },
922
+ {
923
+ "epoch": 0.8852547641573185,
924
+ "grad_norm": 0.04108090698719025,
925
+ "learning_rate": 1.5666015918306053e-05,
926
+ "loss": 0.24059207916259764,
927
+ "step": 6550
928
+ },
929
+ {
930
+ "epoch": 0.8920124341127179,
931
+ "grad_norm": 0.6881380081176758,
932
+ "learning_rate": 1.5615958352104924e-05,
933
+ "loss": 0.2879082870483398,
934
+ "step": 6600
935
+ },
936
+ {
937
+ "epoch": 0.8987701040681173,
938
+ "grad_norm": 10.9269437789917,
939
+ "learning_rate": 1.5565900785903792e-05,
940
+ "loss": 0.3690375518798828,
941
+ "step": 6650
942
+ },
943
+ {
944
+ "epoch": 0.9055277740235167,
945
+ "grad_norm": 0.2799762785434723,
946
+ "learning_rate": 1.551584321970266e-05,
947
+ "loss": 0.37917003631591795,
948
+ "step": 6700
949
+ },
950
+ {
951
+ "epoch": 0.9122854439789161,
952
+ "grad_norm": 29.693958282470703,
953
+ "learning_rate": 1.5465785653501527e-05,
954
+ "loss": 0.2966591453552246,
955
+ "step": 6750
956
+ },
957
+ {
958
+ "epoch": 0.9190431139343155,
959
+ "grad_norm": 0.018007883802056313,
960
+ "learning_rate": 1.5415728087300398e-05,
961
+ "loss": 0.1859919548034668,
962
+ "step": 6800
963
+ },
964
+ {
965
+ "epoch": 0.9258007838897149,
966
+ "grad_norm": 61.17789077758789,
967
+ "learning_rate": 1.5365670521099266e-05,
968
+ "loss": 0.3845572662353516,
969
+ "step": 6850
970
+ },
971
+ {
972
+ "epoch": 0.9325584538451142,
973
+ "grad_norm": 20.372512817382812,
974
+ "learning_rate": 1.5315612954898133e-05,
975
+ "loss": 0.4127138900756836,
976
+ "step": 6900
977
+ },
978
+ {
979
+ "epoch": 0.9393161238005135,
980
+ "grad_norm": 10.219191551208496,
981
+ "learning_rate": 1.5265555388697e-05,
982
+ "loss": 0.31619930267333984,
983
+ "step": 6950
984
+ },
985
+ {
986
+ "epoch": 0.9460737937559129,
987
+ "grad_norm": 0.049500029534101486,
988
+ "learning_rate": 1.521549782249587e-05,
989
+ "loss": 0.3062467193603516,
990
+ "step": 7000
991
+ },
992
+ {
993
+ "epoch": 0.9528314637113123,
994
+ "grad_norm": 0.020763445645570755,
995
+ "learning_rate": 1.5165440256294741e-05,
996
+ "loss": 0.31766212463378907,
997
+ "step": 7050
998
+ },
999
+ {
1000
+ "epoch": 0.9595891336667117,
1001
+ "grad_norm": 0.03847825154662132,
1002
+ "learning_rate": 1.5115382690093609e-05,
1003
+ "loss": 0.17821809768676758,
1004
+ "step": 7100
1005
+ },
1006
+ {
1007
+ "epoch": 0.9663468036221111,
1008
+ "grad_norm": 0.1949007511138916,
1009
+ "learning_rate": 1.5065325123892478e-05,
1010
+ "loss": 0.17827264785766603,
1011
+ "step": 7150
1012
+ },
1013
+ {
1014
+ "epoch": 0.9731044735775105,
1015
+ "grad_norm": 0.04745342954993248,
1016
+ "learning_rate": 1.5015267557691346e-05,
1017
+ "loss": 0.25842235565185545,
1018
+ "step": 7200
1019
+ },
1020
+ {
1021
+ "epoch": 0.9798621435329099,
1022
+ "grad_norm": 0.09277615696191788,
1023
+ "learning_rate": 1.4965209991490215e-05,
1024
+ "loss": 0.28848594665527344,
1025
+ "step": 7250
1026
+ },
1027
+ {
1028
+ "epoch": 0.9866198134883092,
1029
+ "grad_norm": 107.77627563476562,
1030
+ "learning_rate": 1.4915152425289083e-05,
1031
+ "loss": 0.3165037727355957,
1032
+ "step": 7300
1033
+ },
1034
+ {
1035
+ "epoch": 0.9933774834437086,
1036
+ "grad_norm": 0.037322066724300385,
1037
+ "learning_rate": 1.4865094859087952e-05,
1038
+ "loss": 0.441009521484375,
1039
+ "step": 7350
1040
+ },
1041
+ {
1042
+ "epoch": 1.0,
1043
+ "eval_accuracy": 0.9648333206194217,
1044
+ "eval_f1": 0.9626145486984024,
1045
+ "eval_loss": 0.17089255154132843,
1046
+ "eval_precision": 0.945666029318037,
1047
+ "eval_recall": 0.9801816680429397,
1048
+ "eval_runtime": 68.5571,
1049
+ "eval_samples_per_second": 191.213,
1050
+ "eval_steps_per_second": 47.814,
1051
+ "step": 7399
1052
+ },
1053
+ {
1054
+ "epoch": 1.000135153399108,
1055
+ "grad_norm": 0.07350551337003708,
1056
+ "learning_rate": 1.481503729288682e-05,
1057
+ "loss": 0.25518951416015623,
1058
+ "step": 7400
1059
+ },
1060
+ {
1061
+ "epoch": 1.0068928233545074,
1062
+ "grad_norm": 0.13678599894046783,
1063
+ "learning_rate": 1.4764979726685689e-05,
1064
+ "loss": 0.18701498031616212,
1065
+ "step": 7450
1066
+ },
1067
+ {
1068
+ "epoch": 1.0136504933099066,
1069
+ "grad_norm": 2.2193477153778076,
1070
+ "learning_rate": 1.471492216048456e-05,
1071
+ "loss": 0.2123020362854004,
1072
+ "step": 7500
1073
+ },
1074
+ {
1075
+ "epoch": 1.0204081632653061,
1076
+ "grad_norm": 0.002282262546941638,
1077
+ "learning_rate": 1.4664864594283427e-05,
1078
+ "loss": 0.06725791931152343,
1079
+ "step": 7550
1080
+ },
1081
+ {
1082
+ "epoch": 1.0271658332207054,
1083
+ "grad_norm": 0.018047912046313286,
1084
+ "learning_rate": 1.4614807028082297e-05,
1085
+ "loss": 0.05762751579284668,
1086
+ "step": 7600
1087
+ },
1088
+ {
1089
+ "epoch": 1.033923503176105,
1090
+ "grad_norm": 0.018197333440184593,
1091
+ "learning_rate": 1.4564749461881164e-05,
1092
+ "loss": 0.2026105308532715,
1093
+ "step": 7650
1094
+ },
1095
+ {
1096
+ "epoch": 1.0406811731315042,
1097
+ "grad_norm": 25.600358963012695,
1098
+ "learning_rate": 1.4514691895680034e-05,
1099
+ "loss": 0.3179864311218262,
1100
+ "step": 7700
1101
+ },
1102
+ {
1103
+ "epoch": 1.0474388430869037,
1104
+ "grad_norm": 0.01227724552154541,
1105
+ "learning_rate": 1.4464634329478901e-05,
1106
+ "loss": 0.17692861557006836,
1107
+ "step": 7750
1108
+ },
1109
+ {
1110
+ "epoch": 1.054196513042303,
1111
+ "grad_norm": 0.00431372644379735,
1112
+ "learning_rate": 1.441457676327777e-05,
1113
+ "loss": 0.16868959426879881,
1114
+ "step": 7800
1115
+ },
1116
+ {
1117
+ "epoch": 1.0609541829977025,
1118
+ "grad_norm": 0.2933880686759949,
1119
+ "learning_rate": 1.4364519197076638e-05,
1120
+ "loss": 0.16839271545410156,
1121
+ "step": 7850
1122
+ },
1123
+ {
1124
+ "epoch": 1.0677118529531018,
1125
+ "grad_norm": 0.08445457369089127,
1126
+ "learning_rate": 1.431446163087551e-05,
1127
+ "loss": 0.23334505081176757,
1128
+ "step": 7900
1129
+ },
1130
+ {
1131
+ "epoch": 1.074469522908501,
1132
+ "grad_norm": 0.008567499928176403,
1133
+ "learning_rate": 1.4264404064674377e-05,
1134
+ "loss": 0.15990480422973632,
1135
+ "step": 7950
1136
+ },
1137
+ {
1138
+ "epoch": 1.0812271928639006,
1139
+ "grad_norm": 0.04676676541566849,
1140
+ "learning_rate": 1.4214346498473246e-05,
1141
+ "loss": 0.16386571884155274,
1142
+ "step": 8000
1143
+ },
1144
+ {
1145
+ "epoch": 1.0879848628192998,
1146
+ "grad_norm": 0.0389719195663929,
1147
+ "learning_rate": 1.4164288932272114e-05,
1148
+ "loss": 0.38469879150390623,
1149
+ "step": 8050
1150
+ },
1151
+ {
1152
+ "epoch": 1.0947425327746994,
1153
+ "grad_norm": 13.620099067687988,
1154
+ "learning_rate": 1.4114231366070983e-05,
1155
+ "loss": 0.15156843185424804,
1156
+ "step": 8100
1157
+ },
1158
+ {
1159
+ "epoch": 1.1015002027300986,
1160
+ "grad_norm": 14.422818183898926,
1161
+ "learning_rate": 1.406417379986985e-05,
1162
+ "loss": 0.23564334869384765,
1163
+ "step": 8150
1164
+ },
1165
+ {
1166
+ "epoch": 1.1082578726854981,
1167
+ "grad_norm": 8.18301773071289,
1168
+ "learning_rate": 1.401411623366872e-05,
1169
+ "loss": 0.18750425338745116,
1170
+ "step": 8200
1171
+ },
1172
+ {
1173
+ "epoch": 1.1150155426408974,
1174
+ "grad_norm": 15.054717063903809,
1175
+ "learning_rate": 1.3964058667467588e-05,
1176
+ "loss": 0.26675054550170896,
1177
+ "step": 8250
1178
+ },
1179
+ {
1180
+ "epoch": 1.1217732125962967,
1181
+ "grad_norm": 0.11389277875423431,
1182
+ "learning_rate": 1.3914001101266457e-05,
1183
+ "loss": 0.12498929023742676,
1184
+ "step": 8300
1185
+ },
1186
+ {
1187
+ "epoch": 1.1285308825516962,
1188
+ "grad_norm": 0.04972947761416435,
1189
+ "learning_rate": 1.3863943535065328e-05,
1190
+ "loss": 0.13664302825927735,
1191
+ "step": 8350
1192
+ },
1193
+ {
1194
+ "epoch": 1.1352885525070955,
1195
+ "grad_norm": 17.056364059448242,
1196
+ "learning_rate": 1.3813885968864195e-05,
1197
+ "loss": 0.33427154541015625,
1198
+ "step": 8400
1199
+ },
1200
+ {
1201
+ "epoch": 1.142046222462495,
1202
+ "grad_norm": 0.040144748985767365,
1203
+ "learning_rate": 1.3763828402663065e-05,
1204
+ "loss": 0.21294273376464845,
1205
+ "step": 8450
1206
+ },
1207
+ {
1208
+ "epoch": 1.1488038924178943,
1209
+ "grad_norm": 0.18602368235588074,
1210
+ "learning_rate": 1.3713770836461932e-05,
1211
+ "loss": 0.18324586868286133,
1212
+ "step": 8500
1213
+ },
1214
+ {
1215
+ "epoch": 1.1555615623732938,
1216
+ "grad_norm": 15.689005851745605,
1217
+ "learning_rate": 1.3663713270260802e-05,
1218
+ "loss": 0.2427196502685547,
1219
+ "step": 8550
1220
+ },
1221
+ {
1222
+ "epoch": 1.162319232328693,
1223
+ "grad_norm": 23.67704200744629,
1224
+ "learning_rate": 1.361365570405967e-05,
1225
+ "loss": 0.1402696418762207,
1226
+ "step": 8600
1227
+ },
1228
+ {
1229
+ "epoch": 1.1690769022840923,
1230
+ "grad_norm": 0.0033212420530617237,
1231
+ "learning_rate": 1.3563598137858539e-05,
1232
+ "loss": 0.12810823440551758,
1233
+ "step": 8650
1234
+ },
1235
+ {
1236
+ "epoch": 1.1758345722394918,
1237
+ "grad_norm": 141.46917724609375,
1238
+ "learning_rate": 1.3513540571657406e-05,
1239
+ "loss": 0.30034215927124025,
1240
+ "step": 8700
1241
+ },
1242
+ {
1243
+ "epoch": 1.1825922421948911,
1244
+ "grad_norm": 0.8686608672142029,
1245
+ "learning_rate": 1.3463483005456275e-05,
1246
+ "loss": 0.1589590072631836,
1247
+ "step": 8750
1248
+ },
1249
+ {
1250
+ "epoch": 1.1893499121502906,
1251
+ "grad_norm": 0.063064344227314,
1252
+ "learning_rate": 1.3413425439255145e-05,
1253
+ "loss": 0.09607341766357422,
1254
+ "step": 8800
1255
+ },
1256
+ {
1257
+ "epoch": 1.19610758210569,
1258
+ "grad_norm": 66.27935791015625,
1259
+ "learning_rate": 1.3363367873054014e-05,
1260
+ "loss": 0.2668747329711914,
1261
+ "step": 8850
1262
+ },
1263
+ {
1264
+ "epoch": 1.2028652520610894,
1265
+ "grad_norm": 0.1408540904521942,
1266
+ "learning_rate": 1.3313310306852882e-05,
1267
+ "loss": 0.20421890258789063,
1268
+ "step": 8900
1269
+ },
1270
+ {
1271
+ "epoch": 1.2096229220164887,
1272
+ "grad_norm": 0.23674733936786652,
1273
+ "learning_rate": 1.3263252740651751e-05,
1274
+ "loss": 0.0837314224243164,
1275
+ "step": 8950
1276
+ },
1277
+ {
1278
+ "epoch": 1.216380591971888,
1279
+ "grad_norm": 0.0018713766476139426,
1280
+ "learning_rate": 1.3213195174450619e-05,
1281
+ "loss": 0.1790580177307129,
1282
+ "step": 9000
1283
+ },
1284
+ {
1285
+ "epoch": 1.2231382619272875,
1286
+ "grad_norm": 21.07696533203125,
1287
+ "learning_rate": 1.3163137608249488e-05,
1288
+ "loss": 0.3062829780578613,
1289
+ "step": 9050
1290
+ },
1291
+ {
1292
+ "epoch": 1.2298959318826868,
1293
+ "grad_norm": 0.0028690961189568043,
1294
+ "learning_rate": 1.3113080042048356e-05,
1295
+ "loss": 0.3135700798034668,
1296
+ "step": 9100
1297
+ },
1298
+ {
1299
+ "epoch": 1.2366536018380863,
1300
+ "grad_norm": 0.03967598080635071,
1301
+ "learning_rate": 1.3063022475847225e-05,
1302
+ "loss": 0.07902798652648926,
1303
+ "step": 9150
1304
+ },
1305
+ {
1306
+ "epoch": 1.2434112717934855,
1307
+ "grad_norm": 0.28184425830841064,
1308
+ "learning_rate": 1.3012964909646092e-05,
1309
+ "loss": 0.3031677055358887,
1310
+ "step": 9200
1311
+ },
1312
+ {
1313
+ "epoch": 1.250168941748885,
1314
+ "grad_norm": 24.878887176513672,
1315
+ "learning_rate": 1.2962907343444963e-05,
1316
+ "loss": 0.1646289825439453,
1317
+ "step": 9250
1318
+ },
1319
+ {
1320
+ "epoch": 1.2569266117042843,
1321
+ "grad_norm": 71.28195190429688,
1322
+ "learning_rate": 1.2912849777243833e-05,
1323
+ "loss": 0.42414035797119143,
1324
+ "step": 9300
1325
+ },
1326
+ {
1327
+ "epoch": 1.2636842816596836,
1328
+ "grad_norm": 0.011118948459625244,
1329
+ "learning_rate": 1.28627922110427e-05,
1330
+ "loss": 0.14453999519348146,
1331
+ "step": 9350
1332
+ },
1333
+ {
1334
+ "epoch": 1.270441951615083,
1335
+ "grad_norm": 1.3121373653411865,
1336
+ "learning_rate": 1.281273464484157e-05,
1337
+ "loss": 0.1707002067565918,
1338
+ "step": 9400
1339
+ },
1340
+ {
1341
+ "epoch": 1.2771996215704826,
1342
+ "grad_norm": 0.003927276004105806,
1343
+ "learning_rate": 1.2762677078640437e-05,
1344
+ "loss": 0.17268417358398438,
1345
+ "step": 9450
1346
+ },
1347
+ {
1348
+ "epoch": 1.283957291525882,
1349
+ "grad_norm": 0.1925577074289322,
1350
+ "learning_rate": 1.2712619512439307e-05,
1351
+ "loss": 0.09306806564331055,
1352
+ "step": 9500
1353
+ },
1354
+ {
1355
+ "epoch": 1.2907149614812812,
1356
+ "grad_norm": 0.32519787549972534,
1357
+ "learning_rate": 1.2662561946238174e-05,
1358
+ "loss": 0.16181667327880858,
1359
+ "step": 9550
1360
+ },
1361
+ {
1362
+ "epoch": 1.2974726314366807,
1363
+ "grad_norm": 0.09728897362947464,
1364
+ "learning_rate": 1.2612504380037043e-05,
1365
+ "loss": 0.15530454635620117,
1366
+ "step": 9600
1367
+ },
1368
+ {
1369
+ "epoch": 1.30423030139208,
1370
+ "grad_norm": 0.5013231635093689,
1371
+ "learning_rate": 1.2562446813835911e-05,
1372
+ "loss": 0.2710952949523926,
1373
+ "step": 9650
1374
+ },
1375
+ {
1376
+ "epoch": 1.3109879713474795,
1377
+ "grad_norm": 0.0033234574366360903,
1378
+ "learning_rate": 1.2512389247634782e-05,
1379
+ "loss": 0.1900665283203125,
1380
+ "step": 9700
1381
+ },
1382
+ {
1383
+ "epoch": 1.3177456413028787,
1384
+ "grad_norm": 6.791006565093994,
1385
+ "learning_rate": 1.246233168143365e-05,
1386
+ "loss": 0.22926794052124022,
1387
+ "step": 9750
1388
+ },
1389
+ {
1390
+ "epoch": 1.3245033112582782,
1391
+ "grad_norm": 0.014930491335690022,
1392
+ "learning_rate": 1.2412274115232519e-05,
1393
+ "loss": 0.19701622009277345,
1394
+ "step": 9800
1395
+ },
1396
+ {
1397
+ "epoch": 1.3312609812136775,
1398
+ "grad_norm": 0.037327345460653305,
1399
+ "learning_rate": 1.2362216549031387e-05,
1400
+ "loss": 0.13671175003051758,
1401
+ "step": 9850
1402
+ },
1403
+ {
1404
+ "epoch": 1.3380186511690768,
1405
+ "grad_norm": 0.11069410294294357,
1406
+ "learning_rate": 1.2312158982830256e-05,
1407
+ "loss": 0.2781560134887695,
1408
+ "step": 9900
1409
+ },
1410
+ {
1411
+ "epoch": 1.3447763211244763,
1412
+ "grad_norm": 0.2557360827922821,
1413
+ "learning_rate": 1.2262101416629123e-05,
1414
+ "loss": 0.2896346664428711,
1415
+ "step": 9950
1416
+ },
1417
+ {
1418
+ "epoch": 1.3515339910798756,
1419
+ "grad_norm": 0.004186369478702545,
1420
+ "learning_rate": 1.2212043850427993e-05,
1421
+ "loss": 0.14058467864990234,
1422
+ "step": 10000
1423
+ },
1424
+ {
1425
+ "epoch": 1.358291661035275,
1426
+ "grad_norm": 0.5735684633255005,
1427
+ "learning_rate": 1.216198628422686e-05,
1428
+ "loss": 0.30132375717163085,
1429
+ "step": 10050
1430
+ },
1431
+ {
1432
+ "epoch": 1.3650493309906744,
1433
+ "grad_norm": 0.061718910932540894,
1434
+ "learning_rate": 1.2111928718025731e-05,
1435
+ "loss": 0.21547920227050782,
1436
+ "step": 10100
1437
+ },
1438
+ {
1439
+ "epoch": 1.3718070009460739,
1440
+ "grad_norm": 0.010497814044356346,
1441
+ "learning_rate": 1.20618711518246e-05,
1442
+ "loss": 0.1678770065307617,
1443
+ "step": 10150
1444
+ },
1445
+ {
1446
+ "epoch": 1.3785646709014732,
1447
+ "grad_norm": 0.01137350220233202,
1448
+ "learning_rate": 1.2011813585623468e-05,
1449
+ "loss": 0.2268022346496582,
1450
+ "step": 10200
1451
+ },
1452
+ {
1453
+ "epoch": 1.3853223408568724,
1454
+ "grad_norm": 73.45201110839844,
1455
+ "learning_rate": 1.1961756019422338e-05,
1456
+ "loss": 0.2648137092590332,
1457
+ "step": 10250
1458
+ },
1459
+ {
1460
+ "epoch": 1.392080010812272,
1461
+ "grad_norm": 0.003874465124681592,
1462
+ "learning_rate": 1.1911698453221205e-05,
1463
+ "loss": 0.26919260025024416,
1464
+ "step": 10300
1465
+ },
1466
+ {
1467
+ "epoch": 1.3988376807676712,
1468
+ "grad_norm": 0.04089919477701187,
1469
+ "learning_rate": 1.1861640887020075e-05,
1470
+ "loss": 0.29294668197631835,
1471
+ "step": 10350
1472
+ },
1473
+ {
1474
+ "epoch": 1.4055953507230707,
1475
+ "grad_norm": 0.14030589163303375,
1476
+ "learning_rate": 1.1811583320818942e-05,
1477
+ "loss": 0.2179054832458496,
1478
+ "step": 10400
1479
+ },
1480
+ {
1481
+ "epoch": 1.41235302067847,
1482
+ "grad_norm": 0.9217932820320129,
1483
+ "learning_rate": 1.1761525754617811e-05,
1484
+ "loss": 0.25105377197265627,
1485
+ "step": 10450
1486
+ },
1487
+ {
1488
+ "epoch": 1.4191106906338695,
1489
+ "grad_norm": 185.11000061035156,
1490
+ "learning_rate": 1.1711468188416679e-05,
1491
+ "loss": 0.22989677429199218,
1492
+ "step": 10500
1493
+ },
1494
+ {
1495
+ "epoch": 1.4258683605892688,
1496
+ "grad_norm": 29.782814025878906,
1497
+ "learning_rate": 1.166141062221555e-05,
1498
+ "loss": 0.20334575653076173,
1499
+ "step": 10550
1500
+ },
1501
+ {
1502
+ "epoch": 1.432626030544668,
1503
+ "grad_norm": 11.781908988952637,
1504
+ "learning_rate": 1.1611353056014418e-05,
1505
+ "loss": 0.1873354721069336,
1506
+ "step": 10600
1507
+ },
1508
+ {
1509
+ "epoch": 1.4393837005000676,
1510
+ "grad_norm": 0.017826354131102562,
1511
+ "learning_rate": 1.1561295489813287e-05,
1512
+ "loss": 0.11134927749633788,
1513
+ "step": 10650
1514
+ },
1515
+ {
1516
+ "epoch": 1.446141370455467,
1517
+ "grad_norm": 0.03723045065999031,
1518
+ "learning_rate": 1.1511237923612155e-05,
1519
+ "loss": 0.19197362899780274,
1520
+ "step": 10700
1521
+ },
1522
+ {
1523
+ "epoch": 1.4528990404108664,
1524
+ "grad_norm": 14.280227661132812,
1525
+ "learning_rate": 1.1461180357411024e-05,
1526
+ "loss": 0.23998620986938476,
1527
+ "step": 10750
1528
+ },
1529
+ {
1530
+ "epoch": 1.4596567103662657,
1531
+ "grad_norm": 0.002761346288025379,
1532
+ "learning_rate": 1.1411122791209891e-05,
1533
+ "loss": 0.07881230354309082,
1534
+ "step": 10800
1535
+ },
1536
+ {
1537
+ "epoch": 1.4664143803216652,
1538
+ "grad_norm": 0.14611680805683136,
1539
+ "learning_rate": 1.136106522500876e-05,
1540
+ "loss": 0.22946516036987305,
1541
+ "step": 10850
1542
+ },
1543
+ {
1544
+ "epoch": 1.4731720502770644,
1545
+ "grad_norm": 2.264693021774292,
1546
+ "learning_rate": 1.1311007658807628e-05,
1547
+ "loss": 0.17156749725341797,
1548
+ "step": 10900
1549
+ },
1550
+ {
1551
+ "epoch": 1.4799297202324637,
1552
+ "grad_norm": 0.5791627764701843,
1553
+ "learning_rate": 1.1260950092606498e-05,
1554
+ "loss": 0.17092864990234374,
1555
+ "step": 10950
1556
+ },
1557
+ {
1558
+ "epoch": 1.4866873901878632,
1559
+ "grad_norm": 0.30093225836753845,
1560
+ "learning_rate": 1.1210892526405369e-05,
1561
+ "loss": 0.30757621765136717,
1562
+ "step": 11000
1563
+ },
1564
+ {
1565
+ "epoch": 1.4934450601432627,
1566
+ "grad_norm": 0.008798571303486824,
1567
+ "learning_rate": 1.1160834960204236e-05,
1568
+ "loss": 0.17301080703735353,
1569
+ "step": 11050
1570
+ },
1571
+ {
1572
+ "epoch": 1.500202730098662,
1573
+ "grad_norm": 0.026798205450177193,
1574
+ "learning_rate": 1.1110777394003106e-05,
1575
+ "loss": 0.15110500335693358,
1576
+ "step": 11100
1577
+ },
1578
+ {
1579
+ "epoch": 1.5069604000540613,
1580
+ "grad_norm": 80.63719177246094,
1581
+ "learning_rate": 1.1060719827801973e-05,
1582
+ "loss": 0.2579657173156738,
1583
+ "step": 11150
1584
+ },
1585
+ {
1586
+ "epoch": 1.5137180700094608,
1587
+ "grad_norm": 0.006884767208248377,
1588
+ "learning_rate": 1.1010662261600842e-05,
1589
+ "loss": 0.1731630325317383,
1590
+ "step": 11200
1591
+ },
1592
+ {
1593
+ "epoch": 1.52047573996486,
1594
+ "grad_norm": 0.020346157252788544,
1595
+ "learning_rate": 1.096060469539971e-05,
1596
+ "loss": 0.08803058624267578,
1597
+ "step": 11250
1598
+ },
1599
+ {
1600
+ "epoch": 1.5272334099202594,
1601
+ "grad_norm": 0.4605032801628113,
1602
+ "learning_rate": 1.091054712919858e-05,
1603
+ "loss": 0.3004783058166504,
1604
+ "step": 11300
1605
+ },
1606
+ {
1607
+ "epoch": 1.5339910798756589,
1608
+ "grad_norm": 54.79648971557617,
1609
+ "learning_rate": 1.0860489562997447e-05,
1610
+ "loss": 0.2580095291137695,
1611
+ "step": 11350
1612
+ },
1613
+ {
1614
+ "epoch": 1.5407487498310584,
1615
+ "grad_norm": 0.007759020198136568,
1616
+ "learning_rate": 1.0810431996796316e-05,
1617
+ "loss": 0.2316766357421875,
1618
+ "step": 11400
1619
+ },
1620
+ {
1621
+ "epoch": 1.5475064197864576,
1622
+ "grad_norm": 1.0416474342346191,
1623
+ "learning_rate": 1.0760374430595186e-05,
1624
+ "loss": 0.10510608673095703,
1625
+ "step": 11450
1626
+ },
1627
+ {
1628
+ "epoch": 1.554264089741857,
1629
+ "grad_norm": 0.029644185677170753,
1630
+ "learning_rate": 1.0710316864394055e-05,
1631
+ "loss": 0.2700320816040039,
1632
+ "step": 11500
1633
+ },
1634
+ {
1635
+ "epoch": 1.5610217596972564,
1636
+ "grad_norm": 0.06986944377422333,
1637
+ "learning_rate": 1.0660259298192923e-05,
1638
+ "loss": 0.27375816345214843,
1639
+ "step": 11550
1640
+ },
1641
+ {
1642
+ "epoch": 1.5677794296526557,
1643
+ "grad_norm": 0.0046129655092954636,
1644
+ "learning_rate": 1.0610201731991792e-05,
1645
+ "loss": 0.13367100715637206,
1646
+ "step": 11600
1647
+ },
1648
+ {
1649
+ "epoch": 1.574537099608055,
1650
+ "grad_norm": 0.007804605178534985,
1651
+ "learning_rate": 1.056014416579066e-05,
1652
+ "loss": 0.2514232063293457,
1653
+ "step": 11650
1654
+ },
1655
+ {
1656
+ "epoch": 1.5812947695634545,
1657
+ "grad_norm": 0.0645962581038475,
1658
+ "learning_rate": 1.0510086599589529e-05,
1659
+ "loss": 0.18371934890747071,
1660
+ "step": 11700
1661
+ },
1662
+ {
1663
+ "epoch": 1.588052439518854,
1664
+ "grad_norm": 0.0033988540526479483,
1665
+ "learning_rate": 1.0460029033388396e-05,
1666
+ "loss": 0.21081953048706054,
1667
+ "step": 11750
1668
+ },
1669
+ {
1670
+ "epoch": 1.5948101094742533,
1671
+ "grad_norm": 0.04411851987242699,
1672
+ "learning_rate": 1.0409971467187266e-05,
1673
+ "loss": 0.12850214004516602,
1674
+ "step": 11800
1675
+ },
1676
+ {
1677
+ "epoch": 1.6015677794296526,
1678
+ "grad_norm": 0.018026337027549744,
1679
+ "learning_rate": 1.0359913900986133e-05,
1680
+ "loss": 0.1492741584777832,
1681
+ "step": 11850
1682
+ },
1683
+ {
1684
+ "epoch": 1.608325449385052,
1685
+ "grad_norm": 0.09057886898517609,
1686
+ "learning_rate": 1.0309856334785004e-05,
1687
+ "loss": 0.1486029529571533,
1688
+ "step": 11900
1689
+ },
1690
+ {
1691
+ "epoch": 1.6150831193404516,
1692
+ "grad_norm": 0.0102351950481534,
1693
+ "learning_rate": 1.0259798768583874e-05,
1694
+ "loss": 0.23811851501464842,
1695
+ "step": 11950
1696
+ },
1697
+ {
1698
+ "epoch": 1.6218407892958506,
1699
+ "grad_norm": 0.05652283504605293,
1700
+ "learning_rate": 1.0209741202382741e-05,
1701
+ "loss": 0.13805081367492675,
1702
+ "step": 12000
1703
+ },
1704
+ {
1705
+ "epoch": 1.6285984592512501,
1706
+ "grad_norm": 0.07080666720867157,
1707
+ "learning_rate": 1.015968363618161e-05,
1708
+ "loss": 0.12881503105163575,
1709
+ "step": 12050
1710
+ },
1711
+ {
1712
+ "epoch": 1.6353561292066496,
1713
+ "grad_norm": 0.018375622108578682,
1714
+ "learning_rate": 1.0109626069980478e-05,
1715
+ "loss": 0.2675124931335449,
1716
+ "step": 12100
1717
+ },
1718
+ {
1719
+ "epoch": 1.642113799162049,
1720
+ "grad_norm": 0.02257567085325718,
1721
+ "learning_rate": 1.0059568503779347e-05,
1722
+ "loss": 0.32150630950927733,
1723
+ "step": 12150
1724
+ },
1725
+ {
1726
+ "epoch": 1.6488714691174482,
1727
+ "grad_norm": 0.1083192378282547,
1728
+ "learning_rate": 1.0009510937578215e-05,
1729
+ "loss": 0.23064302444458007,
1730
+ "step": 12200
1731
+ },
1732
+ {
1733
+ "epoch": 1.6556291390728477,
1734
+ "grad_norm": 0.038683537393808365,
1735
+ "learning_rate": 9.959453371377084e-06,
1736
+ "loss": 0.30872579574584963,
1737
+ "step": 12250
1738
+ },
1739
+ {
1740
+ "epoch": 1.6623868090282472,
1741
+ "grad_norm": 0.009854331612586975,
1742
+ "learning_rate": 9.909395805175954e-06,
1743
+ "loss": 0.2523124885559082,
1744
+ "step": 12300
1745
+ },
1746
+ {
1747
+ "epoch": 1.6691444789836465,
1748
+ "grad_norm": 0.11421715468168259,
1749
+ "learning_rate": 9.859338238974821e-06,
1750
+ "loss": 0.22798009872436523,
1751
+ "step": 12350
1752
+ },
1753
+ {
1754
+ "epoch": 1.6759021489390458,
1755
+ "grad_norm": 0.012904458679258823,
1756
+ "learning_rate": 9.80928067277369e-06,
1757
+ "loss": 0.11912490844726563,
1758
+ "step": 12400
1759
+ },
1760
+ {
1761
+ "epoch": 1.6826598188944453,
1762
+ "grad_norm": 0.004866345319896936,
1763
+ "learning_rate": 9.75922310657256e-06,
1764
+ "loss": 0.17411937713623046,
1765
+ "step": 12450
1766
+ },
1767
+ {
1768
+ "epoch": 1.6894174888498446,
1769
+ "grad_norm": 0.06953968107700348,
1770
+ "learning_rate": 9.709165540371427e-06,
1771
+ "loss": 0.15718982696533204,
1772
+ "step": 12500
1773
+ },
1774
+ {
1775
+ "epoch": 1.6961751588052438,
1776
+ "grad_norm": 0.30232375860214233,
1777
+ "learning_rate": 9.659107974170297e-06,
1778
+ "loss": 0.3242319107055664,
1779
+ "step": 12550
1780
+ },
1781
+ {
1782
+ "epoch": 1.7029328287606433,
1783
+ "grad_norm": 0.009811073541641235,
1784
+ "learning_rate": 9.609050407969164e-06,
1785
+ "loss": 0.16056331634521484,
1786
+ "step": 12600
1787
+ },
1788
+ {
1789
+ "epoch": 1.7096904987160428,
1790
+ "grad_norm": 0.0033976894337683916,
1791
+ "learning_rate": 9.558992841768034e-06,
1792
+ "loss": 0.21641508102416993,
1793
+ "step": 12650
1794
+ },
1795
+ {
1796
+ "epoch": 1.7164481686714421,
1797
+ "grad_norm": 0.019763845950365067,
1798
+ "learning_rate": 9.508935275566903e-06,
1799
+ "loss": 0.20622289657592774,
1800
+ "step": 12700
1801
+ },
1802
+ {
1803
+ "epoch": 1.7232058386268414,
1804
+ "grad_norm": 0.03865963965654373,
1805
+ "learning_rate": 9.45887770936577e-06,
1806
+ "loss": 0.24815959930419923,
1807
+ "step": 12750
1808
+ },
1809
+ {
1810
+ "epoch": 1.729963508582241,
1811
+ "grad_norm": 0.44768020510673523,
1812
+ "learning_rate": 9.40882014316464e-06,
1813
+ "loss": 0.12028050422668457,
1814
+ "step": 12800
1815
+ },
1816
+ {
1817
+ "epoch": 1.7367211785376402,
1818
+ "grad_norm": 0.022567948326468468,
1819
+ "learning_rate": 9.358762576963509e-06,
1820
+ "loss": 0.22824619293212892,
1821
+ "step": 12850
1822
+ },
1823
+ {
1824
+ "epoch": 1.7434788484930395,
1825
+ "grad_norm": 0.004544971976429224,
1826
+ "learning_rate": 9.308705010762378e-06,
1827
+ "loss": 0.12526805877685546,
1828
+ "step": 12900
1829
+ },
1830
+ {
1831
+ "epoch": 1.750236518448439,
1832
+ "grad_norm": 0.21990123391151428,
1833
+ "learning_rate": 9.258647444561246e-06,
1834
+ "loss": 0.3063252067565918,
1835
+ "step": 12950
1836
+ },
1837
+ {
1838
+ "epoch": 1.7569941884038385,
1839
+ "grad_norm": 0.0023501410614699125,
1840
+ "learning_rate": 9.208589878360115e-06,
1841
+ "loss": 0.25366107940673827,
1842
+ "step": 13000
1843
+ },
1844
+ {
1845
+ "epoch": 1.7637518583592378,
1846
+ "grad_norm": 0.20313404500484467,
1847
+ "learning_rate": 9.158532312158983e-06,
1848
+ "loss": 0.1626577377319336,
1849
+ "step": 13050
1850
+ },
1851
+ {
1852
+ "epoch": 1.770509528314637,
1853
+ "grad_norm": 0.14616358280181885,
1854
+ "learning_rate": 9.108474745957852e-06,
1855
+ "loss": 0.16987455368041993,
1856
+ "step": 13100
1857
+ },
1858
+ {
1859
+ "epoch": 1.7772671982700365,
1860
+ "grad_norm": 0.010072534903883934,
1861
+ "learning_rate": 9.058417179756722e-06,
1862
+ "loss": 0.22326894760131835,
1863
+ "step": 13150
1864
+ },
1865
+ {
1866
+ "epoch": 1.7840248682254358,
1867
+ "grad_norm": 0.01229020394384861,
1868
+ "learning_rate": 9.00835961355559e-06,
1869
+ "loss": 0.18657752990722656,
1870
+ "step": 13200
1871
+ },
1872
+ {
1873
+ "epoch": 1.790782538180835,
1874
+ "grad_norm": 0.009742148220539093,
1875
+ "learning_rate": 8.958302047354458e-06,
1876
+ "loss": 0.14471253395080566,
1877
+ "step": 13250
1878
+ },
1879
+ {
1880
+ "epoch": 1.7975402081362346,
1881
+ "grad_norm": 0.3649709224700928,
1882
+ "learning_rate": 8.908244481153328e-06,
1883
+ "loss": 0.2663186264038086,
1884
+ "step": 13300
1885
+ },
1886
+ {
1887
+ "epoch": 1.804297878091634,
1888
+ "grad_norm": 0.7191339135169983,
1889
+ "learning_rate": 8.858186914952195e-06,
1890
+ "loss": 0.17694835662841796,
1891
+ "step": 13350
1892
+ },
1893
+ {
1894
+ "epoch": 1.8110555480470334,
1895
+ "grad_norm": 0.13810834288597107,
1896
+ "learning_rate": 8.808129348751065e-06,
1897
+ "loss": 0.13321252822875976,
1898
+ "step": 13400
1899
+ },
1900
+ {
1901
+ "epoch": 1.8178132180024327,
1902
+ "grad_norm": 0.013841865584254265,
1903
+ "learning_rate": 8.758071782549932e-06,
1904
+ "loss": 0.2504547882080078,
1905
+ "step": 13450
1906
+ },
1907
+ {
1908
+ "epoch": 1.8245708879578322,
1909
+ "grad_norm": 0.02471834421157837,
1910
+ "learning_rate": 8.708014216348802e-06,
1911
+ "loss": 0.16575366973876954,
1912
+ "step": 13500
1913
+ },
1914
+ {
1915
+ "epoch": 1.8313285579132317,
1916
+ "grad_norm": 0.2838708758354187,
1917
+ "learning_rate": 8.657956650147671e-06,
1918
+ "loss": 0.241872615814209,
1919
+ "step": 13550
1920
+ },
1921
+ {
1922
+ "epoch": 1.8380862278686307,
1923
+ "grad_norm": 0.0604943223297596,
1924
+ "learning_rate": 8.607899083946539e-06,
1925
+ "loss": 0.17180231094360351,
1926
+ "step": 13600
1927
+ },
1928
+ {
1929
+ "epoch": 1.8448438978240302,
1930
+ "grad_norm": 70.3255844116211,
1931
+ "learning_rate": 8.557841517745408e-06,
1932
+ "loss": 0.1580354404449463,
1933
+ "step": 13650
1934
+ },
1935
+ {
1936
+ "epoch": 1.8516015677794297,
1937
+ "grad_norm": 3.8454079627990723,
1938
+ "learning_rate": 8.507783951544275e-06,
1939
+ "loss": 0.13566259384155274,
1940
+ "step": 13700
1941
+ },
1942
+ {
1943
+ "epoch": 1.858359237734829,
1944
+ "grad_norm": 0.02096381038427353,
1945
+ "learning_rate": 8.457726385343146e-06,
1946
+ "loss": 0.23864656448364258,
1947
+ "step": 13750
1948
+ },
1949
+ {
1950
+ "epoch": 1.8651169076902283,
1951
+ "grad_norm": 0.010230190120637417,
1952
+ "learning_rate": 8.407668819142014e-06,
1953
+ "loss": 0.18619832992553711,
1954
+ "step": 13800
1955
+ },
1956
+ {
1957
+ "epoch": 1.8718745776456278,
1958
+ "grad_norm": 0.1908511072397232,
1959
+ "learning_rate": 8.357611252940883e-06,
1960
+ "loss": 0.2673153877258301,
1961
+ "step": 13850
1962
+ },
1963
+ {
1964
+ "epoch": 1.8786322476010273,
1965
+ "grad_norm": 11.70110034942627,
1966
+ "learning_rate": 8.307553686739751e-06,
1967
+ "loss": 0.2062428665161133,
1968
+ "step": 13900
1969
+ },
1970
+ {
1971
+ "epoch": 1.8853899175564266,
1972
+ "grad_norm": 24.96676254272461,
1973
+ "learning_rate": 8.25749612053862e-06,
1974
+ "loss": 0.20080638885498048,
1975
+ "step": 13950
1976
+ },
1977
+ {
1978
+ "epoch": 1.8921475875118259,
1979
+ "grad_norm": 0.05246945098042488,
1980
+ "learning_rate": 8.20743855433749e-06,
1981
+ "loss": 0.11393006324768067,
1982
+ "step": 14000
1983
+ },
1984
+ {
1985
+ "epoch": 1.8989052574672254,
1986
+ "grad_norm": 0.15934395790100098,
1987
+ "learning_rate": 8.157380988136357e-06,
1988
+ "loss": 0.11714041709899903,
1989
+ "step": 14050
1990
+ },
1991
+ {
1992
+ "epoch": 1.9056629274226247,
1993
+ "grad_norm": 0.30261462926864624,
1994
+ "learning_rate": 8.107323421935226e-06,
1995
+ "loss": 0.21116409301757813,
1996
+ "step": 14100
1997
+ },
1998
+ {
1999
+ "epoch": 1.912420597378024,
2000
+ "grad_norm": 0.02992912568151951,
2001
+ "learning_rate": 8.057265855734094e-06,
2002
+ "loss": 0.2957320213317871,
2003
+ "step": 14150
2004
+ },
2005
+ {
2006
+ "epoch": 1.9191782673334234,
2007
+ "grad_norm": 556.4647216796875,
2008
+ "learning_rate": 8.007208289532963e-06,
2009
+ "loss": 0.14229880332946776,
2010
+ "step": 14200
2011
+ },
2012
+ {
2013
+ "epoch": 1.925935937288823,
2014
+ "grad_norm": 0.35265979170799255,
2015
+ "learning_rate": 7.957150723331833e-06,
2016
+ "loss": 0.2273382568359375,
2017
+ "step": 14250
2018
+ },
2019
+ {
2020
+ "epoch": 1.9326936072442222,
2021
+ "grad_norm": 0.0018637154716998339,
2022
+ "learning_rate": 7.9070931571307e-06,
2023
+ "loss": 0.1868155097961426,
2024
+ "step": 14300
2025
+ },
2026
+ {
2027
+ "epoch": 1.9394512771996215,
2028
+ "grad_norm": 0.007218921557068825,
2029
+ "learning_rate": 7.85703559092957e-06,
2030
+ "loss": 0.18037618637084962,
2031
+ "step": 14350
2032
+ },
2033
+ {
2034
+ "epoch": 1.946208947155021,
2035
+ "grad_norm": 0.6409568190574646,
2036
+ "learning_rate": 7.806978024728439e-06,
2037
+ "loss": 0.25310573577880857,
2038
+ "step": 14400
2039
+ },
2040
+ {
2041
+ "epoch": 1.9529666171104203,
2042
+ "grad_norm": 0.010283703915774822,
2043
+ "learning_rate": 7.756920458527306e-06,
2044
+ "loss": 0.17320125579833984,
2045
+ "step": 14450
2046
+ },
2047
+ {
2048
+ "epoch": 1.9597242870658196,
2049
+ "grad_norm": 0.012976414524018764,
2050
+ "learning_rate": 7.706862892326176e-06,
2051
+ "loss": 0.2135805892944336,
2052
+ "step": 14500
2053
+ },
2054
+ {
2055
+ "epoch": 1.966481957021219,
2056
+ "grad_norm": 0.0458478182554245,
2057
+ "learning_rate": 7.656805326125043e-06,
2058
+ "loss": 0.1271858787536621,
2059
+ "step": 14550
2060
+ },
2061
+ {
2062
+ "epoch": 1.9732396269766186,
2063
+ "grad_norm": 45.8770637512207,
2064
+ "learning_rate": 7.606747759923913e-06,
2065
+ "loss": 0.2798696327209473,
2066
+ "step": 14600
2067
+ },
2068
+ {
2069
+ "epoch": 1.9799972969320179,
2070
+ "grad_norm": 0.010839959606528282,
2071
+ "learning_rate": 7.556690193722782e-06,
2072
+ "loss": 0.17837514877319335,
2073
+ "step": 14650
2074
+ },
2075
+ {
2076
+ "epoch": 1.9867549668874172,
2077
+ "grad_norm": 0.3253706991672516,
2078
+ "learning_rate": 7.5066326275216505e-06,
2079
+ "loss": 0.16589849472045898,
2080
+ "step": 14700
2081
+ },
2082
+ {
2083
+ "epoch": 1.9935126368428167,
2084
+ "grad_norm": 0.04959991201758385,
2085
+ "learning_rate": 7.456575061320519e-06,
2086
+ "loss": 0.13824424743652344,
2087
+ "step": 14750
2088
+ },
2089
+ {
2090
+ "epoch": 2.0,
2091
+ "eval_accuracy": 0.9710885651079411,
2092
+ "eval_f1": 0.9687783178186012,
2093
+ "eval_loss": 0.13719096779823303,
2094
+ "eval_precision": 0.9664694280078896,
2095
+ "eval_recall": 0.9710982658959537,
2096
+ "eval_runtime": 72.1607,
2097
+ "eval_samples_per_second": 181.664,
2098
+ "eval_steps_per_second": 45.426,
2099
+ "step": 14798
2100
+ },
2101
+ {
2102
+ "epoch": 2.000270306798216,
2103
+ "grad_norm": 0.25084859132766724,
2104
+ "learning_rate": 7.406517495119387e-06,
2105
+ "loss": 0.17634214401245119,
2106
+ "step": 14800
2107
+ },
2108
+ {
2109
+ "epoch": 2.007027976753615,
2110
+ "grad_norm": 0.23022498190402985,
2111
+ "learning_rate": 7.356459928918257e-06,
2112
+ "loss": 0.06952855110168457,
2113
+ "step": 14850
2114
+ },
2115
+ {
2116
+ "epoch": 2.0137856467090147,
2117
+ "grad_norm": 0.27114880084991455,
2118
+ "learning_rate": 7.306402362717125e-06,
2119
+ "loss": 0.044750089645385745,
2120
+ "step": 14900
2121
+ },
2122
+ {
2123
+ "epoch": 2.0205433166644142,
2124
+ "grad_norm": 0.8851802945137024,
2125
+ "learning_rate": 7.256344796515994e-06,
2126
+ "loss": 0.21987371444702147,
2127
+ "step": 14950
2128
+ },
2129
+ {
2130
+ "epoch": 2.0273009866198133,
2131
+ "grad_norm": 0.1222100630402565,
2132
+ "learning_rate": 7.206287230314862e-06,
2133
+ "loss": 0.026863176822662354,
2134
+ "step": 15000
2135
+ },
2136
+ {
2137
+ "epoch": 2.034058656575213,
2138
+ "grad_norm": 0.06605394929647446,
2139
+ "learning_rate": 7.156229664113732e-06,
2140
+ "loss": 0.1442209243774414,
2141
+ "step": 15050
2142
+ },
2143
+ {
2144
+ "epoch": 2.0408163265306123,
2145
+ "grad_norm": 0.007441596128046513,
2146
+ "learning_rate": 7.106172097912601e-06,
2147
+ "loss": 0.0016956537961959838,
2148
+ "step": 15100
2149
+ },
2150
+ {
2151
+ "epoch": 2.047573996486012,
2152
+ "grad_norm": 0.00727056385949254,
2153
+ "learning_rate": 7.056114531711469e-06,
2154
+ "loss": 0.08436053276062011,
2155
+ "step": 15150
2156
+ },
2157
+ {
2158
+ "epoch": 2.054331666441411,
2159
+ "grad_norm": 0.0015993643319234252,
2160
+ "learning_rate": 7.0060569655103376e-06,
2161
+ "loss": 0.08930938720703124,
2162
+ "step": 15200
2163
+ },
2164
+ {
2165
+ "epoch": 2.0610893363968104,
2166
+ "grad_norm": 0.16863678395748138,
2167
+ "learning_rate": 6.955999399309206e-06,
2168
+ "loss": 0.13128344535827638,
2169
+ "step": 15250
2170
+ },
2171
+ {
2172
+ "epoch": 2.06784700635221,
2173
+ "grad_norm": 0.9009956121444702,
2174
+ "learning_rate": 6.905941833108075e-06,
2175
+ "loss": 0.027562847137451173,
2176
+ "step": 15300
2177
+ },
2178
+ {
2179
+ "epoch": 2.074604676307609,
2180
+ "grad_norm": 0.06319503486156464,
2181
+ "learning_rate": 6.855884266906944e-06,
2182
+ "loss": 0.059659385681152345,
2183
+ "step": 15350
2184
+ },
2185
+ {
2186
+ "epoch": 2.0813623462630084,
2187
+ "grad_norm": 0.002058418933302164,
2188
+ "learning_rate": 6.805826700705812e-06,
2189
+ "loss": 0.0802430534362793,
2190
+ "step": 15400
2191
+ },
2192
+ {
2193
+ "epoch": 2.088120016218408,
2194
+ "grad_norm": 0.001060748123563826,
2195
+ "learning_rate": 6.755769134504681e-06,
2196
+ "loss": 0.054065885543823244,
2197
+ "step": 15450
2198
+ },
2199
+ {
2200
+ "epoch": 2.0948776861738074,
2201
+ "grad_norm": 0.06381445378065109,
2202
+ "learning_rate": 6.70571156830355e-06,
2203
+ "loss": 0.21190324783325196,
2204
+ "step": 15500
2205
+ },
2206
+ {
2207
+ "epoch": 2.1016353561292065,
2208
+ "grad_norm": 16.87372589111328,
2209
+ "learning_rate": 6.6556540021024184e-06,
2210
+ "loss": 0.1262486171722412,
2211
+ "step": 15550
2212
+ },
2213
+ {
2214
+ "epoch": 2.108393026084606,
2215
+ "grad_norm": 0.004437705967575312,
2216
+ "learning_rate": 6.605596435901287e-06,
2217
+ "loss": 0.06593876361846923,
2218
+ "step": 15600
2219
+ },
2220
+ {
2221
+ "epoch": 2.1151506960400055,
2222
+ "grad_norm": 395.3876647949219,
2223
+ "learning_rate": 6.555538869700155e-06,
2224
+ "loss": 0.09583724975585937,
2225
+ "step": 15650
2226
+ },
2227
+ {
2228
+ "epoch": 2.121908365995405,
2229
+ "grad_norm": 0.7663223147392273,
2230
+ "learning_rate": 6.505481303499025e-06,
2231
+ "loss": 0.1377907657623291,
2232
+ "step": 15700
2233
+ },
2234
+ {
2235
+ "epoch": 2.128666035950804,
2236
+ "grad_norm": 0.12682226300239563,
2237
+ "learning_rate": 6.455423737297893e-06,
2238
+ "loss": 0.17662681579589845,
2239
+ "step": 15750
2240
+ },
2241
+ {
2242
+ "epoch": 2.1354237059062036,
2243
+ "grad_norm": 0.03758738934993744,
2244
+ "learning_rate": 6.4053661710967616e-06,
2245
+ "loss": 0.06712995529174805,
2246
+ "step": 15800
2247
+ },
2248
+ {
2249
+ "epoch": 2.142181375861603,
2250
+ "grad_norm": 0.00288871256634593,
2251
+ "learning_rate": 6.35530860489563e-06,
2252
+ "loss": 0.1376853370666504,
2253
+ "step": 15850
2254
+ },
2255
+ {
2256
+ "epoch": 2.148939045817002,
2257
+ "grad_norm": 0.07170133292675018,
2258
+ "learning_rate": 6.3052510386944985e-06,
2259
+ "loss": 0.22661022186279298,
2260
+ "step": 15900
2261
+ },
2262
+ {
2263
+ "epoch": 2.1556967157724016,
2264
+ "grad_norm": 2.242140054702759,
2265
+ "learning_rate": 6.255193472493369e-06,
2266
+ "loss": 0.19371969223022462,
2267
+ "step": 15950
2268
+ },
2269
+ {
2270
+ "epoch": 2.162454385727801,
2271
+ "grad_norm": 0.007292329799383879,
2272
+ "learning_rate": 6.205135906292237e-06,
2273
+ "loss": 0.14007676124572754,
2274
+ "step": 16000
2275
+ },
2276
+ {
2277
+ "epoch": 2.1692120556832006,
2278
+ "grad_norm": 0.010140486061573029,
2279
+ "learning_rate": 6.1550783400911055e-06,
2280
+ "loss": 0.11522891998291016,
2281
+ "step": 16050
2282
+ },
2283
+ {
2284
+ "epoch": 2.1759697256385997,
2285
+ "grad_norm": 0.019118858501315117,
2286
+ "learning_rate": 6.105020773889974e-06,
2287
+ "loss": 0.10537444114685059,
2288
+ "step": 16100
2289
+ },
2290
+ {
2291
+ "epoch": 2.182727395593999,
2292
+ "grad_norm": 0.002554641803726554,
2293
+ "learning_rate": 6.054963207688843e-06,
2294
+ "loss": 0.08890585899353028,
2295
+ "step": 16150
2296
+ },
2297
+ {
2298
+ "epoch": 2.1894850655493987,
2299
+ "grad_norm": 0.005230333656072617,
2300
+ "learning_rate": 6.004905641487712e-06,
2301
+ "loss": 0.060731606483459474,
2302
+ "step": 16200
2303
+ },
2304
+ {
2305
+ "epoch": 2.1962427355047978,
2306
+ "grad_norm": 0.46126317977905273,
2307
+ "learning_rate": 5.95484807528658e-06,
2308
+ "loss": 0.06578202724456787,
2309
+ "step": 16250
2310
+ },
2311
+ {
2312
+ "epoch": 2.2030004054601973,
2313
+ "grad_norm": 0.0038304554764181376,
2314
+ "learning_rate": 5.904790509085449e-06,
2315
+ "loss": 0.09989256858825683,
2316
+ "step": 16300
2317
+ },
2318
+ {
2319
+ "epoch": 2.2097580754155968,
2320
+ "grad_norm": 0.010909990407526493,
2321
+ "learning_rate": 5.854732942884317e-06,
2322
+ "loss": 0.06423632144927978,
2323
+ "step": 16350
2324
+ },
2325
+ {
2326
+ "epoch": 2.2165157453709963,
2327
+ "grad_norm": 0.012528044171631336,
2328
+ "learning_rate": 5.804675376683186e-06,
2329
+ "loss": 0.17703054428100587,
2330
+ "step": 16400
2331
+ },
2332
+ {
2333
+ "epoch": 2.2232734153263953,
2334
+ "grad_norm": 360.2218933105469,
2335
+ "learning_rate": 5.754617810482055e-06,
2336
+ "loss": 0.06444434165954589,
2337
+ "step": 16450
2338
+ },
2339
+ {
2340
+ "epoch": 2.230031085281795,
2341
+ "grad_norm": 0.005636855959892273,
2342
+ "learning_rate": 5.704560244280923e-06,
2343
+ "loss": 0.01724057674407959,
2344
+ "step": 16500
2345
+ },
2346
+ {
2347
+ "epoch": 2.2367887552371943,
2348
+ "grad_norm": 0.0011315088486298919,
2349
+ "learning_rate": 5.654502678079792e-06,
2350
+ "loss": 0.11380767822265625,
2351
+ "step": 16550
2352
+ },
2353
+ {
2354
+ "epoch": 2.2435464251925934,
2355
+ "grad_norm": 0.001966334879398346,
2356
+ "learning_rate": 5.604445111878661e-06,
2357
+ "loss": 0.047862215042114256,
2358
+ "step": 16600
2359
+ },
2360
+ {
2361
+ "epoch": 2.250304095147993,
2362
+ "grad_norm": 0.0012165512889623642,
2363
+ "learning_rate": 5.5543875456775295e-06,
2364
+ "loss": 0.07931708812713623,
2365
+ "step": 16650
2366
+ },
2367
+ {
2368
+ "epoch": 2.2570617651033924,
2369
+ "grad_norm": 0.009946290403604507,
2370
+ "learning_rate": 5.504329979476398e-06,
2371
+ "loss": 0.1210904598236084,
2372
+ "step": 16700
2373
+ },
2374
+ {
2375
+ "epoch": 2.263819435058792,
2376
+ "grad_norm": 0.0033872355706989765,
2377
+ "learning_rate": 5.4542724132752664e-06,
2378
+ "loss": 0.06890227317810059,
2379
+ "step": 16750
2380
+ },
2381
+ {
2382
+ "epoch": 2.270577105014191,
2383
+ "grad_norm": 0.01570816896855831,
2384
+ "learning_rate": 5.404214847074137e-06,
2385
+ "loss": 0.050945615768432616,
2386
+ "step": 16800
2387
+ },
2388
+ {
2389
+ "epoch": 2.2773347749695905,
2390
+ "grad_norm": 0.504207968711853,
2391
+ "learning_rate": 5.354157280873005e-06,
2392
+ "loss": 0.04987267017364502,
2393
+ "step": 16850
2394
+ },
2395
+ {
2396
+ "epoch": 2.28409244492499,
2397
+ "grad_norm": 0.0023474390618503094,
2398
+ "learning_rate": 5.3040997146718735e-06,
2399
+ "loss": 0.07442074298858642,
2400
+ "step": 16900
2401
+ },
2402
+ {
2403
+ "epoch": 2.2908501148803895,
2404
+ "grad_norm": 0.2789280414581299,
2405
+ "learning_rate": 5.254042148470742e-06,
2406
+ "loss": 0.04266136169433594,
2407
+ "step": 16950
2408
+ },
2409
+ {
2410
+ "epoch": 2.2976077848357885,
2411
+ "grad_norm": 0.14824353158473969,
2412
+ "learning_rate": 5.20398458226961e-06,
2413
+ "loss": 0.16466136932373046,
2414
+ "step": 17000
2415
+ },
2416
+ {
2417
+ "epoch": 2.304365454791188,
2418
+ "grad_norm": 0.010403298772871494,
2419
+ "learning_rate": 5.15392701606848e-06,
2420
+ "loss": 0.12755483627319336,
2421
+ "step": 17050
2422
+ },
2423
+ {
2424
+ "epoch": 2.3111231247465875,
2425
+ "grad_norm": 70.99131774902344,
2426
+ "learning_rate": 5.103869449867348e-06,
2427
+ "loss": 0.17195240020751953,
2428
+ "step": 17100
2429
+ },
2430
+ {
2431
+ "epoch": 2.3178807947019866,
2432
+ "grad_norm": 0.006223689764738083,
2433
+ "learning_rate": 5.053811883666217e-06,
2434
+ "loss": 0.020604298114776612,
2435
+ "step": 17150
2436
+ },
2437
+ {
2438
+ "epoch": 2.324638464657386,
2439
+ "grad_norm": 0.011977083049714565,
2440
+ "learning_rate": 5.003754317465085e-06,
2441
+ "loss": 0.08143982887268067,
2442
+ "step": 17200
2443
+ },
2444
+ {
2445
+ "epoch": 2.3313961346127856,
2446
+ "grad_norm": 0.014804004691541195,
2447
+ "learning_rate": 4.9536967512639535e-06,
2448
+ "loss": 0.1274884796142578,
2449
+ "step": 17250
2450
+ },
2451
+ {
2452
+ "epoch": 2.3381538045681847,
2453
+ "grad_norm": 0.01787167228758335,
2454
+ "learning_rate": 4.903639185062823e-06,
2455
+ "loss": 0.05703251838684082,
2456
+ "step": 17300
2457
+ },
2458
+ {
2459
+ "epoch": 2.344911474523584,
2460
+ "grad_norm": 0.020681528374552727,
2461
+ "learning_rate": 4.853581618861691e-06,
2462
+ "loss": 0.11474921226501465,
2463
+ "step": 17350
2464
+ },
2465
+ {
2466
+ "epoch": 2.3516691444789837,
2467
+ "grad_norm": 0.013767705298960209,
2468
+ "learning_rate": 4.80352405266056e-06,
2469
+ "loss": 0.09019528388977051,
2470
+ "step": 17400
2471
+ },
2472
+ {
2473
+ "epoch": 2.358426814434383,
2474
+ "grad_norm": 0.0029704535845667124,
2475
+ "learning_rate": 4.753466486459429e-06,
2476
+ "loss": 0.07326930046081542,
2477
+ "step": 17450
2478
+ },
2479
+ {
2480
+ "epoch": 2.3651844843897822,
2481
+ "grad_norm": 0.0017279853345826268,
2482
+ "learning_rate": 4.7034089202582975e-06,
2483
+ "loss": 0.09494049072265626,
2484
+ "step": 17500
2485
+ },
2486
+ {
2487
+ "epoch": 2.3719421543451817,
2488
+ "grad_norm": 0.01662347838282585,
2489
+ "learning_rate": 4.653351354057166e-06,
2490
+ "loss": 0.08398569107055665,
2491
+ "step": 17550
2492
+ },
2493
+ {
2494
+ "epoch": 2.3786998243005812,
2495
+ "grad_norm": 0.029822053387761116,
2496
+ "learning_rate": 4.603293787856034e-06,
2497
+ "loss": 0.0965285587310791,
2498
+ "step": 17600
2499
+ },
2500
+ {
2501
+ "epoch": 2.3854574942559807,
2502
+ "grad_norm": 0.23640286922454834,
2503
+ "learning_rate": 4.553236221654904e-06,
2504
+ "loss": 0.04336097717285156,
2505
+ "step": 17650
2506
+ },
2507
+ {
2508
+ "epoch": 2.39221516421138,
2509
+ "grad_norm": 0.01468204241245985,
2510
+ "learning_rate": 4.503178655453772e-06,
2511
+ "loss": 0.1220925521850586,
2512
+ "step": 17700
2513
+ },
2514
+ {
2515
+ "epoch": 2.3989728341667793,
2516
+ "grad_norm": 0.03710741922259331,
2517
+ "learning_rate": 4.4531210892526415e-06,
2518
+ "loss": 0.14217045783996582,
2519
+ "step": 17750
2520
+ },
2521
+ {
2522
+ "epoch": 2.405730504122179,
2523
+ "grad_norm": 0.001643803552724421,
2524
+ "learning_rate": 4.40306352305151e-06,
2525
+ "loss": 0.0781629228591919,
2526
+ "step": 17800
2527
+ },
2528
+ {
2529
+ "epoch": 2.412488174077578,
2530
+ "grad_norm": 0.005556935910135508,
2531
+ "learning_rate": 4.353005956850378e-06,
2532
+ "loss": 0.06303605079650879,
2533
+ "step": 17850
2534
+ },
2535
+ {
2536
+ "epoch": 2.4192458440329774,
2537
+ "grad_norm": 0.0012224218808114529,
2538
+ "learning_rate": 4.302948390649247e-06,
2539
+ "loss": 0.06739924907684326,
2540
+ "step": 17900
2541
+ },
2542
+ {
2543
+ "epoch": 2.426003513988377,
2544
+ "grad_norm": 0.007048673462122679,
2545
+ "learning_rate": 4.252890824448115e-06,
2546
+ "loss": 0.15105469703674315,
2547
+ "step": 17950
2548
+ },
2549
+ {
2550
+ "epoch": 2.432761183943776,
2551
+ "grad_norm": 0.018857238814234734,
2552
+ "learning_rate": 4.202833258246985e-06,
2553
+ "loss": 0.05414244651794434,
2554
+ "step": 18000
2555
+ },
2556
+ {
2557
+ "epoch": 2.4395188538991754,
2558
+ "grad_norm": 0.04056254029273987,
2559
+ "learning_rate": 4.152775692045853e-06,
2560
+ "loss": 0.08572115898132324,
2561
+ "step": 18050
2562
+ },
2563
+ {
2564
+ "epoch": 2.446276523854575,
2565
+ "grad_norm": 0.004304830450564623,
2566
+ "learning_rate": 4.1027181258447215e-06,
2567
+ "loss": 0.10598690032958985,
2568
+ "step": 18100
2569
+ },
2570
+ {
2571
+ "epoch": 2.4530341938099745,
2572
+ "grad_norm": 0.45981258153915405,
2573
+ "learning_rate": 4.05266055964359e-06,
2574
+ "loss": 0.1520198917388916,
2575
+ "step": 18150
2576
+ },
2577
+ {
2578
+ "epoch": 2.4597918637653735,
2579
+ "grad_norm": 0.0010058052139356732,
2580
+ "learning_rate": 4.002602993442459e-06,
2581
+ "loss": 0.000949324369430542,
2582
+ "step": 18200
2583
+ },
2584
+ {
2585
+ "epoch": 2.466549533720773,
2586
+ "grad_norm": 0.7622770071029663,
2587
+ "learning_rate": 3.952545427241328e-06,
2588
+ "loss": 0.08991068840026856,
2589
+ "step": 18250
2590
+ },
2591
+ {
2592
+ "epoch": 2.4733072036761725,
2593
+ "grad_norm": 0.0006587824318557978,
2594
+ "learning_rate": 3.902487861040197e-06,
2595
+ "loss": 0.0005220246315002442,
2596
+ "step": 18300
2597
+ },
2598
+ {
2599
+ "epoch": 2.480064873631572,
2600
+ "grad_norm": 0.008263742551207542,
2601
+ "learning_rate": 3.8524302948390655e-06,
2602
+ "loss": 0.10548673629760742,
2603
+ "step": 18350
2604
+ },
2605
+ {
2606
+ "epoch": 2.486822543586971,
2607
+ "grad_norm": 0.002541335765272379,
2608
+ "learning_rate": 3.8023727286379344e-06,
2609
+ "loss": 0.08907471656799316,
2610
+ "step": 18400
2611
+ },
2612
+ {
2613
+ "epoch": 2.4935802135423706,
2614
+ "grad_norm": 0.0045174965634942055,
2615
+ "learning_rate": 3.7523151624368024e-06,
2616
+ "loss": 0.12158055305480957,
2617
+ "step": 18450
2618
+ },
2619
+ {
2620
+ "epoch": 2.50033788349777,
2621
+ "grad_norm": 0.11145602911710739,
2622
+ "learning_rate": 3.702257596235671e-06,
2623
+ "loss": 0.027370555400848387,
2624
+ "step": 18500
2625
+ },
2626
+ {
2627
+ "epoch": 2.507095553453169,
2628
+ "grad_norm": 0.06724914163351059,
2629
+ "learning_rate": 3.65220003003454e-06,
2630
+ "loss": 0.10710090637207031,
2631
+ "step": 18550
2632
+ },
2633
+ {
2634
+ "epoch": 2.5138532234085686,
2635
+ "grad_norm": 0.033600274473428726,
2636
+ "learning_rate": 3.6021424638334086e-06,
2637
+ "loss": 0.04707695484161377,
2638
+ "step": 18600
2639
+ },
2640
+ {
2641
+ "epoch": 2.520610893363968,
2642
+ "grad_norm": 0.08391136676073074,
2643
+ "learning_rate": 3.5520848976322775e-06,
2644
+ "loss": 0.02492550849914551,
2645
+ "step": 18650
2646
+ },
2647
+ {
2648
+ "epoch": 2.527368563319367,
2649
+ "grad_norm": 0.0006770718027837574,
2650
+ "learning_rate": 3.502027331431146e-06,
2651
+ "loss": 0.018025219440460205,
2652
+ "step": 18700
2653
+ },
2654
+ {
2655
+ "epoch": 2.5341262332747667,
2656
+ "grad_norm": 0.054639119654893875,
2657
+ "learning_rate": 3.451969765230015e-06,
2658
+ "loss": 0.00034577369689941406,
2659
+ "step": 18750
2660
+ },
2661
+ {
2662
+ "epoch": 2.540883903230166,
2663
+ "grad_norm": 0.06790229678153992,
2664
+ "learning_rate": 3.4019121990288833e-06,
2665
+ "loss": 0.03392164945602417,
2666
+ "step": 18800
2667
+ },
2668
+ {
2669
+ "epoch": 2.5476415731855657,
2670
+ "grad_norm": 0.0023788262624293566,
2671
+ "learning_rate": 3.351854632827752e-06,
2672
+ "loss": 0.096776123046875,
2673
+ "step": 18850
2674
+ },
2675
+ {
2676
+ "epoch": 2.5543992431409652,
2677
+ "grad_norm": 34.9875373840332,
2678
+ "learning_rate": 3.3017970666266206e-06,
2679
+ "loss": 0.09802338600158692,
2680
+ "step": 18900
2681
+ },
2682
+ {
2683
+ "epoch": 2.5611569130963643,
2684
+ "grad_norm": 0.005968010518699884,
2685
+ "learning_rate": 3.25173950042549e-06,
2686
+ "loss": 0.154553861618042,
2687
+ "step": 18950
2688
+ },
2689
+ {
2690
+ "epoch": 2.567914583051764,
2691
+ "grad_norm": 0.0010768665233626962,
2692
+ "learning_rate": 3.2016819342243584e-06,
2693
+ "loss": 0.037902953624725344,
2694
+ "step": 19000
2695
+ },
2696
+ {
2697
+ "epoch": 2.5746722530071633,
2698
+ "grad_norm": 0.005550037138164043,
2699
+ "learning_rate": 3.1516243680232272e-06,
2700
+ "loss": 0.0898381519317627,
2701
+ "step": 19050
2702
+ },
2703
+ {
2704
+ "epoch": 2.5814299229625624,
2705
+ "grad_norm": 0.003930082079023123,
2706
+ "learning_rate": 3.1015668018220957e-06,
2707
+ "loss": 0.0002598583698272705,
2708
+ "step": 19100
2709
+ },
2710
+ {
2711
+ "epoch": 2.588187592917962,
2712
+ "grad_norm": 0.00719639053568244,
2713
+ "learning_rate": 3.051509235620964e-06,
2714
+ "loss": 0.0004229414463043213,
2715
+ "step": 19150
2716
+ },
2717
+ {
2718
+ "epoch": 2.5949452628733614,
2719
+ "grad_norm": 0.00710981385782361,
2720
+ "learning_rate": 3.001451669419833e-06,
2721
+ "loss": 0.05192263126373291,
2722
+ "step": 19200
2723
+ },
2724
+ {
2725
+ "epoch": 2.6017029328287604,
2726
+ "grad_norm": 101.4814224243164,
2727
+ "learning_rate": 2.9513941032187015e-06,
2728
+ "loss": 0.05233159065246582,
2729
+ "step": 19250
2730
+ },
2731
+ {
2732
+ "epoch": 2.60846060278416,
2733
+ "grad_norm": 0.0006045199697837234,
2734
+ "learning_rate": 2.9013365370175704e-06,
2735
+ "loss": 0.0001742267608642578,
2736
+ "step": 19300
2737
+ },
2738
+ {
2739
+ "epoch": 2.6152182727395594,
2740
+ "grad_norm": 6.727764129638672,
2741
+ "learning_rate": 2.851278970816439e-06,
2742
+ "loss": 0.0005090945959091187,
2743
+ "step": 19350
2744
+ },
2745
+ {
2746
+ "epoch": 2.621975942694959,
2747
+ "grad_norm": 0.0011069847969338298,
2748
+ "learning_rate": 2.801221404615308e-06,
2749
+ "loss": 0.02414227247238159,
2750
+ "step": 19400
2751
+ },
2752
+ {
2753
+ "epoch": 2.6287336126503584,
2754
+ "grad_norm": 0.0020342168863862753,
2755
+ "learning_rate": 2.7511638384141766e-06,
2756
+ "loss": 0.04676462173461914,
2757
+ "step": 19450
2758
+ },
2759
+ {
2760
+ "epoch": 2.6354912826057575,
2761
+ "grad_norm": 0.0005501318373717368,
2762
+ "learning_rate": 2.7011062722130455e-06,
2763
+ "loss": 0.06581556320190429,
2764
+ "step": 19500
2765
+ },
2766
+ {
2767
+ "epoch": 2.642248952561157,
2768
+ "grad_norm": 0.0007036877213977277,
2769
+ "learning_rate": 2.651048706011914e-06,
2770
+ "loss": 0.04698281764984131,
2771
+ "step": 19550
2772
+ },
2773
+ {
2774
+ "epoch": 2.6490066225165565,
2775
+ "grad_norm": 0.002277799416333437,
2776
+ "learning_rate": 2.600991139810783e-06,
2777
+ "loss": 0.11243149757385254,
2778
+ "step": 19600
2779
+ },
2780
+ {
2781
+ "epoch": 2.6557642924719556,
2782
+ "grad_norm": 0.004528827499598265,
2783
+ "learning_rate": 2.5509335736096513e-06,
2784
+ "loss": 0.11157805442810059,
2785
+ "step": 19650
2786
+ },
2787
+ {
2788
+ "epoch": 2.662521962427355,
2789
+ "grad_norm": 1.4003304243087769,
2790
+ "learning_rate": 2.5008760074085197e-06,
2791
+ "loss": 0.08801917076110839,
2792
+ "step": 19700
2793
+ },
2794
+ {
2795
+ "epoch": 2.6692796323827546,
2796
+ "grad_norm": 0.020114433020353317,
2797
+ "learning_rate": 2.4508184412073886e-06,
2798
+ "loss": 0.21220327377319337,
2799
+ "step": 19750
2800
+ },
2801
+ {
2802
+ "epoch": 2.6760373023381536,
2803
+ "grad_norm": 0.018475929275155067,
2804
+ "learning_rate": 2.4007608750062575e-06,
2805
+ "loss": 0.07419031143188476,
2806
+ "step": 19800
2807
+ },
2808
+ {
2809
+ "epoch": 2.682794972293553,
2810
+ "grad_norm": 0.003193729789927602,
2811
+ "learning_rate": 2.3507033088051263e-06,
2812
+ "loss": 0.08196438789367676,
2813
+ "step": 19850
2814
+ },
2815
+ {
2816
+ "epoch": 2.6895526422489526,
2817
+ "grad_norm": 0.0011461104732006788,
2818
+ "learning_rate": 2.300645742603995e-06,
2819
+ "loss": 0.051229662895202636,
2820
+ "step": 19900
2821
+ },
2822
+ {
2823
+ "epoch": 2.6963103122043517,
2824
+ "grad_norm": 0.028392083942890167,
2825
+ "learning_rate": 2.2505881764028633e-06,
2826
+ "loss": 0.22081806182861327,
2827
+ "step": 19950
2828
+ },
2829
+ {
2830
+ "epoch": 2.703067982159751,
2831
+ "grad_norm": 0.00366395921446383,
2832
+ "learning_rate": 2.200530610201732e-06,
2833
+ "loss": 0.11483686447143554,
2834
+ "step": 20000
2835
+ },
2836
+ {
2837
+ "epoch": 2.7098256521151507,
2838
+ "grad_norm": 0.016792714595794678,
2839
+ "learning_rate": 2.150473044000601e-06,
2840
+ "loss": 0.06181726932525635,
2841
+ "step": 20050
2842
+ },
2843
+ {
2844
+ "epoch": 2.71658332207055,
2845
+ "grad_norm": 0.0016602030955255032,
2846
+ "learning_rate": 2.1004154777994695e-06,
2847
+ "loss": 0.13399076461791992,
2848
+ "step": 20100
2849
+ },
2850
+ {
2851
+ "epoch": 2.7233409920259497,
2852
+ "grad_norm": 0.03401346504688263,
2853
+ "learning_rate": 2.0503579115983383e-06,
2854
+ "loss": 0.09610502243041992,
2855
+ "step": 20150
2856
+ },
2857
+ {
2858
+ "epoch": 2.7300986619813488,
2859
+ "grad_norm": 0.0012083080364391208,
2860
+ "learning_rate": 2.000300345397207e-06,
2861
+ "loss": 0.10456615447998047,
2862
+ "step": 20200
2863
+ },
2864
+ {
2865
+ "epoch": 2.7368563319367483,
2866
+ "grad_norm": 0.23686014115810394,
2867
+ "learning_rate": 1.9502427791960757e-06,
2868
+ "loss": 0.05664618968963623,
2869
+ "step": 20250
2870
+ },
2871
+ {
2872
+ "epoch": 2.7436140018921478,
2873
+ "grad_norm": 0.04736332222819328,
2874
+ "learning_rate": 1.9001852129949443e-06,
2875
+ "loss": 0.10926689147949219,
2876
+ "step": 20300
2877
+ },
2878
+ {
2879
+ "epoch": 2.750371671847547,
2880
+ "grad_norm": 0.0023457373026758432,
2881
+ "learning_rate": 1.8501276467938132e-06,
2882
+ "loss": 0.13384007453918456,
2883
+ "step": 20350
2884
+ },
2885
+ {
2886
+ "epoch": 2.7571293418029463,
2887
+ "grad_norm": 0.005340518895536661,
2888
+ "learning_rate": 1.8000700805926819e-06,
2889
+ "loss": 0.05119992733001709,
2890
+ "step": 20400
2891
+ },
2892
+ {
2893
+ "epoch": 2.763887011758346,
2894
+ "grad_norm": 0.0013073196168988943,
2895
+ "learning_rate": 1.7500125143915503e-06,
2896
+ "loss": 0.07081173419952393,
2897
+ "step": 20450
2898
+ },
2899
+ {
2900
+ "epoch": 2.770644681713745,
2901
+ "grad_norm": 0.0015691856388002634,
2902
+ "learning_rate": 1.699954948190419e-06,
2903
+ "loss": 0.04183328628540039,
2904
+ "step": 20500
2905
+ },
2906
+ {
2907
+ "epoch": 2.7774023516691444,
2908
+ "grad_norm": 57.649574279785156,
2909
+ "learning_rate": 1.6498973819892877e-06,
2910
+ "loss": 0.07409313201904297,
2911
+ "step": 20550
2912
+ },
2913
+ {
2914
+ "epoch": 2.784160021624544,
2915
+ "grad_norm": 63.43701171875,
2916
+ "learning_rate": 1.5998398157881564e-06,
2917
+ "loss": 0.03429892063140869,
2918
+ "step": 20600
2919
+ },
2920
+ {
2921
+ "epoch": 2.790917691579943,
2922
+ "grad_norm": 0.25699251890182495,
2923
+ "learning_rate": 1.5497822495870252e-06,
2924
+ "loss": 0.062169432640075684,
2925
+ "step": 20650
2926
+ },
2927
+ {
2928
+ "epoch": 2.7976753615353425,
2929
+ "grad_norm": 0.0006383510190062225,
2930
+ "learning_rate": 1.499724683385894e-06,
2931
+ "loss": 0.09383662223815918,
2932
+ "step": 20700
2933
+ },
2934
+ {
2935
+ "epoch": 2.804433031490742,
2936
+ "grad_norm": 0.6026961803436279,
2937
+ "learning_rate": 1.4496671171847626e-06,
2938
+ "loss": 0.029181952476501464,
2939
+ "step": 20750
2940
+ },
2941
+ {
2942
+ "epoch": 2.8111907014461415,
2943
+ "grad_norm": 0.0031832880340516567,
2944
+ "learning_rate": 1.3996095509836312e-06,
2945
+ "loss": 0.10682568550109864,
2946
+ "step": 20800
2947
+ },
2948
+ {
2949
+ "epoch": 2.817948371401541,
2950
+ "grad_norm": 0.06199163198471069,
2951
+ "learning_rate": 1.3495519847825001e-06,
2952
+ "loss": 0.17822813034057616,
2953
+ "step": 20850
2954
+ },
2955
+ {
2956
+ "epoch": 2.82470604135694,
2957
+ "grad_norm": 0.0034721684642136097,
2958
+ "learning_rate": 1.2994944185813688e-06,
2959
+ "loss": 0.09863890647888184,
2960
+ "step": 20900
2961
+ },
2962
+ {
2963
+ "epoch": 2.8314637113123395,
2964
+ "grad_norm": 0.023132864385843277,
2965
+ "learning_rate": 1.2494368523802374e-06,
2966
+ "loss": 0.162152099609375,
2967
+ "step": 20950
2968
+ },
2969
+ {
2970
+ "epoch": 2.838221381267739,
2971
+ "grad_norm": 0.0008075262885540724,
2972
+ "learning_rate": 1.1993792861791061e-06,
2973
+ "loss": 0.09824638366699219,
2974
+ "step": 21000
2975
+ },
2976
+ {
2977
+ "epoch": 2.844979051223138,
2978
+ "grad_norm": 0.31778621673583984,
2979
+ "learning_rate": 1.1493217199779748e-06,
2980
+ "loss": 0.047033162117004396,
2981
+ "step": 21050
2982
+ },
2983
+ {
2984
+ "epoch": 2.8517367211785376,
2985
+ "grad_norm": 0.03576982393860817,
2986
+ "learning_rate": 1.0992641537768434e-06,
2987
+ "loss": 0.08890575408935547,
2988
+ "step": 21100
2989
+ },
2990
+ {
2991
+ "epoch": 2.858494391133937,
2992
+ "grad_norm": 9.656866073608398,
2993
+ "learning_rate": 1.0492065875757121e-06,
2994
+ "loss": 0.1096105670928955,
2995
+ "step": 21150
2996
+ },
2997
+ {
2998
+ "epoch": 2.865252061089336,
2999
+ "grad_norm": 0.0005786643596366048,
3000
+ "learning_rate": 9.991490213745808e-07,
3001
+ "loss": 0.0002528005838394165,
3002
+ "step": 21200
3003
+ },
3004
+ {
3005
+ "epoch": 2.8720097310447357,
3006
+ "grad_norm": 0.0012748179724439979,
3007
+ "learning_rate": 9.490914551734496e-07,
3008
+ "loss": 0.136431884765625,
3009
+ "step": 21250
3010
+ },
3011
+ {
3012
+ "epoch": 2.878767401000135,
3013
+ "grad_norm": 0.0009654840687289834,
3014
+ "learning_rate": 8.990338889723182e-07,
3015
+ "loss": 0.0849915599822998,
3016
+ "step": 21300
3017
+ },
3018
+ {
3019
+ "epoch": 2.8855250709555347,
3020
+ "grad_norm": 0.08358582854270935,
3021
+ "learning_rate": 8.48976322771187e-07,
3022
+ "loss": 0.05486437797546387,
3023
+ "step": 21350
3024
+ },
3025
+ {
3026
+ "epoch": 2.892282740910934,
3027
+ "grad_norm": 0.016318723559379578,
3028
+ "learning_rate": 7.989187565700557e-07,
3029
+ "loss": 0.08288352966308593,
3030
+ "step": 21400
3031
+ },
3032
+ {
3033
+ "epoch": 2.8990404108663332,
3034
+ "grad_norm": 4.843513488769531,
3035
+ "learning_rate": 7.488611903689242e-07,
3036
+ "loss": 0.07068184852600097,
3037
+ "step": 21450
3038
+ },
3039
+ {
3040
+ "epoch": 2.9057980808217327,
3041
+ "grad_norm": 0.0013034067815169692,
3042
+ "learning_rate": 6.98803624167793e-07,
3043
+ "loss": 0.044244151115417484,
3044
+ "step": 21500
3045
+ },
3046
+ {
3047
+ "epoch": 2.9125557507771322,
3048
+ "grad_norm": 0.01674531400203705,
3049
+ "learning_rate": 6.487460579666617e-07,
3050
+ "loss": 0.0642578935623169,
3051
+ "step": 21550
3052
+ },
3053
+ {
3054
+ "epoch": 2.9193134207325313,
3055
+ "grad_norm": 0.0049995374865829945,
3056
+ "learning_rate": 5.986884917655304e-07,
3057
+ "loss": 0.14431939125061036,
3058
+ "step": 21600
3059
+ },
3060
+ {
3061
+ "epoch": 2.926071090687931,
3062
+ "grad_norm": 0.00926155038177967,
3063
+ "learning_rate": 5.486309255643991e-07,
3064
+ "loss": 0.03058389902114868,
3065
+ "step": 21650
3066
+ },
3067
+ {
3068
+ "epoch": 2.9328287606433303,
3069
+ "grad_norm": 0.023561256006360054,
3070
+ "learning_rate": 4.985733593632678e-07,
3071
+ "loss": 0.09700474739074708,
3072
+ "step": 21700
3073
+ },
3074
+ {
3075
+ "epoch": 2.9395864305987294,
3076
+ "grad_norm": 0.002966544823721051,
3077
+ "learning_rate": 4.4851579316213654e-07,
3078
+ "loss": 0.08508275985717774,
3079
+ "step": 21750
3080
+ },
3081
+ {
3082
+ "epoch": 2.946344100554129,
3083
+ "grad_norm": 0.003825432388111949,
3084
+ "learning_rate": 3.9845822696100515e-07,
3085
+ "loss": 0.11144843101501464,
3086
+ "step": 21800
3087
+ },
3088
+ {
3089
+ "epoch": 2.9531017705095284,
3090
+ "grad_norm": 0.005938540678471327,
3091
+ "learning_rate": 3.484006607598739e-07,
3092
+ "loss": 0.134426851272583,
3093
+ "step": 21850
3094
+ },
3095
+ {
3096
+ "epoch": 2.9598594404649274,
3097
+ "grad_norm": 0.0038295928388834,
3098
+ "learning_rate": 2.983430945587426e-07,
3099
+ "loss": 0.11520405769348145,
3100
+ "step": 21900
3101
+ },
3102
+ {
3103
+ "epoch": 2.966617110420327,
3104
+ "grad_norm": 0.022271599620580673,
3105
+ "learning_rate": 2.4828552835761126e-07,
3106
+ "loss": 0.036415774822235104,
3107
+ "step": 21950
3108
+ },
3109
+ {
3110
+ "epoch": 2.9733747803757264,
3111
+ "grad_norm": 0.08405578881502151,
3112
+ "learning_rate": 1.9822796215647998e-07,
3113
+ "loss": 0.0003047233819961548,
3114
+ "step": 22000
3115
+ },
3116
+ {
3117
+ "epoch": 2.980132450331126,
3118
+ "grad_norm": 0.3389264941215515,
3119
+ "learning_rate": 1.4817039595534867e-07,
3120
+ "loss": 0.06158688545227051,
3121
+ "step": 22050
3122
+ },
3123
+ {
3124
+ "epoch": 2.9868901202865255,
3125
+ "grad_norm": 23.368932723999023,
3126
+ "learning_rate": 9.811282975421737e-08,
3127
+ "loss": 0.09837133407592774,
3128
+ "step": 22100
3129
+ },
3130
+ {
3131
+ "epoch": 2.9936477902419245,
3132
+ "grad_norm": 0.001970636658370495,
3133
+ "learning_rate": 4.805526355308605e-08,
3134
+ "loss": 0.07353384971618653,
3135
+ "step": 22150
3136
+ },
3137
+ {
3138
+ "epoch": 3.0,
3139
+ "eval_accuracy": 0.9708597146998246,
3140
+ "eval_f1": 0.9688061407806631,
3141
+ "eval_loss": 0.18717099726200104,
3142
+ "eval_precision": 0.9581650783395251,
3143
+ "eval_recall": 0.9796862097440132,
3144
+ "eval_runtime": 67.7468,
3145
+ "eval_samples_per_second": 193.5,
3146
+ "eval_steps_per_second": 48.386,
3147
+ "step": 22197
3148
+ }
3149
+ ],
3150
+ "logging_steps": 50,
3151
+ "max_steps": 22197,
3152
+ "num_input_tokens_seen": 0,
3153
+ "num_train_epochs": 3,
3154
+ "save_steps": 500,
3155
+ "stateful_callbacks": {
3156
+ "TrainerControl": {
3157
+ "args": {
3158
+ "should_epoch_stop": false,
3159
+ "should_evaluate": false,
3160
+ "should_log": false,
3161
+ "should_save": true,
3162
+ "should_training_stop": true
3163
+ },
3164
+ "attributes": {}
3165
+ }
3166
+ },
3167
+ "total_flos": 4.67206301002752e+16,
3168
+ "train_batch_size": 4,
3169
+ "trial_name": null,
3170
+ "trial_params": null
3171
+ }
Text/checkpoints/checkpoint-22197/training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6912b48b4d2e5518f51e3368cd92bf072676433461d9ae81c051873d6706f745
3
+ size 5265
Text/config.json ADDED
@@ -0,0 +1,31 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "add_cross_attention": false,
3
+ "architectures": [
4
+ "BertForSequenceClassification"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": null,
8
+ "classifier_dropout": null,
9
+ "dtype": "float32",
10
+ "eos_token_id": null,
11
+ "gradient_checkpointing": false,
12
+ "hidden_act": "gelu",
13
+ "hidden_dropout_prob": 0.1,
14
+ "hidden_size": 768,
15
+ "initializer_range": 0.02,
16
+ "intermediate_size": 3072,
17
+ "is_decoder": false,
18
+ "layer_norm_eps": 1e-12,
19
+ "max_position_embeddings": 512,
20
+ "model_type": "bert",
21
+ "num_attention_heads": 12,
22
+ "num_hidden_layers": 12,
23
+ "pad_token_id": 0,
24
+ "position_embedding_type": "absolute",
25
+ "problem_type": "single_label_classification",
26
+ "tie_word_embeddings": true,
27
+ "transformers_version": "5.1.0",
28
+ "type_vocab_size": 2,
29
+ "use_cache": false,
30
+ "vocab_size": 30522
31
+ }
Text/model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:17dc4e97b7ee1c27c9d6cbf8f846f671b878b2111ccb27812faa550918aa7ac2
3
+ size 437958624
Text/tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
Text/tokenizer_config.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "backend": "tokenizers",
3
+ "cls_token": "[CLS]",
4
+ "do_lower_case": true,
5
+ "is_local": false,
6
+ "mask_token": "[MASK]",
7
+ "model_max_length": 512,
8
+ "pad_token": "[PAD]",
9
+ "sep_token": "[SEP]",
10
+ "strip_accents": null,
11
+ "tokenize_chinese_chars": true,
12
+ "tokenizer_class": "BertTokenizer",
13
+ "unk_token": "[UNK]"
14
+ }
Text/training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6912b48b4d2e5518f51e3368cd92bf072676433461d9ae81c051873d6706f745
3
+ size 5265
ensemble_feature_names.pkl ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:938b485cd6b2c2d65735a0e1f80ec0d39675f0b10cf0dea2489398b126b3e96c
3
+ size 117