lucifer112 commited on
Commit
97c5986
·
verified ·
1 Parent(s): 5617116

Upload trainer_state.json with huggingface_hub

Browse files
Files changed (1) hide show
  1. trainer_state.json +2245 -0
trainer_state.json ADDED
@@ -0,0 +1,2245 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": null,
3
+ "best_model_checkpoint": null,
4
+ "epoch": 14.962593516209477,
5
+ "eval_steps": 500,
6
+ "global_step": 3000,
7
+ "is_hyper_param_search": false,
8
+ "is_local_process_zero": true,
9
+ "is_world_process_zero": true,
10
+ "log_history": [
11
+ {
12
+ "epoch": 0.04987531172069826,
13
+ "grad_norm": 39.54836654663086,
14
+ "learning_rate": 1.9940000000000002e-05,
15
+ "loss": 7.4096,
16
+ "step": 10
17
+ },
18
+ {
19
+ "epoch": 0.09975062344139651,
20
+ "grad_norm": 47.2942008972168,
21
+ "learning_rate": 1.9873333333333335e-05,
22
+ "loss": 5.883,
23
+ "step": 20
24
+ },
25
+ {
26
+ "epoch": 0.14962593516209477,
27
+ "grad_norm": 44.06085968017578,
28
+ "learning_rate": 1.9806666666666668e-05,
29
+ "loss": 3.9265,
30
+ "step": 30
31
+ },
32
+ {
33
+ "epoch": 0.19950124688279303,
34
+ "grad_norm": 19.404735565185547,
35
+ "learning_rate": 1.974e-05,
36
+ "loss": 1.9858,
37
+ "step": 40
38
+ },
39
+ {
40
+ "epoch": 0.24937655860349128,
41
+ "grad_norm": 1.9771770238876343,
42
+ "learning_rate": 1.9673333333333337e-05,
43
+ "loss": 1.0943,
44
+ "step": 50
45
+ },
46
+ {
47
+ "epoch": 0.29925187032418954,
48
+ "grad_norm": 0.6882551312446594,
49
+ "learning_rate": 1.9606666666666666e-05,
50
+ "loss": 0.9006,
51
+ "step": 60
52
+ },
53
+ {
54
+ "epoch": 0.3491271820448878,
55
+ "grad_norm": 0.7775446772575378,
56
+ "learning_rate": 1.9540000000000003e-05,
57
+ "loss": 0.8786,
58
+ "step": 70
59
+ },
60
+ {
61
+ "epoch": 0.39900249376558605,
62
+ "grad_norm": 0.720007598400116,
63
+ "learning_rate": 1.9473333333333335e-05,
64
+ "loss": 0.858,
65
+ "step": 80
66
+ },
67
+ {
68
+ "epoch": 0.4488778054862843,
69
+ "grad_norm": 0.6773384809494019,
70
+ "learning_rate": 1.940666666666667e-05,
71
+ "loss": 0.811,
72
+ "step": 90
73
+ },
74
+ {
75
+ "epoch": 0.49875311720698257,
76
+ "grad_norm": 0.6907929182052612,
77
+ "learning_rate": 1.934e-05,
78
+ "loss": 0.7896,
79
+ "step": 100
80
+ },
81
+ {
82
+ "epoch": 0.5486284289276808,
83
+ "grad_norm": 0.7552163600921631,
84
+ "learning_rate": 1.9273333333333334e-05,
85
+ "loss": 0.7589,
86
+ "step": 110
87
+ },
88
+ {
89
+ "epoch": 0.5985037406483791,
90
+ "grad_norm": 0.7480026483535767,
91
+ "learning_rate": 1.920666666666667e-05,
92
+ "loss": 0.7347,
93
+ "step": 120
94
+ },
95
+ {
96
+ "epoch": 0.6483790523690773,
97
+ "grad_norm": 0.9136413931846619,
98
+ "learning_rate": 1.914e-05,
99
+ "loss": 0.7218,
100
+ "step": 130
101
+ },
102
+ {
103
+ "epoch": 0.6982543640897756,
104
+ "grad_norm": 0.7177766561508179,
105
+ "learning_rate": 1.9073333333333336e-05,
106
+ "loss": 0.6983,
107
+ "step": 140
108
+ },
109
+ {
110
+ "epoch": 0.7481296758104738,
111
+ "grad_norm": 0.7291643023490906,
112
+ "learning_rate": 1.900666666666667e-05,
113
+ "loss": 0.6811,
114
+ "step": 150
115
+ },
116
+ {
117
+ "epoch": 0.7980049875311721,
118
+ "grad_norm": 0.8402264714241028,
119
+ "learning_rate": 1.894e-05,
120
+ "loss": 0.6518,
121
+ "step": 160
122
+ },
123
+ {
124
+ "epoch": 0.8478802992518704,
125
+ "grad_norm": 0.7445259690284729,
126
+ "learning_rate": 1.8873333333333334e-05,
127
+ "loss": 0.6621,
128
+ "step": 170
129
+ },
130
+ {
131
+ "epoch": 0.8977556109725686,
132
+ "grad_norm": 0.7637977004051208,
133
+ "learning_rate": 1.8806666666666667e-05,
134
+ "loss": 0.623,
135
+ "step": 180
136
+ },
137
+ {
138
+ "epoch": 0.9476309226932669,
139
+ "grad_norm": 0.7605411410331726,
140
+ "learning_rate": 1.8740000000000004e-05,
141
+ "loss": 0.642,
142
+ "step": 190
143
+ },
144
+ {
145
+ "epoch": 0.9975062344139651,
146
+ "grad_norm": 0.7474659085273743,
147
+ "learning_rate": 1.8673333333333333e-05,
148
+ "loss": 0.6081,
149
+ "step": 200
150
+ },
151
+ {
152
+ "epoch": 0.9975062344139651,
153
+ "eval_loss": 0.6107227802276611,
154
+ "eval_runtime": 57.9983,
155
+ "eval_samples_per_second": 17.294,
156
+ "eval_steps_per_second": 3.466,
157
+ "step": 200
158
+ },
159
+ {
160
+ "epoch": 1.0473815461346634,
161
+ "grad_norm": 0.7955527901649475,
162
+ "learning_rate": 1.860666666666667e-05,
163
+ "loss": 0.6313,
164
+ "step": 210
165
+ },
166
+ {
167
+ "epoch": 1.0972568578553616,
168
+ "grad_norm": 0.8842599391937256,
169
+ "learning_rate": 1.8540000000000002e-05,
170
+ "loss": 0.5837,
171
+ "step": 220
172
+ },
173
+ {
174
+ "epoch": 1.14713216957606,
175
+ "grad_norm": 0.9143279790878296,
176
+ "learning_rate": 1.8473333333333335e-05,
177
+ "loss": 0.5668,
178
+ "step": 230
179
+ },
180
+ {
181
+ "epoch": 1.1970074812967582,
182
+ "grad_norm": 0.8860597610473633,
183
+ "learning_rate": 1.8406666666666668e-05,
184
+ "loss": 0.565,
185
+ "step": 240
186
+ },
187
+ {
188
+ "epoch": 1.2468827930174564,
189
+ "grad_norm": 0.8665011525154114,
190
+ "learning_rate": 1.834e-05,
191
+ "loss": 0.5611,
192
+ "step": 250
193
+ },
194
+ {
195
+ "epoch": 1.2967581047381547,
196
+ "grad_norm": 0.8916261196136475,
197
+ "learning_rate": 1.8273333333333333e-05,
198
+ "loss": 0.5461,
199
+ "step": 260
200
+ },
201
+ {
202
+ "epoch": 1.346633416458853,
203
+ "grad_norm": 0.8792281150817871,
204
+ "learning_rate": 1.820666666666667e-05,
205
+ "loss": 0.5569,
206
+ "step": 270
207
+ },
208
+ {
209
+ "epoch": 1.3965087281795512,
210
+ "grad_norm": 0.8166815638542175,
211
+ "learning_rate": 1.8140000000000003e-05,
212
+ "loss": 0.5435,
213
+ "step": 280
214
+ },
215
+ {
216
+ "epoch": 1.4463840399002494,
217
+ "grad_norm": 0.9711934328079224,
218
+ "learning_rate": 1.8073333333333335e-05,
219
+ "loss": 0.5205,
220
+ "step": 290
221
+ },
222
+ {
223
+ "epoch": 1.4962593516209477,
224
+ "grad_norm": 0.8851374983787537,
225
+ "learning_rate": 1.8006666666666668e-05,
226
+ "loss": 0.5269,
227
+ "step": 300
228
+ },
229
+ {
230
+ "epoch": 1.546134663341646,
231
+ "grad_norm": 0.940987765789032,
232
+ "learning_rate": 1.794e-05,
233
+ "loss": 0.5177,
234
+ "step": 310
235
+ },
236
+ {
237
+ "epoch": 1.5960099750623442,
238
+ "grad_norm": 1.1342016458511353,
239
+ "learning_rate": 1.7873333333333337e-05,
240
+ "loss": 0.4981,
241
+ "step": 320
242
+ },
243
+ {
244
+ "epoch": 1.6458852867830425,
245
+ "grad_norm": 1.0847837924957275,
246
+ "learning_rate": 1.7806666666666667e-05,
247
+ "loss": 0.5056,
248
+ "step": 330
249
+ },
250
+ {
251
+ "epoch": 1.6957605985037407,
252
+ "grad_norm": 0.979576587677002,
253
+ "learning_rate": 1.7740000000000003e-05,
254
+ "loss": 0.5048,
255
+ "step": 340
256
+ },
257
+ {
258
+ "epoch": 1.745635910224439,
259
+ "grad_norm": 0.9637285470962524,
260
+ "learning_rate": 1.7673333333333336e-05,
261
+ "loss": 0.5076,
262
+ "step": 350
263
+ },
264
+ {
265
+ "epoch": 1.7955112219451372,
266
+ "grad_norm": 0.9592918157577515,
267
+ "learning_rate": 1.760666666666667e-05,
268
+ "loss": 0.512,
269
+ "step": 360
270
+ },
271
+ {
272
+ "epoch": 1.8453865336658355,
273
+ "grad_norm": 0.9521375894546509,
274
+ "learning_rate": 1.754e-05,
275
+ "loss": 0.4993,
276
+ "step": 370
277
+ },
278
+ {
279
+ "epoch": 1.8952618453865338,
280
+ "grad_norm": 1.1952577829360962,
281
+ "learning_rate": 1.7473333333333334e-05,
282
+ "loss": 0.4933,
283
+ "step": 380
284
+ },
285
+ {
286
+ "epoch": 1.945137157107232,
287
+ "grad_norm": 0.8078787326812744,
288
+ "learning_rate": 1.7406666666666667e-05,
289
+ "loss": 0.4894,
290
+ "step": 390
291
+ },
292
+ {
293
+ "epoch": 1.9950124688279303,
294
+ "grad_norm": 1.0912864208221436,
295
+ "learning_rate": 1.734e-05,
296
+ "loss": 0.4865,
297
+ "step": 400
298
+ },
299
+ {
300
+ "epoch": 2.0,
301
+ "eval_loss": 0.49822476506233215,
302
+ "eval_runtime": 57.9997,
303
+ "eval_samples_per_second": 17.293,
304
+ "eval_steps_per_second": 3.466,
305
+ "step": 401
306
+ },
307
+ {
308
+ "epoch": 2.0448877805486285,
309
+ "grad_norm": 0.9705982804298401,
310
+ "learning_rate": 1.7273333333333336e-05,
311
+ "loss": 0.4976,
312
+ "step": 410
313
+ },
314
+ {
315
+ "epoch": 2.0947630922693268,
316
+ "grad_norm": 1.0686686038970947,
317
+ "learning_rate": 1.7206666666666666e-05,
318
+ "loss": 0.4851,
319
+ "step": 420
320
+ },
321
+ {
322
+ "epoch": 2.144638403990025,
323
+ "grad_norm": 1.0422980785369873,
324
+ "learning_rate": 1.7140000000000002e-05,
325
+ "loss": 0.4577,
326
+ "step": 430
327
+ },
328
+ {
329
+ "epoch": 2.1945137157107233,
330
+ "grad_norm": 1.0678831338882446,
331
+ "learning_rate": 1.7073333333333335e-05,
332
+ "loss": 0.5092,
333
+ "step": 440
334
+ },
335
+ {
336
+ "epoch": 2.2443890274314215,
337
+ "grad_norm": 1.1621687412261963,
338
+ "learning_rate": 1.7006666666666668e-05,
339
+ "loss": 0.4897,
340
+ "step": 450
341
+ },
342
+ {
343
+ "epoch": 2.29426433915212,
344
+ "grad_norm": 0.9376991391181946,
345
+ "learning_rate": 1.694e-05,
346
+ "loss": 0.4788,
347
+ "step": 460
348
+ },
349
+ {
350
+ "epoch": 2.344139650872818,
351
+ "grad_norm": 1.0832690000534058,
352
+ "learning_rate": 1.6873333333333333e-05,
353
+ "loss": 0.4864,
354
+ "step": 470
355
+ },
356
+ {
357
+ "epoch": 2.3940149625935163,
358
+ "grad_norm": 1.1426657438278198,
359
+ "learning_rate": 1.680666666666667e-05,
360
+ "loss": 0.4659,
361
+ "step": 480
362
+ },
363
+ {
364
+ "epoch": 2.4438902743142146,
365
+ "grad_norm": 1.016119122505188,
366
+ "learning_rate": 1.6740000000000002e-05,
367
+ "loss": 0.4636,
368
+ "step": 490
369
+ },
370
+ {
371
+ "epoch": 2.493765586034913,
372
+ "grad_norm": 1.1347243785858154,
373
+ "learning_rate": 1.6673333333333335e-05,
374
+ "loss": 0.4663,
375
+ "step": 500
376
+ },
377
+ {
378
+ "epoch": 2.543640897755611,
379
+ "grad_norm": 1.087796926498413,
380
+ "learning_rate": 1.6606666666666668e-05,
381
+ "loss": 0.4729,
382
+ "step": 510
383
+ },
384
+ {
385
+ "epoch": 2.5935162094763093,
386
+ "grad_norm": 1.1080952882766724,
387
+ "learning_rate": 1.654e-05,
388
+ "loss": 0.4803,
389
+ "step": 520
390
+ },
391
+ {
392
+ "epoch": 2.6433915211970076,
393
+ "grad_norm": 0.9999821186065674,
394
+ "learning_rate": 1.6473333333333334e-05,
395
+ "loss": 0.4872,
396
+ "step": 530
397
+ },
398
+ {
399
+ "epoch": 2.693266832917706,
400
+ "grad_norm": 1.2594393491744995,
401
+ "learning_rate": 1.640666666666667e-05,
402
+ "loss": 0.4708,
403
+ "step": 540
404
+ },
405
+ {
406
+ "epoch": 2.743142144638404,
407
+ "grad_norm": 1.012904167175293,
408
+ "learning_rate": 1.634e-05,
409
+ "loss": 0.46,
410
+ "step": 550
411
+ },
412
+ {
413
+ "epoch": 2.7930174563591024,
414
+ "grad_norm": 1.052252173423767,
415
+ "learning_rate": 1.6273333333333336e-05,
416
+ "loss": 0.4664,
417
+ "step": 560
418
+ },
419
+ {
420
+ "epoch": 2.8428927680798006,
421
+ "grad_norm": 1.2155933380126953,
422
+ "learning_rate": 1.620666666666667e-05,
423
+ "loss": 0.4518,
424
+ "step": 570
425
+ },
426
+ {
427
+ "epoch": 2.892768079800499,
428
+ "grad_norm": 1.064907193183899,
429
+ "learning_rate": 1.614e-05,
430
+ "loss": 0.4933,
431
+ "step": 580
432
+ },
433
+ {
434
+ "epoch": 2.942643391521197,
435
+ "grad_norm": 1.0846999883651733,
436
+ "learning_rate": 1.6073333333333334e-05,
437
+ "loss": 0.4724,
438
+ "step": 590
439
+ },
440
+ {
441
+ "epoch": 2.9925187032418954,
442
+ "grad_norm": 1.2878086566925049,
443
+ "learning_rate": 1.6006666666666667e-05,
444
+ "loss": 0.4895,
445
+ "step": 600
446
+ },
447
+ {
448
+ "epoch": 2.997506234413965,
449
+ "eval_loss": 0.47463858127593994,
450
+ "eval_runtime": 57.9983,
451
+ "eval_samples_per_second": 17.294,
452
+ "eval_steps_per_second": 3.466,
453
+ "step": 601
454
+ },
455
+ {
456
+ "epoch": 3.0423940149625937,
457
+ "grad_norm": 1.141946792602539,
458
+ "learning_rate": 1.5940000000000003e-05,
459
+ "loss": 0.4808,
460
+ "step": 610
461
+ },
462
+ {
463
+ "epoch": 3.092269326683292,
464
+ "grad_norm": 1.1112643480300903,
465
+ "learning_rate": 1.5873333333333333e-05,
466
+ "loss": 0.4525,
467
+ "step": 620
468
+ },
469
+ {
470
+ "epoch": 3.14214463840399,
471
+ "grad_norm": 1.0057584047317505,
472
+ "learning_rate": 1.580666666666667e-05,
473
+ "loss": 0.4699,
474
+ "step": 630
475
+ },
476
+ {
477
+ "epoch": 3.1920199501246884,
478
+ "grad_norm": 1.3252357244491577,
479
+ "learning_rate": 1.5740000000000002e-05,
480
+ "loss": 0.4631,
481
+ "step": 640
482
+ },
483
+ {
484
+ "epoch": 3.2418952618453867,
485
+ "grad_norm": 1.1567648649215698,
486
+ "learning_rate": 1.5673333333333335e-05,
487
+ "loss": 0.4559,
488
+ "step": 650
489
+ },
490
+ {
491
+ "epoch": 3.291770573566085,
492
+ "grad_norm": 1.0659315586090088,
493
+ "learning_rate": 1.5606666666666667e-05,
494
+ "loss": 0.4575,
495
+ "step": 660
496
+ },
497
+ {
498
+ "epoch": 3.341645885286783,
499
+ "grad_norm": 1.1061469316482544,
500
+ "learning_rate": 1.554e-05,
501
+ "loss": 0.4592,
502
+ "step": 670
503
+ },
504
+ {
505
+ "epoch": 3.3915211970074814,
506
+ "grad_norm": 1.342760443687439,
507
+ "learning_rate": 1.5473333333333333e-05,
508
+ "loss": 0.4459,
509
+ "step": 680
510
+ },
511
+ {
512
+ "epoch": 3.4413965087281797,
513
+ "grad_norm": 1.080640196800232,
514
+ "learning_rate": 1.5406666666666666e-05,
515
+ "loss": 0.4801,
516
+ "step": 690
517
+ },
518
+ {
519
+ "epoch": 3.491271820448878,
520
+ "grad_norm": 1.1660523414611816,
521
+ "learning_rate": 1.5340000000000002e-05,
522
+ "loss": 0.4536,
523
+ "step": 700
524
+ },
525
+ {
526
+ "epoch": 3.541147132169576,
527
+ "grad_norm": 1.0911084413528442,
528
+ "learning_rate": 1.5273333333333335e-05,
529
+ "loss": 0.4536,
530
+ "step": 710
531
+ },
532
+ {
533
+ "epoch": 3.5910224438902745,
534
+ "grad_norm": 1.1449761390686035,
535
+ "learning_rate": 1.5206666666666668e-05,
536
+ "loss": 0.4663,
537
+ "step": 720
538
+ },
539
+ {
540
+ "epoch": 3.6408977556109727,
541
+ "grad_norm": 1.0596632957458496,
542
+ "learning_rate": 1.514e-05,
543
+ "loss": 0.4633,
544
+ "step": 730
545
+ },
546
+ {
547
+ "epoch": 3.690773067331671,
548
+ "grad_norm": 1.1071261167526245,
549
+ "learning_rate": 1.5073333333333335e-05,
550
+ "loss": 0.4579,
551
+ "step": 740
552
+ },
553
+ {
554
+ "epoch": 3.7406483790523692,
555
+ "grad_norm": 1.3376258611679077,
556
+ "learning_rate": 1.5006666666666666e-05,
557
+ "loss": 0.4526,
558
+ "step": 750
559
+ },
560
+ {
561
+ "epoch": 3.7905236907730675,
562
+ "grad_norm": 1.2122935056686401,
563
+ "learning_rate": 1.4940000000000001e-05,
564
+ "loss": 0.4602,
565
+ "step": 760
566
+ },
567
+ {
568
+ "epoch": 3.8403990024937658,
569
+ "grad_norm": 1.1372263431549072,
570
+ "learning_rate": 1.4873333333333335e-05,
571
+ "loss": 0.4733,
572
+ "step": 770
573
+ },
574
+ {
575
+ "epoch": 3.890274314214464,
576
+ "grad_norm": 1.1192553043365479,
577
+ "learning_rate": 1.4806666666666667e-05,
578
+ "loss": 0.466,
579
+ "step": 780
580
+ },
581
+ {
582
+ "epoch": 3.9401496259351623,
583
+ "grad_norm": 1.1695116758346558,
584
+ "learning_rate": 1.4740000000000001e-05,
585
+ "loss": 0.4485,
586
+ "step": 790
587
+ },
588
+ {
589
+ "epoch": 3.9900249376558605,
590
+ "grad_norm": 1.2374085187911987,
591
+ "learning_rate": 1.4673333333333336e-05,
592
+ "loss": 0.4428,
593
+ "step": 800
594
+ },
595
+ {
596
+ "epoch": 4.0,
597
+ "eval_loss": 0.4639199376106262,
598
+ "eval_runtime": 58.0007,
599
+ "eval_samples_per_second": 17.293,
600
+ "eval_steps_per_second": 3.465,
601
+ "step": 802
602
+ },
603
+ {
604
+ "epoch": 4.039900249376559,
605
+ "grad_norm": 1.2248201370239258,
606
+ "learning_rate": 1.4606666666666667e-05,
607
+ "loss": 0.4765,
608
+ "step": 810
609
+ },
610
+ {
611
+ "epoch": 4.089775561097257,
612
+ "grad_norm": 1.0709633827209473,
613
+ "learning_rate": 1.4540000000000001e-05,
614
+ "loss": 0.458,
615
+ "step": 820
616
+ },
617
+ {
618
+ "epoch": 4.139650872817955,
619
+ "grad_norm": 1.245808482170105,
620
+ "learning_rate": 1.4473333333333334e-05,
621
+ "loss": 0.4413,
622
+ "step": 830
623
+ },
624
+ {
625
+ "epoch": 4.1895261845386536,
626
+ "grad_norm": 1.0952578783035278,
627
+ "learning_rate": 1.4406666666666669e-05,
628
+ "loss": 0.4466,
629
+ "step": 840
630
+ },
631
+ {
632
+ "epoch": 4.239401496259352,
633
+ "grad_norm": 1.3013060092926025,
634
+ "learning_rate": 1.434e-05,
635
+ "loss": 0.4579,
636
+ "step": 850
637
+ },
638
+ {
639
+ "epoch": 4.28927680798005,
640
+ "grad_norm": 1.40675687789917,
641
+ "learning_rate": 1.4273333333333334e-05,
642
+ "loss": 0.4547,
643
+ "step": 860
644
+ },
645
+ {
646
+ "epoch": 4.339152119700748,
647
+ "grad_norm": 1.0993843078613281,
648
+ "learning_rate": 1.4206666666666669e-05,
649
+ "loss": 0.4326,
650
+ "step": 870
651
+ },
652
+ {
653
+ "epoch": 4.389027431421447,
654
+ "grad_norm": 1.279954195022583,
655
+ "learning_rate": 1.414e-05,
656
+ "loss": 0.4528,
657
+ "step": 880
658
+ },
659
+ {
660
+ "epoch": 4.438902743142145,
661
+ "grad_norm": 1.1767985820770264,
662
+ "learning_rate": 1.4073333333333335e-05,
663
+ "loss": 0.4678,
664
+ "step": 890
665
+ },
666
+ {
667
+ "epoch": 4.488778054862843,
668
+ "grad_norm": 1.2366374731063843,
669
+ "learning_rate": 1.400666666666667e-05,
670
+ "loss": 0.4383,
671
+ "step": 900
672
+ },
673
+ {
674
+ "epoch": 4.538653366583541,
675
+ "grad_norm": 1.3890389204025269,
676
+ "learning_rate": 1.394e-05,
677
+ "loss": 0.4586,
678
+ "step": 910
679
+ },
680
+ {
681
+ "epoch": 4.58852867830424,
682
+ "grad_norm": 1.288946509361267,
683
+ "learning_rate": 1.3873333333333335e-05,
684
+ "loss": 0.4329,
685
+ "step": 920
686
+ },
687
+ {
688
+ "epoch": 4.638403990024938,
689
+ "grad_norm": 1.5377354621887207,
690
+ "learning_rate": 1.3806666666666668e-05,
691
+ "loss": 0.4524,
692
+ "step": 930
693
+ },
694
+ {
695
+ "epoch": 4.688279301745636,
696
+ "grad_norm": 1.1805988550186157,
697
+ "learning_rate": 1.3740000000000002e-05,
698
+ "loss": 0.4421,
699
+ "step": 940
700
+ },
701
+ {
702
+ "epoch": 4.738154613466334,
703
+ "grad_norm": 1.2433724403381348,
704
+ "learning_rate": 1.3673333333333333e-05,
705
+ "loss": 0.4463,
706
+ "step": 950
707
+ },
708
+ {
709
+ "epoch": 4.788029925187033,
710
+ "grad_norm": 1.5534576177597046,
711
+ "learning_rate": 1.3606666666666668e-05,
712
+ "loss": 0.4529,
713
+ "step": 960
714
+ },
715
+ {
716
+ "epoch": 4.837905236907731,
717
+ "grad_norm": 1.1943343877792358,
718
+ "learning_rate": 1.3540000000000003e-05,
719
+ "loss": 0.4342,
720
+ "step": 970
721
+ },
722
+ {
723
+ "epoch": 4.887780548628429,
724
+ "grad_norm": 1.4089887142181396,
725
+ "learning_rate": 1.3473333333333334e-05,
726
+ "loss": 0.4474,
727
+ "step": 980
728
+ },
729
+ {
730
+ "epoch": 4.937655860349127,
731
+ "grad_norm": 1.2032736539840698,
732
+ "learning_rate": 1.3406666666666668e-05,
733
+ "loss": 0.4367,
734
+ "step": 990
735
+ },
736
+ {
737
+ "epoch": 4.987531172069826,
738
+ "grad_norm": 1.2193266153335571,
739
+ "learning_rate": 1.3340000000000001e-05,
740
+ "loss": 0.4617,
741
+ "step": 1000
742
+ },
743
+ {
744
+ "epoch": 4.997506234413965,
745
+ "eval_loss": 0.457111656665802,
746
+ "eval_runtime": 58.0103,
747
+ "eval_samples_per_second": 17.29,
748
+ "eval_steps_per_second": 3.465,
749
+ "step": 1002
750
+ },
751
+ {
752
+ "epoch": 5.037406483790524,
753
+ "grad_norm": 1.2309563159942627,
754
+ "learning_rate": 1.3273333333333334e-05,
755
+ "loss": 0.4802,
756
+ "step": 1010
757
+ },
758
+ {
759
+ "epoch": 5.087281795511222,
760
+ "grad_norm": 1.3006610870361328,
761
+ "learning_rate": 1.3206666666666668e-05,
762
+ "loss": 0.4304,
763
+ "step": 1020
764
+ },
765
+ {
766
+ "epoch": 5.13715710723192,
767
+ "grad_norm": 1.1411958932876587,
768
+ "learning_rate": 1.3140000000000001e-05,
769
+ "loss": 0.4379,
770
+ "step": 1030
771
+ },
772
+ {
773
+ "epoch": 5.187032418952619,
774
+ "grad_norm": 1.489011287689209,
775
+ "learning_rate": 1.3073333333333334e-05,
776
+ "loss": 0.4377,
777
+ "step": 1040
778
+ },
779
+ {
780
+ "epoch": 5.236907730673317,
781
+ "grad_norm": 1.127456784248352,
782
+ "learning_rate": 1.3006666666666667e-05,
783
+ "loss": 0.4401,
784
+ "step": 1050
785
+ },
786
+ {
787
+ "epoch": 5.286783042394015,
788
+ "grad_norm": 1.1423261165618896,
789
+ "learning_rate": 1.2940000000000001e-05,
790
+ "loss": 0.4195,
791
+ "step": 1060
792
+ },
793
+ {
794
+ "epoch": 5.3366583541147135,
795
+ "grad_norm": 1.2664945125579834,
796
+ "learning_rate": 1.2873333333333336e-05,
797
+ "loss": 0.4421,
798
+ "step": 1070
799
+ },
800
+ {
801
+ "epoch": 5.386533665835412,
802
+ "grad_norm": 1.3833181858062744,
803
+ "learning_rate": 1.2806666666666667e-05,
804
+ "loss": 0.4493,
805
+ "step": 1080
806
+ },
807
+ {
808
+ "epoch": 5.43640897755611,
809
+ "grad_norm": 1.2505003213882446,
810
+ "learning_rate": 1.2740000000000002e-05,
811
+ "loss": 0.4322,
812
+ "step": 1090
813
+ },
814
+ {
815
+ "epoch": 5.486284289276808,
816
+ "grad_norm": 1.1786164045333862,
817
+ "learning_rate": 1.2673333333333335e-05,
818
+ "loss": 0.4474,
819
+ "step": 1100
820
+ },
821
+ {
822
+ "epoch": 5.5361596009975065,
823
+ "grad_norm": 1.3222135305404663,
824
+ "learning_rate": 1.2606666666666667e-05,
825
+ "loss": 0.4434,
826
+ "step": 1110
827
+ },
828
+ {
829
+ "epoch": 5.586034912718205,
830
+ "grad_norm": 1.1747450828552246,
831
+ "learning_rate": 1.254e-05,
832
+ "loss": 0.4577,
833
+ "step": 1120
834
+ },
835
+ {
836
+ "epoch": 5.635910224438903,
837
+ "grad_norm": 1.299611210823059,
838
+ "learning_rate": 1.2473333333333335e-05,
839
+ "loss": 0.4306,
840
+ "step": 1130
841
+ },
842
+ {
843
+ "epoch": 5.685785536159601,
844
+ "grad_norm": 1.353705883026123,
845
+ "learning_rate": 1.2406666666666668e-05,
846
+ "loss": 0.4438,
847
+ "step": 1140
848
+ },
849
+ {
850
+ "epoch": 5.7356608478802995,
851
+ "grad_norm": 1.195237398147583,
852
+ "learning_rate": 1.234e-05,
853
+ "loss": 0.4203,
854
+ "step": 1150
855
+ },
856
+ {
857
+ "epoch": 5.785536159600998,
858
+ "grad_norm": 1.4759230613708496,
859
+ "learning_rate": 1.2273333333333335e-05,
860
+ "loss": 0.4399,
861
+ "step": 1160
862
+ },
863
+ {
864
+ "epoch": 5.835411471321696,
865
+ "grad_norm": 1.1856341361999512,
866
+ "learning_rate": 1.2206666666666666e-05,
867
+ "loss": 0.4566,
868
+ "step": 1170
869
+ },
870
+ {
871
+ "epoch": 5.885286783042394,
872
+ "grad_norm": 1.369195818901062,
873
+ "learning_rate": 1.214e-05,
874
+ "loss": 0.4568,
875
+ "step": 1180
876
+ },
877
+ {
878
+ "epoch": 5.9351620947630925,
879
+ "grad_norm": 1.2702898979187012,
880
+ "learning_rate": 1.2073333333333335e-05,
881
+ "loss": 0.4372,
882
+ "step": 1190
883
+ },
884
+ {
885
+ "epoch": 5.985037406483791,
886
+ "grad_norm": 1.5332574844360352,
887
+ "learning_rate": 1.2006666666666668e-05,
888
+ "loss": 0.454,
889
+ "step": 1200
890
+ },
891
+ {
892
+ "epoch": 6.0,
893
+ "eval_loss": 0.45269879698753357,
894
+ "eval_runtime": 57.8329,
895
+ "eval_samples_per_second": 17.343,
896
+ "eval_steps_per_second": 3.476,
897
+ "step": 1203
898
+ },
899
+ {
900
+ "epoch": 6.034912718204489,
901
+ "grad_norm": 1.502089500427246,
902
+ "learning_rate": 1.1940000000000001e-05,
903
+ "loss": 0.4509,
904
+ "step": 1210
905
+ },
906
+ {
907
+ "epoch": 6.084788029925187,
908
+ "grad_norm": 1.1866357326507568,
909
+ "learning_rate": 1.1873333333333334e-05,
910
+ "loss": 0.4315,
911
+ "step": 1220
912
+ },
913
+ {
914
+ "epoch": 6.134663341645886,
915
+ "grad_norm": 1.2971949577331543,
916
+ "learning_rate": 1.1806666666666668e-05,
917
+ "loss": 0.4378,
918
+ "step": 1230
919
+ },
920
+ {
921
+ "epoch": 6.184538653366584,
922
+ "grad_norm": 1.3105353116989136,
923
+ "learning_rate": 1.1740000000000001e-05,
924
+ "loss": 0.4462,
925
+ "step": 1240
926
+ },
927
+ {
928
+ "epoch": 6.234413965087282,
929
+ "grad_norm": 1.6913713216781616,
930
+ "learning_rate": 1.1673333333333334e-05,
931
+ "loss": 0.4273,
932
+ "step": 1250
933
+ },
934
+ {
935
+ "epoch": 6.28428927680798,
936
+ "grad_norm": 1.2743034362792969,
937
+ "learning_rate": 1.1606666666666668e-05,
938
+ "loss": 0.4308,
939
+ "step": 1260
940
+ },
941
+ {
942
+ "epoch": 6.334164588528679,
943
+ "grad_norm": 1.2764904499053955,
944
+ "learning_rate": 1.154e-05,
945
+ "loss": 0.4416,
946
+ "step": 1270
947
+ },
948
+ {
949
+ "epoch": 6.384039900249377,
950
+ "grad_norm": 1.2375209331512451,
951
+ "learning_rate": 1.1473333333333334e-05,
952
+ "loss": 0.4279,
953
+ "step": 1280
954
+ },
955
+ {
956
+ "epoch": 6.433915211970075,
957
+ "grad_norm": 1.2813770771026611,
958
+ "learning_rate": 1.1406666666666669e-05,
959
+ "loss": 0.4318,
960
+ "step": 1290
961
+ },
962
+ {
963
+ "epoch": 6.483790523690773,
964
+ "grad_norm": 1.413662314414978,
965
+ "learning_rate": 1.134e-05,
966
+ "loss": 0.4299,
967
+ "step": 1300
968
+ },
969
+ {
970
+ "epoch": 6.533665835411472,
971
+ "grad_norm": 1.4377459287643433,
972
+ "learning_rate": 1.1273333333333334e-05,
973
+ "loss": 0.4538,
974
+ "step": 1310
975
+ },
976
+ {
977
+ "epoch": 6.58354114713217,
978
+ "grad_norm": 1.280629277229309,
979
+ "learning_rate": 1.1206666666666667e-05,
980
+ "loss": 0.4305,
981
+ "step": 1320
982
+ },
983
+ {
984
+ "epoch": 6.633416458852868,
985
+ "grad_norm": 1.4439893960952759,
986
+ "learning_rate": 1.1140000000000002e-05,
987
+ "loss": 0.4382,
988
+ "step": 1330
989
+ },
990
+ {
991
+ "epoch": 6.683291770573566,
992
+ "grad_norm": 1.290280818939209,
993
+ "learning_rate": 1.1073333333333333e-05,
994
+ "loss": 0.4395,
995
+ "step": 1340
996
+ },
997
+ {
998
+ "epoch": 6.733167082294265,
999
+ "grad_norm": 1.7553201913833618,
1000
+ "learning_rate": 1.1006666666666667e-05,
1001
+ "loss": 0.4633,
1002
+ "step": 1350
1003
+ },
1004
+ {
1005
+ "epoch": 6.783042394014963,
1006
+ "grad_norm": 1.3317337036132812,
1007
+ "learning_rate": 1.0940000000000002e-05,
1008
+ "loss": 0.4396,
1009
+ "step": 1360
1010
+ },
1011
+ {
1012
+ "epoch": 6.832917705735661,
1013
+ "grad_norm": 1.4611096382141113,
1014
+ "learning_rate": 1.0873333333333333e-05,
1015
+ "loss": 0.4306,
1016
+ "step": 1370
1017
+ },
1018
+ {
1019
+ "epoch": 6.882793017456359,
1020
+ "grad_norm": 1.461767554283142,
1021
+ "learning_rate": 1.0806666666666668e-05,
1022
+ "loss": 0.4363,
1023
+ "step": 1380
1024
+ },
1025
+ {
1026
+ "epoch": 6.932668329177058,
1027
+ "grad_norm": 1.2594436407089233,
1028
+ "learning_rate": 1.0740000000000002e-05,
1029
+ "loss": 0.4311,
1030
+ "step": 1390
1031
+ },
1032
+ {
1033
+ "epoch": 6.982543640897756,
1034
+ "grad_norm": 1.339422345161438,
1035
+ "learning_rate": 1.0673333333333333e-05,
1036
+ "loss": 0.4359,
1037
+ "step": 1400
1038
+ },
1039
+ {
1040
+ "epoch": 6.997506234413965,
1041
+ "eval_loss": 0.4493270516395569,
1042
+ "eval_runtime": 57.825,
1043
+ "eval_samples_per_second": 17.345,
1044
+ "eval_steps_per_second": 3.476,
1045
+ "step": 1403
1046
+ },
1047
+ {
1048
+ "epoch": 7.032418952618454,
1049
+ "grad_norm": 1.5040308237075806,
1050
+ "learning_rate": 1.0606666666666668e-05,
1051
+ "loss": 0.4513,
1052
+ "step": 1410
1053
+ },
1054
+ {
1055
+ "epoch": 7.082294264339152,
1056
+ "grad_norm": 1.3062398433685303,
1057
+ "learning_rate": 1.054e-05,
1058
+ "loss": 0.4286,
1059
+ "step": 1420
1060
+ },
1061
+ {
1062
+ "epoch": 7.132169576059851,
1063
+ "grad_norm": 1.2743724584579468,
1064
+ "learning_rate": 1.0473333333333334e-05,
1065
+ "loss": 0.4308,
1066
+ "step": 1430
1067
+ },
1068
+ {
1069
+ "epoch": 7.182044887780549,
1070
+ "grad_norm": 1.335893154144287,
1071
+ "learning_rate": 1.0406666666666666e-05,
1072
+ "loss": 0.4467,
1073
+ "step": 1440
1074
+ },
1075
+ {
1076
+ "epoch": 7.231920199501247,
1077
+ "grad_norm": 1.5432289838790894,
1078
+ "learning_rate": 1.0340000000000001e-05,
1079
+ "loss": 0.4249,
1080
+ "step": 1450
1081
+ },
1082
+ {
1083
+ "epoch": 7.2817955112219455,
1084
+ "grad_norm": 1.3191583156585693,
1085
+ "learning_rate": 1.0273333333333335e-05,
1086
+ "loss": 0.4308,
1087
+ "step": 1460
1088
+ },
1089
+ {
1090
+ "epoch": 7.331670822942644,
1091
+ "grad_norm": 1.4070515632629395,
1092
+ "learning_rate": 1.0206666666666667e-05,
1093
+ "loss": 0.4346,
1094
+ "step": 1470
1095
+ },
1096
+ {
1097
+ "epoch": 7.381546134663342,
1098
+ "grad_norm": 1.2089998722076416,
1099
+ "learning_rate": 1.0140000000000001e-05,
1100
+ "loss": 0.4261,
1101
+ "step": 1480
1102
+ },
1103
+ {
1104
+ "epoch": 7.43142144638404,
1105
+ "grad_norm": 1.349908709526062,
1106
+ "learning_rate": 1.0073333333333336e-05,
1107
+ "loss": 0.4506,
1108
+ "step": 1490
1109
+ },
1110
+ {
1111
+ "epoch": 7.4812967581047385,
1112
+ "grad_norm": 1.3772706985473633,
1113
+ "learning_rate": 1.0006666666666667e-05,
1114
+ "loss": 0.4194,
1115
+ "step": 1500
1116
+ },
1117
+ {
1118
+ "epoch": 7.531172069825437,
1119
+ "grad_norm": 1.265548586845398,
1120
+ "learning_rate": 9.940000000000001e-06,
1121
+ "loss": 0.4109,
1122
+ "step": 1510
1123
+ },
1124
+ {
1125
+ "epoch": 7.581047381546135,
1126
+ "grad_norm": 1.4737778902053833,
1127
+ "learning_rate": 9.873333333333334e-06,
1128
+ "loss": 0.4335,
1129
+ "step": 1520
1130
+ },
1131
+ {
1132
+ "epoch": 7.630922693266833,
1133
+ "grad_norm": 1.2900265455245972,
1134
+ "learning_rate": 9.806666666666667e-06,
1135
+ "loss": 0.4489,
1136
+ "step": 1530
1137
+ },
1138
+ {
1139
+ "epoch": 7.6807980049875315,
1140
+ "grad_norm": 1.3885109424591064,
1141
+ "learning_rate": 9.74e-06,
1142
+ "loss": 0.4246,
1143
+ "step": 1540
1144
+ },
1145
+ {
1146
+ "epoch": 7.73067331670823,
1147
+ "grad_norm": 1.4786447286605835,
1148
+ "learning_rate": 9.673333333333334e-06,
1149
+ "loss": 0.4307,
1150
+ "step": 1550
1151
+ },
1152
+ {
1153
+ "epoch": 7.780548628428928,
1154
+ "grad_norm": 1.4943320751190186,
1155
+ "learning_rate": 9.606666666666667e-06,
1156
+ "loss": 0.4272,
1157
+ "step": 1560
1158
+ },
1159
+ {
1160
+ "epoch": 7.830423940149626,
1161
+ "grad_norm": 1.2281179428100586,
1162
+ "learning_rate": 9.54e-06,
1163
+ "loss": 0.4361,
1164
+ "step": 1570
1165
+ },
1166
+ {
1167
+ "epoch": 7.8802992518703245,
1168
+ "grad_norm": 1.4099763631820679,
1169
+ "learning_rate": 9.473333333333335e-06,
1170
+ "loss": 0.4328,
1171
+ "step": 1580
1172
+ },
1173
+ {
1174
+ "epoch": 7.930174563591023,
1175
+ "grad_norm": 1.2165679931640625,
1176
+ "learning_rate": 9.406666666666668e-06,
1177
+ "loss": 0.4325,
1178
+ "step": 1590
1179
+ },
1180
+ {
1181
+ "epoch": 7.980049875311721,
1182
+ "grad_norm": 1.5678939819335938,
1183
+ "learning_rate": 9.340000000000002e-06,
1184
+ "loss": 0.4431,
1185
+ "step": 1600
1186
+ },
1187
+ {
1188
+ "epoch": 8.0,
1189
+ "eval_loss": 0.4465142786502838,
1190
+ "eval_runtime": 57.9689,
1191
+ "eval_samples_per_second": 17.302,
1192
+ "eval_steps_per_second": 3.467,
1193
+ "step": 1604
1194
+ },
1195
+ {
1196
+ "epoch": 8.029925187032418,
1197
+ "grad_norm": 1.3903255462646484,
1198
+ "learning_rate": 9.273333333333335e-06,
1199
+ "loss": 0.4489,
1200
+ "step": 1610
1201
+ },
1202
+ {
1203
+ "epoch": 8.079800498753118,
1204
+ "grad_norm": 1.4039775133132935,
1205
+ "learning_rate": 9.206666666666668e-06,
1206
+ "loss": 0.4282,
1207
+ "step": 1620
1208
+ },
1209
+ {
1210
+ "epoch": 8.129675810473815,
1211
+ "grad_norm": 1.238571286201477,
1212
+ "learning_rate": 9.14e-06,
1213
+ "loss": 0.4352,
1214
+ "step": 1630
1215
+ },
1216
+ {
1217
+ "epoch": 8.179551122194514,
1218
+ "grad_norm": 1.418980360031128,
1219
+ "learning_rate": 9.073333333333333e-06,
1220
+ "loss": 0.4232,
1221
+ "step": 1640
1222
+ },
1223
+ {
1224
+ "epoch": 8.229426433915211,
1225
+ "grad_norm": 1.362851619720459,
1226
+ "learning_rate": 9.006666666666666e-06,
1227
+ "loss": 0.4251,
1228
+ "step": 1650
1229
+ },
1230
+ {
1231
+ "epoch": 8.27930174563591,
1232
+ "grad_norm": 1.3849656581878662,
1233
+ "learning_rate": 8.94e-06,
1234
+ "loss": 0.4367,
1235
+ "step": 1660
1236
+ },
1237
+ {
1238
+ "epoch": 8.329177057356608,
1239
+ "grad_norm": 1.4366765022277832,
1240
+ "learning_rate": 8.873333333333334e-06,
1241
+ "loss": 0.4348,
1242
+ "step": 1670
1243
+ },
1244
+ {
1245
+ "epoch": 8.379052369077307,
1246
+ "grad_norm": 1.3090085983276367,
1247
+ "learning_rate": 8.806666666666668e-06,
1248
+ "loss": 0.4349,
1249
+ "step": 1680
1250
+ },
1251
+ {
1252
+ "epoch": 8.428927680798004,
1253
+ "grad_norm": 1.3340786695480347,
1254
+ "learning_rate": 8.740000000000001e-06,
1255
+ "loss": 0.4292,
1256
+ "step": 1690
1257
+ },
1258
+ {
1259
+ "epoch": 8.478802992518704,
1260
+ "grad_norm": 1.224572777748108,
1261
+ "learning_rate": 8.673333333333334e-06,
1262
+ "loss": 0.4225,
1263
+ "step": 1700
1264
+ },
1265
+ {
1266
+ "epoch": 8.528678304239401,
1267
+ "grad_norm": 1.3066871166229248,
1268
+ "learning_rate": 8.606666666666668e-06,
1269
+ "loss": 0.4295,
1270
+ "step": 1710
1271
+ },
1272
+ {
1273
+ "epoch": 8.5785536159601,
1274
+ "grad_norm": 1.3138604164123535,
1275
+ "learning_rate": 8.540000000000001e-06,
1276
+ "loss": 0.4249,
1277
+ "step": 1720
1278
+ },
1279
+ {
1280
+ "epoch": 8.628428927680797,
1281
+ "grad_norm": 1.3178144693374634,
1282
+ "learning_rate": 8.473333333333334e-06,
1283
+ "loss": 0.4295,
1284
+ "step": 1730
1285
+ },
1286
+ {
1287
+ "epoch": 8.678304239401497,
1288
+ "grad_norm": 1.5216317176818848,
1289
+ "learning_rate": 8.406666666666667e-06,
1290
+ "loss": 0.4249,
1291
+ "step": 1740
1292
+ },
1293
+ {
1294
+ "epoch": 8.728179551122194,
1295
+ "grad_norm": 1.3315293788909912,
1296
+ "learning_rate": 8.34e-06,
1297
+ "loss": 0.4156,
1298
+ "step": 1750
1299
+ },
1300
+ {
1301
+ "epoch": 8.778054862842893,
1302
+ "grad_norm": 1.613593578338623,
1303
+ "learning_rate": 8.273333333333334e-06,
1304
+ "loss": 0.418,
1305
+ "step": 1760
1306
+ },
1307
+ {
1308
+ "epoch": 8.82793017456359,
1309
+ "grad_norm": 1.2980856895446777,
1310
+ "learning_rate": 8.206666666666667e-06,
1311
+ "loss": 0.4234,
1312
+ "step": 1770
1313
+ },
1314
+ {
1315
+ "epoch": 8.87780548628429,
1316
+ "grad_norm": 1.4451056718826294,
1317
+ "learning_rate": 8.14e-06,
1318
+ "loss": 0.4427,
1319
+ "step": 1780
1320
+ },
1321
+ {
1322
+ "epoch": 8.927680798004987,
1323
+ "grad_norm": 1.3692457675933838,
1324
+ "learning_rate": 8.073333333333335e-06,
1325
+ "loss": 0.4394,
1326
+ "step": 1790
1327
+ },
1328
+ {
1329
+ "epoch": 8.977556109725686,
1330
+ "grad_norm": 1.4997522830963135,
1331
+ "learning_rate": 8.006666666666667e-06,
1332
+ "loss": 0.4299,
1333
+ "step": 1800
1334
+ },
1335
+ {
1336
+ "epoch": 8.997506234413965,
1337
+ "eval_loss": 0.4446782171726227,
1338
+ "eval_runtime": 57.956,
1339
+ "eval_samples_per_second": 17.306,
1340
+ "eval_steps_per_second": 3.468,
1341
+ "step": 1804
1342
+ },
1343
+ {
1344
+ "epoch": 9.027431421446384,
1345
+ "grad_norm": 1.4114794731140137,
1346
+ "learning_rate": 7.94e-06,
1347
+ "loss": 0.4409,
1348
+ "step": 1810
1349
+ },
1350
+ {
1351
+ "epoch": 9.077306733167083,
1352
+ "grad_norm": 1.2984321117401123,
1353
+ "learning_rate": 7.873333333333335e-06,
1354
+ "loss": 0.4091,
1355
+ "step": 1820
1356
+ },
1357
+ {
1358
+ "epoch": 9.12718204488778,
1359
+ "grad_norm": 1.3625205755233765,
1360
+ "learning_rate": 7.806666666666668e-06,
1361
+ "loss": 0.4224,
1362
+ "step": 1830
1363
+ },
1364
+ {
1365
+ "epoch": 9.17705735660848,
1366
+ "grad_norm": 1.4072176218032837,
1367
+ "learning_rate": 7.74e-06,
1368
+ "loss": 0.4416,
1369
+ "step": 1840
1370
+ },
1371
+ {
1372
+ "epoch": 9.226932668329177,
1373
+ "grad_norm": 1.2547061443328857,
1374
+ "learning_rate": 7.673333333333333e-06,
1375
+ "loss": 0.4228,
1376
+ "step": 1850
1377
+ },
1378
+ {
1379
+ "epoch": 9.276807980049876,
1380
+ "grad_norm": 1.5764844417572021,
1381
+ "learning_rate": 7.606666666666668e-06,
1382
+ "loss": 0.4346,
1383
+ "step": 1860
1384
+ },
1385
+ {
1386
+ "epoch": 9.326683291770573,
1387
+ "grad_norm": 1.4493110179901123,
1388
+ "learning_rate": 7.540000000000001e-06,
1389
+ "loss": 0.438,
1390
+ "step": 1870
1391
+ },
1392
+ {
1393
+ "epoch": 9.376558603491272,
1394
+ "grad_norm": 1.3886995315551758,
1395
+ "learning_rate": 7.4733333333333335e-06,
1396
+ "loss": 0.4282,
1397
+ "step": 1880
1398
+ },
1399
+ {
1400
+ "epoch": 9.42643391521197,
1401
+ "grad_norm": 1.5260852575302124,
1402
+ "learning_rate": 7.406666666666667e-06,
1403
+ "loss": 0.4267,
1404
+ "step": 1890
1405
+ },
1406
+ {
1407
+ "epoch": 9.476309226932669,
1408
+ "grad_norm": 1.7208826541900635,
1409
+ "learning_rate": 7.340000000000001e-06,
1410
+ "loss": 0.4195,
1411
+ "step": 1900
1412
+ },
1413
+ {
1414
+ "epoch": 9.526184538653366,
1415
+ "grad_norm": 1.3822261095046997,
1416
+ "learning_rate": 7.2733333333333346e-06,
1417
+ "loss": 0.4254,
1418
+ "step": 1910
1419
+ },
1420
+ {
1421
+ "epoch": 9.576059850374065,
1422
+ "grad_norm": 1.6141988039016724,
1423
+ "learning_rate": 7.206666666666667e-06,
1424
+ "loss": 0.4165,
1425
+ "step": 1920
1426
+ },
1427
+ {
1428
+ "epoch": 9.625935162094763,
1429
+ "grad_norm": 1.4055383205413818,
1430
+ "learning_rate": 7.14e-06,
1431
+ "loss": 0.4149,
1432
+ "step": 1930
1433
+ },
1434
+ {
1435
+ "epoch": 9.675810473815462,
1436
+ "grad_norm": 1.3142189979553223,
1437
+ "learning_rate": 7.073333333333334e-06,
1438
+ "loss": 0.4107,
1439
+ "step": 1940
1440
+ },
1441
+ {
1442
+ "epoch": 9.72568578553616,
1443
+ "grad_norm": 1.2457393407821655,
1444
+ "learning_rate": 7.006666666666667e-06,
1445
+ "loss": 0.4296,
1446
+ "step": 1950
1447
+ },
1448
+ {
1449
+ "epoch": 9.775561097256858,
1450
+ "grad_norm": 1.4622180461883545,
1451
+ "learning_rate": 6.9400000000000005e-06,
1452
+ "loss": 0.4422,
1453
+ "step": 1960
1454
+ },
1455
+ {
1456
+ "epoch": 9.825436408977556,
1457
+ "grad_norm": 1.4130418300628662,
1458
+ "learning_rate": 6.873333333333334e-06,
1459
+ "loss": 0.4317,
1460
+ "step": 1970
1461
+ },
1462
+ {
1463
+ "epoch": 9.875311720698255,
1464
+ "grad_norm": 1.311515212059021,
1465
+ "learning_rate": 6.806666666666667e-06,
1466
+ "loss": 0.4184,
1467
+ "step": 1980
1468
+ },
1469
+ {
1470
+ "epoch": 9.925187032418952,
1471
+ "grad_norm": 1.4601870775222778,
1472
+ "learning_rate": 6.740000000000001e-06,
1473
+ "loss": 0.4136,
1474
+ "step": 1990
1475
+ },
1476
+ {
1477
+ "epoch": 9.975062344139651,
1478
+ "grad_norm": 1.3348491191864014,
1479
+ "learning_rate": 6.6733333333333335e-06,
1480
+ "loss": 0.4409,
1481
+ "step": 2000
1482
+ },
1483
+ {
1484
+ "epoch": 10.0,
1485
+ "eval_loss": 0.44308173656463623,
1486
+ "eval_runtime": 57.9177,
1487
+ "eval_samples_per_second": 17.318,
1488
+ "eval_steps_per_second": 3.47,
1489
+ "step": 2005
1490
+ },
1491
+ {
1492
+ "epoch": 10.024937655860349,
1493
+ "grad_norm": 1.3334033489227295,
1494
+ "learning_rate": 6.606666666666666e-06,
1495
+ "loss": 0.4456,
1496
+ "step": 2010
1497
+ },
1498
+ {
1499
+ "epoch": 10.074812967581048,
1500
+ "grad_norm": 1.5118451118469238,
1501
+ "learning_rate": 6.540000000000001e-06,
1502
+ "loss": 0.4385,
1503
+ "step": 2020
1504
+ },
1505
+ {
1506
+ "epoch": 10.124688279301745,
1507
+ "grad_norm": 1.3644325733184814,
1508
+ "learning_rate": 6.473333333333334e-06,
1509
+ "loss": 0.4208,
1510
+ "step": 2030
1511
+ },
1512
+ {
1513
+ "epoch": 10.174563591022444,
1514
+ "grad_norm": 1.426771640777588,
1515
+ "learning_rate": 6.4066666666666674e-06,
1516
+ "loss": 0.4201,
1517
+ "step": 2040
1518
+ },
1519
+ {
1520
+ "epoch": 10.224438902743142,
1521
+ "grad_norm": 1.3023799657821655,
1522
+ "learning_rate": 6.34e-06,
1523
+ "loss": 0.4068,
1524
+ "step": 2050
1525
+ },
1526
+ {
1527
+ "epoch": 10.27431421446384,
1528
+ "grad_norm": 1.3506182432174683,
1529
+ "learning_rate": 6.273333333333333e-06,
1530
+ "loss": 0.4264,
1531
+ "step": 2060
1532
+ },
1533
+ {
1534
+ "epoch": 10.324189526184538,
1535
+ "grad_norm": 1.4448788166046143,
1536
+ "learning_rate": 6.206666666666668e-06,
1537
+ "loss": 0.4249,
1538
+ "step": 2070
1539
+ },
1540
+ {
1541
+ "epoch": 10.374064837905237,
1542
+ "grad_norm": 1.3727625608444214,
1543
+ "learning_rate": 6.1400000000000005e-06,
1544
+ "loss": 0.4351,
1545
+ "step": 2080
1546
+ },
1547
+ {
1548
+ "epoch": 10.423940149625935,
1549
+ "grad_norm": 1.512022614479065,
1550
+ "learning_rate": 6.073333333333333e-06,
1551
+ "loss": 0.4332,
1552
+ "step": 2090
1553
+ },
1554
+ {
1555
+ "epoch": 10.473815461346634,
1556
+ "grad_norm": 1.305282473564148,
1557
+ "learning_rate": 6.006666666666667e-06,
1558
+ "loss": 0.4248,
1559
+ "step": 2100
1560
+ },
1561
+ {
1562
+ "epoch": 10.523690773067331,
1563
+ "grad_norm": 1.4088374376296997,
1564
+ "learning_rate": 5.94e-06,
1565
+ "loss": 0.4323,
1566
+ "step": 2110
1567
+ },
1568
+ {
1569
+ "epoch": 10.57356608478803,
1570
+ "grad_norm": 1.4796631336212158,
1571
+ "learning_rate": 5.873333333333334e-06,
1572
+ "loss": 0.4254,
1573
+ "step": 2120
1574
+ },
1575
+ {
1576
+ "epoch": 10.623441396508728,
1577
+ "grad_norm": 1.556593418121338,
1578
+ "learning_rate": 5.806666666666667e-06,
1579
+ "loss": 0.4117,
1580
+ "step": 2130
1581
+ },
1582
+ {
1583
+ "epoch": 10.673316708229427,
1584
+ "grad_norm": 1.3857340812683105,
1585
+ "learning_rate": 5.74e-06,
1586
+ "loss": 0.4241,
1587
+ "step": 2140
1588
+ },
1589
+ {
1590
+ "epoch": 10.723192019950124,
1591
+ "grad_norm": 1.6449425220489502,
1592
+ "learning_rate": 5.673333333333334e-06,
1593
+ "loss": 0.4144,
1594
+ "step": 2150
1595
+ },
1596
+ {
1597
+ "epoch": 10.773067331670823,
1598
+ "grad_norm": 1.8624916076660156,
1599
+ "learning_rate": 5.606666666666667e-06,
1600
+ "loss": 0.4239,
1601
+ "step": 2160
1602
+ },
1603
+ {
1604
+ "epoch": 10.82294264339152,
1605
+ "grad_norm": 1.3718584775924683,
1606
+ "learning_rate": 5.540000000000001e-06,
1607
+ "loss": 0.4081,
1608
+ "step": 2170
1609
+ },
1610
+ {
1611
+ "epoch": 10.87281795511222,
1612
+ "grad_norm": 1.4391957521438599,
1613
+ "learning_rate": 5.473333333333334e-06,
1614
+ "loss": 0.4195,
1615
+ "step": 2180
1616
+ },
1617
+ {
1618
+ "epoch": 10.922693266832917,
1619
+ "grad_norm": 1.6265774965286255,
1620
+ "learning_rate": 5.406666666666667e-06,
1621
+ "loss": 0.4446,
1622
+ "step": 2190
1623
+ },
1624
+ {
1625
+ "epoch": 10.972568578553616,
1626
+ "grad_norm": 1.5026485919952393,
1627
+ "learning_rate": 5.3400000000000005e-06,
1628
+ "loss": 0.4229,
1629
+ "step": 2200
1630
+ },
1631
+ {
1632
+ "epoch": 10.997506234413965,
1633
+ "eval_loss": 0.44174298644065857,
1634
+ "eval_runtime": 57.9098,
1635
+ "eval_samples_per_second": 17.32,
1636
+ "eval_steps_per_second": 3.471,
1637
+ "step": 2205
1638
+ },
1639
+ {
1640
+ "epoch": 11.022443890274314,
1641
+ "grad_norm": 1.452600121498108,
1642
+ "learning_rate": 5.273333333333333e-06,
1643
+ "loss": 0.4326,
1644
+ "step": 2210
1645
+ },
1646
+ {
1647
+ "epoch": 11.072319201995013,
1648
+ "grad_norm": 1.3822201490402222,
1649
+ "learning_rate": 5.206666666666668e-06,
1650
+ "loss": 0.4264,
1651
+ "step": 2220
1652
+ },
1653
+ {
1654
+ "epoch": 11.12219451371571,
1655
+ "grad_norm": 1.468363642692566,
1656
+ "learning_rate": 5.140000000000001e-06,
1657
+ "loss": 0.4078,
1658
+ "step": 2230
1659
+ },
1660
+ {
1661
+ "epoch": 11.17206982543641,
1662
+ "grad_norm": 1.495955467224121,
1663
+ "learning_rate": 5.073333333333334e-06,
1664
+ "loss": 0.4173,
1665
+ "step": 2240
1666
+ },
1667
+ {
1668
+ "epoch": 11.221945137157107,
1669
+ "grad_norm": 1.441292405128479,
1670
+ "learning_rate": 5.006666666666667e-06,
1671
+ "loss": 0.415,
1672
+ "step": 2250
1673
+ },
1674
+ {
1675
+ "epoch": 11.271820448877806,
1676
+ "grad_norm": 1.421720266342163,
1677
+ "learning_rate": 4.94e-06,
1678
+ "loss": 0.4126,
1679
+ "step": 2260
1680
+ },
1681
+ {
1682
+ "epoch": 11.321695760598503,
1683
+ "grad_norm": 1.2590454816818237,
1684
+ "learning_rate": 4.873333333333334e-06,
1685
+ "loss": 0.4193,
1686
+ "step": 2270
1687
+ },
1688
+ {
1689
+ "epoch": 11.371571072319203,
1690
+ "grad_norm": 1.48396897315979,
1691
+ "learning_rate": 4.8066666666666675e-06,
1692
+ "loss": 0.4266,
1693
+ "step": 2280
1694
+ },
1695
+ {
1696
+ "epoch": 11.4214463840399,
1697
+ "grad_norm": 1.3837693929672241,
1698
+ "learning_rate": 4.74e-06,
1699
+ "loss": 0.4199,
1700
+ "step": 2290
1701
+ },
1702
+ {
1703
+ "epoch": 11.471321695760599,
1704
+ "grad_norm": 1.5965029001235962,
1705
+ "learning_rate": 4.673333333333333e-06,
1706
+ "loss": 0.4148,
1707
+ "step": 2300
1708
+ },
1709
+ {
1710
+ "epoch": 11.521197007481296,
1711
+ "grad_norm": 1.4824038743972778,
1712
+ "learning_rate": 4.606666666666667e-06,
1713
+ "loss": 0.4369,
1714
+ "step": 2310
1715
+ },
1716
+ {
1717
+ "epoch": 11.571072319201996,
1718
+ "grad_norm": 1.4421814680099487,
1719
+ "learning_rate": 4.540000000000001e-06,
1720
+ "loss": 0.4182,
1721
+ "step": 2320
1722
+ },
1723
+ {
1724
+ "epoch": 11.620947630922693,
1725
+ "grad_norm": 1.4961748123168945,
1726
+ "learning_rate": 4.473333333333334e-06,
1727
+ "loss": 0.4117,
1728
+ "step": 2330
1729
+ },
1730
+ {
1731
+ "epoch": 11.670822942643392,
1732
+ "grad_norm": 1.63477623462677,
1733
+ "learning_rate": 4.406666666666667e-06,
1734
+ "loss": 0.4237,
1735
+ "step": 2340
1736
+ },
1737
+ {
1738
+ "epoch": 11.72069825436409,
1739
+ "grad_norm": 1.6593093872070312,
1740
+ "learning_rate": 4.34e-06,
1741
+ "loss": 0.4279,
1742
+ "step": 2350
1743
+ },
1744
+ {
1745
+ "epoch": 11.770573566084789,
1746
+ "grad_norm": 1.5250682830810547,
1747
+ "learning_rate": 4.273333333333334e-06,
1748
+ "loss": 0.4264,
1749
+ "step": 2360
1750
+ },
1751
+ {
1752
+ "epoch": 11.820448877805486,
1753
+ "grad_norm": 1.5515984296798706,
1754
+ "learning_rate": 4.206666666666667e-06,
1755
+ "loss": 0.4341,
1756
+ "step": 2370
1757
+ },
1758
+ {
1759
+ "epoch": 11.870324189526185,
1760
+ "grad_norm": 1.6062873601913452,
1761
+ "learning_rate": 4.14e-06,
1762
+ "loss": 0.4247,
1763
+ "step": 2380
1764
+ },
1765
+ {
1766
+ "epoch": 11.920199501246882,
1767
+ "grad_norm": 1.760644793510437,
1768
+ "learning_rate": 4.073333333333334e-06,
1769
+ "loss": 0.4417,
1770
+ "step": 2390
1771
+ },
1772
+ {
1773
+ "epoch": 11.970074812967582,
1774
+ "grad_norm": 1.2911533117294312,
1775
+ "learning_rate": 4.006666666666667e-06,
1776
+ "loss": 0.4159,
1777
+ "step": 2400
1778
+ },
1779
+ {
1780
+ "epoch": 12.0,
1781
+ "eval_loss": 0.44075635075569153,
1782
+ "eval_runtime": 57.9093,
1783
+ "eval_samples_per_second": 17.32,
1784
+ "eval_steps_per_second": 3.471,
1785
+ "step": 2406
1786
+ },
1787
+ {
1788
+ "epoch": 12.019950124688279,
1789
+ "grad_norm": 1.5172271728515625,
1790
+ "learning_rate": 3.94e-06,
1791
+ "loss": 0.437,
1792
+ "step": 2410
1793
+ },
1794
+ {
1795
+ "epoch": 12.069825436408978,
1796
+ "grad_norm": 1.4542344808578491,
1797
+ "learning_rate": 3.873333333333333e-06,
1798
+ "loss": 0.4314,
1799
+ "step": 2420
1800
+ },
1801
+ {
1802
+ "epoch": 12.119700748129675,
1803
+ "grad_norm": 1.4818074703216553,
1804
+ "learning_rate": 3.806666666666667e-06,
1805
+ "loss": 0.4184,
1806
+ "step": 2430
1807
+ },
1808
+ {
1809
+ "epoch": 12.169576059850375,
1810
+ "grad_norm": 1.4975398778915405,
1811
+ "learning_rate": 3.74e-06,
1812
+ "loss": 0.4087,
1813
+ "step": 2440
1814
+ },
1815
+ {
1816
+ "epoch": 12.219451371571072,
1817
+ "grad_norm": 1.3974961042404175,
1818
+ "learning_rate": 3.673333333333334e-06,
1819
+ "loss": 0.4135,
1820
+ "step": 2450
1821
+ },
1822
+ {
1823
+ "epoch": 12.269326683291771,
1824
+ "grad_norm": 1.6019673347473145,
1825
+ "learning_rate": 3.606666666666667e-06,
1826
+ "loss": 0.4238,
1827
+ "step": 2460
1828
+ },
1829
+ {
1830
+ "epoch": 12.319201995012468,
1831
+ "grad_norm": 1.7037951946258545,
1832
+ "learning_rate": 3.54e-06,
1833
+ "loss": 0.4218,
1834
+ "step": 2470
1835
+ },
1836
+ {
1837
+ "epoch": 12.369077306733168,
1838
+ "grad_norm": 1.5602372884750366,
1839
+ "learning_rate": 3.4733333333333337e-06,
1840
+ "loss": 0.4192,
1841
+ "step": 2480
1842
+ },
1843
+ {
1844
+ "epoch": 12.418952618453865,
1845
+ "grad_norm": 1.391041874885559,
1846
+ "learning_rate": 3.406666666666667e-06,
1847
+ "loss": 0.414,
1848
+ "step": 2490
1849
+ },
1850
+ {
1851
+ "epoch": 12.468827930174564,
1852
+ "grad_norm": 1.5659008026123047,
1853
+ "learning_rate": 3.3400000000000006e-06,
1854
+ "loss": 0.4251,
1855
+ "step": 2500
1856
+ },
1857
+ {
1858
+ "epoch": 12.518703241895262,
1859
+ "grad_norm": 1.4149389266967773,
1860
+ "learning_rate": 3.2733333333333335e-06,
1861
+ "loss": 0.4299,
1862
+ "step": 2510
1863
+ },
1864
+ {
1865
+ "epoch": 12.56857855361596,
1866
+ "grad_norm": 1.5269657373428345,
1867
+ "learning_rate": 3.2066666666666667e-06,
1868
+ "loss": 0.4355,
1869
+ "step": 2520
1870
+ },
1871
+ {
1872
+ "epoch": 12.618453865336658,
1873
+ "grad_norm": 1.6707123517990112,
1874
+ "learning_rate": 3.1400000000000004e-06,
1875
+ "loss": 0.4282,
1876
+ "step": 2530
1877
+ },
1878
+ {
1879
+ "epoch": 12.668329177057357,
1880
+ "grad_norm": 1.3647090196609497,
1881
+ "learning_rate": 3.0733333333333337e-06,
1882
+ "loss": 0.3994,
1883
+ "step": 2540
1884
+ },
1885
+ {
1886
+ "epoch": 12.718204488778055,
1887
+ "grad_norm": 1.4243894815444946,
1888
+ "learning_rate": 3.0066666666666674e-06,
1889
+ "loss": 0.4181,
1890
+ "step": 2550
1891
+ },
1892
+ {
1893
+ "epoch": 12.768079800498754,
1894
+ "grad_norm": 1.3579431772232056,
1895
+ "learning_rate": 2.9400000000000002e-06,
1896
+ "loss": 0.4251,
1897
+ "step": 2560
1898
+ },
1899
+ {
1900
+ "epoch": 12.817955112219451,
1901
+ "grad_norm": 1.6759490966796875,
1902
+ "learning_rate": 2.8733333333333335e-06,
1903
+ "loss": 0.4143,
1904
+ "step": 2570
1905
+ },
1906
+ {
1907
+ "epoch": 12.86783042394015,
1908
+ "grad_norm": 1.5581449270248413,
1909
+ "learning_rate": 2.806666666666667e-06,
1910
+ "loss": 0.4083,
1911
+ "step": 2580
1912
+ },
1913
+ {
1914
+ "epoch": 12.917705735660848,
1915
+ "grad_norm": 1.607188105583191,
1916
+ "learning_rate": 2.7400000000000004e-06,
1917
+ "loss": 0.4236,
1918
+ "step": 2590
1919
+ },
1920
+ {
1921
+ "epoch": 12.967581047381547,
1922
+ "grad_norm": 1.3592510223388672,
1923
+ "learning_rate": 2.6733333333333333e-06,
1924
+ "loss": 0.4108,
1925
+ "step": 2600
1926
+ },
1927
+ {
1928
+ "epoch": 12.997506234413965,
1929
+ "eval_loss": 0.44020339846611023,
1930
+ "eval_runtime": 57.8997,
1931
+ "eval_samples_per_second": 17.323,
1932
+ "eval_steps_per_second": 3.472,
1933
+ "step": 2606
1934
+ },
1935
+ {
1936
+ "epoch": 13.017456359102244,
1937
+ "grad_norm": 1.461461067199707,
1938
+ "learning_rate": 2.606666666666667e-06,
1939
+ "loss": 0.4439,
1940
+ "step": 2610
1941
+ },
1942
+ {
1943
+ "epoch": 13.067331670822943,
1944
+ "grad_norm": 1.40589439868927,
1945
+ "learning_rate": 2.5400000000000002e-06,
1946
+ "loss": 0.4057,
1947
+ "step": 2620
1948
+ },
1949
+ {
1950
+ "epoch": 13.11720698254364,
1951
+ "grad_norm": 1.665216088294983,
1952
+ "learning_rate": 2.4733333333333335e-06,
1953
+ "loss": 0.4053,
1954
+ "step": 2630
1955
+ },
1956
+ {
1957
+ "epoch": 13.16708229426434,
1958
+ "grad_norm": 1.4636025428771973,
1959
+ "learning_rate": 2.4066666666666668e-06,
1960
+ "loss": 0.4199,
1961
+ "step": 2640
1962
+ },
1963
+ {
1964
+ "epoch": 13.216957605985037,
1965
+ "grad_norm": 1.4638257026672363,
1966
+ "learning_rate": 2.3400000000000005e-06,
1967
+ "loss": 0.4062,
1968
+ "step": 2650
1969
+ },
1970
+ {
1971
+ "epoch": 13.266832917705736,
1972
+ "grad_norm": 1.4565849304199219,
1973
+ "learning_rate": 2.2733333333333333e-06,
1974
+ "loss": 0.4354,
1975
+ "step": 2660
1976
+ },
1977
+ {
1978
+ "epoch": 13.316708229426434,
1979
+ "grad_norm": 1.4819647073745728,
1980
+ "learning_rate": 2.206666666666667e-06,
1981
+ "loss": 0.4088,
1982
+ "step": 2670
1983
+ },
1984
+ {
1985
+ "epoch": 13.366583541147133,
1986
+ "grad_norm": 1.5023897886276245,
1987
+ "learning_rate": 2.1400000000000003e-06,
1988
+ "loss": 0.4313,
1989
+ "step": 2680
1990
+ },
1991
+ {
1992
+ "epoch": 13.41645885286783,
1993
+ "grad_norm": 1.4261906147003174,
1994
+ "learning_rate": 2.0733333333333335e-06,
1995
+ "loss": 0.4179,
1996
+ "step": 2690
1997
+ },
1998
+ {
1999
+ "epoch": 13.46633416458853,
2000
+ "grad_norm": 1.6513773202896118,
2001
+ "learning_rate": 2.006666666666667e-06,
2002
+ "loss": 0.4341,
2003
+ "step": 2700
2004
+ },
2005
+ {
2006
+ "epoch": 13.516209476309227,
2007
+ "grad_norm": 1.6153149604797363,
2008
+ "learning_rate": 1.94e-06,
2009
+ "loss": 0.4231,
2010
+ "step": 2710
2011
+ },
2012
+ {
2013
+ "epoch": 13.566084788029926,
2014
+ "grad_norm": 1.6202324628829956,
2015
+ "learning_rate": 1.8733333333333333e-06,
2016
+ "loss": 0.4173,
2017
+ "step": 2720
2018
+ },
2019
+ {
2020
+ "epoch": 13.615960099750623,
2021
+ "grad_norm": 1.2559431791305542,
2022
+ "learning_rate": 1.8066666666666668e-06,
2023
+ "loss": 0.4238,
2024
+ "step": 2730
2025
+ },
2026
+ {
2027
+ "epoch": 13.665835411471322,
2028
+ "grad_norm": 1.3010227680206299,
2029
+ "learning_rate": 1.74e-06,
2030
+ "loss": 0.4287,
2031
+ "step": 2740
2032
+ },
2033
+ {
2034
+ "epoch": 13.71571072319202,
2035
+ "grad_norm": 1.432409644126892,
2036
+ "learning_rate": 1.6733333333333335e-06,
2037
+ "loss": 0.4143,
2038
+ "step": 2750
2039
+ },
2040
+ {
2041
+ "epoch": 13.765586034912719,
2042
+ "grad_norm": 1.4686477184295654,
2043
+ "learning_rate": 1.606666666666667e-06,
2044
+ "loss": 0.4192,
2045
+ "step": 2760
2046
+ },
2047
+ {
2048
+ "epoch": 13.815461346633416,
2049
+ "grad_norm": 1.526962161064148,
2050
+ "learning_rate": 1.54e-06,
2051
+ "loss": 0.4199,
2052
+ "step": 2770
2053
+ },
2054
+ {
2055
+ "epoch": 13.865336658354115,
2056
+ "grad_norm": 1.5790767669677734,
2057
+ "learning_rate": 1.4733333333333336e-06,
2058
+ "loss": 0.4089,
2059
+ "step": 2780
2060
+ },
2061
+ {
2062
+ "epoch": 13.915211970074813,
2063
+ "grad_norm": 1.4289913177490234,
2064
+ "learning_rate": 1.4066666666666668e-06,
2065
+ "loss": 0.4195,
2066
+ "step": 2790
2067
+ },
2068
+ {
2069
+ "epoch": 13.965087281795512,
2070
+ "grad_norm": 1.613978624343872,
2071
+ "learning_rate": 1.34e-06,
2072
+ "loss": 0.4279,
2073
+ "step": 2800
2074
+ },
2075
+ {
2076
+ "epoch": 14.0,
2077
+ "eval_loss": 0.439765065908432,
2078
+ "eval_runtime": 57.9105,
2079
+ "eval_samples_per_second": 17.32,
2080
+ "eval_steps_per_second": 3.471,
2081
+ "step": 2807
2082
+ },
2083
+ {
2084
+ "epoch": 14.01496259351621,
2085
+ "grad_norm": 1.4722168445587158,
2086
+ "learning_rate": 1.2733333333333334e-06,
2087
+ "loss": 0.445,
2088
+ "step": 2810
2089
+ },
2090
+ {
2091
+ "epoch": 14.064837905236908,
2092
+ "grad_norm": 1.6725043058395386,
2093
+ "learning_rate": 1.2066666666666668e-06,
2094
+ "loss": 0.4313,
2095
+ "step": 2820
2096
+ },
2097
+ {
2098
+ "epoch": 14.114713216957606,
2099
+ "grad_norm": 1.4227081537246704,
2100
+ "learning_rate": 1.14e-06,
2101
+ "loss": 0.4181,
2102
+ "step": 2830
2103
+ },
2104
+ {
2105
+ "epoch": 14.164588528678305,
2106
+ "grad_norm": 1.5610967874526978,
2107
+ "learning_rate": 1.0733333333333334e-06,
2108
+ "loss": 0.4229,
2109
+ "step": 2840
2110
+ },
2111
+ {
2112
+ "epoch": 14.214463840399002,
2113
+ "grad_norm": 1.520051121711731,
2114
+ "learning_rate": 1.0066666666666668e-06,
2115
+ "loss": 0.4301,
2116
+ "step": 2850
2117
+ },
2118
+ {
2119
+ "epoch": 14.264339152119701,
2120
+ "grad_norm": 1.4826945066452026,
2121
+ "learning_rate": 9.400000000000001e-07,
2122
+ "loss": 0.443,
2123
+ "step": 2860
2124
+ },
2125
+ {
2126
+ "epoch": 14.314214463840399,
2127
+ "grad_norm": 1.6496617794036865,
2128
+ "learning_rate": 8.733333333333334e-07,
2129
+ "loss": 0.4109,
2130
+ "step": 2870
2131
+ },
2132
+ {
2133
+ "epoch": 14.364089775561098,
2134
+ "grad_norm": 1.472607135772705,
2135
+ "learning_rate": 8.066666666666667e-07,
2136
+ "loss": 0.4075,
2137
+ "step": 2880
2138
+ },
2139
+ {
2140
+ "epoch": 14.413965087281795,
2141
+ "grad_norm": 1.4754953384399414,
2142
+ "learning_rate": 7.4e-07,
2143
+ "loss": 0.4257,
2144
+ "step": 2890
2145
+ },
2146
+ {
2147
+ "epoch": 14.463840399002494,
2148
+ "grad_norm": 1.6782726049423218,
2149
+ "learning_rate": 6.733333333333334e-07,
2150
+ "loss": 0.4099,
2151
+ "step": 2900
2152
+ },
2153
+ {
2154
+ "epoch": 14.513715710723192,
2155
+ "grad_norm": 1.4635963439941406,
2156
+ "learning_rate": 6.066666666666668e-07,
2157
+ "loss": 0.3977,
2158
+ "step": 2910
2159
+ },
2160
+ {
2161
+ "epoch": 14.563591022443891,
2162
+ "grad_norm": 1.5924144983291626,
2163
+ "learning_rate": 5.4e-07,
2164
+ "loss": 0.4181,
2165
+ "step": 2920
2166
+ },
2167
+ {
2168
+ "epoch": 14.613466334164588,
2169
+ "grad_norm": 1.346475601196289,
2170
+ "learning_rate": 4.7333333333333334e-07,
2171
+ "loss": 0.4132,
2172
+ "step": 2930
2173
+ },
2174
+ {
2175
+ "epoch": 14.663341645885287,
2176
+ "grad_norm": 1.4001176357269287,
2177
+ "learning_rate": 4.0666666666666666e-07,
2178
+ "loss": 0.4007,
2179
+ "step": 2940
2180
+ },
2181
+ {
2182
+ "epoch": 14.713216957605985,
2183
+ "grad_norm": 1.6243798732757568,
2184
+ "learning_rate": 3.4000000000000003e-07,
2185
+ "loss": 0.4332,
2186
+ "step": 2950
2187
+ },
2188
+ {
2189
+ "epoch": 14.763092269326684,
2190
+ "grad_norm": 1.5413304567337036,
2191
+ "learning_rate": 2.7333333333333335e-07,
2192
+ "loss": 0.4083,
2193
+ "step": 2960
2194
+ },
2195
+ {
2196
+ "epoch": 14.812967581047381,
2197
+ "grad_norm": 1.4332594871520996,
2198
+ "learning_rate": 2.066666666666667e-07,
2199
+ "loss": 0.4206,
2200
+ "step": 2970
2201
+ },
2202
+ {
2203
+ "epoch": 14.86284289276808,
2204
+ "grad_norm": 1.4844541549682617,
2205
+ "learning_rate": 1.4e-07,
2206
+ "loss": 0.4285,
2207
+ "step": 2980
2208
+ },
2209
+ {
2210
+ "epoch": 14.912718204488778,
2211
+ "grad_norm": 1.471591830253601,
2212
+ "learning_rate": 7.333333333333334e-08,
2213
+ "loss": 0.4118,
2214
+ "step": 2990
2215
+ },
2216
+ {
2217
+ "epoch": 14.962593516209477,
2218
+ "grad_norm": 1.3903006315231323,
2219
+ "learning_rate": 6.666666666666667e-09,
2220
+ "loss": 0.4145,
2221
+ "step": 3000
2222
+ }
2223
+ ],
2224
+ "logging_steps": 10,
2225
+ "max_steps": 3000,
2226
+ "num_input_tokens_seen": 0,
2227
+ "num_train_epochs": 15,
2228
+ "save_steps": 500,
2229
+ "stateful_callbacks": {
2230
+ "TrainerControl": {
2231
+ "args": {
2232
+ "should_epoch_stop": false,
2233
+ "should_evaluate": false,
2234
+ "should_log": false,
2235
+ "should_save": true,
2236
+ "should_training_stop": true
2237
+ },
2238
+ "attributes": {}
2239
+ }
2240
+ },
2241
+ "total_flos": 4.48818315264e+16,
2242
+ "train_batch_size": 5,
2243
+ "trial_name": null,
2244
+ "trial_params": null
2245
+ }