ALM-AHME commited on
Commit
37d26ed
1 Parent(s): b34befa

End of training

Browse files
all_results.json ADDED
@@ -0,0 +1,13 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 6.99,
3
+ "eval_accuracy": 0.9931339977851605,
4
+ "eval_loss": 0.021680034697055817,
5
+ "eval_runtime": 200.8012,
6
+ "eval_samples_per_second": 22.485,
7
+ "eval_steps_per_second": 2.814,
8
+ "total_flos": 9.636137349860819e+18,
9
+ "train_loss": 0.2149346098929894,
10
+ "train_runtime": 11488.9653,
11
+ "train_samples_per_second": 3.647,
12
+ "train_steps_per_second": 0.114
13
+ }
eval_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 6.99,
3
+ "eval_accuracy": 0.9931339977851605,
4
+ "eval_loss": 0.021680034697055817,
5
+ "eval_runtime": 200.8012,
6
+ "eval_samples_per_second": 22.485,
7
+ "eval_steps_per_second": 2.814
8
+ }
runs/Jul22_21-49-21_795f3a980e08/events.out.tfevents.1690074316.795f3a980e08.869.1 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f1689b087f122f3ac3a8854a6e7ace80e37ddb1b705630a062aad766c0e77333
3
+ size 411
train_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 6.99,
3
+ "total_flos": 9.636137349860819e+18,
4
+ "train_loss": 0.2149346098929894,
5
+ "train_runtime": 11488.9653,
6
+ "train_samples_per_second": 3.647,
7
+ "train_steps_per_second": 0.114
8
+ }
trainer_state.json ADDED
@@ -0,0 +1,1654 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": 0.9931339977851605,
3
+ "best_model_checkpoint": "swinv2-large-patch4-window12to16-192to256-22kto1k-ft-finetuned-LungCancer-LC25000-AH-40-30-30-S/checkpoint-1309",
4
+ "epoch": 6.990654205607477,
5
+ "global_step": 1309,
6
+ "is_hyper_param_search": false,
7
+ "is_local_process_zero": true,
8
+ "is_world_process_zero": true,
9
+ "log_history": [
10
+ {
11
+ "epoch": 0.03,
12
+ "learning_rate": 3.816793893129771e-06,
13
+ "loss": 1.1779,
14
+ "step": 5
15
+ },
16
+ {
17
+ "epoch": 0.05,
18
+ "learning_rate": 7.633587786259541e-06,
19
+ "loss": 1.006,
20
+ "step": 10
21
+ },
22
+ {
23
+ "epoch": 0.08,
24
+ "learning_rate": 1.1450381679389314e-05,
25
+ "loss": 0.756,
26
+ "step": 15
27
+ },
28
+ {
29
+ "epoch": 0.11,
30
+ "learning_rate": 1.5267175572519083e-05,
31
+ "loss": 0.443,
32
+ "step": 20
33
+ },
34
+ {
35
+ "epoch": 0.13,
36
+ "learning_rate": 1.9083969465648855e-05,
37
+ "loss": 0.2475,
38
+ "step": 25
39
+ },
40
+ {
41
+ "epoch": 0.16,
42
+ "learning_rate": 2.2900763358778628e-05,
43
+ "loss": 0.2196,
44
+ "step": 30
45
+ },
46
+ {
47
+ "epoch": 0.19,
48
+ "learning_rate": 2.6717557251908397e-05,
49
+ "loss": 0.17,
50
+ "step": 35
51
+ },
52
+ {
53
+ "epoch": 0.21,
54
+ "learning_rate": 3.0534351145038166e-05,
55
+ "loss": 0.189,
56
+ "step": 40
57
+ },
58
+ {
59
+ "epoch": 0.24,
60
+ "learning_rate": 3.435114503816794e-05,
61
+ "loss": 0.3358,
62
+ "step": 45
63
+ },
64
+ {
65
+ "epoch": 0.27,
66
+ "learning_rate": 3.816793893129771e-05,
67
+ "loss": 0.2714,
68
+ "step": 50
69
+ },
70
+ {
71
+ "epoch": 0.29,
72
+ "learning_rate": 4.198473282442748e-05,
73
+ "loss": 0.1602,
74
+ "step": 55
75
+ },
76
+ {
77
+ "epoch": 0.32,
78
+ "learning_rate": 4.5801526717557256e-05,
79
+ "loss": 0.2671,
80
+ "step": 60
81
+ },
82
+ {
83
+ "epoch": 0.35,
84
+ "learning_rate": 4.9618320610687025e-05,
85
+ "loss": 0.2408,
86
+ "step": 65
87
+ },
88
+ {
89
+ "epoch": 0.37,
90
+ "learning_rate": 5.3435114503816794e-05,
91
+ "loss": 0.2186,
92
+ "step": 70
93
+ },
94
+ {
95
+ "epoch": 0.4,
96
+ "learning_rate": 5.725190839694656e-05,
97
+ "loss": 0.1904,
98
+ "step": 75
99
+ },
100
+ {
101
+ "epoch": 0.43,
102
+ "learning_rate": 6.106870229007633e-05,
103
+ "loss": 0.1271,
104
+ "step": 80
105
+ },
106
+ {
107
+ "epoch": 0.45,
108
+ "learning_rate": 6.488549618320611e-05,
109
+ "loss": 0.3301,
110
+ "step": 85
111
+ },
112
+ {
113
+ "epoch": 0.48,
114
+ "learning_rate": 6.870229007633588e-05,
115
+ "loss": 0.2404,
116
+ "step": 90
117
+ },
118
+ {
119
+ "epoch": 0.51,
120
+ "learning_rate": 7.251908396946565e-05,
121
+ "loss": 0.229,
122
+ "step": 95
123
+ },
124
+ {
125
+ "epoch": 0.53,
126
+ "learning_rate": 7.633587786259542e-05,
127
+ "loss": 0.1829,
128
+ "step": 100
129
+ },
130
+ {
131
+ "epoch": 0.56,
132
+ "learning_rate": 8.015267175572518e-05,
133
+ "loss": 0.1683,
134
+ "step": 105
135
+ },
136
+ {
137
+ "epoch": 0.59,
138
+ "learning_rate": 8.396946564885496e-05,
139
+ "loss": 0.2363,
140
+ "step": 110
141
+ },
142
+ {
143
+ "epoch": 0.61,
144
+ "learning_rate": 8.778625954198472e-05,
145
+ "loss": 0.2637,
146
+ "step": 115
147
+ },
148
+ {
149
+ "epoch": 0.64,
150
+ "learning_rate": 9.160305343511451e-05,
151
+ "loss": 0.3301,
152
+ "step": 120
153
+ },
154
+ {
155
+ "epoch": 0.67,
156
+ "learning_rate": 9.541984732824429e-05,
157
+ "loss": 0.2141,
158
+ "step": 125
159
+ },
160
+ {
161
+ "epoch": 0.69,
162
+ "learning_rate": 9.923664122137405e-05,
163
+ "loss": 0.1592,
164
+ "step": 130
165
+ },
166
+ {
167
+ "epoch": 0.72,
168
+ "learning_rate": 0.00010305343511450383,
169
+ "loss": 0.2908,
170
+ "step": 135
171
+ },
172
+ {
173
+ "epoch": 0.75,
174
+ "learning_rate": 0.00010687022900763359,
175
+ "loss": 0.1797,
176
+ "step": 140
177
+ },
178
+ {
179
+ "epoch": 0.77,
180
+ "learning_rate": 0.00011068702290076336,
181
+ "loss": 0.3134,
182
+ "step": 145
183
+ },
184
+ {
185
+ "epoch": 0.8,
186
+ "learning_rate": 0.00011450381679389313,
187
+ "loss": 0.2634,
188
+ "step": 150
189
+ },
190
+ {
191
+ "epoch": 0.83,
192
+ "learning_rate": 0.0001183206106870229,
193
+ "loss": 0.2527,
194
+ "step": 155
195
+ },
196
+ {
197
+ "epoch": 0.85,
198
+ "learning_rate": 0.00012213740458015266,
199
+ "loss": 0.3261,
200
+ "step": 160
201
+ },
202
+ {
203
+ "epoch": 0.88,
204
+ "learning_rate": 0.00012595419847328244,
205
+ "loss": 0.2047,
206
+ "step": 165
207
+ },
208
+ {
209
+ "epoch": 0.91,
210
+ "learning_rate": 0.00012977099236641222,
211
+ "loss": 0.1162,
212
+ "step": 170
213
+ },
214
+ {
215
+ "epoch": 0.93,
216
+ "learning_rate": 0.000133587786259542,
217
+ "loss": 0.2225,
218
+ "step": 175
219
+ },
220
+ {
221
+ "epoch": 0.96,
222
+ "learning_rate": 0.00013740458015267177,
223
+ "loss": 0.1982,
224
+ "step": 180
225
+ },
226
+ {
227
+ "epoch": 0.99,
228
+ "learning_rate": 0.00014122137404580154,
229
+ "loss": 0.176,
230
+ "step": 185
231
+ },
232
+ {
233
+ "epoch": 1.0,
234
+ "eval_accuracy": 0.9663344407530454,
235
+ "eval_loss": 0.08905145525932312,
236
+ "eval_runtime": 2220.808,
237
+ "eval_samples_per_second": 2.033,
238
+ "eval_steps_per_second": 0.254,
239
+ "step": 187
240
+ },
241
+ {
242
+ "epoch": 1.01,
243
+ "learning_rate": 0.0001450381679389313,
244
+ "loss": 0.2658,
245
+ "step": 190
246
+ },
247
+ {
248
+ "epoch": 1.04,
249
+ "learning_rate": 0.00014885496183206107,
250
+ "loss": 0.2131,
251
+ "step": 195
252
+ },
253
+ {
254
+ "epoch": 1.07,
255
+ "learning_rate": 0.00015267175572519084,
256
+ "loss": 0.4798,
257
+ "step": 200
258
+ },
259
+ {
260
+ "epoch": 1.09,
261
+ "learning_rate": 0.00015648854961832062,
262
+ "loss": 0.4856,
263
+ "step": 205
264
+ },
265
+ {
266
+ "epoch": 1.12,
267
+ "learning_rate": 0.00016030534351145037,
268
+ "loss": 0.1263,
269
+ "step": 210
270
+ },
271
+ {
272
+ "epoch": 1.15,
273
+ "learning_rate": 0.00016412213740458014,
274
+ "loss": 0.1071,
275
+ "step": 215
276
+ },
277
+ {
278
+ "epoch": 1.17,
279
+ "learning_rate": 0.00016793893129770992,
280
+ "loss": 0.3246,
281
+ "step": 220
282
+ },
283
+ {
284
+ "epoch": 1.2,
285
+ "learning_rate": 0.0001717557251908397,
286
+ "loss": 0.3047,
287
+ "step": 225
288
+ },
289
+ {
290
+ "epoch": 1.23,
291
+ "learning_rate": 0.00017557251908396944,
292
+ "loss": 0.3411,
293
+ "step": 230
294
+ },
295
+ {
296
+ "epoch": 1.26,
297
+ "learning_rate": 0.00017938931297709925,
298
+ "loss": 0.1746,
299
+ "step": 235
300
+ },
301
+ {
302
+ "epoch": 1.28,
303
+ "learning_rate": 0.00018320610687022902,
304
+ "loss": 0.199,
305
+ "step": 240
306
+ },
307
+ {
308
+ "epoch": 1.31,
309
+ "learning_rate": 0.0001870229007633588,
310
+ "loss": 0.1853,
311
+ "step": 245
312
+ },
313
+ {
314
+ "epoch": 1.34,
315
+ "learning_rate": 0.00019083969465648857,
316
+ "loss": 0.2752,
317
+ "step": 250
318
+ },
319
+ {
320
+ "epoch": 1.36,
321
+ "learning_rate": 0.00019465648854961832,
322
+ "loss": 0.5029,
323
+ "step": 255
324
+ },
325
+ {
326
+ "epoch": 1.39,
327
+ "learning_rate": 0.0001984732824427481,
328
+ "loss": 0.4166,
329
+ "step": 260
330
+ },
331
+ {
332
+ "epoch": 1.42,
333
+ "learning_rate": 0.00020229007633587788,
334
+ "loss": 0.2551,
335
+ "step": 265
336
+ },
337
+ {
338
+ "epoch": 1.44,
339
+ "learning_rate": 0.00020610687022900765,
340
+ "loss": 0.1754,
341
+ "step": 270
342
+ },
343
+ {
344
+ "epoch": 1.47,
345
+ "learning_rate": 0.0002099236641221374,
346
+ "loss": 0.192,
347
+ "step": 275
348
+ },
349
+ {
350
+ "epoch": 1.5,
351
+ "learning_rate": 0.00021374045801526718,
352
+ "loss": 0.2465,
353
+ "step": 280
354
+ },
355
+ {
356
+ "epoch": 1.52,
357
+ "learning_rate": 0.00021755725190839695,
358
+ "loss": 0.3647,
359
+ "step": 285
360
+ },
361
+ {
362
+ "epoch": 1.55,
363
+ "learning_rate": 0.00022137404580152673,
364
+ "loss": 0.2527,
365
+ "step": 290
366
+ },
367
+ {
368
+ "epoch": 1.58,
369
+ "learning_rate": 0.00022519083969465648,
370
+ "loss": 0.1766,
371
+ "step": 295
372
+ },
373
+ {
374
+ "epoch": 1.6,
375
+ "learning_rate": 0.00022900763358778625,
376
+ "loss": 0.255,
377
+ "step": 300
378
+ },
379
+ {
380
+ "epoch": 1.63,
381
+ "learning_rate": 0.00023282442748091603,
382
+ "loss": 0.2679,
383
+ "step": 305
384
+ },
385
+ {
386
+ "epoch": 1.66,
387
+ "learning_rate": 0.0002366412213740458,
388
+ "loss": 0.3582,
389
+ "step": 310
390
+ },
391
+ {
392
+ "epoch": 1.68,
393
+ "learning_rate": 0.00024045801526717558,
394
+ "loss": 0.3507,
395
+ "step": 315
396
+ },
397
+ {
398
+ "epoch": 1.71,
399
+ "learning_rate": 0.00024427480916030533,
400
+ "loss": 0.236,
401
+ "step": 320
402
+ },
403
+ {
404
+ "epoch": 1.74,
405
+ "learning_rate": 0.00024809160305343513,
406
+ "loss": 0.2117,
407
+ "step": 325
408
+ },
409
+ {
410
+ "epoch": 1.76,
411
+ "learning_rate": 0.0002519083969465649,
412
+ "loss": 0.1137,
413
+ "step": 330
414
+ },
415
+ {
416
+ "epoch": 1.79,
417
+ "learning_rate": 0.00025572519083969463,
418
+ "loss": 0.1813,
419
+ "step": 335
420
+ },
421
+ {
422
+ "epoch": 1.82,
423
+ "learning_rate": 0.00025954198473282443,
424
+ "loss": 0.3319,
425
+ "step": 340
426
+ },
427
+ {
428
+ "epoch": 1.84,
429
+ "learning_rate": 0.0002633587786259542,
430
+ "loss": 0.3197,
431
+ "step": 345
432
+ },
433
+ {
434
+ "epoch": 1.87,
435
+ "learning_rate": 0.000267175572519084,
436
+ "loss": 0.2639,
437
+ "step": 350
438
+ },
439
+ {
440
+ "epoch": 1.9,
441
+ "learning_rate": 0.00027099236641221373,
442
+ "loss": 0.2399,
443
+ "step": 355
444
+ },
445
+ {
446
+ "epoch": 1.92,
447
+ "learning_rate": 0.00027480916030534353,
448
+ "loss": 0.3508,
449
+ "step": 360
450
+ },
451
+ {
452
+ "epoch": 1.95,
453
+ "learning_rate": 0.0002786259541984733,
454
+ "loss": 0.2495,
455
+ "step": 365
456
+ },
457
+ {
458
+ "epoch": 1.98,
459
+ "learning_rate": 0.0002824427480916031,
460
+ "loss": 0.2574,
461
+ "step": 370
462
+ },
463
+ {
464
+ "epoch": 2.0,
465
+ "eval_accuracy": 0.9249169435215947,
466
+ "eval_loss": 0.21274060010910034,
467
+ "eval_runtime": 199.9611,
468
+ "eval_samples_per_second": 22.579,
469
+ "eval_steps_per_second": 2.826,
470
+ "step": 374
471
+ },
472
+ {
473
+ "epoch": 2.0,
474
+ "learning_rate": 0.0002862595419847328,
475
+ "loss": 0.3538,
476
+ "step": 375
477
+ },
478
+ {
479
+ "epoch": 2.03,
480
+ "learning_rate": 0.0002900763358778626,
481
+ "loss": 0.1445,
482
+ "step": 380
483
+ },
484
+ {
485
+ "epoch": 2.06,
486
+ "learning_rate": 0.0002938931297709924,
487
+ "loss": 0.2736,
488
+ "step": 385
489
+ },
490
+ {
491
+ "epoch": 2.08,
492
+ "learning_rate": 0.00029770992366412214,
493
+ "loss": 0.2254,
494
+ "step": 390
495
+ },
496
+ {
497
+ "epoch": 2.11,
498
+ "learning_rate": 0.00030152671755725194,
499
+ "loss": 0.1761,
500
+ "step": 395
501
+ },
502
+ {
503
+ "epoch": 2.14,
504
+ "learning_rate": 0.0003053435114503817,
505
+ "loss": 0.2928,
506
+ "step": 400
507
+ },
508
+ {
509
+ "epoch": 2.16,
510
+ "learning_rate": 0.0003091603053435115,
511
+ "loss": 0.1804,
512
+ "step": 405
513
+ },
514
+ {
515
+ "epoch": 2.19,
516
+ "learning_rate": 0.00031297709923664124,
517
+ "loss": 0.2572,
518
+ "step": 410
519
+ },
520
+ {
521
+ "epoch": 2.22,
522
+ "learning_rate": 0.000316793893129771,
523
+ "loss": 0.2419,
524
+ "step": 415
525
+ },
526
+ {
527
+ "epoch": 2.24,
528
+ "learning_rate": 0.00032061068702290074,
529
+ "loss": 0.1741,
530
+ "step": 420
531
+ },
532
+ {
533
+ "epoch": 2.27,
534
+ "learning_rate": 0.00032442748091603054,
535
+ "loss": 0.1857,
536
+ "step": 425
537
+ },
538
+ {
539
+ "epoch": 2.3,
540
+ "learning_rate": 0.0003282442748091603,
541
+ "loss": 0.2407,
542
+ "step": 430
543
+ },
544
+ {
545
+ "epoch": 2.32,
546
+ "learning_rate": 0.0003320610687022901,
547
+ "loss": 0.2855,
548
+ "step": 435
549
+ },
550
+ {
551
+ "epoch": 2.35,
552
+ "learning_rate": 0.00033587786259541984,
553
+ "loss": 0.2814,
554
+ "step": 440
555
+ },
556
+ {
557
+ "epoch": 2.38,
558
+ "learning_rate": 0.00033969465648854964,
559
+ "loss": 0.2093,
560
+ "step": 445
561
+ },
562
+ {
563
+ "epoch": 2.4,
564
+ "learning_rate": 0.0003435114503816794,
565
+ "loss": 0.5727,
566
+ "step": 450
567
+ },
568
+ {
569
+ "epoch": 2.43,
570
+ "learning_rate": 0.0003473282442748092,
571
+ "loss": 0.2078,
572
+ "step": 455
573
+ },
574
+ {
575
+ "epoch": 2.46,
576
+ "learning_rate": 0.0003511450381679389,
577
+ "loss": 0.2195,
578
+ "step": 460
579
+ },
580
+ {
581
+ "epoch": 2.48,
582
+ "learning_rate": 0.0003549618320610687,
583
+ "loss": 0.2145,
584
+ "step": 465
585
+ },
586
+ {
587
+ "epoch": 2.51,
588
+ "learning_rate": 0.0003587786259541985,
589
+ "loss": 0.3072,
590
+ "step": 470
591
+ },
592
+ {
593
+ "epoch": 2.54,
594
+ "learning_rate": 0.00036259541984732824,
595
+ "loss": 0.1972,
596
+ "step": 475
597
+ },
598
+ {
599
+ "epoch": 2.56,
600
+ "learning_rate": 0.00036641221374045805,
601
+ "loss": 0.1569,
602
+ "step": 480
603
+ },
604
+ {
605
+ "epoch": 2.59,
606
+ "learning_rate": 0.0003702290076335878,
607
+ "loss": 0.2367,
608
+ "step": 485
609
+ },
610
+ {
611
+ "epoch": 2.62,
612
+ "learning_rate": 0.0003740458015267176,
613
+ "loss": 0.1382,
614
+ "step": 490
615
+ },
616
+ {
617
+ "epoch": 2.64,
618
+ "learning_rate": 0.00037786259541984735,
619
+ "loss": 0.313,
620
+ "step": 495
621
+ },
622
+ {
623
+ "epoch": 2.67,
624
+ "learning_rate": 0.00038167938931297715,
625
+ "loss": 0.2987,
626
+ "step": 500
627
+ },
628
+ {
629
+ "epoch": 2.7,
630
+ "learning_rate": 0.00038549618320610684,
631
+ "loss": 0.4081,
632
+ "step": 505
633
+ },
634
+ {
635
+ "epoch": 2.72,
636
+ "learning_rate": 0.00038931297709923665,
637
+ "loss": 0.21,
638
+ "step": 510
639
+ },
640
+ {
641
+ "epoch": 2.75,
642
+ "learning_rate": 0.0003931297709923664,
643
+ "loss": 0.2028,
644
+ "step": 515
645
+ },
646
+ {
647
+ "epoch": 2.78,
648
+ "learning_rate": 0.0003969465648854962,
649
+ "loss": 0.2109,
650
+ "step": 520
651
+ },
652
+ {
653
+ "epoch": 2.8,
654
+ "learning_rate": 0.00040076335877862595,
655
+ "loss": 0.1649,
656
+ "step": 525
657
+ },
658
+ {
659
+ "epoch": 2.83,
660
+ "learning_rate": 0.00040458015267175575,
661
+ "loss": 0.1715,
662
+ "step": 530
663
+ },
664
+ {
665
+ "epoch": 2.86,
666
+ "learning_rate": 0.0004083969465648855,
667
+ "loss": 0.2841,
668
+ "step": 535
669
+ },
670
+ {
671
+ "epoch": 2.88,
672
+ "learning_rate": 0.0004122137404580153,
673
+ "loss": 0.5783,
674
+ "step": 540
675
+ },
676
+ {
677
+ "epoch": 2.91,
678
+ "learning_rate": 0.00041603053435114505,
679
+ "loss": 0.2577,
680
+ "step": 545
681
+ },
682
+ {
683
+ "epoch": 2.94,
684
+ "learning_rate": 0.0004198473282442748,
685
+ "loss": 0.3562,
686
+ "step": 550
687
+ },
688
+ {
689
+ "epoch": 2.96,
690
+ "learning_rate": 0.00042366412213740455,
691
+ "loss": 0.1978,
692
+ "step": 555
693
+ },
694
+ {
695
+ "epoch": 2.99,
696
+ "learning_rate": 0.00042748091603053435,
697
+ "loss": 0.2416,
698
+ "step": 560
699
+ },
700
+ {
701
+ "epoch": 3.0,
702
+ "eval_accuracy": 0.9235880398671097,
703
+ "eval_loss": 0.24068056046962738,
704
+ "eval_runtime": 199.5391,
705
+ "eval_samples_per_second": 22.627,
706
+ "eval_steps_per_second": 2.832,
707
+ "step": 561
708
+ },
709
+ {
710
+ "epoch": 3.02,
711
+ "learning_rate": 0.00043129770992366415,
712
+ "loss": 0.4637,
713
+ "step": 565
714
+ },
715
+ {
716
+ "epoch": 3.04,
717
+ "learning_rate": 0.0004351145038167939,
718
+ "loss": 0.2742,
719
+ "step": 570
720
+ },
721
+ {
722
+ "epoch": 3.07,
723
+ "learning_rate": 0.0004389312977099237,
724
+ "loss": 0.1964,
725
+ "step": 575
726
+ },
727
+ {
728
+ "epoch": 3.1,
729
+ "learning_rate": 0.00044274809160305345,
730
+ "loss": 0.1171,
731
+ "step": 580
732
+ },
733
+ {
734
+ "epoch": 3.12,
735
+ "learning_rate": 0.00044656488549618326,
736
+ "loss": 0.2311,
737
+ "step": 585
738
+ },
739
+ {
740
+ "epoch": 3.15,
741
+ "learning_rate": 0.00045038167938931295,
742
+ "loss": 0.3213,
743
+ "step": 590
744
+ },
745
+ {
746
+ "epoch": 3.18,
747
+ "learning_rate": 0.00045419847328244275,
748
+ "loss": 0.4646,
749
+ "step": 595
750
+ },
751
+ {
752
+ "epoch": 3.2,
753
+ "learning_rate": 0.0004580152671755725,
754
+ "loss": 0.3705,
755
+ "step": 600
756
+ },
757
+ {
758
+ "epoch": 3.23,
759
+ "learning_rate": 0.0004618320610687023,
760
+ "loss": 0.3722,
761
+ "step": 605
762
+ },
763
+ {
764
+ "epoch": 3.26,
765
+ "learning_rate": 0.00046564885496183206,
766
+ "loss": 0.2067,
767
+ "step": 610
768
+ },
769
+ {
770
+ "epoch": 3.28,
771
+ "learning_rate": 0.00046946564885496186,
772
+ "loss": 0.3482,
773
+ "step": 615
774
+ },
775
+ {
776
+ "epoch": 3.31,
777
+ "learning_rate": 0.0004732824427480916,
778
+ "loss": 0.6133,
779
+ "step": 620
780
+ },
781
+ {
782
+ "epoch": 3.34,
783
+ "learning_rate": 0.0004770992366412214,
784
+ "loss": 0.1821,
785
+ "step": 625
786
+ },
787
+ {
788
+ "epoch": 3.36,
789
+ "learning_rate": 0.00048091603053435116,
790
+ "loss": 0.1156,
791
+ "step": 630
792
+ },
793
+ {
794
+ "epoch": 3.39,
795
+ "learning_rate": 0.0004847328244274809,
796
+ "loss": 0.3412,
797
+ "step": 635
798
+ },
799
+ {
800
+ "epoch": 3.42,
801
+ "learning_rate": 0.0004885496183206107,
802
+ "loss": 0.3401,
803
+ "step": 640
804
+ },
805
+ {
806
+ "epoch": 3.44,
807
+ "learning_rate": 0.0004923664122137404,
808
+ "loss": 0.3777,
809
+ "step": 645
810
+ },
811
+ {
812
+ "epoch": 3.47,
813
+ "learning_rate": 0.0004961832061068703,
814
+ "loss": 0.3208,
815
+ "step": 650
816
+ },
817
+ {
818
+ "epoch": 3.5,
819
+ "learning_rate": 0.0005,
820
+ "loss": 0.2342,
821
+ "step": 655
822
+ },
823
+ {
824
+ "epoch": 3.52,
825
+ "learning_rate": 0.000496177370030581,
826
+ "loss": 0.138,
827
+ "step": 660
828
+ },
829
+ {
830
+ "epoch": 3.55,
831
+ "learning_rate": 0.0004923547400611621,
832
+ "loss": 0.347,
833
+ "step": 665
834
+ },
835
+ {
836
+ "epoch": 3.58,
837
+ "learning_rate": 0.0004885321100917432,
838
+ "loss": 0.1618,
839
+ "step": 670
840
+ },
841
+ {
842
+ "epoch": 3.6,
843
+ "learning_rate": 0.00048470948012232416,
844
+ "loss": 0.4014,
845
+ "step": 675
846
+ },
847
+ {
848
+ "epoch": 3.63,
849
+ "learning_rate": 0.00048088685015290524,
850
+ "loss": 0.2076,
851
+ "step": 680
852
+ },
853
+ {
854
+ "epoch": 3.66,
855
+ "learning_rate": 0.00047706422018348627,
856
+ "loss": 0.3927,
857
+ "step": 685
858
+ },
859
+ {
860
+ "epoch": 3.68,
861
+ "learning_rate": 0.00047324159021406724,
862
+ "loss": 0.2456,
863
+ "step": 690
864
+ },
865
+ {
866
+ "epoch": 3.71,
867
+ "learning_rate": 0.0004694189602446483,
868
+ "loss": 0.2381,
869
+ "step": 695
870
+ },
871
+ {
872
+ "epoch": 3.74,
873
+ "learning_rate": 0.00046559633027522934,
874
+ "loss": 0.3495,
875
+ "step": 700
876
+ },
877
+ {
878
+ "epoch": 3.77,
879
+ "learning_rate": 0.00046177370030581037,
880
+ "loss": 0.2412,
881
+ "step": 705
882
+ },
883
+ {
884
+ "epoch": 3.79,
885
+ "learning_rate": 0.00045795107033639145,
886
+ "loss": 0.0919,
887
+ "step": 710
888
+ },
889
+ {
890
+ "epoch": 3.82,
891
+ "learning_rate": 0.0004541284403669725,
892
+ "loss": 0.1719,
893
+ "step": 715
894
+ },
895
+ {
896
+ "epoch": 3.85,
897
+ "learning_rate": 0.00045030581039755355,
898
+ "loss": 0.2253,
899
+ "step": 720
900
+ },
901
+ {
902
+ "epoch": 3.87,
903
+ "learning_rate": 0.0004464831804281346,
904
+ "loss": 0.266,
905
+ "step": 725
906
+ },
907
+ {
908
+ "epoch": 3.9,
909
+ "learning_rate": 0.0004426605504587156,
910
+ "loss": 0.393,
911
+ "step": 730
912
+ },
913
+ {
914
+ "epoch": 3.93,
915
+ "learning_rate": 0.0004388379204892967,
916
+ "loss": 0.1946,
917
+ "step": 735
918
+ },
919
+ {
920
+ "epoch": 3.95,
921
+ "learning_rate": 0.0004350152905198777,
922
+ "loss": 0.2403,
923
+ "step": 740
924
+ },
925
+ {
926
+ "epoch": 3.98,
927
+ "learning_rate": 0.00043119266055045873,
928
+ "loss": 0.2457,
929
+ "step": 745
930
+ },
931
+ {
932
+ "epoch": 4.0,
933
+ "eval_accuracy": 0.9632336655592469,
934
+ "eval_loss": 0.12449143081903458,
935
+ "eval_runtime": 199.4812,
936
+ "eval_samples_per_second": 22.634,
937
+ "eval_steps_per_second": 2.832,
938
+ "step": 749
939
+ },
940
+ {
941
+ "epoch": 4.01,
942
+ "learning_rate": 0.00042737003058103976,
943
+ "loss": 0.1742,
944
+ "step": 750
945
+ },
946
+ {
947
+ "epoch": 4.03,
948
+ "learning_rate": 0.0004235474006116208,
949
+ "loss": 0.1818,
950
+ "step": 755
951
+ },
952
+ {
953
+ "epoch": 4.06,
954
+ "learning_rate": 0.0004197247706422018,
955
+ "loss": 0.1993,
956
+ "step": 760
957
+ },
958
+ {
959
+ "epoch": 4.09,
960
+ "learning_rate": 0.0004159021406727829,
961
+ "loss": 0.2366,
962
+ "step": 765
963
+ },
964
+ {
965
+ "epoch": 4.11,
966
+ "learning_rate": 0.0004120795107033639,
967
+ "loss": 0.3832,
968
+ "step": 770
969
+ },
970
+ {
971
+ "epoch": 4.14,
972
+ "learning_rate": 0.00040825688073394494,
973
+ "loss": 0.3366,
974
+ "step": 775
975
+ },
976
+ {
977
+ "epoch": 4.17,
978
+ "learning_rate": 0.000404434250764526,
979
+ "loss": 0.2643,
980
+ "step": 780
981
+ },
982
+ {
983
+ "epoch": 4.19,
984
+ "learning_rate": 0.00040061162079510704,
985
+ "loss": 0.1366,
986
+ "step": 785
987
+ },
988
+ {
989
+ "epoch": 4.22,
990
+ "learning_rate": 0.00039678899082568807,
991
+ "loss": 0.1477,
992
+ "step": 790
993
+ },
994
+ {
995
+ "epoch": 4.25,
996
+ "learning_rate": 0.00039296636085626915,
997
+ "loss": 0.1768,
998
+ "step": 795
999
+ },
1000
+ {
1001
+ "epoch": 4.27,
1002
+ "learning_rate": 0.00038914373088685017,
1003
+ "loss": 0.1896,
1004
+ "step": 800
1005
+ },
1006
+ {
1007
+ "epoch": 4.3,
1008
+ "learning_rate": 0.0003853211009174312,
1009
+ "loss": 0.1293,
1010
+ "step": 805
1011
+ },
1012
+ {
1013
+ "epoch": 4.33,
1014
+ "learning_rate": 0.0003814984709480123,
1015
+ "loss": 0.1712,
1016
+ "step": 810
1017
+ },
1018
+ {
1019
+ "epoch": 4.35,
1020
+ "learning_rate": 0.00037767584097859325,
1021
+ "loss": 0.2588,
1022
+ "step": 815
1023
+ },
1024
+ {
1025
+ "epoch": 4.38,
1026
+ "learning_rate": 0.00037385321100917427,
1027
+ "loss": 0.2662,
1028
+ "step": 820
1029
+ },
1030
+ {
1031
+ "epoch": 4.41,
1032
+ "learning_rate": 0.00037003058103975535,
1033
+ "loss": 0.1665,
1034
+ "step": 825
1035
+ },
1036
+ {
1037
+ "epoch": 4.43,
1038
+ "learning_rate": 0.0003662079510703364,
1039
+ "loss": 0.1282,
1040
+ "step": 830
1041
+ },
1042
+ {
1043
+ "epoch": 4.46,
1044
+ "learning_rate": 0.00036238532110091746,
1045
+ "loss": 0.3499,
1046
+ "step": 835
1047
+ },
1048
+ {
1049
+ "epoch": 4.49,
1050
+ "learning_rate": 0.0003585626911314985,
1051
+ "loss": 0.5141,
1052
+ "step": 840
1053
+ },
1054
+ {
1055
+ "epoch": 4.51,
1056
+ "learning_rate": 0.0003547400611620795,
1057
+ "loss": 0.2327,
1058
+ "step": 845
1059
+ },
1060
+ {
1061
+ "epoch": 4.54,
1062
+ "learning_rate": 0.0003509174311926606,
1063
+ "loss": 0.1088,
1064
+ "step": 850
1065
+ },
1066
+ {
1067
+ "epoch": 4.57,
1068
+ "learning_rate": 0.0003470948012232416,
1069
+ "loss": 0.0992,
1070
+ "step": 855
1071
+ },
1072
+ {
1073
+ "epoch": 4.59,
1074
+ "learning_rate": 0.00034327217125382264,
1075
+ "loss": 0.1203,
1076
+ "step": 860
1077
+ },
1078
+ {
1079
+ "epoch": 4.62,
1080
+ "learning_rate": 0.0003394495412844037,
1081
+ "loss": 0.2057,
1082
+ "step": 865
1083
+ },
1084
+ {
1085
+ "epoch": 4.65,
1086
+ "learning_rate": 0.00033562691131498474,
1087
+ "loss": 0.2275,
1088
+ "step": 870
1089
+ },
1090
+ {
1091
+ "epoch": 4.67,
1092
+ "learning_rate": 0.00033180428134556576,
1093
+ "loss": 0.09,
1094
+ "step": 875
1095
+ },
1096
+ {
1097
+ "epoch": 4.7,
1098
+ "learning_rate": 0.0003279816513761468,
1099
+ "loss": 0.1304,
1100
+ "step": 880
1101
+ },
1102
+ {
1103
+ "epoch": 4.73,
1104
+ "learning_rate": 0.0003241590214067278,
1105
+ "loss": 0.125,
1106
+ "step": 885
1107
+ },
1108
+ {
1109
+ "epoch": 4.75,
1110
+ "learning_rate": 0.00032033639143730884,
1111
+ "loss": 0.1223,
1112
+ "step": 890
1113
+ },
1114
+ {
1115
+ "epoch": 4.78,
1116
+ "learning_rate": 0.0003165137614678899,
1117
+ "loss": 0.1314,
1118
+ "step": 895
1119
+ },
1120
+ {
1121
+ "epoch": 4.81,
1122
+ "learning_rate": 0.00031269113149847094,
1123
+ "loss": 0.1529,
1124
+ "step": 900
1125
+ },
1126
+ {
1127
+ "epoch": 4.83,
1128
+ "learning_rate": 0.00030886850152905197,
1129
+ "loss": 0.1601,
1130
+ "step": 905
1131
+ },
1132
+ {
1133
+ "epoch": 4.86,
1134
+ "learning_rate": 0.00030504587155963305,
1135
+ "loss": 0.0514,
1136
+ "step": 910
1137
+ },
1138
+ {
1139
+ "epoch": 4.89,
1140
+ "learning_rate": 0.0003012232415902141,
1141
+ "loss": 0.1469,
1142
+ "step": 915
1143
+ },
1144
+ {
1145
+ "epoch": 4.91,
1146
+ "learning_rate": 0.0002974006116207951,
1147
+ "loss": 0.1872,
1148
+ "step": 920
1149
+ },
1150
+ {
1151
+ "epoch": 4.94,
1152
+ "learning_rate": 0.0002935779816513762,
1153
+ "loss": 0.4385,
1154
+ "step": 925
1155
+ },
1156
+ {
1157
+ "epoch": 4.97,
1158
+ "learning_rate": 0.0002897553516819572,
1159
+ "loss": 0.1051,
1160
+ "step": 930
1161
+ },
1162
+ {
1163
+ "epoch": 4.99,
1164
+ "learning_rate": 0.0002859327217125383,
1165
+ "loss": 0.3583,
1166
+ "step": 935
1167
+ },
1168
+ {
1169
+ "epoch": 5.0,
1170
+ "eval_accuracy": 0.940420819490587,
1171
+ "eval_loss": 0.17089825868606567,
1172
+ "eval_runtime": 199.5748,
1173
+ "eval_samples_per_second": 22.623,
1174
+ "eval_steps_per_second": 2.831,
1175
+ "step": 936
1176
+ },
1177
+ {
1178
+ "epoch": 5.02,
1179
+ "learning_rate": 0.00028211009174311925,
1180
+ "loss": 0.2089,
1181
+ "step": 940
1182
+ },
1183
+ {
1184
+ "epoch": 5.05,
1185
+ "learning_rate": 0.0002782874617737003,
1186
+ "loss": 0.0995,
1187
+ "step": 945
1188
+ },
1189
+ {
1190
+ "epoch": 5.07,
1191
+ "learning_rate": 0.00027446483180428136,
1192
+ "loss": 0.1323,
1193
+ "step": 950
1194
+ },
1195
+ {
1196
+ "epoch": 5.1,
1197
+ "learning_rate": 0.0002706422018348624,
1198
+ "loss": 0.1608,
1199
+ "step": 955
1200
+ },
1201
+ {
1202
+ "epoch": 5.13,
1203
+ "learning_rate": 0.0002668195718654434,
1204
+ "loss": 0.1366,
1205
+ "step": 960
1206
+ },
1207
+ {
1208
+ "epoch": 5.15,
1209
+ "learning_rate": 0.0002629969418960245,
1210
+ "loss": 0.1587,
1211
+ "step": 965
1212
+ },
1213
+ {
1214
+ "epoch": 5.18,
1215
+ "learning_rate": 0.0002591743119266055,
1216
+ "loss": 0.0915,
1217
+ "step": 970
1218
+ },
1219
+ {
1220
+ "epoch": 5.21,
1221
+ "learning_rate": 0.00025535168195718654,
1222
+ "loss": 0.1566,
1223
+ "step": 975
1224
+ },
1225
+ {
1226
+ "epoch": 5.23,
1227
+ "learning_rate": 0.0002515290519877676,
1228
+ "loss": 0.1494,
1229
+ "step": 980
1230
+ },
1231
+ {
1232
+ "epoch": 5.26,
1233
+ "learning_rate": 0.00024770642201834864,
1234
+ "loss": 0.1051,
1235
+ "step": 985
1236
+ },
1237
+ {
1238
+ "epoch": 5.29,
1239
+ "learning_rate": 0.00024388379204892967,
1240
+ "loss": 0.0536,
1241
+ "step": 990
1242
+ },
1243
+ {
1244
+ "epoch": 5.31,
1245
+ "learning_rate": 0.0002400611620795107,
1246
+ "loss": 0.1352,
1247
+ "step": 995
1248
+ },
1249
+ {
1250
+ "epoch": 5.34,
1251
+ "learning_rate": 0.00023623853211009174,
1252
+ "loss": 0.1114,
1253
+ "step": 1000
1254
+ },
1255
+ {
1256
+ "epoch": 5.37,
1257
+ "learning_rate": 0.0002324159021406728,
1258
+ "loss": 0.108,
1259
+ "step": 1005
1260
+ },
1261
+ {
1262
+ "epoch": 5.39,
1263
+ "learning_rate": 0.00022859327217125385,
1264
+ "loss": 0.1227,
1265
+ "step": 1010
1266
+ },
1267
+ {
1268
+ "epoch": 5.42,
1269
+ "learning_rate": 0.00022477064220183487,
1270
+ "loss": 0.1345,
1271
+ "step": 1015
1272
+ },
1273
+ {
1274
+ "epoch": 5.45,
1275
+ "learning_rate": 0.0002209480122324159,
1276
+ "loss": 0.1356,
1277
+ "step": 1020
1278
+ },
1279
+ {
1280
+ "epoch": 5.47,
1281
+ "learning_rate": 0.00021712538226299695,
1282
+ "loss": 0.0851,
1283
+ "step": 1025
1284
+ },
1285
+ {
1286
+ "epoch": 5.5,
1287
+ "learning_rate": 0.00021330275229357798,
1288
+ "loss": 0.1514,
1289
+ "step": 1030
1290
+ },
1291
+ {
1292
+ "epoch": 5.53,
1293
+ "learning_rate": 0.00020948012232415903,
1294
+ "loss": 0.1007,
1295
+ "step": 1035
1296
+ },
1297
+ {
1298
+ "epoch": 5.55,
1299
+ "learning_rate": 0.00020565749235474008,
1300
+ "loss": 0.0984,
1301
+ "step": 1040
1302
+ },
1303
+ {
1304
+ "epoch": 5.58,
1305
+ "learning_rate": 0.0002018348623853211,
1306
+ "loss": 0.1566,
1307
+ "step": 1045
1308
+ },
1309
+ {
1310
+ "epoch": 5.61,
1311
+ "learning_rate": 0.00019801223241590213,
1312
+ "loss": 0.2042,
1313
+ "step": 1050
1314
+ },
1315
+ {
1316
+ "epoch": 5.63,
1317
+ "learning_rate": 0.00019418960244648318,
1318
+ "loss": 0.1433,
1319
+ "step": 1055
1320
+ },
1321
+ {
1322
+ "epoch": 5.66,
1323
+ "learning_rate": 0.0001903669724770642,
1324
+ "loss": 0.0526,
1325
+ "step": 1060
1326
+ },
1327
+ {
1328
+ "epoch": 5.69,
1329
+ "learning_rate": 0.00018654434250764526,
1330
+ "loss": 0.1404,
1331
+ "step": 1065
1332
+ },
1333
+ {
1334
+ "epoch": 5.71,
1335
+ "learning_rate": 0.0001827217125382263,
1336
+ "loss": 0.1393,
1337
+ "step": 1070
1338
+ },
1339
+ {
1340
+ "epoch": 5.74,
1341
+ "learning_rate": 0.00017889908256880736,
1342
+ "loss": 0.198,
1343
+ "step": 1075
1344
+ },
1345
+ {
1346
+ "epoch": 5.77,
1347
+ "learning_rate": 0.00017507645259938836,
1348
+ "loss": 0.0803,
1349
+ "step": 1080
1350
+ },
1351
+ {
1352
+ "epoch": 5.79,
1353
+ "learning_rate": 0.00017125382262996941,
1354
+ "loss": 0.0685,
1355
+ "step": 1085
1356
+ },
1357
+ {
1358
+ "epoch": 5.82,
1359
+ "learning_rate": 0.00016743119266055047,
1360
+ "loss": 0.075,
1361
+ "step": 1090
1362
+ },
1363
+ {
1364
+ "epoch": 5.85,
1365
+ "learning_rate": 0.0001636085626911315,
1366
+ "loss": 0.113,
1367
+ "step": 1095
1368
+ },
1369
+ {
1370
+ "epoch": 5.87,
1371
+ "learning_rate": 0.00015978593272171254,
1372
+ "loss": 0.166,
1373
+ "step": 1100
1374
+ },
1375
+ {
1376
+ "epoch": 5.9,
1377
+ "learning_rate": 0.0001559633027522936,
1378
+ "loss": 0.1116,
1379
+ "step": 1105
1380
+ },
1381
+ {
1382
+ "epoch": 5.93,
1383
+ "learning_rate": 0.00015214067278287462,
1384
+ "loss": 0.0457,
1385
+ "step": 1110
1386
+ },
1387
+ {
1388
+ "epoch": 5.95,
1389
+ "learning_rate": 0.00014831804281345565,
1390
+ "loss": 0.1791,
1391
+ "step": 1115
1392
+ },
1393
+ {
1394
+ "epoch": 5.98,
1395
+ "learning_rate": 0.0001444954128440367,
1396
+ "loss": 0.149,
1397
+ "step": 1120
1398
+ },
1399
+ {
1400
+ "epoch": 6.0,
1401
+ "eval_accuracy": 0.9813953488372092,
1402
+ "eval_loss": 0.050164252519607544,
1403
+ "eval_runtime": 200.5287,
1404
+ "eval_samples_per_second": 22.515,
1405
+ "eval_steps_per_second": 2.818,
1406
+ "step": 1123
1407
+ },
1408
+ {
1409
+ "epoch": 6.01,
1410
+ "learning_rate": 0.00014067278287461775,
1411
+ "loss": 0.0968,
1412
+ "step": 1125
1413
+ },
1414
+ {
1415
+ "epoch": 6.03,
1416
+ "learning_rate": 0.00013685015290519878,
1417
+ "loss": 0.1238,
1418
+ "step": 1130
1419
+ },
1420
+ {
1421
+ "epoch": 6.06,
1422
+ "learning_rate": 0.00013302752293577983,
1423
+ "loss": 0.0348,
1424
+ "step": 1135
1425
+ },
1426
+ {
1427
+ "epoch": 6.09,
1428
+ "learning_rate": 0.00012920489296636088,
1429
+ "loss": 0.1474,
1430
+ "step": 1140
1431
+ },
1432
+ {
1433
+ "epoch": 6.11,
1434
+ "learning_rate": 0.00012538226299694188,
1435
+ "loss": 0.0695,
1436
+ "step": 1145
1437
+ },
1438
+ {
1439
+ "epoch": 6.14,
1440
+ "learning_rate": 0.00012155963302752294,
1441
+ "loss": 0.0442,
1442
+ "step": 1150
1443
+ },
1444
+ {
1445
+ "epoch": 6.17,
1446
+ "learning_rate": 0.00011773700305810397,
1447
+ "loss": 0.0618,
1448
+ "step": 1155
1449
+ },
1450
+ {
1451
+ "epoch": 6.19,
1452
+ "learning_rate": 0.00011391437308868502,
1453
+ "loss": 0.0461,
1454
+ "step": 1160
1455
+ },
1456
+ {
1457
+ "epoch": 6.22,
1458
+ "learning_rate": 0.00011009174311926606,
1459
+ "loss": 0.0709,
1460
+ "step": 1165
1461
+ },
1462
+ {
1463
+ "epoch": 6.25,
1464
+ "learning_rate": 0.0001062691131498471,
1465
+ "loss": 0.298,
1466
+ "step": 1170
1467
+ },
1468
+ {
1469
+ "epoch": 6.28,
1470
+ "learning_rate": 0.00010244648318042814,
1471
+ "loss": 0.1027,
1472
+ "step": 1175
1473
+ },
1474
+ {
1475
+ "epoch": 6.3,
1476
+ "learning_rate": 9.862385321100918e-05,
1477
+ "loss": 0.0527,
1478
+ "step": 1180
1479
+ },
1480
+ {
1481
+ "epoch": 6.33,
1482
+ "learning_rate": 9.480122324159021e-05,
1483
+ "loss": 0.1324,
1484
+ "step": 1185
1485
+ },
1486
+ {
1487
+ "epoch": 6.36,
1488
+ "learning_rate": 9.097859327217125e-05,
1489
+ "loss": 0.0493,
1490
+ "step": 1190
1491
+ },
1492
+ {
1493
+ "epoch": 6.38,
1494
+ "learning_rate": 8.71559633027523e-05,
1495
+ "loss": 0.1259,
1496
+ "step": 1195
1497
+ },
1498
+ {
1499
+ "epoch": 6.41,
1500
+ "learning_rate": 8.333333333333333e-05,
1501
+ "loss": 0.0601,
1502
+ "step": 1200
1503
+ },
1504
+ {
1505
+ "epoch": 6.44,
1506
+ "learning_rate": 7.951070336391437e-05,
1507
+ "loss": 0.0347,
1508
+ "step": 1205
1509
+ },
1510
+ {
1511
+ "epoch": 6.46,
1512
+ "learning_rate": 7.568807339449542e-05,
1513
+ "loss": 0.114,
1514
+ "step": 1210
1515
+ },
1516
+ {
1517
+ "epoch": 6.49,
1518
+ "learning_rate": 7.186544342507645e-05,
1519
+ "loss": 0.0324,
1520
+ "step": 1215
1521
+ },
1522
+ {
1523
+ "epoch": 6.52,
1524
+ "learning_rate": 6.80428134556575e-05,
1525
+ "loss": 0.0766,
1526
+ "step": 1220
1527
+ },
1528
+ {
1529
+ "epoch": 6.54,
1530
+ "learning_rate": 6.422018348623854e-05,
1531
+ "loss": 0.0466,
1532
+ "step": 1225
1533
+ },
1534
+ {
1535
+ "epoch": 6.57,
1536
+ "learning_rate": 6.0397553516819576e-05,
1537
+ "loss": 0.0974,
1538
+ "step": 1230
1539
+ },
1540
+ {
1541
+ "epoch": 6.6,
1542
+ "learning_rate": 5.6574923547400615e-05,
1543
+ "loss": 0.1163,
1544
+ "step": 1235
1545
+ },
1546
+ {
1547
+ "epoch": 6.62,
1548
+ "learning_rate": 5.275229357798165e-05,
1549
+ "loss": 0.1117,
1550
+ "step": 1240
1551
+ },
1552
+ {
1553
+ "epoch": 6.65,
1554
+ "learning_rate": 4.892966360856269e-05,
1555
+ "loss": 0.1026,
1556
+ "step": 1245
1557
+ },
1558
+ {
1559
+ "epoch": 6.68,
1560
+ "learning_rate": 4.510703363914373e-05,
1561
+ "loss": 0.0873,
1562
+ "step": 1250
1563
+ },
1564
+ {
1565
+ "epoch": 6.7,
1566
+ "learning_rate": 4.1284403669724776e-05,
1567
+ "loss": 0.069,
1568
+ "step": 1255
1569
+ },
1570
+ {
1571
+ "epoch": 6.73,
1572
+ "learning_rate": 3.746177370030581e-05,
1573
+ "loss": 0.0464,
1574
+ "step": 1260
1575
+ },
1576
+ {
1577
+ "epoch": 6.76,
1578
+ "learning_rate": 3.3639143730886846e-05,
1579
+ "loss": 0.0256,
1580
+ "step": 1265
1581
+ },
1582
+ {
1583
+ "epoch": 6.78,
1584
+ "learning_rate": 2.9816513761467892e-05,
1585
+ "loss": 0.1119,
1586
+ "step": 1270
1587
+ },
1588
+ {
1589
+ "epoch": 6.81,
1590
+ "learning_rate": 2.599388379204893e-05,
1591
+ "loss": 0.0179,
1592
+ "step": 1275
1593
+ },
1594
+ {
1595
+ "epoch": 6.84,
1596
+ "learning_rate": 2.217125382262997e-05,
1597
+ "loss": 0.0448,
1598
+ "step": 1280
1599
+ },
1600
+ {
1601
+ "epoch": 6.86,
1602
+ "learning_rate": 1.834862385321101e-05,
1603
+ "loss": 0.0438,
1604
+ "step": 1285
1605
+ },
1606
+ {
1607
+ "epoch": 6.89,
1608
+ "learning_rate": 1.452599388379205e-05,
1609
+ "loss": 0.0184,
1610
+ "step": 1290
1611
+ },
1612
+ {
1613
+ "epoch": 6.92,
1614
+ "learning_rate": 1.0703363914373088e-05,
1615
+ "loss": 0.0423,
1616
+ "step": 1295
1617
+ },
1618
+ {
1619
+ "epoch": 6.94,
1620
+ "learning_rate": 6.880733944954129e-06,
1621
+ "loss": 0.0928,
1622
+ "step": 1300
1623
+ },
1624
+ {
1625
+ "epoch": 6.97,
1626
+ "learning_rate": 3.0581039755351682e-06,
1627
+ "loss": 0.061,
1628
+ "step": 1305
1629
+ },
1630
+ {
1631
+ "epoch": 6.99,
1632
+ "eval_accuracy": 0.9931339977851605,
1633
+ "eval_loss": 0.021680034697055817,
1634
+ "eval_runtime": 200.3527,
1635
+ "eval_samples_per_second": 22.535,
1636
+ "eval_steps_per_second": 2.82,
1637
+ "step": 1309
1638
+ },
1639
+ {
1640
+ "epoch": 6.99,
1641
+ "step": 1309,
1642
+ "total_flos": 9.636137349860819e+18,
1643
+ "train_loss": 0.2149346098929894,
1644
+ "train_runtime": 11488.9653,
1645
+ "train_samples_per_second": 3.647,
1646
+ "train_steps_per_second": 0.114
1647
+ }
1648
+ ],
1649
+ "max_steps": 1309,
1650
+ "num_train_epochs": 7,
1651
+ "total_flos": 9.636137349860819e+18,
1652
+ "trial_name": null,
1653
+ "trial_params": null
1654
+ }