paul commited on
Commit
a376455
1 Parent(s): 67a392d

End of training

Browse files
all_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 19.99,
3
+ "total_flos": 2.570971016151724e+18,
4
+ "train_loss": 0.2198217125982046,
5
+ "train_runtime": 2662.746,
6
+ "train_samples_per_second": 38.862,
7
+ "train_steps_per_second": 0.3
8
+ }
pytorch_model.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:76a513db916d645273b89de0344e78268f78d5cd1b55a1bed8734aedd2e2a441
3
  size 110402095
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ed603924c5245551bd01d7196f236298600e31d5f5bca4d80eb0f8429b5df0b1
3
  size 110402095
runs/Sep17_12-14-13_c6083727ba95/events.out.tfevents.1663416863.c6083727ba95.69.4 CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:87abbfa45b387dfe361a4223747bfb6581e60598902b6c5fbc15e912782899c7
3
- size 23237
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e19991a7d6f43b23191c7b3b657edf11c34cda87bdcdb076cc633c84331372ca
3
+ size 23591
train_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 19.99,
3
+ "total_flos": 2.570971016151724e+18,
4
+ "train_loss": 0.2198217125982046,
5
+ "train_runtime": 2662.746,
6
+ "train_samples_per_second": 38.862,
7
+ "train_steps_per_second": 0.3
8
+ }
trainer_state.json ADDED
@@ -0,0 +1,685 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": 0.8523956723338485,
3
+ "best_model_checkpoint": "swin-base-patch4-window7-224-20epochs-finetuned-memes/checkpoint-720",
4
+ "epoch": 19.987654320987655,
5
+ "global_step": 800,
6
+ "is_hyper_param_search": false,
7
+ "is_local_process_zero": true,
8
+ "is_world_process_zero": true,
9
+ "log_history": [
10
+ {
11
+ "epoch": 0.25,
12
+ "learning_rate": 1.5e-05,
13
+ "loss": 1.5785,
14
+ "step": 10
15
+ },
16
+ {
17
+ "epoch": 0.49,
18
+ "learning_rate": 3e-05,
19
+ "loss": 1.3827,
20
+ "step": 20
21
+ },
22
+ {
23
+ "epoch": 0.74,
24
+ "learning_rate": 4.5e-05,
25
+ "loss": 1.2326,
26
+ "step": 30
27
+ },
28
+ {
29
+ "epoch": 0.99,
30
+ "learning_rate": 6e-05,
31
+ "loss": 1.0238,
32
+ "step": 40
33
+ },
34
+ {
35
+ "epoch": 0.99,
36
+ "eval_accuracy": 0.6445131375579598,
37
+ "eval_loss": 0.9635888934135437,
38
+ "eval_runtime": 13.4283,
39
+ "eval_samples_per_second": 96.364,
40
+ "eval_steps_per_second": 3.053,
41
+ "step": 40
42
+ },
43
+ {
44
+ "epoch": 1.25,
45
+ "learning_rate": 7.500000000000001e-05,
46
+ "loss": 0.9034,
47
+ "step": 50
48
+ },
49
+ {
50
+ "epoch": 1.49,
51
+ "learning_rate": 9e-05,
52
+ "loss": 0.7712,
53
+ "step": 60
54
+ },
55
+ {
56
+ "epoch": 1.74,
57
+ "learning_rate": 0.000105,
58
+ "loss": 0.6842,
59
+ "step": 70
60
+ },
61
+ {
62
+ "epoch": 1.99,
63
+ "learning_rate": 0.00012,
64
+ "loss": 0.777,
65
+ "step": 80
66
+ },
67
+ {
68
+ "epoch": 1.99,
69
+ "eval_accuracy": 0.7666151468315301,
70
+ "eval_loss": 0.6590734720230103,
71
+ "eval_runtime": 13.59,
72
+ "eval_samples_per_second": 95.217,
73
+ "eval_steps_per_second": 3.017,
74
+ "step": 80
75
+ },
76
+ {
77
+ "epoch": 2.25,
78
+ "learning_rate": 0.00011833333333333334,
79
+ "loss": 0.5363,
80
+ "step": 90
81
+ },
82
+ {
83
+ "epoch": 2.49,
84
+ "learning_rate": 0.00011666666666666667,
85
+ "loss": 0.5328,
86
+ "step": 100
87
+ },
88
+ {
89
+ "epoch": 2.74,
90
+ "learning_rate": 0.000115,
91
+ "loss": 0.5225,
92
+ "step": 110
93
+ },
94
+ {
95
+ "epoch": 2.99,
96
+ "learning_rate": 0.00011333333333333333,
97
+ "loss": 0.4763,
98
+ "step": 120
99
+ },
100
+ {
101
+ "epoch": 2.99,
102
+ "eval_accuracy": 0.8129829984544049,
103
+ "eval_loss": 0.5381317138671875,
104
+ "eval_runtime": 13.606,
105
+ "eval_samples_per_second": 95.105,
106
+ "eval_steps_per_second": 3.013,
107
+ "step": 120
108
+ },
109
+ {
110
+ "epoch": 3.25,
111
+ "learning_rate": 0.00011166666666666667,
112
+ "loss": 0.3984,
113
+ "step": 130
114
+ },
115
+ {
116
+ "epoch": 3.49,
117
+ "learning_rate": 0.00011,
118
+ "loss": 0.3326,
119
+ "step": 140
120
+ },
121
+ {
122
+ "epoch": 3.74,
123
+ "learning_rate": 0.00010833333333333334,
124
+ "loss": 0.3432,
125
+ "step": 150
126
+ },
127
+ {
128
+ "epoch": 3.99,
129
+ "learning_rate": 0.00010666666666666667,
130
+ "loss": 0.3215,
131
+ "step": 160
132
+ },
133
+ {
134
+ "epoch": 3.99,
135
+ "eval_accuracy": 0.8253477588871716,
136
+ "eval_loss": 0.5243730545043945,
137
+ "eval_runtime": 13.4626,
138
+ "eval_samples_per_second": 96.118,
139
+ "eval_steps_per_second": 3.045,
140
+ "step": 160
141
+ },
142
+ {
143
+ "epoch": 4.25,
144
+ "learning_rate": 0.000105,
145
+ "loss": 0.2485,
146
+ "step": 170
147
+ },
148
+ {
149
+ "epoch": 4.49,
150
+ "learning_rate": 0.00010333333333333334,
151
+ "loss": 0.2195,
152
+ "step": 180
153
+ },
154
+ {
155
+ "epoch": 4.74,
156
+ "learning_rate": 0.00010166666666666667,
157
+ "loss": 0.2453,
158
+ "step": 190
159
+ },
160
+ {
161
+ "epoch": 4.99,
162
+ "learning_rate": 0.0001,
163
+ "loss": 0.2179,
164
+ "step": 200
165
+ },
166
+ {
167
+ "epoch": 4.99,
168
+ "eval_accuracy": 0.8238021638330757,
169
+ "eval_loss": 0.5122919678688049,
170
+ "eval_runtime": 13.4171,
171
+ "eval_samples_per_second": 96.444,
172
+ "eval_steps_per_second": 3.056,
173
+ "step": 200
174
+ },
175
+ {
176
+ "epoch": 5.25,
177
+ "learning_rate": 9.833333333333333e-05,
178
+ "loss": 0.157,
179
+ "step": 210
180
+ },
181
+ {
182
+ "epoch": 5.49,
183
+ "learning_rate": 9.666666666666667e-05,
184
+ "loss": 0.1693,
185
+ "step": 220
186
+ },
187
+ {
188
+ "epoch": 5.74,
189
+ "learning_rate": 9.499999999999999e-05,
190
+ "loss": 0.1598,
191
+ "step": 230
192
+ },
193
+ {
194
+ "epoch": 5.99,
195
+ "learning_rate": 9.333333333333334e-05,
196
+ "loss": 0.1868,
197
+ "step": 240
198
+ },
199
+ {
200
+ "epoch": 5.99,
201
+ "eval_accuracy": 0.8307573415765069,
202
+ "eval_loss": 0.505190372467041,
203
+ "eval_runtime": 14.0842,
204
+ "eval_samples_per_second": 91.876,
205
+ "eval_steps_per_second": 2.911,
206
+ "step": 240
207
+ },
208
+ {
209
+ "epoch": 6.25,
210
+ "learning_rate": 9.166666666666667e-05,
211
+ "loss": 0.1369,
212
+ "step": 250
213
+ },
214
+ {
215
+ "epoch": 6.49,
216
+ "learning_rate": 9e-05,
217
+ "loss": 0.1244,
218
+ "step": 260
219
+ },
220
+ {
221
+ "epoch": 6.74,
222
+ "learning_rate": 8.833333333333334e-05,
223
+ "loss": 0.135,
224
+ "step": 270
225
+ },
226
+ {
227
+ "epoch": 6.99,
228
+ "learning_rate": 8.666666666666667e-05,
229
+ "loss": 0.154,
230
+ "step": 280
231
+ },
232
+ {
233
+ "epoch": 6.99,
234
+ "eval_accuracy": 0.8338485316846986,
235
+ "eval_loss": 0.5444023013114929,
236
+ "eval_runtime": 14.0303,
237
+ "eval_samples_per_second": 92.229,
238
+ "eval_steps_per_second": 2.922,
239
+ "step": 280
240
+ },
241
+ {
242
+ "epoch": 7.25,
243
+ "learning_rate": 8.5e-05,
244
+ "loss": 0.0984,
245
+ "step": 290
246
+ },
247
+ {
248
+ "epoch": 7.49,
249
+ "learning_rate": 8.333333333333333e-05,
250
+ "loss": 0.1232,
251
+ "step": 300
252
+ },
253
+ {
254
+ "epoch": 7.74,
255
+ "learning_rate": 8.166666666666667e-05,
256
+ "loss": 0.1084,
257
+ "step": 310
258
+ },
259
+ {
260
+ "epoch": 7.99,
261
+ "learning_rate": 7.999999999999999e-05,
262
+ "loss": 0.1166,
263
+ "step": 320
264
+ },
265
+ {
266
+ "epoch": 7.99,
267
+ "eval_accuracy": 0.8238021638330757,
268
+ "eval_loss": 0.6318011283874512,
269
+ "eval_runtime": 13.3442,
270
+ "eval_samples_per_second": 96.971,
271
+ "eval_steps_per_second": 3.073,
272
+ "step": 320
273
+ },
274
+ {
275
+ "epoch": 8.25,
276
+ "learning_rate": 7.833333333333333e-05,
277
+ "loss": 0.0948,
278
+ "step": 330
279
+ },
280
+ {
281
+ "epoch": 8.49,
282
+ "learning_rate": 7.666666666666667e-05,
283
+ "loss": 0.0808,
284
+ "step": 340
285
+ },
286
+ {
287
+ "epoch": 8.74,
288
+ "learning_rate": 7.500000000000001e-05,
289
+ "loss": 0.0791,
290
+ "step": 350
291
+ },
292
+ {
293
+ "epoch": 8.99,
294
+ "learning_rate": 7.333333333333334e-05,
295
+ "loss": 0.1099,
296
+ "step": 360
297
+ },
298
+ {
299
+ "epoch": 8.99,
300
+ "eval_accuracy": 0.8338485316846986,
301
+ "eval_loss": 0.5655674934387207,
302
+ "eval_runtime": 13.3681,
303
+ "eval_samples_per_second": 96.798,
304
+ "eval_steps_per_second": 3.067,
305
+ "step": 360
306
+ },
307
+ {
308
+ "epoch": 9.25,
309
+ "learning_rate": 7.166666666666667e-05,
310
+ "loss": 0.0774,
311
+ "step": 370
312
+ },
313
+ {
314
+ "epoch": 9.49,
315
+ "learning_rate": 7.000000000000001e-05,
316
+ "loss": 0.0709,
317
+ "step": 380
318
+ },
319
+ {
320
+ "epoch": 9.74,
321
+ "learning_rate": 6.833333333333333e-05,
322
+ "loss": 0.0928,
323
+ "step": 390
324
+ },
325
+ {
326
+ "epoch": 9.99,
327
+ "learning_rate": 6.666666666666667e-05,
328
+ "loss": 0.0925,
329
+ "step": 400
330
+ },
331
+ {
332
+ "epoch": 9.99,
333
+ "eval_accuracy": 0.8338485316846986,
334
+ "eval_loss": 0.605692982673645,
335
+ "eval_runtime": 13.2986,
336
+ "eval_samples_per_second": 97.304,
337
+ "eval_steps_per_second": 3.083,
338
+ "step": 400
339
+ },
340
+ {
341
+ "epoch": 10.25,
342
+ "learning_rate": 6.5e-05,
343
+ "loss": 0.0766,
344
+ "step": 410
345
+ },
346
+ {
347
+ "epoch": 10.49,
348
+ "learning_rate": 6.333333333333333e-05,
349
+ "loss": 0.0779,
350
+ "step": 420
351
+ },
352
+ {
353
+ "epoch": 10.74,
354
+ "learning_rate": 6.166666666666666e-05,
355
+ "loss": 0.0857,
356
+ "step": 430
357
+ },
358
+ {
359
+ "epoch": 10.99,
360
+ "learning_rate": 6e-05,
361
+ "loss": 0.0779,
362
+ "step": 440
363
+ },
364
+ {
365
+ "epoch": 10.99,
366
+ "eval_accuracy": 0.839258114374034,
367
+ "eval_loss": 0.5942096710205078,
368
+ "eval_runtime": 13.3265,
369
+ "eval_samples_per_second": 97.1,
370
+ "eval_steps_per_second": 3.077,
371
+ "step": 440
372
+ },
373
+ {
374
+ "epoch": 11.25,
375
+ "learning_rate": 5.833333333333333e-05,
376
+ "loss": 0.0856,
377
+ "step": 450
378
+ },
379
+ {
380
+ "epoch": 11.49,
381
+ "learning_rate": 5.6666666666666664e-05,
382
+ "loss": 0.0665,
383
+ "step": 460
384
+ },
385
+ {
386
+ "epoch": 11.74,
387
+ "learning_rate": 5.5e-05,
388
+ "loss": 0.0878,
389
+ "step": 470
390
+ },
391
+ {
392
+ "epoch": 11.99,
393
+ "learning_rate": 5.333333333333333e-05,
394
+ "loss": 0.0629,
395
+ "step": 480
396
+ },
397
+ {
398
+ "epoch": 11.99,
399
+ "eval_accuracy": 0.8400309119010819,
400
+ "eval_loss": 0.6111562848091125,
401
+ "eval_runtime": 13.3421,
402
+ "eval_samples_per_second": 96.986,
403
+ "eval_steps_per_second": 3.073,
404
+ "step": 480
405
+ },
406
+ {
407
+ "epoch": 12.25,
408
+ "learning_rate": 5.166666666666667e-05,
409
+ "loss": 0.073,
410
+ "step": 490
411
+ },
412
+ {
413
+ "epoch": 12.49,
414
+ "learning_rate": 5e-05,
415
+ "loss": 0.0663,
416
+ "step": 500
417
+ },
418
+ {
419
+ "epoch": 12.74,
420
+ "learning_rate": 4.8333333333333334e-05,
421
+ "loss": 0.0743,
422
+ "step": 510
423
+ },
424
+ {
425
+ "epoch": 12.99,
426
+ "learning_rate": 4.666666666666667e-05,
427
+ "loss": 0.0742,
428
+ "step": 520
429
+ },
430
+ {
431
+ "epoch": 12.99,
432
+ "eval_accuracy": 0.8330757341576507,
433
+ "eval_loss": 0.6588025093078613,
434
+ "eval_runtime": 13.4276,
435
+ "eval_samples_per_second": 96.368,
436
+ "eval_steps_per_second": 3.053,
437
+ "step": 520
438
+ },
439
+ {
440
+ "epoch": 13.25,
441
+ "learning_rate": 4.5e-05,
442
+ "loss": 0.0568,
443
+ "step": 530
444
+ },
445
+ {
446
+ "epoch": 13.49,
447
+ "learning_rate": 4.3333333333333334e-05,
448
+ "loss": 0.0667,
449
+ "step": 540
450
+ },
451
+ {
452
+ "epoch": 13.74,
453
+ "learning_rate": 4.1666666666666665e-05,
454
+ "loss": 0.0728,
455
+ "step": 550
456
+ },
457
+ {
458
+ "epoch": 13.99,
459
+ "learning_rate": 3.9999999999999996e-05,
460
+ "loss": 0.0752,
461
+ "step": 560
462
+ },
463
+ {
464
+ "epoch": 13.99,
465
+ "eval_accuracy": 0.8408037094281299,
466
+ "eval_loss": 0.6142703294754028,
467
+ "eval_runtime": 13.5242,
468
+ "eval_samples_per_second": 95.68,
469
+ "eval_steps_per_second": 3.032,
470
+ "step": 560
471
+ },
472
+ {
473
+ "epoch": 14.25,
474
+ "learning_rate": 3.8333333333333334e-05,
475
+ "loss": 0.0598,
476
+ "step": 570
477
+ },
478
+ {
479
+ "epoch": 14.49,
480
+ "learning_rate": 3.666666666666667e-05,
481
+ "loss": 0.0541,
482
+ "step": 580
483
+ },
484
+ {
485
+ "epoch": 14.74,
486
+ "learning_rate": 3.5000000000000004e-05,
487
+ "loss": 0.058,
488
+ "step": 590
489
+ },
490
+ {
491
+ "epoch": 14.99,
492
+ "learning_rate": 3.3333333333333335e-05,
493
+ "loss": 0.0577,
494
+ "step": 600
495
+ },
496
+ {
497
+ "epoch": 14.99,
498
+ "eval_accuracy": 0.8516228748068007,
499
+ "eval_loss": 0.6449967622756958,
500
+ "eval_runtime": 13.3252,
501
+ "eval_samples_per_second": 97.109,
502
+ "eval_steps_per_second": 3.077,
503
+ "step": 600
504
+ },
505
+ {
506
+ "epoch": 15.25,
507
+ "learning_rate": 3.1666666666666666e-05,
508
+ "loss": 0.0567,
509
+ "step": 610
510
+ },
511
+ {
512
+ "epoch": 15.49,
513
+ "learning_rate": 3e-05,
514
+ "loss": 0.0582,
515
+ "step": 620
516
+ },
517
+ {
518
+ "epoch": 15.74,
519
+ "learning_rate": 2.8333333333333332e-05,
520
+ "loss": 0.0498,
521
+ "step": 630
522
+ },
523
+ {
524
+ "epoch": 15.99,
525
+ "learning_rate": 2.6666666666666667e-05,
526
+ "loss": 0.0589,
527
+ "step": 640
528
+ },
529
+ {
530
+ "epoch": 15.99,
531
+ "eval_accuracy": 0.8400309119010819,
532
+ "eval_loss": 0.6786577105522156,
533
+ "eval_runtime": 13.4332,
534
+ "eval_samples_per_second": 96.329,
535
+ "eval_steps_per_second": 3.052,
536
+ "step": 640
537
+ },
538
+ {
539
+ "epoch": 16.25,
540
+ "learning_rate": 2.5e-05,
541
+ "loss": 0.0486,
542
+ "step": 650
543
+ },
544
+ {
545
+ "epoch": 16.49,
546
+ "learning_rate": 2.3333333333333336e-05,
547
+ "loss": 0.0549,
548
+ "step": 660
549
+ },
550
+ {
551
+ "epoch": 16.74,
552
+ "learning_rate": 2.1666666666666667e-05,
553
+ "loss": 0.0613,
554
+ "step": 670
555
+ },
556
+ {
557
+ "epoch": 16.99,
558
+ "learning_rate": 1.9999999999999998e-05,
559
+ "loss": 0.0555,
560
+ "step": 680
561
+ },
562
+ {
563
+ "epoch": 16.99,
564
+ "eval_accuracy": 0.8454404945904173,
565
+ "eval_loss": 0.6641192436218262,
566
+ "eval_runtime": 13.835,
567
+ "eval_samples_per_second": 93.531,
568
+ "eval_steps_per_second": 2.963,
569
+ "step": 680
570
+ },
571
+ {
572
+ "epoch": 17.25,
573
+ "learning_rate": 1.8333333333333336e-05,
574
+ "loss": 0.0555,
575
+ "step": 690
576
+ },
577
+ {
578
+ "epoch": 17.49,
579
+ "learning_rate": 1.6666666666666667e-05,
580
+ "loss": 0.05,
581
+ "step": 700
582
+ },
583
+ {
584
+ "epoch": 17.74,
585
+ "learning_rate": 1.5e-05,
586
+ "loss": 0.0491,
587
+ "step": 710
588
+ },
589
+ {
590
+ "epoch": 17.99,
591
+ "learning_rate": 1.3333333333333333e-05,
592
+ "loss": 0.052,
593
+ "step": 720
594
+ },
595
+ {
596
+ "epoch": 17.99,
597
+ "eval_accuracy": 0.8523956723338485,
598
+ "eval_loss": 0.721319317817688,
599
+ "eval_runtime": 14.1,
600
+ "eval_samples_per_second": 91.773,
601
+ "eval_steps_per_second": 2.908,
602
+ "step": 720
603
+ },
604
+ {
605
+ "epoch": 18.25,
606
+ "learning_rate": 1.1666666666666668e-05,
607
+ "loss": 0.0505,
608
+ "step": 730
609
+ },
610
+ {
611
+ "epoch": 18.49,
612
+ "learning_rate": 9.999999999999999e-06,
613
+ "loss": 0.0481,
614
+ "step": 740
615
+ },
616
+ {
617
+ "epoch": 18.74,
618
+ "learning_rate": 8.333333333333334e-06,
619
+ "loss": 0.0539,
620
+ "step": 750
621
+ },
622
+ {
623
+ "epoch": 18.99,
624
+ "learning_rate": 6.666666666666667e-06,
625
+ "loss": 0.0589,
626
+ "step": 760
627
+ },
628
+ {
629
+ "epoch": 18.99,
630
+ "eval_accuracy": 0.8469860896445132,
631
+ "eval_loss": 0.6916722655296326,
632
+ "eval_runtime": 13.3893,
633
+ "eval_samples_per_second": 96.645,
634
+ "eval_steps_per_second": 3.062,
635
+ "step": 760
636
+ },
637
+ {
638
+ "epoch": 19.25,
639
+ "learning_rate": 4.9999999999999996e-06,
640
+ "loss": 0.0492,
641
+ "step": 770
642
+ },
643
+ {
644
+ "epoch": 19.49,
645
+ "learning_rate": 3.3333333333333333e-06,
646
+ "loss": 0.0431,
647
+ "step": 780
648
+ },
649
+ {
650
+ "epoch": 19.74,
651
+ "learning_rate": 1.6666666666666667e-06,
652
+ "loss": 0.0548,
653
+ "step": 790
654
+ },
655
+ {
656
+ "epoch": 19.99,
657
+ "learning_rate": 0.0,
658
+ "loss": 0.0506,
659
+ "step": 800
660
+ },
661
+ {
662
+ "epoch": 19.99,
663
+ "eval_accuracy": 0.847758887171561,
664
+ "eval_loss": 0.7089598774909973,
665
+ "eval_runtime": 13.4103,
666
+ "eval_samples_per_second": 96.493,
667
+ "eval_steps_per_second": 3.057,
668
+ "step": 800
669
+ },
670
+ {
671
+ "epoch": 19.99,
672
+ "step": 800,
673
+ "total_flos": 2.570971016151724e+18,
674
+ "train_loss": 0.2198217125982046,
675
+ "train_runtime": 2662.746,
676
+ "train_samples_per_second": 38.862,
677
+ "train_steps_per_second": 0.3
678
+ }
679
+ ],
680
+ "max_steps": 800,
681
+ "num_train_epochs": 20,
682
+ "total_flos": 2.570971016151724e+18,
683
+ "trial_name": null,
684
+ "trial_params": null
685
+ }