karoladelk commited on
Commit
dc461d0
1 Parent(s): 54a7be8

End of training

Browse files
all_results.json CHANGED
@@ -1,13 +1,13 @@
1
  {
2
  "epoch": 9.98,
3
- "eval_accuracy": 0.8958625525946704,
4
- "eval_loss": 0.31656068563461304,
5
- "eval_runtime": 38.1413,
6
- "eval_samples_per_second": 74.775,
7
- "eval_steps_per_second": 1.18,
8
  "total_flos": 6.364199987970048e+18,
9
- "train_loss": 0.2624686861038208,
10
- "train_runtime": 4808.7305,
11
- "train_samples_per_second": 53.37,
12
- "train_steps_per_second": 0.208
13
  }
 
1
  {
2
  "epoch": 9.98,
3
+ "eval_accuracy": 0.9119915848527349,
4
+ "eval_loss": 0.3377525210380554,
5
+ "eval_runtime": 37.4095,
6
+ "eval_samples_per_second": 76.237,
7
+ "eval_steps_per_second": 1.203,
8
  "total_flos": 6.364199987970048e+18,
9
+ "train_loss": 0.11027517792582511,
10
+ "train_runtime": 4749.2843,
11
+ "train_samples_per_second": 54.038,
12
+ "train_steps_per_second": 0.211
13
  }
eval_results.json CHANGED
@@ -1,8 +1,8 @@
1
  {
2
  "epoch": 9.98,
3
- "eval_accuracy": 0.8958625525946704,
4
- "eval_loss": 0.31656068563461304,
5
- "eval_runtime": 38.1413,
6
- "eval_samples_per_second": 74.775,
7
- "eval_steps_per_second": 1.18
8
  }
 
1
  {
2
  "epoch": 9.98,
3
+ "eval_accuracy": 0.9119915848527349,
4
+ "eval_loss": 0.3377525210380554,
5
+ "eval_runtime": 37.4095,
6
+ "eval_samples_per_second": 76.237,
7
+ "eval_steps_per_second": 1.203
8
  }
runs/Apr23_22-49-44_f99a83d30fa0/events.out.tfevents.1713917390.f99a83d30fa0.34.5 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:223a0ce888c5e936e8e136c6a864c70618bcb19b4a1ddc5bea17105ef93fb3f8
3
+ size 411
train_results.json CHANGED
@@ -1,8 +1,8 @@
1
  {
2
  "epoch": 9.98,
3
  "total_flos": 6.364199987970048e+18,
4
- "train_loss": 0.2624686861038208,
5
- "train_runtime": 4808.7305,
6
- "train_samples_per_second": 53.37,
7
- "train_steps_per_second": 0.208
8
  }
 
1
  {
2
  "epoch": 9.98,
3
  "total_flos": 6.364199987970048e+18,
4
+ "train_loss": 0.11027517792582511,
5
+ "train_runtime": 4749.2843,
6
+ "train_samples_per_second": 54.038,
7
+ "train_steps_per_second": 0.211
8
  }
trainer_state.json CHANGED
@@ -1,5 +1,5 @@
1
  {
2
- "best_metric": 0.8958625525946704,
3
  "best_model_checkpoint": "swin-tiny-patch4-window7-224-finetuned-eurosat/checkpoint-1000",
4
  "epoch": 9.975062344139651,
5
  "eval_steps": 500,
@@ -10,802 +10,802 @@
10
  "log_history": [
11
  {
12
  "epoch": 0.1,
13
- "grad_norm": 4.312608242034912,
14
  "learning_rate": 1e-05,
15
- "loss": 0.3601,
16
  "step": 10
17
  },
18
  {
19
  "epoch": 0.2,
20
- "grad_norm": 4.751251697540283,
21
  "learning_rate": 2e-05,
22
- "loss": 0.3746,
23
  "step": 20
24
  },
25
  {
26
  "epoch": 0.3,
27
- "grad_norm": 5.903082847595215,
28
  "learning_rate": 3e-05,
29
- "loss": 0.3844,
30
  "step": 30
31
  },
32
  {
33
  "epoch": 0.4,
34
- "grad_norm": 7.2845354080200195,
35
  "learning_rate": 4e-05,
36
- "loss": 0.3935,
37
  "step": 40
38
  },
39
  {
40
  "epoch": 0.5,
41
- "grad_norm": 4.63520622253418,
42
  "learning_rate": 5e-05,
43
- "loss": 0.3752,
44
  "step": 50
45
  },
46
  {
47
  "epoch": 0.6,
48
- "grad_norm": 5.532151222229004,
49
  "learning_rate": 6e-05,
50
- "loss": 0.3769,
51
  "step": 60
52
  },
53
  {
54
  "epoch": 0.7,
55
- "grad_norm": 5.141340255737305,
56
  "learning_rate": 7e-05,
57
- "loss": 0.3821,
58
  "step": 70
59
  },
60
  {
61
  "epoch": 0.8,
62
- "grad_norm": 6.834048748016357,
63
  "learning_rate": 8e-05,
64
- "loss": 0.3872,
65
  "step": 80
66
  },
67
  {
68
  "epoch": 0.9,
69
- "grad_norm": 4.966386318206787,
70
  "learning_rate": 9e-05,
71
- "loss": 0.4001,
72
  "step": 90
73
  },
74
  {
75
  "epoch": 1.0,
76
- "grad_norm": 6.305124759674072,
77
  "learning_rate": 0.0001,
78
- "loss": 0.3657,
79
  "step": 100
80
  },
81
  {
82
  "epoch": 1.0,
83
- "eval_accuracy": 0.8369565217391305,
84
- "eval_loss": 0.4743898808956146,
85
- "eval_runtime": 37.4208,
86
- "eval_samples_per_second": 76.214,
87
- "eval_steps_per_second": 1.203,
88
  "step": 100
89
  },
90
  {
91
  "epoch": 1.1,
92
- "grad_norm": 4.9311909675598145,
93
  "learning_rate": 9.888888888888889e-05,
94
- "loss": 0.3983,
95
  "step": 110
96
  },
97
  {
98
  "epoch": 1.2,
99
- "grad_norm": 6.430706024169922,
100
  "learning_rate": 9.777777777777778e-05,
101
- "loss": 0.3911,
102
  "step": 120
103
  },
104
  {
105
  "epoch": 1.3,
106
- "grad_norm": 5.201113224029541,
107
  "learning_rate": 9.666666666666667e-05,
108
- "loss": 0.3525,
109
  "step": 130
110
  },
111
  {
112
  "epoch": 1.4,
113
- "grad_norm": 7.090891361236572,
114
  "learning_rate": 9.555555555555557e-05,
115
- "loss": 0.3367,
116
  "step": 140
117
  },
118
  {
119
  "epoch": 1.5,
120
- "grad_norm": 8.351272583007812,
121
  "learning_rate": 9.444444444444444e-05,
122
- "loss": 0.3358,
123
  "step": 150
124
  },
125
  {
126
  "epoch": 1.6,
127
- "grad_norm": 5.695847511291504,
128
  "learning_rate": 9.333333333333334e-05,
129
- "loss": 0.342,
130
  "step": 160
131
  },
132
  {
133
  "epoch": 1.7,
134
- "grad_norm": 5.768601417541504,
135
  "learning_rate": 9.222222222222223e-05,
136
- "loss": 0.3539,
137
  "step": 170
138
  },
139
  {
140
  "epoch": 1.8,
141
- "grad_norm": 5.517068386077881,
142
  "learning_rate": 9.111111111111112e-05,
143
- "loss": 0.3498,
144
  "step": 180
145
  },
146
  {
147
  "epoch": 1.9,
148
- "grad_norm": 4.817891597747803,
149
  "learning_rate": 9e-05,
150
- "loss": 0.3135,
151
  "step": 190
152
  },
153
  {
154
  "epoch": 2.0,
155
- "grad_norm": 5.500814914703369,
156
  "learning_rate": 8.888888888888889e-05,
157
- "loss": 0.3018,
158
  "step": 200
159
  },
160
  {
161
  "epoch": 2.0,
162
- "eval_accuracy": 0.8492286115007013,
163
- "eval_loss": 0.43779420852661133,
164
- "eval_runtime": 40.6238,
165
- "eval_samples_per_second": 70.205,
166
- "eval_steps_per_second": 1.108,
167
  "step": 200
168
  },
169
  {
170
  "epoch": 2.09,
171
- "grad_norm": 7.610060691833496,
172
  "learning_rate": 8.777777777777778e-05,
173
- "loss": 0.3183,
174
  "step": 210
175
  },
176
  {
177
  "epoch": 2.19,
178
- "grad_norm": 6.4134135246276855,
179
  "learning_rate": 8.666666666666667e-05,
180
- "loss": 0.2902,
181
  "step": 220
182
  },
183
  {
184
  "epoch": 2.29,
185
- "grad_norm": 5.562830924987793,
186
  "learning_rate": 8.555555555555556e-05,
187
- "loss": 0.3122,
188
  "step": 230
189
  },
190
  {
191
  "epoch": 2.39,
192
- "grad_norm": 6.466961860656738,
193
  "learning_rate": 8.444444444444444e-05,
194
- "loss": 0.3168,
195
  "step": 240
196
  },
197
  {
198
  "epoch": 2.49,
199
- "grad_norm": 5.561737537384033,
200
  "learning_rate": 8.333333333333334e-05,
201
- "loss": 0.3021,
202
  "step": 250
203
  },
204
  {
205
  "epoch": 2.59,
206
- "grad_norm": 5.490133762359619,
207
  "learning_rate": 8.222222222222222e-05,
208
- "loss": 0.3186,
209
  "step": 260
210
  },
211
  {
212
  "epoch": 2.69,
213
- "grad_norm": 6.67871618270874,
214
  "learning_rate": 8.111111111111112e-05,
215
- "loss": 0.3407,
216
  "step": 270
217
  },
218
  {
219
  "epoch": 2.79,
220
- "grad_norm": 7.841400623321533,
221
  "learning_rate": 8e-05,
222
- "loss": 0.3052,
223
  "step": 280
224
  },
225
  {
226
  "epoch": 2.89,
227
- "grad_norm": 5.589080810546875,
228
  "learning_rate": 7.88888888888889e-05,
229
- "loss": 0.2989,
230
  "step": 290
231
  },
232
  {
233
  "epoch": 2.99,
234
- "grad_norm": 4.181407928466797,
235
  "learning_rate": 7.777777777777778e-05,
236
- "loss": 0.2923,
237
  "step": 300
238
  },
239
  {
240
  "epoch": 2.99,
241
- "eval_accuracy": 0.8523842917251052,
242
- "eval_loss": 0.4396316409111023,
243
- "eval_runtime": 38.1758,
244
- "eval_samples_per_second": 74.707,
245
- "eval_steps_per_second": 1.179,
246
  "step": 300
247
  },
248
  {
249
  "epoch": 3.09,
250
- "grad_norm": 6.813866138458252,
251
  "learning_rate": 7.666666666666667e-05,
252
- "loss": 0.2622,
253
  "step": 310
254
  },
255
  {
256
  "epoch": 3.19,
257
- "grad_norm": 6.819497108459473,
258
  "learning_rate": 7.555555555555556e-05,
259
- "loss": 0.2816,
260
  "step": 320
261
  },
262
  {
263
  "epoch": 3.29,
264
- "grad_norm": 5.811374187469482,
265
  "learning_rate": 7.444444444444444e-05,
266
- "loss": 0.2859,
267
  "step": 330
268
  },
269
  {
270
  "epoch": 3.39,
271
- "grad_norm": 5.982662677764893,
272
  "learning_rate": 7.333333333333333e-05,
273
- "loss": 0.276,
274
  "step": 340
275
  },
276
  {
277
  "epoch": 3.49,
278
- "grad_norm": 6.501168727874756,
279
  "learning_rate": 7.222222222222222e-05,
280
- "loss": 0.2984,
281
  "step": 350
282
  },
283
  {
284
  "epoch": 3.59,
285
- "grad_norm": 5.3160529136657715,
286
  "learning_rate": 7.111111111111112e-05,
287
- "loss": 0.2907,
288
  "step": 360
289
  },
290
  {
291
  "epoch": 3.69,
292
- "grad_norm": 5.063723087310791,
293
  "learning_rate": 7e-05,
294
- "loss": 0.2864,
295
  "step": 370
296
  },
297
  {
298
  "epoch": 3.79,
299
- "grad_norm": 6.182292461395264,
300
  "learning_rate": 6.88888888888889e-05,
301
- "loss": 0.3045,
302
  "step": 380
303
  },
304
  {
305
  "epoch": 3.89,
306
- "grad_norm": 6.24503755569458,
307
  "learning_rate": 6.777777777777778e-05,
308
- "loss": 0.3198,
309
  "step": 390
310
  },
311
  {
312
  "epoch": 3.99,
313
- "grad_norm": 5.089386463165283,
314
  "learning_rate": 6.666666666666667e-05,
315
- "loss": 0.3038,
316
  "step": 400
317
  },
318
  {
319
  "epoch": 4.0,
320
- "eval_accuracy": 0.861851332398317,
321
- "eval_loss": 0.40673914551734924,
322
- "eval_runtime": 38.2337,
323
- "eval_samples_per_second": 74.594,
324
- "eval_steps_per_second": 1.177,
325
  "step": 401
326
  },
327
  {
328
  "epoch": 4.09,
329
- "grad_norm": 5.16262149810791,
330
  "learning_rate": 6.555555555555556e-05,
331
- "loss": 0.2505,
332
  "step": 410
333
  },
334
  {
335
  "epoch": 4.19,
336
- "grad_norm": 6.915875434875488,
337
  "learning_rate": 6.444444444444446e-05,
338
- "loss": 0.2486,
339
  "step": 420
340
  },
341
  {
342
  "epoch": 4.29,
343
- "grad_norm": 5.945577621459961,
344
  "learning_rate": 6.333333333333333e-05,
345
- "loss": 0.2798,
346
  "step": 430
347
  },
348
  {
349
  "epoch": 4.39,
350
- "grad_norm": 6.409703731536865,
351
  "learning_rate": 6.222222222222222e-05,
352
- "loss": 0.2797,
353
  "step": 440
354
  },
355
  {
356
  "epoch": 4.49,
357
- "grad_norm": 9.431686401367188,
358
  "learning_rate": 6.111111111111112e-05,
359
- "loss": 0.2871,
360
  "step": 450
361
  },
362
  {
363
  "epoch": 4.59,
364
- "grad_norm": 6.450242042541504,
365
  "learning_rate": 6e-05,
366
- "loss": 0.2834,
367
  "step": 460
368
  },
369
  {
370
  "epoch": 4.69,
371
- "grad_norm": 6.083951473236084,
372
  "learning_rate": 5.8888888888888896e-05,
373
- "loss": 0.3218,
374
  "step": 470
375
  },
376
  {
377
  "epoch": 4.79,
378
- "grad_norm": 4.859699249267578,
379
  "learning_rate": 5.7777777777777776e-05,
380
- "loss": 0.3078,
381
  "step": 480
382
  },
383
  {
384
  "epoch": 4.89,
385
- "grad_norm": 4.411416053771973,
386
  "learning_rate": 5.666666666666667e-05,
387
- "loss": 0.2685,
388
  "step": 490
389
  },
390
  {
391
  "epoch": 4.99,
392
- "grad_norm": 5.873050212860107,
393
  "learning_rate": 5.555555555555556e-05,
394
- "loss": 0.2755,
395
  "step": 500
396
  },
397
  {
398
  "epoch": 5.0,
399
- "eval_accuracy": 0.8772791023842917,
400
- "eval_loss": 0.36721259355545044,
401
- "eval_runtime": 38.0267,
402
- "eval_samples_per_second": 75.0,
403
- "eval_steps_per_second": 1.183,
404
  "step": 501
405
  },
406
  {
407
  "epoch": 5.09,
408
- "grad_norm": 5.115600109100342,
409
  "learning_rate": 5.4444444444444446e-05,
410
- "loss": 0.2579,
411
  "step": 510
412
  },
413
  {
414
  "epoch": 5.19,
415
- "grad_norm": 6.827105522155762,
416
  "learning_rate": 5.333333333333333e-05,
417
- "loss": 0.2852,
418
  "step": 520
419
  },
420
  {
421
  "epoch": 5.29,
422
- "grad_norm": 5.669814109802246,
423
  "learning_rate": 5.222222222222223e-05,
424
- "loss": 0.2786,
425
  "step": 530
426
  },
427
  {
428
  "epoch": 5.39,
429
- "grad_norm": 5.156219959259033,
430
  "learning_rate": 5.111111111111111e-05,
431
- "loss": 0.2689,
432
  "step": 540
433
  },
434
  {
435
  "epoch": 5.49,
436
- "grad_norm": 5.50855827331543,
437
  "learning_rate": 5e-05,
438
- "loss": 0.258,
439
  "step": 550
440
  },
441
  {
442
  "epoch": 5.59,
443
- "grad_norm": 4.887132167816162,
444
  "learning_rate": 4.888888888888889e-05,
445
- "loss": 0.2669,
446
  "step": 560
447
  },
448
  {
449
  "epoch": 5.69,
450
- "grad_norm": 4.258863925933838,
451
  "learning_rate": 4.7777777777777784e-05,
452
- "loss": 0.2416,
453
  "step": 570
454
  },
455
  {
456
  "epoch": 5.79,
457
- "grad_norm": 6.73113489151001,
458
  "learning_rate": 4.666666666666667e-05,
459
- "loss": 0.2575,
460
  "step": 580
461
  },
462
  {
463
  "epoch": 5.89,
464
- "grad_norm": 4.015745639801025,
465
  "learning_rate": 4.555555555555556e-05,
466
- "loss": 0.2308,
467
  "step": 590
468
  },
469
  {
470
  "epoch": 5.99,
471
- "grad_norm": 7.089807510375977,
472
  "learning_rate": 4.4444444444444447e-05,
473
- "loss": 0.254,
474
  "step": 600
475
  },
476
  {
477
  "epoch": 6.0,
478
- "eval_accuracy": 0.8825385694249649,
479
- "eval_loss": 0.34698864817619324,
480
- "eval_runtime": 38.6025,
481
- "eval_samples_per_second": 73.881,
482
- "eval_steps_per_second": 1.166,
483
  "step": 601
484
  },
485
  {
486
  "epoch": 6.08,
487
- "grad_norm": 5.87188196182251,
488
  "learning_rate": 4.3333333333333334e-05,
489
- "loss": 0.2432,
490
  "step": 610
491
  },
492
  {
493
  "epoch": 6.18,
494
- "grad_norm": 7.9145379066467285,
495
  "learning_rate": 4.222222222222222e-05,
496
- "loss": 0.2254,
497
  "step": 620
498
  },
499
  {
500
  "epoch": 6.28,
501
- "grad_norm": 6.642333030700684,
502
  "learning_rate": 4.111111111111111e-05,
503
- "loss": 0.2189,
504
  "step": 630
505
  },
506
  {
507
  "epoch": 6.38,
508
- "grad_norm": 5.588759899139404,
509
  "learning_rate": 4e-05,
510
- "loss": 0.2085,
511
  "step": 640
512
  },
513
  {
514
  "epoch": 6.48,
515
- "grad_norm": 4.943757057189941,
516
  "learning_rate": 3.888888888888889e-05,
517
- "loss": 0.2299,
518
  "step": 650
519
  },
520
  {
521
  "epoch": 6.58,
522
- "grad_norm": 4.3082594871521,
523
  "learning_rate": 3.777777777777778e-05,
524
- "loss": 0.219,
525
  "step": 660
526
  },
527
  {
528
  "epoch": 6.68,
529
- "grad_norm": 5.564691066741943,
530
  "learning_rate": 3.6666666666666666e-05,
531
- "loss": 0.2346,
532
  "step": 670
533
  },
534
  {
535
  "epoch": 6.78,
536
- "grad_norm": 5.957446098327637,
537
  "learning_rate": 3.555555555555556e-05,
538
- "loss": 0.2294,
539
  "step": 680
540
  },
541
  {
542
  "epoch": 6.88,
543
- "grad_norm": 4.528319835662842,
544
  "learning_rate": 3.444444444444445e-05,
545
- "loss": 0.208,
546
  "step": 690
547
  },
548
  {
549
  "epoch": 6.98,
550
- "grad_norm": 6.489378929138184,
551
  "learning_rate": 3.3333333333333335e-05,
552
- "loss": 0.2512,
553
  "step": 700
554
  },
555
  {
556
  "epoch": 6.99,
557
- "eval_accuracy": 0.8860448807854138,
558
- "eval_loss": 0.3339594304561615,
559
- "eval_runtime": 38.3448,
560
- "eval_samples_per_second": 74.378,
561
- "eval_steps_per_second": 1.174,
562
  "step": 701
563
  },
564
  {
565
  "epoch": 7.08,
566
- "grad_norm": 4.715758323669434,
567
  "learning_rate": 3.222222222222223e-05,
568
- "loss": 0.2247,
569
  "step": 710
570
  },
571
  {
572
  "epoch": 7.18,
573
- "grad_norm": 4.851717948913574,
574
  "learning_rate": 3.111111111111111e-05,
575
- "loss": 0.2091,
576
  "step": 720
577
  },
578
  {
579
  "epoch": 7.28,
580
- "grad_norm": 5.768288612365723,
581
  "learning_rate": 3e-05,
582
- "loss": 0.2117,
583
  "step": 730
584
  },
585
  {
586
  "epoch": 7.38,
587
- "grad_norm": 4.091370582580566,
588
  "learning_rate": 2.8888888888888888e-05,
589
- "loss": 0.1891,
590
  "step": 740
591
  },
592
  {
593
  "epoch": 7.48,
594
- "grad_norm": 3.7998056411743164,
595
  "learning_rate": 2.777777777777778e-05,
596
- "loss": 0.2005,
597
  "step": 750
598
  },
599
  {
600
  "epoch": 7.58,
601
- "grad_norm": 4.708491325378418,
602
  "learning_rate": 2.6666666666666667e-05,
603
- "loss": 0.1837,
604
  "step": 760
605
  },
606
  {
607
  "epoch": 7.68,
608
- "grad_norm": 4.464774131774902,
609
  "learning_rate": 2.5555555555555554e-05,
610
- "loss": 0.187,
611
  "step": 770
612
  },
613
  {
614
  "epoch": 7.78,
615
- "grad_norm": 4.849852561950684,
616
  "learning_rate": 2.4444444444444445e-05,
617
- "loss": 0.193,
618
  "step": 780
619
  },
620
  {
621
  "epoch": 7.88,
622
- "grad_norm": 4.364429950714111,
623
  "learning_rate": 2.3333333333333336e-05,
624
- "loss": 0.179,
625
  "step": 790
626
  },
627
  {
628
  "epoch": 7.98,
629
- "grad_norm": 6.141552925109863,
630
  "learning_rate": 2.2222222222222223e-05,
631
- "loss": 0.2092,
632
  "step": 800
633
  },
634
  {
635
  "epoch": 8.0,
636
- "eval_accuracy": 0.8860448807854138,
637
- "eval_loss": 0.3440641760826111,
638
- "eval_runtime": 38.2928,
639
- "eval_samples_per_second": 74.479,
640
- "eval_steps_per_second": 1.175,
641
  "step": 802
642
  },
643
  {
644
  "epoch": 8.08,
645
- "grad_norm": 6.239747524261475,
646
  "learning_rate": 2.111111111111111e-05,
647
- "loss": 0.1919,
648
  "step": 810
649
  },
650
  {
651
  "epoch": 8.18,
652
- "grad_norm": 4.517318248748779,
653
  "learning_rate": 2e-05,
654
- "loss": 0.1583,
655
  "step": 820
656
  },
657
  {
658
  "epoch": 8.28,
659
- "grad_norm": 5.20755672454834,
660
  "learning_rate": 1.888888888888889e-05,
661
- "loss": 0.1752,
662
  "step": 830
663
  },
664
  {
665
  "epoch": 8.38,
666
- "grad_norm": 4.3585991859436035,
667
  "learning_rate": 1.777777777777778e-05,
668
- "loss": 0.1748,
669
  "step": 840
670
  },
671
  {
672
  "epoch": 8.48,
673
- "grad_norm": 4.46333646774292,
674
  "learning_rate": 1.6666666666666667e-05,
675
- "loss": 0.1734,
676
  "step": 850
677
  },
678
  {
679
  "epoch": 8.58,
680
- "grad_norm": 4.966083526611328,
681
  "learning_rate": 1.5555555555555555e-05,
682
- "loss": 0.1783,
683
  "step": 860
684
  },
685
  {
686
  "epoch": 8.68,
687
- "grad_norm": 3.0647408962249756,
688
  "learning_rate": 1.4444444444444444e-05,
689
- "loss": 0.1795,
690
  "step": 870
691
  },
692
  {
693
  "epoch": 8.78,
694
- "grad_norm": 4.360434532165527,
695
  "learning_rate": 1.3333333333333333e-05,
696
- "loss": 0.184,
697
  "step": 880
698
  },
699
  {
700
  "epoch": 8.88,
701
- "grad_norm": 4.1616973876953125,
702
  "learning_rate": 1.2222222222222222e-05,
703
- "loss": 0.1663,
704
  "step": 890
705
  },
706
  {
707
  "epoch": 8.98,
708
- "grad_norm": 3.880200147628784,
709
  "learning_rate": 1.1111111111111112e-05,
710
- "loss": 0.1733,
711
  "step": 900
712
  },
713
  {
714
  "epoch": 9.0,
715
- "eval_accuracy": 0.894109396914446,
716
- "eval_loss": 0.32196635007858276,
717
- "eval_runtime": 38.3126,
718
- "eval_samples_per_second": 74.44,
719
- "eval_steps_per_second": 1.175,
720
  "step": 902
721
  },
722
  {
723
  "epoch": 9.08,
724
- "grad_norm": 5.077446460723877,
725
  "learning_rate": 1e-05,
726
- "loss": 0.1624,
727
  "step": 910
728
  },
729
  {
730
  "epoch": 9.18,
731
- "grad_norm": 4.26702880859375,
732
  "learning_rate": 8.88888888888889e-06,
733
- "loss": 0.17,
734
  "step": 920
735
  },
736
  {
737
  "epoch": 9.28,
738
- "grad_norm": 3.957158327102661,
739
  "learning_rate": 7.777777777777777e-06,
740
- "loss": 0.1531,
741
  "step": 930
742
  },
743
  {
744
  "epoch": 9.38,
745
- "grad_norm": 3.6919987201690674,
746
  "learning_rate": 6.666666666666667e-06,
747
- "loss": 0.1559,
748
  "step": 940
749
  },
750
  {
751
  "epoch": 9.48,
752
- "grad_norm": 4.511406898498535,
753
  "learning_rate": 5.555555555555556e-06,
754
- "loss": 0.1542,
755
  "step": 950
756
  },
757
  {
758
  "epoch": 9.58,
759
- "grad_norm": 4.40770959854126,
760
  "learning_rate": 4.444444444444445e-06,
761
- "loss": 0.1502,
762
  "step": 960
763
  },
764
  {
765
  "epoch": 9.68,
766
- "grad_norm": 3.7929115295410156,
767
  "learning_rate": 3.3333333333333333e-06,
768
- "loss": 0.1565,
769
  "step": 970
770
  },
771
  {
772
  "epoch": 9.78,
773
- "grad_norm": 10.205160140991211,
774
  "learning_rate": 2.2222222222222225e-06,
775
- "loss": 0.1577,
776
  "step": 980
777
  },
778
  {
779
  "epoch": 9.88,
780
- "grad_norm": 3.9570119380950928,
781
  "learning_rate": 1.1111111111111112e-06,
782
- "loss": 0.1563,
783
  "step": 990
784
  },
785
  {
786
  "epoch": 9.98,
787
- "grad_norm": 6.175787448883057,
788
  "learning_rate": 0.0,
789
- "loss": 0.1386,
790
  "step": 1000
791
  },
792
  {
793
  "epoch": 9.98,
794
- "eval_accuracy": 0.8958625525946704,
795
- "eval_loss": 0.31656068563461304,
796
- "eval_runtime": 38.4379,
797
- "eval_samples_per_second": 74.198,
798
- "eval_steps_per_second": 1.171,
799
  "step": 1000
800
  },
801
  {
802
  "epoch": 9.98,
803
  "step": 1000,
804
  "total_flos": 6.364199987970048e+18,
805
- "train_loss": 0.2624686861038208,
806
- "train_runtime": 4808.7305,
807
- "train_samples_per_second": 53.37,
808
- "train_steps_per_second": 0.208
809
  }
810
  ],
811
  "logging_steps": 10,
 
1
  {
2
+ "best_metric": 0.9119915848527349,
3
  "best_model_checkpoint": "swin-tiny-patch4-window7-224-finetuned-eurosat/checkpoint-1000",
4
  "epoch": 9.975062344139651,
5
  "eval_steps": 500,
 
10
  "log_history": [
11
  {
12
  "epoch": 0.1,
13
+ "grad_norm": 7.060407638549805,
14
  "learning_rate": 1e-05,
15
+ "loss": 0.1774,
16
  "step": 10
17
  },
18
  {
19
  "epoch": 0.2,
20
+ "grad_norm": 4.514194011688232,
21
  "learning_rate": 2e-05,
22
+ "loss": 0.118,
23
  "step": 20
24
  },
25
  {
26
  "epoch": 0.3,
27
+ "grad_norm": 5.400581359863281,
28
  "learning_rate": 3e-05,
29
+ "loss": 0.1062,
30
  "step": 30
31
  },
32
  {
33
  "epoch": 0.4,
34
+ "grad_norm": 5.083698749542236,
35
  "learning_rate": 4e-05,
36
+ "loss": 0.074,
37
  "step": 40
38
  },
39
  {
40
  "epoch": 0.5,
41
+ "grad_norm": 2.7988944053649902,
42
  "learning_rate": 5e-05,
43
+ "loss": 0.0639,
44
  "step": 50
45
  },
46
  {
47
  "epoch": 0.6,
48
+ "grad_norm": 1.6099319458007812,
49
  "learning_rate": 6e-05,
50
+ "loss": 0.0508,
51
  "step": 60
52
  },
53
  {
54
  "epoch": 0.7,
55
+ "grad_norm": 2.6441915035247803,
56
  "learning_rate": 7e-05,
57
+ "loss": 0.0524,
58
  "step": 70
59
  },
60
  {
61
  "epoch": 0.8,
62
+ "grad_norm": 5.100390434265137,
63
  "learning_rate": 8e-05,
64
+ "loss": 0.06,
65
  "step": 80
66
  },
67
  {
68
  "epoch": 0.9,
69
+ "grad_norm": 4.311460971832275,
70
  "learning_rate": 9e-05,
71
+ "loss": 0.0424,
72
  "step": 90
73
  },
74
  {
75
  "epoch": 1.0,
76
+ "grad_norm": 2.94564151763916,
77
  "learning_rate": 0.0001,
78
+ "loss": 0.0511,
79
  "step": 100
80
  },
81
  {
82
  "epoch": 1.0,
83
+ "eval_accuracy": 0.8720196353436185,
84
+ "eval_loss": 0.5181019306182861,
85
+ "eval_runtime": 38.2631,
86
+ "eval_samples_per_second": 74.537,
87
+ "eval_steps_per_second": 1.176,
88
  "step": 100
89
  },
90
  {
91
  "epoch": 1.1,
92
+ "grad_norm": 4.313048839569092,
93
  "learning_rate": 9.888888888888889e-05,
94
+ "loss": 0.0887,
95
  "step": 110
96
  },
97
  {
98
  "epoch": 1.2,
99
+ "grad_norm": 5.640860557556152,
100
  "learning_rate": 9.777777777777778e-05,
101
+ "loss": 0.084,
102
  "step": 120
103
  },
104
  {
105
  "epoch": 1.3,
106
+ "grad_norm": 2.4771900177001953,
107
  "learning_rate": 9.666666666666667e-05,
108
+ "loss": 0.0879,
109
  "step": 130
110
  },
111
  {
112
  "epoch": 1.4,
113
+ "grad_norm": 7.712289810180664,
114
  "learning_rate": 9.555555555555557e-05,
115
+ "loss": 0.1231,
116
  "step": 140
117
  },
118
  {
119
  "epoch": 1.5,
120
+ "grad_norm": 7.235645771026611,
121
  "learning_rate": 9.444444444444444e-05,
122
+ "loss": 0.143,
123
  "step": 150
124
  },
125
  {
126
  "epoch": 1.6,
127
+ "grad_norm": 11.080587387084961,
128
  "learning_rate": 9.333333333333334e-05,
129
+ "loss": 0.1804,
130
  "step": 160
131
  },
132
  {
133
  "epoch": 1.7,
134
+ "grad_norm": 4.359196662902832,
135
  "learning_rate": 9.222222222222223e-05,
136
+ "loss": 0.1894,
137
  "step": 170
138
  },
139
  {
140
  "epoch": 1.8,
141
+ "grad_norm": 4.214484214782715,
142
  "learning_rate": 9.111111111111112e-05,
143
+ "loss": 0.1589,
144
  "step": 180
145
  },
146
  {
147
  "epoch": 1.9,
148
+ "grad_norm": 6.100831508636475,
149
  "learning_rate": 9e-05,
150
+ "loss": 0.1317,
151
  "step": 190
152
  },
153
  {
154
  "epoch": 2.0,
155
+ "grad_norm": 4.592179298400879,
156
  "learning_rate": 8.888888888888889e-05,
157
+ "loss": 0.1166,
158
  "step": 200
159
  },
160
  {
161
  "epoch": 2.0,
162
+ "eval_accuracy": 0.8716690042075736,
163
+ "eval_loss": 0.4709436595439911,
164
+ "eval_runtime": 38.3291,
165
+ "eval_samples_per_second": 74.408,
166
+ "eval_steps_per_second": 1.174,
167
  "step": 200
168
  },
169
  {
170
  "epoch": 2.09,
171
+ "grad_norm": 9.383784294128418,
172
  "learning_rate": 8.777777777777778e-05,
173
+ "loss": 0.1538,
174
  "step": 210
175
  },
176
  {
177
  "epoch": 2.19,
178
+ "grad_norm": 5.486557960510254,
179
  "learning_rate": 8.666666666666667e-05,
180
+ "loss": 0.1292,
181
  "step": 220
182
  },
183
  {
184
  "epoch": 2.29,
185
+ "grad_norm": 5.093433856964111,
186
  "learning_rate": 8.555555555555556e-05,
187
+ "loss": 0.1411,
188
  "step": 230
189
  },
190
  {
191
  "epoch": 2.39,
192
+ "grad_norm": 6.046931266784668,
193
  "learning_rate": 8.444444444444444e-05,
194
+ "loss": 0.1502,
195
  "step": 240
196
  },
197
  {
198
  "epoch": 2.49,
199
+ "grad_norm": 6.943304061889648,
200
  "learning_rate": 8.333333333333334e-05,
201
+ "loss": 0.1298,
202
  "step": 250
203
  },
204
  {
205
  "epoch": 2.59,
206
+ "grad_norm": 4.685500621795654,
207
  "learning_rate": 8.222222222222222e-05,
208
+ "loss": 0.1301,
209
  "step": 260
210
  },
211
  {
212
  "epoch": 2.69,
213
+ "grad_norm": 4.650270462036133,
214
  "learning_rate": 8.111111111111112e-05,
215
+ "loss": 0.1342,
216
  "step": 270
217
  },
218
  {
219
  "epoch": 2.79,
220
+ "grad_norm": 8.815176010131836,
221
  "learning_rate": 8e-05,
222
+ "loss": 0.1353,
223
  "step": 280
224
  },
225
  {
226
  "epoch": 2.89,
227
+ "grad_norm": 6.133541584014893,
228
  "learning_rate": 7.88888888888889e-05,
229
+ "loss": 0.1252,
230
  "step": 290
231
  },
232
  {
233
  "epoch": 2.99,
234
+ "grad_norm": 5.344182014465332,
235
  "learning_rate": 7.777777777777778e-05,
236
+ "loss": 0.1189,
237
  "step": 300
238
  },
239
  {
240
  "epoch": 2.99,
241
+ "eval_accuracy": 0.8839410939691444,
242
+ "eval_loss": 0.41620370745658875,
243
+ "eval_runtime": 38.187,
244
+ "eval_samples_per_second": 74.685,
245
+ "eval_steps_per_second": 1.178,
246
  "step": 300
247
  },
248
  {
249
  "epoch": 3.09,
250
+ "grad_norm": 5.3231706619262695,
251
  "learning_rate": 7.666666666666667e-05,
252
+ "loss": 0.11,
253
  "step": 310
254
  },
255
  {
256
  "epoch": 3.19,
257
+ "grad_norm": 6.189892292022705,
258
  "learning_rate": 7.555555555555556e-05,
259
+ "loss": 0.1151,
260
  "step": 320
261
  },
262
  {
263
  "epoch": 3.29,
264
+ "grad_norm": 4.102895259857178,
265
  "learning_rate": 7.444444444444444e-05,
266
+ "loss": 0.1023,
267
  "step": 330
268
  },
269
  {
270
  "epoch": 3.39,
271
+ "grad_norm": 4.935023784637451,
272
  "learning_rate": 7.333333333333333e-05,
273
+ "loss": 0.1298,
274
  "step": 340
275
  },
276
  {
277
  "epoch": 3.49,
278
+ "grad_norm": 6.158393859863281,
279
  "learning_rate": 7.222222222222222e-05,
280
+ "loss": 0.1382,
281
  "step": 350
282
  },
283
  {
284
  "epoch": 3.59,
285
+ "grad_norm": 4.13533878326416,
286
  "learning_rate": 7.111111111111112e-05,
287
+ "loss": 0.1526,
288
  "step": 360
289
  },
290
  {
291
  "epoch": 3.69,
292
+ "grad_norm": 2.808582067489624,
293
  "learning_rate": 7e-05,
294
+ "loss": 0.1106,
295
  "step": 370
296
  },
297
  {
298
  "epoch": 3.79,
299
+ "grad_norm": 4.059571266174316,
300
  "learning_rate": 6.88888888888889e-05,
301
+ "loss": 0.1221,
302
  "step": 380
303
  },
304
  {
305
  "epoch": 3.89,
306
+ "grad_norm": 4.626064777374268,
307
  "learning_rate": 6.777777777777778e-05,
308
+ "loss": 0.1303,
309
  "step": 390
310
  },
311
  {
312
  "epoch": 3.99,
313
+ "grad_norm": 6.2365031242370605,
314
  "learning_rate": 6.666666666666667e-05,
315
+ "loss": 0.1306,
316
  "step": 400
317
  },
318
  {
319
  "epoch": 4.0,
320
+ "eval_accuracy": 0.8807854137447405,
321
+ "eval_loss": 0.4251408874988556,
322
+ "eval_runtime": 38.3771,
323
+ "eval_samples_per_second": 74.315,
324
+ "eval_steps_per_second": 1.173,
325
  "step": 401
326
  },
327
  {
328
  "epoch": 4.09,
329
+ "grad_norm": 4.386157035827637,
330
  "learning_rate": 6.555555555555556e-05,
331
+ "loss": 0.1149,
332
  "step": 410
333
  },
334
  {
335
  "epoch": 4.19,
336
+ "grad_norm": 5.805418968200684,
337
  "learning_rate": 6.444444444444446e-05,
338
+ "loss": 0.0997,
339
  "step": 420
340
  },
341
  {
342
  "epoch": 4.29,
343
+ "grad_norm": 7.228994846343994,
344
  "learning_rate": 6.333333333333333e-05,
345
+ "loss": 0.1262,
346
  "step": 430
347
  },
348
  {
349
  "epoch": 4.39,
350
+ "grad_norm": 8.70606517791748,
351
  "learning_rate": 6.222222222222222e-05,
352
+ "loss": 0.1422,
353
  "step": 440
354
  },
355
  {
356
  "epoch": 4.49,
357
+ "grad_norm": 5.861635208129883,
358
  "learning_rate": 6.111111111111112e-05,
359
+ "loss": 0.1128,
360
  "step": 450
361
  },
362
  {
363
  "epoch": 4.59,
364
+ "grad_norm": 5.075900554656982,
365
  "learning_rate": 6e-05,
366
+ "loss": 0.1142,
367
  "step": 460
368
  },
369
  {
370
  "epoch": 4.69,
371
+ "grad_norm": 5.3067498207092285,
372
  "learning_rate": 5.8888888888888896e-05,
373
+ "loss": 0.1359,
374
  "step": 470
375
  },
376
  {
377
  "epoch": 4.79,
378
+ "grad_norm": 3.890895366668701,
379
  "learning_rate": 5.7777777777777776e-05,
380
+ "loss": 0.1173,
381
  "step": 480
382
  },
383
  {
384
  "epoch": 4.89,
385
+ "grad_norm": 5.006656646728516,
386
  "learning_rate": 5.666666666666667e-05,
387
+ "loss": 0.1087,
388
  "step": 490
389
  },
390
  {
391
  "epoch": 4.99,
392
+ "grad_norm": 4.467653274536133,
393
  "learning_rate": 5.555555555555556e-05,
394
+ "loss": 0.1063,
395
  "step": 500
396
  },
397
  {
398
  "epoch": 5.0,
399
+ "eval_accuracy": 0.8888499298737728,
400
+ "eval_loss": 0.41856977343559265,
401
+ "eval_runtime": 37.7302,
402
+ "eval_samples_per_second": 75.589,
403
+ "eval_steps_per_second": 1.193,
404
  "step": 501
405
  },
406
  {
407
  "epoch": 5.09,
408
+ "grad_norm": 6.331502914428711,
409
  "learning_rate": 5.4444444444444446e-05,
410
+ "loss": 0.1132,
411
  "step": 510
412
  },
413
  {
414
  "epoch": 5.19,
415
+ "grad_norm": 6.853649139404297,
416
  "learning_rate": 5.333333333333333e-05,
417
+ "loss": 0.1256,
418
  "step": 520
419
  },
420
  {
421
  "epoch": 5.29,
422
+ "grad_norm": 6.621553421020508,
423
  "learning_rate": 5.222222222222223e-05,
424
+ "loss": 0.121,
425
  "step": 530
426
  },
427
  {
428
  "epoch": 5.39,
429
+ "grad_norm": 5.279974460601807,
430
  "learning_rate": 5.111111111111111e-05,
431
+ "loss": 0.1119,
432
  "step": 540
433
  },
434
  {
435
  "epoch": 5.49,
436
+ "grad_norm": 6.570211410522461,
437
  "learning_rate": 5e-05,
438
+ "loss": 0.1067,
439
  "step": 550
440
  },
441
  {
442
  "epoch": 5.59,
443
+ "grad_norm": 4.3511199951171875,
444
  "learning_rate": 4.888888888888889e-05,
445
+ "loss": 0.1202,
446
  "step": 560
447
  },
448
  {
449
  "epoch": 5.69,
450
+ "grad_norm": 4.396121978759766,
451
  "learning_rate": 4.7777777777777784e-05,
452
+ "loss": 0.1041,
453
  "step": 570
454
  },
455
  {
456
  "epoch": 5.79,
457
+ "grad_norm": 5.755546569824219,
458
  "learning_rate": 4.666666666666667e-05,
459
+ "loss": 0.1144,
460
  "step": 580
461
  },
462
  {
463
  "epoch": 5.89,
464
+ "grad_norm": 4.096261501312256,
465
  "learning_rate": 4.555555555555556e-05,
466
+ "loss": 0.109,
467
  "step": 590
468
  },
469
  {
470
  "epoch": 5.99,
471
+ "grad_norm": 7.311570644378662,
472
  "learning_rate": 4.4444444444444447e-05,
473
+ "loss": 0.1188,
474
  "step": 600
475
  },
476
  {
477
  "epoch": 6.0,
478
+ "eval_accuracy": 0.8842917251051894,
479
+ "eval_loss": 0.4293117821216583,
480
+ "eval_runtime": 36.9523,
481
+ "eval_samples_per_second": 77.181,
482
+ "eval_steps_per_second": 1.218,
483
  "step": 601
484
  },
485
  {
486
  "epoch": 6.08,
487
+ "grad_norm": 3.6034762859344482,
488
  "learning_rate": 4.3333333333333334e-05,
489
+ "loss": 0.1118,
490
  "step": 610
491
  },
492
  {
493
  "epoch": 6.18,
494
+ "grad_norm": 5.649061679840088,
495
  "learning_rate": 4.222222222222222e-05,
496
+ "loss": 0.1005,
497
  "step": 620
498
  },
499
  {
500
  "epoch": 6.28,
501
+ "grad_norm": 6.543485164642334,
502
  "learning_rate": 4.111111111111111e-05,
503
+ "loss": 0.1012,
504
  "step": 630
505
  },
506
  {
507
  "epoch": 6.38,
508
+ "grad_norm": 5.104783058166504,
509
  "learning_rate": 4e-05,
510
+ "loss": 0.0862,
511
  "step": 640
512
  },
513
  {
514
  "epoch": 6.48,
515
+ "grad_norm": 7.024726867675781,
516
  "learning_rate": 3.888888888888889e-05,
517
+ "loss": 0.1063,
518
  "step": 650
519
  },
520
  {
521
  "epoch": 6.58,
522
+ "grad_norm": 3.0800111293792725,
523
  "learning_rate": 3.777777777777778e-05,
524
+ "loss": 0.0974,
525
  "step": 660
526
  },
527
  {
528
  "epoch": 6.68,
529
+ "grad_norm": 8.348942756652832,
530
  "learning_rate": 3.6666666666666666e-05,
531
+ "loss": 0.1079,
532
  "step": 670
533
  },
534
  {
535
  "epoch": 6.78,
536
+ "grad_norm": 5.644587516784668,
537
  "learning_rate": 3.555555555555556e-05,
538
+ "loss": 0.0917,
539
  "step": 680
540
  },
541
  {
542
  "epoch": 6.88,
543
+ "grad_norm": 6.3199872970581055,
544
  "learning_rate": 3.444444444444445e-05,
545
+ "loss": 0.1043,
546
  "step": 690
547
  },
548
  {
549
  "epoch": 6.98,
550
+ "grad_norm": 7.193106174468994,
551
  "learning_rate": 3.3333333333333335e-05,
552
+ "loss": 0.1293,
553
  "step": 700
554
  },
555
  {
556
  "epoch": 6.99,
557
+ "eval_accuracy": 0.9032258064516129,
558
+ "eval_loss": 0.3595149517059326,
559
+ "eval_runtime": 37.0853,
560
+ "eval_samples_per_second": 76.904,
561
+ "eval_steps_per_second": 1.213,
562
  "step": 701
563
  },
564
  {
565
  "epoch": 7.08,
566
+ "grad_norm": 5.787723541259766,
567
  "learning_rate": 3.222222222222223e-05,
568
+ "loss": 0.1175,
569
  "step": 710
570
  },
571
  {
572
  "epoch": 7.18,
573
+ "grad_norm": 3.8590798377990723,
574
  "learning_rate": 3.111111111111111e-05,
575
+ "loss": 0.1003,
576
  "step": 720
577
  },
578
  {
579
  "epoch": 7.28,
580
+ "grad_norm": 4.482466220855713,
581
  "learning_rate": 3e-05,
582
+ "loss": 0.0991,
583
  "step": 730
584
  },
585
  {
586
  "epoch": 7.38,
587
+ "grad_norm": 2.0709593296051025,
588
  "learning_rate": 2.8888888888888888e-05,
589
+ "loss": 0.0827,
590
  "step": 740
591
  },
592
  {
593
  "epoch": 7.48,
594
+ "grad_norm": 5.126271724700928,
595
  "learning_rate": 2.777777777777778e-05,
596
+ "loss": 0.1008,
597
  "step": 750
598
  },
599
  {
600
  "epoch": 7.58,
601
+ "grad_norm": 4.332973003387451,
602
  "learning_rate": 2.6666666666666667e-05,
603
+ "loss": 0.0805,
604
  "step": 760
605
  },
606
  {
607
  "epoch": 7.68,
608
+ "grad_norm": 4.371252059936523,
609
  "learning_rate": 2.5555555555555554e-05,
610
+ "loss": 0.0951,
611
  "step": 770
612
  },
613
  {
614
  "epoch": 7.78,
615
+ "grad_norm": 4.181329250335693,
616
  "learning_rate": 2.4444444444444445e-05,
617
+ "loss": 0.0937,
618
  "step": 780
619
  },
620
  {
621
  "epoch": 7.88,
622
+ "grad_norm": 4.650885581970215,
623
  "learning_rate": 2.3333333333333336e-05,
624
+ "loss": 0.0857,
625
  "step": 790
626
  },
627
  {
628
  "epoch": 7.98,
629
+ "grad_norm": 5.875858306884766,
630
  "learning_rate": 2.2222222222222223e-05,
631
+ "loss": 0.1094,
632
  "step": 800
633
  },
634
  {
635
  "epoch": 8.0,
636
+ "eval_accuracy": 0.8993688639551192,
637
+ "eval_loss": 0.36655670404434204,
638
+ "eval_runtime": 37.936,
639
+ "eval_samples_per_second": 75.179,
640
+ "eval_steps_per_second": 1.186,
641
  "step": 802
642
  },
643
  {
644
  "epoch": 8.08,
645
+ "grad_norm": 6.7501349449157715,
646
  "learning_rate": 2.111111111111111e-05,
647
+ "loss": 0.1025,
648
  "step": 810
649
  },
650
  {
651
  "epoch": 8.18,
652
+ "grad_norm": 4.238629341125488,
653
  "learning_rate": 2e-05,
654
+ "loss": 0.0783,
655
  "step": 820
656
  },
657
  {
658
  "epoch": 8.28,
659
+ "grad_norm": 4.994195938110352,
660
  "learning_rate": 1.888888888888889e-05,
661
+ "loss": 0.0989,
662
  "step": 830
663
  },
664
  {
665
  "epoch": 8.38,
666
+ "grad_norm": 4.091785430908203,
667
  "learning_rate": 1.777777777777778e-05,
668
+ "loss": 0.093,
669
  "step": 840
670
  },
671
  {
672
  "epoch": 8.48,
673
+ "grad_norm": 4.5268378257751465,
674
  "learning_rate": 1.6666666666666667e-05,
675
+ "loss": 0.0993,
676
  "step": 850
677
  },
678
  {
679
  "epoch": 8.58,
680
+ "grad_norm": 4.056771755218506,
681
  "learning_rate": 1.5555555555555555e-05,
682
+ "loss": 0.0989,
683
  "step": 860
684
  },
685
  {
686
  "epoch": 8.68,
687
+ "grad_norm": 3.3963980674743652,
688
  "learning_rate": 1.4444444444444444e-05,
689
+ "loss": 0.0975,
690
  "step": 870
691
  },
692
  {
693
  "epoch": 8.78,
694
+ "grad_norm": 4.109832763671875,
695
  "learning_rate": 1.3333333333333333e-05,
696
+ "loss": 0.1079,
697
  "step": 880
698
  },
699
  {
700
  "epoch": 8.88,
701
+ "grad_norm": 4.538650035858154,
702
  "learning_rate": 1.2222222222222222e-05,
703
+ "loss": 0.091,
704
  "step": 890
705
  },
706
  {
707
  "epoch": 8.98,
708
+ "grad_norm": 3.982865571975708,
709
  "learning_rate": 1.1111111111111112e-05,
710
+ "loss": 0.1047,
711
  "step": 900
712
  },
713
  {
714
  "epoch": 9.0,
715
+ "eval_accuracy": 0.9021739130434783,
716
+ "eval_loss": 0.3615379333496094,
717
+ "eval_runtime": 37.2047,
718
+ "eval_samples_per_second": 76.657,
719
+ "eval_steps_per_second": 1.21,
720
  "step": 902
721
  },
722
  {
723
  "epoch": 9.08,
724
+ "grad_norm": 5.261457920074463,
725
  "learning_rate": 1e-05,
726
+ "loss": 0.1016,
727
  "step": 910
728
  },
729
  {
730
  "epoch": 9.18,
731
+ "grad_norm": 4.270400047302246,
732
  "learning_rate": 8.88888888888889e-06,
733
+ "loss": 0.109,
734
  "step": 920
735
  },
736
  {
737
  "epoch": 9.28,
738
+ "grad_norm": 4.025336265563965,
739
  "learning_rate": 7.777777777777777e-06,
740
+ "loss": 0.0955,
741
  "step": 930
742
  },
743
  {
744
  "epoch": 9.38,
745
+ "grad_norm": 4.099737167358398,
746
  "learning_rate": 6.666666666666667e-06,
747
+ "loss": 0.1024,
748
  "step": 940
749
  },
750
  {
751
  "epoch": 9.48,
752
+ "grad_norm": 4.68928861618042,
753
  "learning_rate": 5.555555555555556e-06,
754
+ "loss": 0.1069,
755
  "step": 950
756
  },
757
  {
758
  "epoch": 9.58,
759
+ "grad_norm": 4.062239170074463,
760
  "learning_rate": 4.444444444444445e-06,
761
+ "loss": 0.0971,
762
  "step": 960
763
  },
764
  {
765
  "epoch": 9.68,
766
+ "grad_norm": 3.338601589202881,
767
  "learning_rate": 3.3333333333333333e-06,
768
+ "loss": 0.1033,
769
  "step": 970
770
  },
771
  {
772
  "epoch": 9.78,
773
+ "grad_norm": 7.083847522735596,
774
  "learning_rate": 2.2222222222222225e-06,
775
+ "loss": 0.1139,
776
  "step": 980
777
  },
778
  {
779
  "epoch": 9.88,
780
+ "grad_norm": 5.833040714263916,
781
  "learning_rate": 1.1111111111111112e-06,
782
+ "loss": 0.1198,
783
  "step": 990
784
  },
785
  {
786
  "epoch": 9.98,
787
+ "grad_norm": 4.501120567321777,
788
  "learning_rate": 0.0,
789
+ "loss": 0.0925,
790
  "step": 1000
791
  },
792
  {
793
  "epoch": 9.98,
794
+ "eval_accuracy": 0.9119915848527349,
795
+ "eval_loss": 0.3377525210380554,
796
+ "eval_runtime": 37.2843,
797
+ "eval_samples_per_second": 76.493,
798
+ "eval_steps_per_second": 1.207,
799
  "step": 1000
800
  },
801
  {
802
  "epoch": 9.98,
803
  "step": 1000,
804
  "total_flos": 6.364199987970048e+18,
805
+ "train_loss": 0.11027517792582511,
806
+ "train_runtime": 4749.2843,
807
+ "train_samples_per_second": 54.038,
808
+ "train_steps_per_second": 0.211
809
  }
810
  ],
811
  "logging_steps": 10,