honnlp commited on
Commit
9be019b
1 Parent(s): baf0e96

End of training

Browse files
all_results.json CHANGED
@@ -1,8 +1,8 @@
1
  {
2
- "epoch": 9.1,
3
- "eval_accuracy": 0.9225806451612903,
4
- "eval_loss": 0.2622382938861847,
5
- "eval_runtime": 44.9977,
6
- "eval_samples_per_second": 3.445,
7
- "eval_steps_per_second": 0.867
8
  }
 
1
  {
2
+ "epoch": 3.25,
3
+ "eval_accuracy": 0.7677419354838709,
4
+ "eval_loss": 0.5838326811790466,
5
+ "eval_runtime": 30.1878,
6
+ "eval_samples_per_second": 5.135,
7
+ "eval_steps_per_second": 1.292
8
  }
runs/May11_12-39-33_gcp/events.out.tfevents.1715431914.gcp.2381.1 CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:5320449330140feb83647517ce7923e48da77c0b64b4187e881ffb142dc450a1
3
- size 411
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:51e09bfd475d44338ed825d1c7d03467d0f4481b80fea4f762ffe60cbfff08d9
3
+ size 734
test_results.json CHANGED
@@ -1,8 +1,8 @@
1
  {
2
- "epoch": 9.1,
3
- "eval_accuracy": 0.9225806451612903,
4
- "eval_loss": 0.2622382938861847,
5
- "eval_runtime": 44.9977,
6
- "eval_samples_per_second": 3.445,
7
- "eval_steps_per_second": 0.867
8
  }
 
1
  {
2
+ "epoch": 3.25,
3
+ "eval_accuracy": 0.7677419354838709,
4
+ "eval_loss": 0.5838326811790466,
5
+ "eval_runtime": 30.1878,
6
+ "eval_samples_per_second": 5.135,
7
+ "eval_steps_per_second": 1.292
8
  }
trainer_state.json CHANGED
@@ -1,662 +1,293 @@
1
  {
2
- "best_metric": 0.9571428571428572,
3
- "best_model_checkpoint": "videomae-base-finetuned-ucf101-subset/checkpoint-525",
4
- "epoch": 9.1,
5
  "eval_steps": 500,
6
- "global_step": 750,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
10
  "log_history": [
11
  {
12
- "epoch": 0.013333333333333334,
13
- "grad_norm": 8.795476913452148,
14
- "learning_rate": 6.666666666666667e-06,
15
- "loss": 2.4054,
16
  "step": 10
17
  },
18
  {
19
- "epoch": 0.02666666666666667,
20
- "grad_norm": 10.026263236999512,
21
- "learning_rate": 1.3333333333333333e-05,
22
- "loss": 2.4288,
23
  "step": 20
24
  },
25
  {
26
- "epoch": 0.04,
27
- "grad_norm": 9.563196182250977,
28
- "learning_rate": 2e-05,
29
- "loss": 2.2903,
30
  "step": 30
31
  },
32
  {
33
- "epoch": 0.05333333333333334,
34
- "grad_norm": 9.015666961669922,
35
- "learning_rate": 2.6666666666666667e-05,
36
- "loss": 2.3069,
37
  "step": 40
38
  },
39
  {
40
- "epoch": 0.06666666666666667,
41
- "grad_norm": 11.751035690307617,
42
- "learning_rate": 3.3333333333333335e-05,
43
- "loss": 2.2176,
44
  "step": 50
45
  },
46
  {
47
- "epoch": 0.08,
48
- "grad_norm": 10.45116138458252,
49
- "learning_rate": 4e-05,
50
- "loss": 2.0852,
51
  "step": 60
52
  },
53
  {
54
- "epoch": 0.09333333333333334,
55
- "grad_norm": 12.927900314331055,
56
- "learning_rate": 4.666666666666667e-05,
57
- "loss": 2.1525,
58
  "step": 70
59
  },
60
  {
61
- "epoch": 0.1,
62
- "eval_accuracy": 0.5428571428571428,
63
- "eval_loss": 1.722894549369812,
64
- "eval_runtime": 19.7611,
65
- "eval_samples_per_second": 3.542,
66
- "eval_steps_per_second": 0.911,
67
  "step": 75
68
  },
69
  {
70
- "epoch": 1.0066666666666666,
71
- "grad_norm": 11.718605041503906,
72
- "learning_rate": 4.962962962962963e-05,
73
- "loss": 1.7414,
74
  "step": 80
75
  },
76
  {
77
- "epoch": 1.02,
78
- "grad_norm": 14.952427864074707,
79
- "learning_rate": 4.888888888888889e-05,
80
- "loss": 1.4744,
81
  "step": 90
82
  },
83
  {
84
- "epoch": 1.0333333333333334,
85
- "grad_norm": 13.099126815795898,
86
- "learning_rate": 4.814814814814815e-05,
87
- "loss": 1.3828,
88
  "step": 100
89
  },
90
  {
91
- "epoch": 1.0466666666666666,
92
- "grad_norm": 7.654531478881836,
93
- "learning_rate": 4.740740740740741e-05,
94
- "loss": 1.0222,
95
  "step": 110
96
  },
97
  {
98
- "epoch": 1.06,
99
- "grad_norm": 4.138798236846924,
100
- "learning_rate": 4.666666666666667e-05,
101
- "loss": 0.9468,
102
  "step": 120
103
  },
104
  {
105
- "epoch": 1.0733333333333333,
106
- "grad_norm": 23.42486572265625,
107
- "learning_rate": 4.592592592592593e-05,
108
- "loss": 0.6556,
109
  "step": 130
110
  },
111
  {
112
- "epoch": 1.0866666666666667,
113
- "grad_norm": 9.991631507873535,
114
- "learning_rate": 4.518518518518519e-05,
115
- "loss": 0.515,
116
  "step": 140
117
  },
118
  {
119
- "epoch": 1.1,
120
- "grad_norm": 10.264222145080566,
121
- "learning_rate": 4.4444444444444447e-05,
122
- "loss": 1.028,
123
  "step": 150
124
  },
125
  {
126
- "epoch": 1.1,
127
- "eval_accuracy": 0.7571428571428571,
128
- "eval_loss": 0.718971848487854,
129
- "eval_runtime": 20.4493,
130
- "eval_samples_per_second": 3.423,
131
- "eval_steps_per_second": 0.88,
132
  "step": 150
133
  },
134
  {
135
- "epoch": 2.013333333333333,
136
- "grad_norm": 1.5132960081100464,
137
- "learning_rate": 4.3703703703703705e-05,
138
- "loss": 0.393,
139
  "step": 160
140
  },
141
  {
142
- "epoch": 2.026666666666667,
143
- "grad_norm": 28.45006561279297,
144
- "learning_rate": 4.296296296296296e-05,
145
- "loss": 0.3865,
146
  "step": 170
147
  },
148
  {
149
- "epoch": 2.04,
150
- "grad_norm": 3.5434415340423584,
151
- "learning_rate": 4.222222222222222e-05,
152
- "loss": 0.4954,
153
  "step": 180
154
  },
155
  {
156
- "epoch": 2.0533333333333332,
157
- "grad_norm": 20.566238403320312,
158
- "learning_rate": 4.148148148148148e-05,
159
- "loss": 0.5306,
160
  "step": 190
161
  },
162
  {
163
- "epoch": 2.066666666666667,
164
- "grad_norm": 4.603804111480713,
165
- "learning_rate": 4.074074074074074e-05,
166
- "loss": 0.5211,
167
  "step": 200
168
  },
169
  {
170
- "epoch": 2.08,
171
- "grad_norm": 67.62308502197266,
172
- "learning_rate": 4e-05,
173
- "loss": 0.4294,
174
  "step": 210
175
  },
176
  {
177
- "epoch": 2.0933333333333333,
178
- "grad_norm": 4.679758548736572,
179
- "learning_rate": 3.925925925925926e-05,
180
- "loss": 0.3541,
181
  "step": 220
182
  },
183
  {
184
- "epoch": 2.1,
185
- "eval_accuracy": 0.8714285714285714,
186
- "eval_loss": 0.30722978711128235,
187
- "eval_runtime": 20.3903,
188
- "eval_samples_per_second": 3.433,
189
- "eval_steps_per_second": 0.883,
190
  "step": 225
191
  },
192
  {
193
- "epoch": 3.006666666666667,
194
- "grad_norm": 1.4587314128875732,
195
- "learning_rate": 3.851851851851852e-05,
196
- "loss": 0.1373,
197
  "step": 230
198
  },
199
  {
200
- "epoch": 3.02,
201
- "grad_norm": 0.4367457628250122,
202
- "learning_rate": 3.777777777777778e-05,
203
- "loss": 0.0492,
204
  "step": 240
205
  },
206
  {
207
- "epoch": 3.033333333333333,
208
- "grad_norm": 65.70573425292969,
209
- "learning_rate": 3.7037037037037037e-05,
210
- "loss": 0.1173,
211
  "step": 250
212
  },
213
  {
214
- "epoch": 3.046666666666667,
215
- "grad_norm": 0.18782749772071838,
216
- "learning_rate": 3.62962962962963e-05,
217
- "loss": 0.3055,
218
  "step": 260
219
  },
220
  {
221
- "epoch": 3.06,
222
- "grad_norm": 15.650634765625,
223
- "learning_rate": 3.555555555555556e-05,
224
- "loss": 0.3789,
225
  "step": 270
226
  },
227
  {
228
- "epoch": 3.0733333333333333,
229
- "grad_norm": 0.7454498410224915,
230
- "learning_rate": 3.481481481481482e-05,
231
- "loss": 0.483,
232
  "step": 280
233
  },
234
  {
235
- "epoch": 3.086666666666667,
236
- "grad_norm": 0.5320239067077637,
237
- "learning_rate": 3.4074074074074077e-05,
238
- "loss": 0.3415,
239
  "step": 290
240
  },
241
  {
242
- "epoch": 3.1,
243
- "grad_norm": 45.54346466064453,
244
- "learning_rate": 3.3333333333333335e-05,
245
- "loss": 0.6501,
246
  "step": 300
247
  },
248
  {
249
- "epoch": 3.1,
250
- "eval_accuracy": 0.7857142857142857,
251
- "eval_loss": 0.5646315217018127,
252
- "eval_runtime": 19.9887,
253
- "eval_samples_per_second": 3.502,
254
- "eval_steps_per_second": 0.901,
255
  "step": 300
256
  },
257
  {
258
- "epoch": 4.013333333333334,
259
- "grad_norm": 0.2744936943054199,
260
- "learning_rate": 3.25925925925926e-05,
261
- "loss": 0.1115,
262
- "step": 310
263
- },
264
- {
265
- "epoch": 4.026666666666666,
266
- "grad_norm": 52.5593376159668,
267
- "learning_rate": 3.185185185185185e-05,
268
- "loss": 0.4402,
269
- "step": 320
270
- },
271
- {
272
- "epoch": 4.04,
273
- "grad_norm": 0.3685360252857208,
274
- "learning_rate": 3.111111111111111e-05,
275
- "loss": 0.1409,
276
- "step": 330
277
- },
278
- {
279
- "epoch": 4.053333333333334,
280
- "grad_norm": 0.13833816349506378,
281
- "learning_rate": 3.037037037037037e-05,
282
- "loss": 0.2763,
283
- "step": 340
284
- },
285
- {
286
- "epoch": 4.066666666666666,
287
- "grad_norm": 0.11666622757911682,
288
- "learning_rate": 2.962962962962963e-05,
289
- "loss": 0.0503,
290
- "step": 350
291
- },
292
- {
293
- "epoch": 4.08,
294
- "grad_norm": 0.06857863068580627,
295
- "learning_rate": 2.8888888888888888e-05,
296
- "loss": 0.1914,
297
- "step": 360
298
- },
299
- {
300
- "epoch": 4.093333333333334,
301
- "grad_norm": 3.4672675132751465,
302
- "learning_rate": 2.814814814814815e-05,
303
- "loss": 0.0448,
304
- "step": 370
305
- },
306
- {
307
- "epoch": 4.1,
308
- "eval_accuracy": 0.8571428571428571,
309
- "eval_loss": 0.44399380683898926,
310
- "eval_runtime": 17.9423,
311
- "eval_samples_per_second": 3.901,
312
- "eval_steps_per_second": 1.003,
313
- "step": 375
314
- },
315
- {
316
- "epoch": 5.006666666666667,
317
- "grad_norm": 1.6939857006072998,
318
- "learning_rate": 2.7407407407407408e-05,
319
- "loss": 0.0308,
320
- "step": 380
321
- },
322
- {
323
- "epoch": 5.02,
324
- "grad_norm": 1.3869863748550415,
325
- "learning_rate": 2.6666666666666667e-05,
326
- "loss": 0.1281,
327
- "step": 390
328
- },
329
- {
330
- "epoch": 5.033333333333333,
331
- "grad_norm": 0.26335254311561584,
332
- "learning_rate": 2.5925925925925925e-05,
333
- "loss": 0.0254,
334
- "step": 400
335
- },
336
- {
337
- "epoch": 5.046666666666667,
338
- "grad_norm": 0.060862887650728226,
339
- "learning_rate": 2.5185185185185183e-05,
340
- "loss": 0.0119,
341
- "step": 410
342
- },
343
- {
344
- "epoch": 5.06,
345
- "grad_norm": 0.22715356945991516,
346
- "learning_rate": 2.4444444444444445e-05,
347
- "loss": 0.1588,
348
- "step": 420
349
- },
350
- {
351
- "epoch": 5.073333333333333,
352
- "grad_norm": 61.806556701660156,
353
- "learning_rate": 2.3703703703703707e-05,
354
- "loss": 0.0864,
355
- "step": 430
356
- },
357
- {
358
- "epoch": 5.086666666666667,
359
- "grad_norm": 0.05195135250687599,
360
- "learning_rate": 2.2962962962962965e-05,
361
- "loss": 0.073,
362
- "step": 440
363
- },
364
- {
365
- "epoch": 5.1,
366
- "grad_norm": 43.471065521240234,
367
- "learning_rate": 2.2222222222222223e-05,
368
- "loss": 0.0785,
369
- "step": 450
370
- },
371
- {
372
- "epoch": 5.1,
373
- "eval_accuracy": 0.9,
374
- "eval_loss": 0.3218167722225189,
375
- "eval_runtime": 19.9327,
376
- "eval_samples_per_second": 3.512,
377
- "eval_steps_per_second": 0.903,
378
- "step": 450
379
- },
380
- {
381
- "epoch": 6.013333333333334,
382
- "grad_norm": 0.06781550496816635,
383
- "learning_rate": 2.148148148148148e-05,
384
- "loss": 0.1588,
385
- "step": 460
386
- },
387
- {
388
- "epoch": 6.026666666666666,
389
- "grad_norm": 0.09493797272443771,
390
- "learning_rate": 2.074074074074074e-05,
391
- "loss": 0.0833,
392
- "step": 470
393
- },
394
- {
395
- "epoch": 6.04,
396
- "grad_norm": 1.557625412940979,
397
- "learning_rate": 2e-05,
398
- "loss": 0.038,
399
- "step": 480
400
- },
401
- {
402
- "epoch": 6.053333333333334,
403
- "grad_norm": 0.041507575660943985,
404
- "learning_rate": 1.925925925925926e-05,
405
- "loss": 0.0782,
406
- "step": 490
407
- },
408
- {
409
- "epoch": 6.066666666666666,
410
- "grad_norm": 0.13706688582897186,
411
- "learning_rate": 1.8518518518518518e-05,
412
- "loss": 0.0061,
413
- "step": 500
414
- },
415
- {
416
- "epoch": 6.08,
417
- "grad_norm": 0.04828852787613869,
418
- "learning_rate": 1.777777777777778e-05,
419
- "loss": 0.005,
420
- "step": 510
421
- },
422
- {
423
- "epoch": 6.093333333333334,
424
- "grad_norm": 0.047101154923439026,
425
- "learning_rate": 1.7037037037037038e-05,
426
- "loss": 0.0214,
427
- "step": 520
428
- },
429
- {
430
- "epoch": 6.1,
431
- "eval_accuracy": 0.9571428571428572,
432
- "eval_loss": 0.1372106671333313,
433
- "eval_runtime": 19.7597,
434
- "eval_samples_per_second": 3.543,
435
- "eval_steps_per_second": 0.911,
436
- "step": 525
437
- },
438
- {
439
- "epoch": 7.006666666666667,
440
- "grad_norm": 0.18555110692977905,
441
- "learning_rate": 1.62962962962963e-05,
442
- "loss": 0.0045,
443
- "step": 530
444
- },
445
- {
446
- "epoch": 7.02,
447
- "grad_norm": 0.11104493588209152,
448
- "learning_rate": 1.5555555555555555e-05,
449
- "loss": 0.0273,
450
- "step": 540
451
- },
452
- {
453
- "epoch": 7.033333333333333,
454
- "grad_norm": 0.04018757492303848,
455
- "learning_rate": 1.4814814814814815e-05,
456
- "loss": 0.1058,
457
- "step": 550
458
- },
459
- {
460
- "epoch": 7.046666666666667,
461
- "grad_norm": 0.04107681289315224,
462
- "learning_rate": 1.4074074074074075e-05,
463
- "loss": 0.0064,
464
- "step": 560
465
- },
466
- {
467
- "epoch": 7.06,
468
- "grad_norm": 0.05029289796948433,
469
- "learning_rate": 1.3333333333333333e-05,
470
- "loss": 0.0708,
471
- "step": 570
472
- },
473
- {
474
- "epoch": 7.073333333333333,
475
- "grad_norm": 0.046671733260154724,
476
- "learning_rate": 1.2592592592592592e-05,
477
- "loss": 0.0056,
478
- "step": 580
479
- },
480
- {
481
- "epoch": 7.086666666666667,
482
- "grad_norm": 0.05804697796702385,
483
- "learning_rate": 1.1851851851851853e-05,
484
- "loss": 0.012,
485
- "step": 590
486
- },
487
- {
488
- "epoch": 7.1,
489
- "grad_norm": 0.04299278184771538,
490
- "learning_rate": 1.1111111111111112e-05,
491
- "loss": 0.0039,
492
- "step": 600
493
- },
494
- {
495
- "epoch": 7.1,
496
- "eval_accuracy": 0.9571428571428572,
497
- "eval_loss": 0.10343696922063828,
498
- "eval_runtime": 21.2334,
499
- "eval_samples_per_second": 3.297,
500
- "eval_steps_per_second": 0.848,
501
- "step": 600
502
  },
503
  {
504
- "epoch": 8.013333333333334,
505
- "grad_norm": 0.03256387636065483,
506
- "learning_rate": 1.037037037037037e-05,
507
- "loss": 0.0064,
508
- "step": 610
509
- },
510
- {
511
- "epoch": 8.026666666666667,
512
- "grad_norm": 0.0486493855714798,
513
- "learning_rate": 9.62962962962963e-06,
514
- "loss": 0.0037,
515
- "step": 620
516
- },
517
- {
518
- "epoch": 8.04,
519
- "grad_norm": 0.03539065271615982,
520
- "learning_rate": 8.88888888888889e-06,
521
- "loss": 0.1036,
522
- "step": 630
523
- },
524
- {
525
- "epoch": 8.053333333333333,
526
- "grad_norm": 0.030678970739245415,
527
- "learning_rate": 8.14814814814815e-06,
528
- "loss": 0.0034,
529
- "step": 640
530
- },
531
- {
532
- "epoch": 8.066666666666666,
533
- "grad_norm": 0.03648629039525986,
534
- "learning_rate": 7.4074074074074075e-06,
535
- "loss": 0.0557,
536
- "step": 650
537
- },
538
- {
539
- "epoch": 8.08,
540
- "grad_norm": 0.036471571773290634,
541
- "learning_rate": 6.666666666666667e-06,
542
- "loss": 0.0984,
543
- "step": 660
544
- },
545
- {
546
- "epoch": 8.093333333333334,
547
- "grad_norm": 0.05204283446073532,
548
- "learning_rate": 5.925925925925927e-06,
549
- "loss": 0.0048,
550
- "step": 670
551
- },
552
- {
553
- "epoch": 8.1,
554
- "eval_accuracy": 0.9142857142857143,
555
- "eval_loss": 0.15946045517921448,
556
- "eval_runtime": 18.3528,
557
- "eval_samples_per_second": 3.814,
558
- "eval_steps_per_second": 0.981,
559
- "step": 675
560
- },
561
- {
562
- "epoch": 9.006666666666666,
563
- "grad_norm": 0.0372748076915741,
564
- "learning_rate": 5.185185185185185e-06,
565
- "loss": 0.0034,
566
- "step": 680
567
- },
568
- {
569
- "epoch": 9.02,
570
- "grad_norm": 0.043480608612298965,
571
- "learning_rate": 4.444444444444445e-06,
572
- "loss": 0.0033,
573
- "step": 690
574
- },
575
- {
576
- "epoch": 9.033333333333333,
577
- "grad_norm": 0.034943871200084686,
578
- "learning_rate": 3.7037037037037037e-06,
579
- "loss": 0.0034,
580
- "step": 700
581
- },
582
- {
583
- "epoch": 9.046666666666667,
584
- "grad_norm": 0.05171409249305725,
585
- "learning_rate": 2.9629629629629633e-06,
586
- "loss": 0.0036,
587
- "step": 710
588
- },
589
- {
590
- "epoch": 9.06,
591
- "grad_norm": 0.035231392830610275,
592
- "learning_rate": 2.2222222222222225e-06,
593
- "loss": 0.0031,
594
- "step": 720
595
- },
596
- {
597
- "epoch": 9.073333333333334,
598
- "grad_norm": 0.06839217245578766,
599
- "learning_rate": 1.4814814814814817e-06,
600
- "loss": 0.0111,
601
- "step": 730
602
- },
603
- {
604
- "epoch": 9.086666666666666,
605
- "grad_norm": 0.032866183668375015,
606
- "learning_rate": 7.407407407407408e-07,
607
- "loss": 0.0041,
608
- "step": 740
609
  },
610
  {
611
- "epoch": 9.1,
612
- "grad_norm": 0.06153057515621185,
613
- "learning_rate": 0.0,
614
- "loss": 0.0052,
615
- "step": 750
616
- },
617
- {
618
- "epoch": 9.1,
619
- "eval_accuracy": 0.9571428571428572,
620
- "eval_loss": 0.10069848597049713,
621
- "eval_runtime": 20.7858,
622
- "eval_samples_per_second": 3.368,
623
- "eval_steps_per_second": 0.866,
624
- "step": 750
625
- },
626
- {
627
- "epoch": 9.1,
628
- "step": 750,
629
- "total_flos": 3.73846047031296e+18,
630
- "train_loss": 0.4401957253267368,
631
- "train_runtime": 1973.9568,
632
- "train_samples_per_second": 1.52,
633
- "train_steps_per_second": 0.38
634
- },
635
- {
636
- "epoch": 9.1,
637
- "eval_accuracy": 0.9225806451612903,
638
- "eval_loss": 0.2622383236885071,
639
- "eval_runtime": 45.5213,
640
- "eval_samples_per_second": 3.405,
641
- "eval_steps_per_second": 0.857,
642
- "step": 750
643
- },
644
- {
645
- "epoch": 9.1,
646
- "eval_accuracy": 0.9225806451612903,
647
- "eval_loss": 0.2622382938861847,
648
- "eval_runtime": 44.9977,
649
- "eval_samples_per_second": 3.445,
650
- "eval_steps_per_second": 0.867,
651
- "step": 750
652
  }
653
  ],
654
  "logging_steps": 10,
655
- "max_steps": 750,
656
  "num_input_tokens_seen": 0,
657
  "num_train_epochs": 9223372036854775807,
658
  "save_steps": 500,
659
- "total_flos": 3.73846047031296e+18,
660
  "train_batch_size": 4,
661
  "trial_name": null,
662
  "trial_params": null
 
1
  {
2
+ "best_metric": 0.8428571428571429,
3
+ "best_model_checkpoint": "videomae-base-finetuned-ucf101-subset/checkpoint-150",
4
+ "epoch": 3.25,
5
  "eval_steps": 500,
6
+ "global_step": 300,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
10
  "log_history": [
11
  {
12
+ "epoch": 0.03333333333333333,
13
+ "grad_norm": 9.030272483825684,
14
+ "learning_rate": 1.6666666666666667e-05,
15
+ "loss": 2.3471,
16
  "step": 10
17
  },
18
  {
19
+ "epoch": 0.06666666666666667,
20
+ "grad_norm": 9.653508186340332,
21
+ "learning_rate": 3.3333333333333335e-05,
22
+ "loss": 2.2728,
23
  "step": 20
24
  },
25
  {
26
+ "epoch": 0.1,
27
+ "grad_norm": 9.514510154724121,
28
+ "learning_rate": 5e-05,
29
+ "loss": 2.2423,
30
  "step": 30
31
  },
32
  {
33
+ "epoch": 0.13333333333333333,
34
+ "grad_norm": 9.425768852233887,
35
+ "learning_rate": 4.814814814814815e-05,
36
+ "loss": 2.0797,
37
  "step": 40
38
  },
39
  {
40
+ "epoch": 0.16666666666666666,
41
+ "grad_norm": 12.643138885498047,
42
+ "learning_rate": 4.62962962962963e-05,
43
+ "loss": 2.1012,
44
  "step": 50
45
  },
46
  {
47
+ "epoch": 0.2,
48
+ "grad_norm": 9.729035377502441,
49
+ "learning_rate": 4.4444444444444447e-05,
50
+ "loss": 1.7497,
51
  "step": 60
52
  },
53
  {
54
+ "epoch": 0.23333333333333334,
55
+ "grad_norm": 9.487822532653809,
56
+ "learning_rate": 4.259259259259259e-05,
57
+ "loss": 1.7455,
58
  "step": 70
59
  },
60
  {
61
+ "epoch": 0.25,
62
+ "eval_accuracy": 0.5857142857142857,
63
+ "eval_loss": 1.3021408319473267,
64
+ "eval_runtime": 16.6801,
65
+ "eval_samples_per_second": 4.197,
66
+ "eval_steps_per_second": 1.079,
67
  "step": 75
68
  },
69
  {
70
+ "epoch": 1.0166666666666666,
71
+ "grad_norm": 9.826342582702637,
72
+ "learning_rate": 4.074074074074074e-05,
73
+ "loss": 1.3037,
74
  "step": 80
75
  },
76
  {
77
+ "epoch": 1.05,
78
+ "grad_norm": 10.802420616149902,
79
+ "learning_rate": 3.888888888888889e-05,
80
+ "loss": 1.128,
81
  "step": 90
82
  },
83
  {
84
+ "epoch": 1.0833333333333333,
85
+ "grad_norm": 15.328178405761719,
86
+ "learning_rate": 3.7037037037037037e-05,
87
+ "loss": 1.1334,
88
  "step": 100
89
  },
90
  {
91
+ "epoch": 1.1166666666666667,
92
+ "grad_norm": 9.453879356384277,
93
+ "learning_rate": 3.518518518518519e-05,
94
+ "loss": 0.8507,
95
  "step": 110
96
  },
97
  {
98
+ "epoch": 1.15,
99
+ "grad_norm": 10.099981307983398,
100
+ "learning_rate": 3.3333333333333335e-05,
101
+ "loss": 0.8617,
102
  "step": 120
103
  },
104
  {
105
+ "epoch": 1.1833333333333333,
106
+ "grad_norm": 21.905996322631836,
107
+ "learning_rate": 3.148148148148148e-05,
108
+ "loss": 0.6073,
109
  "step": 130
110
  },
111
  {
112
+ "epoch": 1.2166666666666668,
113
+ "grad_norm": 8.017053604125977,
114
+ "learning_rate": 2.962962962962963e-05,
115
+ "loss": 0.4951,
116
  "step": 140
117
  },
118
  {
119
+ "epoch": 1.25,
120
+ "grad_norm": 3.5494937896728516,
121
+ "learning_rate": 2.777777777777778e-05,
122
+ "loss": 0.9476,
123
  "step": 150
124
  },
125
  {
126
+ "epoch": 1.25,
127
+ "eval_accuracy": 0.8428571428571429,
128
+ "eval_loss": 0.5081102252006531,
129
+ "eval_runtime": 16.5404,
130
+ "eval_samples_per_second": 4.232,
131
+ "eval_steps_per_second": 1.088,
132
  "step": 150
133
  },
134
  {
135
+ "epoch": 2.033333333333333,
136
+ "grad_norm": 11.868717193603516,
137
+ "learning_rate": 2.5925925925925925e-05,
138
+ "loss": 0.2692,
139
  "step": 160
140
  },
141
  {
142
+ "epoch": 2.066666666666667,
143
+ "grad_norm": 11.16838550567627,
144
+ "learning_rate": 2.4074074074074074e-05,
145
+ "loss": 0.4435,
146
  "step": 170
147
  },
148
  {
149
+ "epoch": 2.1,
150
+ "grad_norm": 4.307368755340576,
151
+ "learning_rate": 2.2222222222222223e-05,
152
+ "loss": 0.3437,
153
  "step": 180
154
  },
155
  {
156
+ "epoch": 2.1333333333333333,
157
+ "grad_norm": 14.703262329101562,
158
+ "learning_rate": 2.037037037037037e-05,
159
+ "loss": 0.4501,
160
  "step": 190
161
  },
162
  {
163
+ "epoch": 2.1666666666666665,
164
+ "grad_norm": 3.9073095321655273,
165
+ "learning_rate": 1.8518518518518518e-05,
166
+ "loss": 0.3173,
167
  "step": 200
168
  },
169
  {
170
+ "epoch": 2.2,
171
+ "grad_norm": 7.474828720092773,
172
+ "learning_rate": 1.6666666666666667e-05,
173
+ "loss": 0.1711,
174
  "step": 210
175
  },
176
  {
177
+ "epoch": 2.2333333333333334,
178
+ "grad_norm": 1.4244682788848877,
179
+ "learning_rate": 1.4814814814814815e-05,
180
+ "loss": 0.3926,
181
  "step": 220
182
  },
183
  {
184
+ "epoch": 2.25,
185
+ "eval_accuracy": 0.7714285714285715,
186
+ "eval_loss": 0.38518500328063965,
187
+ "eval_runtime": 16.889,
188
+ "eval_samples_per_second": 4.145,
189
+ "eval_steps_per_second": 1.066,
190
  "step": 225
191
  },
192
  {
193
+ "epoch": 3.0166666666666666,
194
+ "grad_norm": 1.0246777534484863,
195
+ "learning_rate": 1.2962962962962962e-05,
196
+ "loss": 0.1841,
197
  "step": 230
198
  },
199
  {
200
+ "epoch": 3.05,
201
+ "grad_norm": 0.22415301203727722,
202
+ "learning_rate": 1.1111111111111112e-05,
203
+ "loss": 0.12,
204
  "step": 240
205
  },
206
  {
207
+ "epoch": 3.0833333333333335,
208
+ "grad_norm": 7.395457744598389,
209
+ "learning_rate": 9.259259259259259e-06,
210
+ "loss": 0.1242,
211
  "step": 250
212
  },
213
  {
214
+ "epoch": 3.1166666666666667,
215
+ "grad_norm": 0.42695850133895874,
216
+ "learning_rate": 7.4074074074074075e-06,
217
+ "loss": 0.1291,
218
  "step": 260
219
  },
220
  {
221
+ "epoch": 3.15,
222
+ "grad_norm": 2.703252077102661,
223
+ "learning_rate": 5.555555555555556e-06,
224
+ "loss": 0.1147,
225
  "step": 270
226
  },
227
  {
228
+ "epoch": 3.183333333333333,
229
+ "grad_norm": 0.6641141772270203,
230
+ "learning_rate": 3.7037037037037037e-06,
231
+ "loss": 0.2027,
232
  "step": 280
233
  },
234
  {
235
+ "epoch": 3.216666666666667,
236
+ "grad_norm": 1.9637229442596436,
237
+ "learning_rate": 1.8518518518518519e-06,
238
+ "loss": 0.2594,
239
  "step": 290
240
  },
241
  {
242
+ "epoch": 3.25,
243
+ "grad_norm": 0.8269719481468201,
244
+ "learning_rate": 0.0,
245
+ "loss": 0.2059,
246
  "step": 300
247
  },
248
  {
249
+ "epoch": 3.25,
250
+ "eval_accuracy": 0.8428571428571429,
251
+ "eval_loss": 0.39890938997268677,
252
+ "eval_runtime": 16.6405,
253
+ "eval_samples_per_second": 4.207,
254
+ "eval_steps_per_second": 1.082,
255
  "step": 300
256
  },
257
  {
258
+ "epoch": 3.25,
259
+ "step": 300,
260
+ "total_flos": 1.495384188125184e+18,
261
+ "train_loss": 0.8531251009305318,
262
+ "train_runtime": 689.5393,
263
+ "train_samples_per_second": 1.74,
264
+ "train_steps_per_second": 0.435
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
265
  },
266
  {
267
+ "epoch": 3.25,
268
+ "eval_accuracy": 0.7677419354838709,
269
+ "eval_loss": 0.5838326811790466,
270
+ "eval_runtime": 31.2901,
271
+ "eval_samples_per_second": 4.954,
272
+ "eval_steps_per_second": 1.246,
273
+ "step": 300
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
274
  },
275
  {
276
+ "epoch": 3.25,
277
+ "eval_accuracy": 0.7677419354838709,
278
+ "eval_loss": 0.5838326811790466,
279
+ "eval_runtime": 30.1878,
280
+ "eval_samples_per_second": 5.135,
281
+ "eval_steps_per_second": 1.292,
282
+ "step": 300
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
283
  }
284
  ],
285
  "logging_steps": 10,
286
+ "max_steps": 300,
287
  "num_input_tokens_seen": 0,
288
  "num_train_epochs": 9223372036854775807,
289
  "save_steps": 500,
290
+ "total_flos": 1.495384188125184e+18,
291
  "train_batch_size": 4,
292
  "trial_name": null,
293
  "trial_params": null