emilios commited on
Commit
22668c5
1 Parent(s): 718d834

End of training

Browse files
all_results.json CHANGED
@@ -1,12 +1,12 @@
1
  {
2
- "epoch": 24.88,
3
  "eval_loss": 0.50146484375,
4
- "eval_runtime": 168.2334,
5
- "eval_samples_per_second": 10.081,
6
- "eval_steps_per_second": 0.63,
7
- "eval_wer": 16.50260029717682,
8
- "train_loss": 0.00017381784915924072,
9
- "train_runtime": 19905.1566,
10
- "train_samples_per_second": 16.076,
11
- "train_steps_per_second": 0.502
12
  }
 
1
  {
2
+ "epoch": 12.44,
3
  "eval_loss": 0.50146484375,
4
+ "eval_runtime": 168.6261,
5
+ "eval_samples_per_second": 10.058,
6
+ "eval_steps_per_second": 0.629,
7
+ "eval_wer": 16.465453194650816,
8
+ "train_loss": 0.00017441691160202026,
9
+ "train_runtime": 9920.3408,
10
+ "train_samples_per_second": 16.128,
11
+ "train_steps_per_second": 0.504
12
  }
eval_results.json CHANGED
@@ -1,8 +1,8 @@
1
  {
2
- "epoch": 24.88,
3
  "eval_loss": 0.50146484375,
4
- "eval_runtime": 168.2334,
5
- "eval_samples_per_second": 10.081,
6
- "eval_steps_per_second": 0.63,
7
- "eval_wer": 16.50260029717682
8
  }
 
1
  {
2
+ "epoch": 12.44,
3
  "eval_loss": 0.50146484375,
4
+ "eval_runtime": 168.6261,
5
+ "eval_samples_per_second": 10.058,
6
+ "eval_steps_per_second": 0.629,
7
+ "eval_wer": 16.465453194650816
8
  }
runs/Dec21_06-54-33_129-146-176-120/events.out.tfevents.1671616747.129-146-176-120.2641118.2 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7b04f94d8e4e12fc2210b0d84172428fcac3febc8318df4be02480122337a26c
3
+ size 358
train_results.json CHANGED
@@ -1,7 +1,7 @@
1
  {
2
- "epoch": 24.88,
3
- "train_loss": 0.00017381784915924072,
4
- "train_runtime": 19905.1566,
5
- "train_samples_per_second": 16.076,
6
- "train_steps_per_second": 0.502
7
  }
 
1
  {
2
+ "epoch": 12.44,
3
+ "train_loss": 0.00017441691160202026,
4
+ "train_runtime": 9920.3408,
5
+ "train_samples_per_second": 16.128,
6
+ "train_steps_per_second": 0.504
7
  }
trainer_state.json CHANGED
@@ -1,2515 +1,1270 @@
1
  {
2
- "best_metric": 16.50260029717682,
3
- "best_model_checkpoint": "./checkpoint-8000",
4
- "epoch": 24.875621890547265,
5
- "global_step": 10000,
6
  "is_hyper_param_search": false,
7
  "is_local_process_zero": true,
8
  "is_world_process_zero": true,
9
  "log_history": [
10
  {
11
  "epoch": 0.06,
12
- "learning_rate": 1.5136083400296205e-09,
13
  "loss": 0.0002,
14
  "step": 25
15
  },
16
  {
17
  "epoch": 0.12,
18
- "learning_rate": 1.86875871314753e-09,
19
  "loss": 0.0002,
20
  "step": 50
21
  },
22
  {
23
  "epoch": 0.19,
24
- "learning_rate": 2.0711488350670175e-09,
25
  "loss": 0.0002,
26
  "step": 75
27
  },
28
  {
29
  "epoch": 0.25,
30
- "learning_rate": 2.213317753617305e-09,
31
  "loss": 0.0002,
32
  "step": 100
33
  },
34
  {
35
  "epoch": 0.31,
36
- "learning_rate": 2.3230029693718748e-09,
37
  "loss": 0.0002,
38
  "step": 125
39
  },
40
  {
41
  "epoch": 0.37,
42
- "learning_rate": 2.412322158351148e-09,
43
  "loss": 0.0002,
44
  "step": 150
45
  },
46
  {
47
  "epoch": 0.44,
48
- "learning_rate": 2.4876668872198716e-09,
49
  "loss": 0.0002,
50
  "step": 175
51
  },
52
  {
53
  "epoch": 0.5,
54
- "learning_rate": 2.552824062407326e-09,
55
  "loss": 0.0002,
56
  "step": 200
57
  },
58
  {
59
  "epoch": 0.56,
60
- "learning_rate": 2.6102233732966667e-09,
61
  "loss": 0.0002,
62
  "step": 225
63
  },
64
  {
65
  "epoch": 0.62,
66
- "learning_rate": 2.661517182828361e-09,
67
  "loss": 0.0002,
68
  "step": 250
69
  },
70
  {
71
  "epoch": 0.68,
72
- "learning_rate": 2.707880387474054e-09,
73
  "loss": 0.0002,
74
  "step": 275
75
  },
76
  {
77
  "epoch": 0.75,
78
- "learning_rate": 2.7501783199901967e-09,
79
  "loss": 0.0002,
80
  "step": 300
81
  },
82
  {
83
  "epoch": 0.81,
84
- "learning_rate": 2.7890667754365044e-09,
85
  "loss": 0.0002,
86
  "step": 325
87
  },
88
  {
89
  "epoch": 0.87,
90
- "learning_rate": 2.8250546392106078e-09,
91
  "loss": 0.0002,
92
  "step": 350
93
  },
94
  {
95
  "epoch": 0.93,
96
- "learning_rate": 2.8585447348549113e-09,
97
  "loss": 0.0002,
98
  "step": 375
99
  },
100
  {
101
  "epoch": 1.0,
102
- "learning_rate": 2.889861392935294e-09,
103
  "loss": 0.0002,
104
  "step": 400
105
  },
106
  {
107
  "epoch": 1.06,
108
- "learning_rate": 2.9192696063561723e-09,
109
  "loss": 0.0002,
110
  "step": 425
111
  },
112
  {
113
  "epoch": 1.12,
114
- "learning_rate": 2.946988676871634e-09,
115
  "loss": 0.0002,
116
  "step": 450
117
  },
118
  {
119
  "epoch": 1.18,
120
- "learning_rate": 2.973202150939645e-09,
121
  "loss": 0.0002,
122
  "step": 475
123
  },
124
  {
125
  "epoch": 1.24,
126
- "learning_rate": 2.9980651934921415e-09,
127
  "loss": 0.0002,
128
  "step": 500
129
  },
130
  {
131
  "epoch": 1.31,
132
- "learning_rate": 2.9930526315789476e-09,
133
  "loss": 0.0002,
134
  "step": 525
135
  },
136
  {
137
  "epoch": 1.37,
138
- "learning_rate": 2.9851578947368423e-09,
139
  "loss": 0.0002,
140
  "step": 550
141
  },
142
  {
143
  "epoch": 1.43,
144
- "learning_rate": 2.977263157894737e-09,
145
  "loss": 0.0002,
146
  "step": 575
147
  },
148
  {
149
  "epoch": 1.49,
150
- "learning_rate": 2.9693684210526316e-09,
151
  "loss": 0.0002,
152
  "step": 600
153
  },
154
  {
155
  "epoch": 1.55,
156
- "learning_rate": 2.9614736842105263e-09,
157
  "loss": 0.0002,
158
  "step": 625
159
  },
160
  {
161
  "epoch": 1.62,
162
- "learning_rate": 2.953578947368421e-09,
163
  "loss": 0.0002,
164
  "step": 650
165
  },
166
  {
167
  "epoch": 1.68,
168
- "learning_rate": 2.9456842105263156e-09,
169
  "loss": 0.0002,
170
  "step": 675
171
  },
172
  {
173
  "epoch": 1.74,
174
- "learning_rate": 2.9377894736842103e-09,
175
  "loss": 0.0002,
176
  "step": 700
177
  },
178
  {
179
  "epoch": 1.8,
180
- "learning_rate": 2.9298947368421054e-09,
181
  "loss": 0.0002,
182
  "step": 725
183
  },
184
  {
185
  "epoch": 1.87,
186
- "learning_rate": 2.922e-09,
187
  "loss": 0.0002,
188
  "step": 750
189
  },
190
  {
191
  "epoch": 1.93,
192
- "learning_rate": 2.9141052631578947e-09,
193
  "loss": 0.0002,
194
  "step": 775
195
  },
196
  {
197
  "epoch": 1.99,
198
- "learning_rate": 2.9062105263157894e-09,
199
  "loss": 0.0002,
200
  "step": 800
201
  },
202
  {
203
  "epoch": 2.05,
204
- "learning_rate": 2.898315789473684e-09,
205
  "loss": 0.0002,
206
  "step": 825
207
  },
208
  {
209
  "epoch": 2.11,
210
- "learning_rate": 2.890421052631579e-09,
211
  "loss": 0.0002,
212
  "step": 850
213
  },
214
  {
215
  "epoch": 2.18,
216
- "learning_rate": 2.8825263157894738e-09,
217
  "loss": 0.0002,
218
  "step": 875
219
  },
220
  {
221
  "epoch": 2.24,
222
- "learning_rate": 2.8746315789473685e-09,
223
  "loss": 0.0002,
224
  "step": 900
225
  },
226
  {
227
  "epoch": 2.3,
228
- "learning_rate": 2.866736842105263e-09,
229
  "loss": 0.0002,
230
  "step": 925
231
  },
232
  {
233
  "epoch": 2.36,
234
- "learning_rate": 2.8588421052631578e-09,
235
  "loss": 0.0002,
236
  "step": 950
237
  },
238
  {
239
  "epoch": 2.43,
240
- "learning_rate": 2.8509473684210525e-09,
241
  "loss": 0.0002,
242
  "step": 975
243
  },
244
  {
245
  "epoch": 2.49,
246
- "learning_rate": 2.8430526315789475e-09,
247
  "loss": 0.0002,
248
  "step": 1000
249
  },
250
  {
251
  "epoch": 2.49,
252
  "eval_loss": 0.50146484375,
253
- "eval_runtime": 168.1732,
254
- "eval_samples_per_second": 10.085,
255
- "eval_steps_per_second": 0.63,
256
- "eval_wer": 16.521173848439823,
257
  "step": 1000
258
  },
259
  {
260
  "epoch": 2.55,
261
- "learning_rate": 2.8357894736842104e-09,
262
  "loss": 0.0002,
263
  "step": 1025
264
  },
265
  {
266
  "epoch": 2.61,
267
- "learning_rate": 2.827894736842105e-09,
268
  "loss": 0.0002,
269
  "step": 1050
270
  },
271
  {
272
  "epoch": 2.67,
273
- "learning_rate": 2.8199999999999998e-09,
274
  "loss": 0.0002,
275
  "step": 1075
276
  },
277
  {
278
  "epoch": 2.74,
279
- "learning_rate": 2.812105263157895e-09,
280
  "loss": 0.0002,
281
  "step": 1100
282
  },
283
  {
284
  "epoch": 2.8,
285
- "learning_rate": 2.8042105263157895e-09,
286
  "loss": 0.0002,
287
  "step": 1125
288
  },
289
  {
290
  "epoch": 2.86,
291
- "learning_rate": 2.796315789473684e-09,
292
  "loss": 0.0002,
293
  "step": 1150
294
  },
295
  {
296
  "epoch": 2.92,
297
- "learning_rate": 2.788421052631579e-09,
298
  "loss": 0.0002,
299
  "step": 1175
300
  },
301
  {
302
  "epoch": 2.99,
303
- "learning_rate": 2.7805263157894735e-09,
304
  "loss": 0.0002,
305
  "step": 1200
306
  },
307
  {
308
  "epoch": 3.05,
309
- "learning_rate": 2.7726315789473686e-09,
310
  "loss": 0.0002,
311
  "step": 1225
312
  },
313
  {
314
  "epoch": 3.11,
315
- "learning_rate": 2.7647368421052633e-09,
316
  "loss": 0.0002,
317
  "step": 1250
318
  },
319
  {
320
  "epoch": 3.17,
321
- "learning_rate": 2.756842105263158e-09,
322
  "loss": 0.0002,
323
  "step": 1275
324
  },
325
  {
326
  "epoch": 3.23,
327
- "learning_rate": 2.7489473684210526e-09,
328
  "loss": 0.0002,
329
  "step": 1300
330
  },
331
  {
332
  "epoch": 3.3,
333
- "learning_rate": 2.7410526315789473e-09,
334
  "loss": 0.0002,
335
  "step": 1325
336
  },
337
  {
338
  "epoch": 3.36,
339
- "learning_rate": 2.733157894736842e-09,
340
  "loss": 0.0002,
341
  "step": 1350
342
  },
343
  {
344
  "epoch": 3.42,
345
- "learning_rate": 2.7252631578947366e-09,
346
  "loss": 0.0002,
347
  "step": 1375
348
  },
349
  {
350
  "epoch": 3.48,
351
- "learning_rate": 2.7173684210526313e-09,
352
  "loss": 0.0002,
353
  "step": 1400
354
  },
355
  {
356
  "epoch": 3.54,
357
- "learning_rate": 2.7094736842105263e-09,
358
  "loss": 0.0002,
359
  "step": 1425
360
  },
361
  {
362
  "epoch": 3.61,
363
- "learning_rate": 2.701578947368421e-09,
364
  "loss": 0.0002,
365
  "step": 1450
366
  },
367
  {
368
  "epoch": 3.67,
369
- "learning_rate": 2.693684210526316e-09,
370
  "loss": 0.0002,
371
  "step": 1475
372
  },
373
  {
374
  "epoch": 3.73,
375
- "learning_rate": 2.6857894736842108e-09,
376
  "loss": 0.0002,
377
  "step": 1500
378
  },
379
  {
380
  "epoch": 3.79,
381
- "learning_rate": 2.6778947368421054e-09,
382
  "loss": 0.0002,
383
  "step": 1525
384
  },
385
  {
386
  "epoch": 3.86,
387
- "learning_rate": 2.67e-09,
388
  "loss": 0.0002,
389
  "step": 1550
390
  },
391
  {
392
  "epoch": 3.92,
393
- "learning_rate": 2.6621052631578948e-09,
394
  "loss": 0.0002,
395
  "step": 1575
396
  },
397
  {
398
  "epoch": 3.98,
399
- "learning_rate": 2.6542105263157894e-09,
400
  "loss": 0.0002,
401
  "step": 1600
402
  },
403
  {
404
  "epoch": 4.04,
405
- "learning_rate": 2.646315789473684e-09,
406
  "loss": 0.0002,
407
  "step": 1625
408
  },
409
  {
410
  "epoch": 4.1,
411
- "learning_rate": 2.6384210526315788e-09,
412
  "loss": 0.0002,
413
  "step": 1650
414
  },
415
  {
416
  "epoch": 4.17,
417
- "learning_rate": 2.6305263157894734e-09,
418
  "loss": 0.0002,
419
  "step": 1675
420
  },
421
  {
422
  "epoch": 4.23,
423
- "learning_rate": 2.6226315789473685e-09,
424
  "loss": 0.0002,
425
  "step": 1700
426
  },
427
  {
428
  "epoch": 4.29,
429
- "learning_rate": 2.614736842105263e-09,
430
  "loss": 0.0002,
431
  "step": 1725
432
  },
433
  {
434
  "epoch": 4.35,
435
- "learning_rate": 2.606842105263158e-09,
436
  "loss": 0.0002,
437
  "step": 1750
438
  },
439
  {
440
  "epoch": 4.42,
441
- "learning_rate": 2.598947368421053e-09,
442
  "loss": 0.0002,
443
  "step": 1775
444
  },
445
  {
446
  "epoch": 4.48,
447
- "learning_rate": 2.5910526315789476e-09,
448
  "loss": 0.0002,
449
  "step": 1800
450
  },
451
  {
452
  "epoch": 4.54,
453
- "learning_rate": 2.5831578947368422e-09,
454
  "loss": 0.0002,
455
  "step": 1825
456
  },
457
  {
458
  "epoch": 4.6,
459
- "learning_rate": 2.575263157894737e-09,
460
  "loss": 0.0002,
461
  "step": 1850
462
  },
463
  {
464
  "epoch": 4.66,
465
- "learning_rate": 2.5673684210526316e-09,
466
  "loss": 0.0002,
467
  "step": 1875
468
  },
469
  {
470
  "epoch": 4.73,
471
- "learning_rate": 2.5594736842105262e-09,
472
  "loss": 0.0002,
473
  "step": 1900
474
  },
475
  {
476
  "epoch": 4.79,
477
- "learning_rate": 2.551578947368421e-09,
478
  "loss": 0.0002,
479
  "step": 1925
480
  },
481
  {
482
  "epoch": 4.85,
483
- "learning_rate": 2.5436842105263156e-09,
484
  "loss": 0.0002,
485
  "step": 1950
486
  },
487
  {
488
  "epoch": 4.91,
489
- "learning_rate": 2.5357894736842107e-09,
490
  "loss": 0.0002,
491
  "step": 1975
492
  },
493
  {
494
  "epoch": 4.98,
495
- "learning_rate": 2.5278947368421053e-09,
496
  "loss": 0.0002,
497
  "step": 2000
498
  },
499
  {
500
  "epoch": 4.98,
501
  "eval_loss": 0.50146484375,
502
- "eval_runtime": 167.252,
503
- "eval_samples_per_second": 10.14,
504
- "eval_steps_per_second": 0.634,
505
- "eval_wer": 16.51188707280832,
506
  "step": 2000
507
  },
508
  {
509
  "epoch": 5.04,
510
- "learning_rate": 2.5206315789473686e-09,
511
  "loss": 0.0002,
512
  "step": 2025
513
  },
514
  {
515
  "epoch": 5.1,
516
- "learning_rate": 2.5127368421052633e-09,
517
  "loss": 0.0002,
518
  "step": 2050
519
  },
520
  {
521
  "epoch": 5.16,
522
- "learning_rate": 2.504842105263158e-09,
523
  "loss": 0.0002,
524
  "step": 2075
525
  },
526
  {
527
  "epoch": 5.22,
528
- "learning_rate": 2.4969473684210526e-09,
529
  "loss": 0.0002,
530
  "step": 2100
531
  },
532
  {
533
  "epoch": 5.29,
534
- "learning_rate": 2.4890526315789473e-09,
535
  "loss": 0.0002,
536
  "step": 2125
537
  },
538
  {
539
  "epoch": 5.35,
540
- "learning_rate": 2.481157894736842e-09,
541
  "loss": 0.0002,
542
  "step": 2150
543
  },
544
  {
545
  "epoch": 5.41,
546
- "learning_rate": 2.4732631578947366e-09,
547
  "loss": 0.0002,
548
  "step": 2175
549
  },
550
  {
551
  "epoch": 5.47,
552
- "learning_rate": 2.4653684210526317e-09,
553
  "loss": 0.0002,
554
  "step": 2200
555
  },
556
  {
557
  "epoch": 5.53,
558
- "learning_rate": 2.4574736842105264e-09,
559
  "loss": 0.0002,
560
  "step": 2225
561
  },
562
  {
563
  "epoch": 5.6,
564
- "learning_rate": 2.449578947368421e-09,
565
  "loss": 0.0002,
566
  "step": 2250
567
  },
568
  {
569
  "epoch": 5.66,
570
- "learning_rate": 2.4416842105263157e-09,
571
  "loss": 0.0002,
572
  "step": 2275
573
  },
574
  {
575
  "epoch": 5.72,
576
- "learning_rate": 2.4337894736842104e-09,
577
  "loss": 0.0002,
578
  "step": 2300
579
  },
580
  {
581
  "epoch": 5.78,
582
- "learning_rate": 2.425894736842105e-09,
583
  "loss": 0.0002,
584
  "step": 2325
585
  },
586
  {
587
  "epoch": 5.85,
588
- "learning_rate": 2.418e-09,
589
  "loss": 0.0002,
590
  "step": 2350
591
  },
592
  {
593
  "epoch": 5.91,
594
- "learning_rate": 2.410105263157895e-09,
595
  "loss": 0.0002,
596
  "step": 2375
597
  },
598
  {
599
  "epoch": 5.97,
600
- "learning_rate": 2.4022105263157895e-09,
601
  "loss": 0.0002,
602
  "step": 2400
603
  },
604
  {
605
  "epoch": 6.03,
606
- "learning_rate": 2.394315789473684e-09,
607
  "loss": 0.0002,
608
  "step": 2425
609
  },
610
  {
611
  "epoch": 6.09,
612
- "learning_rate": 2.386421052631579e-09,
613
  "loss": 0.0002,
614
  "step": 2450
615
  },
616
  {
617
  "epoch": 6.16,
618
- "learning_rate": 2.378526315789474e-09,
619
  "loss": 0.0002,
620
  "step": 2475
621
  },
622
  {
623
  "epoch": 6.22,
624
- "learning_rate": 2.3706315789473685e-09,
625
  "loss": 0.0002,
626
  "step": 2500
627
  },
628
  {
629
  "epoch": 6.28,
630
- "learning_rate": 2.362736842105263e-09,
631
  "loss": 0.0002,
632
  "step": 2525
633
  },
634
  {
635
  "epoch": 6.34,
636
- "learning_rate": 2.354842105263158e-09,
637
  "loss": 0.0002,
638
  "step": 2550
639
  },
640
  {
641
  "epoch": 6.41,
642
- "learning_rate": 2.3469473684210525e-09,
643
  "loss": 0.0002,
644
  "step": 2575
645
  },
646
  {
647
  "epoch": 6.47,
648
- "learning_rate": 2.339052631578947e-09,
649
  "loss": 0.0002,
650
  "step": 2600
651
  },
652
  {
653
  "epoch": 6.53,
654
- "learning_rate": 2.331157894736842e-09,
655
  "loss": 0.0002,
656
  "step": 2625
657
  },
658
  {
659
  "epoch": 6.59,
660
- "learning_rate": 2.3232631578947365e-09,
661
  "loss": 0.0002,
662
  "step": 2650
663
  },
664
  {
665
  "epoch": 6.65,
666
- "learning_rate": 2.3153684210526316e-09,
667
  "loss": 0.0002,
668
  "step": 2675
669
  },
670
  {
671
  "epoch": 6.72,
672
- "learning_rate": 2.3074736842105263e-09,
673
  "loss": 0.0002,
674
  "step": 2700
675
  },
676
  {
677
  "epoch": 6.78,
678
- "learning_rate": 2.299578947368421e-09,
679
  "loss": 0.0002,
680
  "step": 2725
681
  },
682
  {
683
  "epoch": 6.84,
684
- "learning_rate": 2.291684210526316e-09,
685
  "loss": 0.0002,
686
  "step": 2750
687
  },
688
  {
689
  "epoch": 6.9,
690
- "learning_rate": 2.2837894736842107e-09,
691
  "loss": 0.0002,
692
  "step": 2775
693
  },
694
  {
695
  "epoch": 6.97,
696
- "learning_rate": 2.2758947368421054e-09,
697
  "loss": 0.0002,
698
  "step": 2800
699
  },
700
  {
701
  "epoch": 7.03,
702
- "learning_rate": 2.268e-09,
703
  "loss": 0.0002,
704
  "step": 2825
705
  },
706
  {
707
  "epoch": 7.09,
708
- "learning_rate": 2.2601052631578947e-09,
709
  "loss": 0.0002,
710
  "step": 2850
711
  },
712
  {
713
  "epoch": 7.15,
714
- "learning_rate": 2.2522105263157894e-09,
715
  "loss": 0.0002,
716
  "step": 2875
717
  },
718
  {
719
  "epoch": 7.21,
720
- "learning_rate": 2.244315789473684e-09,
721
  "loss": 0.0002,
722
  "step": 2900
723
  },
724
  {
725
  "epoch": 7.28,
726
- "learning_rate": 2.2364210526315787e-09,
727
  "loss": 0.0002,
728
  "step": 2925
729
  },
730
  {
731
  "epoch": 7.34,
732
- "learning_rate": 2.2285263157894734e-09,
733
  "loss": 0.0002,
734
  "step": 2950
735
  },
736
  {
737
  "epoch": 7.4,
738
- "learning_rate": 2.2206315789473684e-09,
739
  "loss": 0.0002,
740
  "step": 2975
741
  },
742
  {
743
  "epoch": 7.46,
744
- "learning_rate": 2.212736842105263e-09,
745
  "loss": 0.0002,
746
  "step": 3000
747
  },
748
  {
749
  "epoch": 7.46,
750
  "eval_loss": 0.50146484375,
751
- "eval_runtime": 167.4158,
752
- "eval_samples_per_second": 10.13,
753
  "eval_steps_per_second": 0.633,
754
- "eval_wer": 16.539747399702822,
755
  "step": 3000
756
  },
757
  {
758
  "epoch": 7.52,
759
- "learning_rate": 2.2054736842105264e-09,
760
  "loss": 0.0002,
761
  "step": 3025
762
  },
763
  {
764
  "epoch": 7.59,
765
- "learning_rate": 2.197578947368421e-09,
766
  "loss": 0.0001,
767
  "step": 3050
768
  },
769
  {
770
  "epoch": 7.65,
771
- "learning_rate": 2.1896842105263158e-09,
772
  "loss": 0.0002,
773
  "step": 3075
774
  },
775
  {
776
  "epoch": 7.71,
777
- "learning_rate": 2.1817894736842104e-09,
778
  "loss": 0.0002,
779
  "step": 3100
780
  },
781
  {
782
  "epoch": 7.77,
783
- "learning_rate": 2.173894736842105e-09,
784
  "loss": 0.0002,
785
  "step": 3125
786
  },
787
  {
788
  "epoch": 7.84,
789
- "learning_rate": 2.1659999999999998e-09,
790
  "loss": 0.0002,
791
  "step": 3150
792
  },
793
  {
794
  "epoch": 7.9,
795
- "learning_rate": 2.1581052631578944e-09,
796
  "loss": 0.0002,
797
  "step": 3175
798
  },
799
  {
800
  "epoch": 7.96,
801
- "learning_rate": 2.1502105263157895e-09,
802
  "loss": 0.0002,
803
  "step": 3200
804
  },
805
  {
806
  "epoch": 8.02,
807
- "learning_rate": 2.142315789473684e-09,
808
  "loss": 0.0002,
809
  "step": 3225
810
  },
811
  {
812
  "epoch": 8.08,
813
- "learning_rate": 2.1344210526315792e-09,
814
  "loss": 0.0002,
815
  "step": 3250
816
  },
817
  {
818
  "epoch": 8.15,
819
- "learning_rate": 2.126526315789474e-09,
820
  "loss": 0.0002,
821
  "step": 3275
822
  },
823
  {
824
  "epoch": 8.21,
825
- "learning_rate": 2.1186315789473686e-09,
826
  "loss": 0.0002,
827
  "step": 3300
828
  },
829
  {
830
  "epoch": 8.27,
831
- "learning_rate": 2.1107368421052632e-09,
832
  "loss": 0.0002,
833
  "step": 3325
834
  },
835
  {
836
  "epoch": 8.33,
837
- "learning_rate": 2.102842105263158e-09,
838
  "loss": 0.0002,
839
  "step": 3350
840
  },
841
  {
842
  "epoch": 8.4,
843
- "learning_rate": 2.0949473684210526e-09,
844
  "loss": 0.0002,
845
  "step": 3375
846
  },
847
  {
848
  "epoch": 8.46,
849
- "learning_rate": 2.0870526315789472e-09,
850
  "loss": 0.0002,
851
  "step": 3400
852
  },
853
  {
854
  "epoch": 8.52,
855
- "learning_rate": 2.079157894736842e-09,
856
  "loss": 0.0002,
857
  "step": 3425
858
  },
859
  {
860
  "epoch": 8.58,
861
- "learning_rate": 2.071263157894737e-09,
862
  "loss": 0.0002,
863
  "step": 3450
864
  },
865
  {
866
  "epoch": 8.64,
867
- "learning_rate": 2.0633684210526317e-09,
868
  "loss": 0.0002,
869
  "step": 3475
870
  },
871
  {
872
  "epoch": 8.71,
873
- "learning_rate": 2.0554736842105263e-09,
874
  "loss": 0.0002,
875
  "step": 3500
876
  },
877
  {
878
  "epoch": 8.77,
879
- "learning_rate": 2.047578947368421e-09,
880
- "loss": 0.0001,
881
  "step": 3525
882
  },
883
  {
884
  "epoch": 8.83,
885
- "learning_rate": 2.0396842105263157e-09,
886
  "loss": 0.0002,
887
  "step": 3550
888
  },
889
  {
890
  "epoch": 8.89,
891
- "learning_rate": 2.0317894736842103e-09,
892
  "loss": 0.0002,
893
  "step": 3575
894
  },
895
  {
896
  "epoch": 8.96,
897
- "learning_rate": 2.0238947368421054e-09,
898
  "loss": 0.0002,
899
  "step": 3600
900
  },
901
  {
902
  "epoch": 9.02,
903
- "learning_rate": 2.016e-09,
904
  "loss": 0.0002,
905
  "step": 3625
906
  },
907
  {
908
  "epoch": 9.08,
909
- "learning_rate": 2.0081052631578947e-09,
910
  "loss": 0.0002,
911
  "step": 3650
912
  },
913
  {
914
  "epoch": 9.14,
915
- "learning_rate": 2.0002105263157894e-09,
916
  "loss": 0.0002,
917
  "step": 3675
918
  },
919
  {
920
  "epoch": 9.2,
921
- "learning_rate": 1.992315789473684e-09,
922
  "loss": 0.0002,
923
  "step": 3700
924
  },
925
  {
926
  "epoch": 9.27,
927
- "learning_rate": 1.984421052631579e-09,
928
  "loss": 0.0002,
929
  "step": 3725
930
  },
931
  {
932
  "epoch": 9.33,
933
- "learning_rate": 1.976526315789474e-09,
934
  "loss": 0.0002,
935
  "step": 3750
936
  },
937
  {
938
  "epoch": 9.39,
939
- "learning_rate": 1.9686315789473685e-09,
940
  "loss": 0.0002,
941
  "step": 3775
942
  },
943
  {
944
  "epoch": 9.45,
945
- "learning_rate": 1.960736842105263e-09,
946
  "loss": 0.0002,
947
  "step": 3800
948
  },
949
  {
950
  "epoch": 9.51,
951
- "learning_rate": 1.952842105263158e-09,
952
  "loss": 0.0002,
953
  "step": 3825
954
  },
955
  {
956
  "epoch": 9.58,
957
- "learning_rate": 1.9449473684210525e-09,
958
  "loss": 0.0002,
959
  "step": 3850
960
  },
961
  {
962
  "epoch": 9.64,
963
- "learning_rate": 1.937052631578947e-09,
964
  "loss": 0.0002,
965
  "step": 3875
966
  },
967
  {
968
  "epoch": 9.7,
969
- "learning_rate": 1.929157894736842e-09,
970
  "loss": 0.0002,
971
  "step": 3900
972
  },
973
  {
974
  "epoch": 9.76,
975
- "learning_rate": 1.921263157894737e-09,
976
  "loss": 0.0002,
977
  "step": 3925
978
  },
979
  {
980
  "epoch": 9.83,
981
- "learning_rate": 1.9133684210526316e-09,
982
  "loss": 0.0002,
983
  "step": 3950
984
  },
985
  {
986
  "epoch": 9.89,
987
- "learning_rate": 1.9054736842105262e-09,
988
  "loss": 0.0002,
989
  "step": 3975
990
  },
991
  {
992
  "epoch": 9.95,
993
- "learning_rate": 1.8975789473684213e-09,
994
  "loss": 0.0002,
995
  "step": 4000
996
  },
997
  {
998
  "epoch": 9.95,
999
  "eval_loss": 0.50146484375,
1000
- "eval_runtime": 167.7536,
1001
- "eval_samples_per_second": 10.11,
1002
- "eval_steps_per_second": 0.632,
1003
- "eval_wer": 16.539747399702822,
1004
  "step": 4000
1005
  },
1006
  {
1007
  "epoch": 10.01,
1008
- "learning_rate": 1.8903157894736842e-09,
1009
  "loss": 0.0002,
1010
  "step": 4025
1011
  },
1012
  {
1013
  "epoch": 10.07,
1014
- "learning_rate": 1.882421052631579e-09,
1015
  "loss": 0.0002,
1016
  "step": 4050
1017
  },
1018
  {
1019
  "epoch": 10.14,
1020
- "learning_rate": 1.8745263157894735e-09,
1021
  "loss": 0.0002,
1022
  "step": 4075
1023
  },
1024
  {
1025
  "epoch": 10.2,
1026
- "learning_rate": 1.8666315789473682e-09,
1027
  "loss": 0.0002,
1028
  "step": 4100
1029
  },
1030
  {
1031
  "epoch": 10.26,
1032
- "learning_rate": 1.858736842105263e-09,
1033
  "loss": 0.0002,
1034
  "step": 4125
1035
  },
1036
  {
1037
  "epoch": 10.32,
1038
- "learning_rate": 1.8508421052631578e-09,
1039
  "loss": 0.0002,
1040
  "step": 4150
1041
  },
1042
  {
1043
  "epoch": 10.39,
1044
- "learning_rate": 1.8429473684210528e-09,
1045
  "loss": 0.0002,
1046
  "step": 4175
1047
  },
1048
  {
1049
  "epoch": 10.45,
1050
- "learning_rate": 1.8350526315789475e-09,
1051
  "loss": 0.0002,
1052
  "step": 4200
1053
  },
1054
  {
1055
  "epoch": 10.51,
1056
- "learning_rate": 1.8271578947368422e-09,
1057
  "loss": 0.0002,
1058
  "step": 4225
1059
  },
1060
  {
1061
  "epoch": 10.57,
1062
- "learning_rate": 1.8192631578947368e-09,
1063
  "loss": 0.0002,
1064
  "step": 4250
1065
  },
1066
  {
1067
  "epoch": 10.63,
1068
- "learning_rate": 1.8113684210526317e-09,
1069
  "loss": 0.0002,
1070
  "step": 4275
1071
  },
1072
  {
1073
  "epoch": 10.7,
1074
- "learning_rate": 1.8034736842105264e-09,
1075
  "loss": 0.0002,
1076
  "step": 4300
1077
  },
1078
  {
1079
  "epoch": 10.76,
1080
- "learning_rate": 1.795578947368421e-09,
1081
  "loss": 0.0002,
1082
  "step": 4325
1083
  },
1084
  {
1085
  "epoch": 10.82,
1086
- "learning_rate": 1.7876842105263157e-09,
1087
  "loss": 0.0002,
1088
  "step": 4350
1089
  },
1090
  {
1091
  "epoch": 10.88,
1092
- "learning_rate": 1.7797894736842104e-09,
1093
  "loss": 0.0002,
1094
  "step": 4375
1095
  },
1096
  {
1097
  "epoch": 10.95,
1098
- "learning_rate": 1.7718947368421052e-09,
1099
  "loss": 0.0002,
1100
  "step": 4400
1101
  },
1102
  {
1103
  "epoch": 11.01,
1104
- "learning_rate": 1.764e-09,
1105
  "loss": 0.0002,
1106
  "step": 4425
1107
  },
1108
  {
1109
  "epoch": 11.07,
1110
- "learning_rate": 1.7561052631578946e-09,
1111
  "loss": 0.0002,
1112
  "step": 4450
1113
  },
1114
  {
1115
  "epoch": 11.13,
1116
- "learning_rate": 1.7482105263157892e-09,
1117
  "loss": 0.0002,
1118
  "step": 4475
1119
  },
1120
  {
1121
  "epoch": 11.19,
1122
- "learning_rate": 1.7403157894736843e-09,
1123
  "loss": 0.0002,
1124
  "step": 4500
1125
  },
1126
  {
1127
  "epoch": 11.26,
1128
- "learning_rate": 1.732421052631579e-09,
1129
  "loss": 0.0002,
1130
  "step": 4525
1131
  },
1132
  {
1133
  "epoch": 11.32,
1134
- "learning_rate": 1.7245263157894739e-09,
1135
  "loss": 0.0002,
1136
  "step": 4550
1137
  },
1138
  {
1139
  "epoch": 11.38,
1140
- "learning_rate": 1.7166315789473685e-09,
1141
  "loss": 0.0002,
1142
  "step": 4575
1143
  },
1144
  {
1145
  "epoch": 11.44,
1146
- "learning_rate": 1.7087368421052632e-09,
1147
  "loss": 0.0002,
1148
  "step": 4600
1149
  },
1150
  {
1151
  "epoch": 11.5,
1152
- "learning_rate": 1.7008421052631579e-09,
1153
  "loss": 0.0002,
1154
  "step": 4625
1155
  },
1156
  {
1157
  "epoch": 11.57,
1158
- "learning_rate": 1.6929473684210527e-09,
1159
  "loss": 0.0002,
1160
  "step": 4650
1161
  },
1162
  {
1163
  "epoch": 11.63,
1164
- "learning_rate": 1.6850526315789474e-09,
1165
  "loss": 0.0002,
1166
  "step": 4675
1167
  },
1168
  {
1169
  "epoch": 11.69,
1170
- "learning_rate": 1.677157894736842e-09,
1171
  "loss": 0.0002,
1172
  "step": 4700
1173
  },
1174
  {
1175
  "epoch": 11.75,
1176
- "learning_rate": 1.6692631578947367e-09,
1177
  "loss": 0.0002,
1178
  "step": 4725
1179
  },
1180
  {
1181
  "epoch": 11.82,
1182
- "learning_rate": 1.6613684210526314e-09,
1183
  "loss": 0.0002,
1184
  "step": 4750
1185
  },
1186
  {
1187
  "epoch": 11.88,
1188
- "learning_rate": 1.6534736842105263e-09,
1189
  "loss": 0.0002,
1190
  "step": 4775
1191
  },
1192
  {
1193
  "epoch": 11.94,
1194
- "learning_rate": 1.645578947368421e-09,
1195
  "loss": 0.0002,
1196
  "step": 4800
1197
  },
1198
  {
1199
  "epoch": 12.0,
1200
- "learning_rate": 1.6376842105263156e-09,
1201
  "loss": 0.0002,
1202
  "step": 4825
1203
  },
1204
  {
1205
  "epoch": 12.06,
1206
- "learning_rate": 1.6297894736842107e-09,
1207
  "loss": 0.0002,
1208
  "step": 4850
1209
  },
1210
  {
1211
  "epoch": 12.13,
1212
- "learning_rate": 1.6218947368421053e-09,
1213
  "loss": 0.0002,
1214
  "step": 4875
1215
  },
1216
  {
1217
  "epoch": 12.19,
1218
- "learning_rate": 1.614e-09,
1219
  "loss": 0.0002,
1220
  "step": 4900
1221
  },
1222
  {
1223
  "epoch": 12.25,
1224
- "learning_rate": 1.6061052631578949e-09,
1225
  "loss": 0.0002,
1226
  "step": 4925
1227
  },
1228
  {
1229
  "epoch": 12.31,
1230
- "learning_rate": 1.5982105263157895e-09,
1231
  "loss": 0.0002,
1232
  "step": 4950
1233
  },
1234
  {
1235
  "epoch": 12.38,
1236
- "learning_rate": 1.5903157894736842e-09,
1237
  "loss": 0.0002,
1238
  "step": 4975
1239
  },
1240
  {
1241
  "epoch": 12.44,
1242
- "learning_rate": 1.5824210526315789e-09,
1243
  "loss": 0.0002,
1244
  "step": 5000
1245
  },
1246
  {
1247
  "epoch": 12.44,
1248
  "eval_loss": 0.50146484375,
1249
- "eval_runtime": 168.512,
1250
- "eval_samples_per_second": 10.065,
1251
- "eval_steps_per_second": 0.629,
1252
  "eval_wer": 16.558320950965825,
1253
  "step": 5000
1254
  },
1255
  {
1256
- "epoch": 12.5,
1257
- "learning_rate": 1.575157894736842e-09,
1258
- "loss": 0.0002,
1259
- "step": 5025
1260
- },
1261
- {
1262
- "epoch": 12.56,
1263
- "learning_rate": 1.5672631578947367e-09,
1264
- "loss": 0.0002,
1265
- "step": 5050
1266
- },
1267
- {
1268
- "epoch": 12.62,
1269
- "learning_rate": 1.5593684210526317e-09,
1270
- "loss": 0.0002,
1271
- "step": 5075
1272
- },
1273
- {
1274
- "epoch": 12.69,
1275
- "learning_rate": 1.5514736842105264e-09,
1276
- "loss": 0.0002,
1277
- "step": 5100
1278
- },
1279
- {
1280
- "epoch": 12.75,
1281
- "learning_rate": 1.543578947368421e-09,
1282
- "loss": 0.0002,
1283
- "step": 5125
1284
- },
1285
- {
1286
- "epoch": 12.81,
1287
- "learning_rate": 1.535684210526316e-09,
1288
- "loss": 0.0002,
1289
- "step": 5150
1290
- },
1291
- {
1292
- "epoch": 12.87,
1293
- "learning_rate": 1.5277894736842106e-09,
1294
- "loss": 0.0002,
1295
- "step": 5175
1296
- },
1297
- {
1298
- "epoch": 12.94,
1299
- "learning_rate": 1.5198947368421053e-09,
1300
- "loss": 0.0002,
1301
- "step": 5200
1302
- },
1303
- {
1304
- "epoch": 13.0,
1305
- "learning_rate": 1.512e-09,
1306
- "loss": 0.0002,
1307
- "step": 5225
1308
- },
1309
- {
1310
- "epoch": 13.06,
1311
- "learning_rate": 1.5041052631578946e-09,
1312
- "loss": 0.0002,
1313
- "step": 5250
1314
- },
1315
- {
1316
- "epoch": 13.12,
1317
- "learning_rate": 1.4962105263157895e-09,
1318
- "loss": 0.0002,
1319
- "step": 5275
1320
- },
1321
- {
1322
- "epoch": 13.18,
1323
- "learning_rate": 1.4883157894736842e-09,
1324
- "loss": 0.0002,
1325
- "step": 5300
1326
- },
1327
- {
1328
- "epoch": 13.25,
1329
- "learning_rate": 1.480421052631579e-09,
1330
- "loss": 0.0002,
1331
- "step": 5325
1332
- },
1333
- {
1334
- "epoch": 13.31,
1335
- "learning_rate": 1.4725263157894737e-09,
1336
- "loss": 0.0002,
1337
- "step": 5350
1338
- },
1339
- {
1340
- "epoch": 13.37,
1341
- "learning_rate": 1.4646315789473684e-09,
1342
- "loss": 0.0002,
1343
- "step": 5375
1344
- },
1345
- {
1346
- "epoch": 13.43,
1347
- "learning_rate": 1.4567368421052632e-09,
1348
- "loss": 0.0002,
1349
- "step": 5400
1350
- },
1351
- {
1352
- "epoch": 13.5,
1353
- "learning_rate": 1.448842105263158e-09,
1354
- "loss": 0.0001,
1355
- "step": 5425
1356
- },
1357
- {
1358
- "epoch": 13.56,
1359
- "learning_rate": 1.4409473684210526e-09,
1360
- "loss": 0.0002,
1361
- "step": 5450
1362
- },
1363
- {
1364
- "epoch": 13.62,
1365
- "learning_rate": 1.4330526315789472e-09,
1366
- "loss": 0.0002,
1367
- "step": 5475
1368
- },
1369
- {
1370
- "epoch": 13.68,
1371
- "learning_rate": 1.4251578947368421e-09,
1372
- "loss": 0.0002,
1373
- "step": 5500
1374
- },
1375
- {
1376
- "epoch": 13.74,
1377
- "learning_rate": 1.417263157894737e-09,
1378
- "loss": 0.0002,
1379
- "step": 5525
1380
- },
1381
- {
1382
- "epoch": 13.81,
1383
- "learning_rate": 1.4093684210526316e-09,
1384
- "loss": 0.0002,
1385
- "step": 5550
1386
- },
1387
- {
1388
- "epoch": 13.87,
1389
- "learning_rate": 1.4014736842105263e-09,
1390
- "loss": 0.0002,
1391
- "step": 5575
1392
- },
1393
- {
1394
- "epoch": 13.93,
1395
- "learning_rate": 1.393578947368421e-09,
1396
- "loss": 0.0002,
1397
- "step": 5600
1398
- },
1399
- {
1400
- "epoch": 13.99,
1401
- "learning_rate": 1.3856842105263156e-09,
1402
- "loss": 0.0002,
1403
- "step": 5625
1404
- },
1405
- {
1406
- "epoch": 14.05,
1407
- "learning_rate": 1.3777894736842105e-09,
1408
- "loss": 0.0002,
1409
- "step": 5650
1410
- },
1411
- {
1412
- "epoch": 14.12,
1413
- "learning_rate": 1.3698947368421054e-09,
1414
- "loss": 0.0002,
1415
- "step": 5675
1416
- },
1417
- {
1418
- "epoch": 14.18,
1419
- "learning_rate": 1.362e-09,
1420
- "loss": 0.0002,
1421
- "step": 5700
1422
- },
1423
- {
1424
- "epoch": 14.24,
1425
- "learning_rate": 1.3541052631578947e-09,
1426
- "loss": 0.0002,
1427
- "step": 5725
1428
- },
1429
- {
1430
- "epoch": 14.3,
1431
- "learning_rate": 1.3462105263157894e-09,
1432
- "loss": 0.0002,
1433
- "step": 5750
1434
- },
1435
- {
1436
- "epoch": 14.37,
1437
- "learning_rate": 1.3383157894736843e-09,
1438
- "loss": 0.0002,
1439
- "step": 5775
1440
- },
1441
- {
1442
- "epoch": 14.43,
1443
- "learning_rate": 1.330421052631579e-09,
1444
- "loss": 0.0002,
1445
- "step": 5800
1446
- },
1447
- {
1448
- "epoch": 14.49,
1449
- "learning_rate": 1.3225263157894736e-09,
1450
- "loss": 0.0002,
1451
- "step": 5825
1452
- },
1453
- {
1454
- "epoch": 14.55,
1455
- "learning_rate": 1.3146315789473685e-09,
1456
- "loss": 0.0002,
1457
- "step": 5850
1458
- },
1459
- {
1460
- "epoch": 14.61,
1461
- "learning_rate": 1.3067368421052631e-09,
1462
- "loss": 0.0002,
1463
- "step": 5875
1464
- },
1465
- {
1466
- "epoch": 14.68,
1467
- "learning_rate": 1.298842105263158e-09,
1468
- "loss": 0.0002,
1469
- "step": 5900
1470
- },
1471
- {
1472
- "epoch": 14.74,
1473
- "learning_rate": 1.2909473684210527e-09,
1474
- "loss": 0.0002,
1475
- "step": 5925
1476
- },
1477
- {
1478
- "epoch": 14.8,
1479
- "learning_rate": 1.2830526315789473e-09,
1480
- "loss": 0.0002,
1481
- "step": 5950
1482
- },
1483
- {
1484
- "epoch": 14.86,
1485
- "learning_rate": 1.275157894736842e-09,
1486
- "loss": 0.0002,
1487
- "step": 5975
1488
- },
1489
- {
1490
- "epoch": 14.93,
1491
- "learning_rate": 1.2672631578947369e-09,
1492
- "loss": 0.0002,
1493
- "step": 6000
1494
- },
1495
- {
1496
- "epoch": 14.93,
1497
- "eval_loss": 0.50146484375,
1498
- "eval_runtime": 167.7376,
1499
- "eval_samples_per_second": 10.111,
1500
- "eval_steps_per_second": 0.632,
1501
- "eval_wer": 16.576894502228825,
1502
- "step": 6000
1503
- },
1504
- {
1505
- "epoch": 14.99,
1506
- "learning_rate": 1.26e-09,
1507
- "loss": 0.0002,
1508
- "step": 6025
1509
- },
1510
- {
1511
- "epoch": 15.05,
1512
- "learning_rate": 1.2521052631578947e-09,
1513
- "loss": 0.0002,
1514
- "step": 6050
1515
- },
1516
- {
1517
- "epoch": 15.11,
1518
- "learning_rate": 1.2442105263157895e-09,
1519
- "loss": 0.0002,
1520
- "step": 6075
1521
- },
1522
- {
1523
- "epoch": 15.17,
1524
- "learning_rate": 1.2363157894736842e-09,
1525
- "loss": 0.0002,
1526
- "step": 6100
1527
- },
1528
- {
1529
- "epoch": 15.24,
1530
- "learning_rate": 1.2284210526315789e-09,
1531
- "loss": 0.0002,
1532
- "step": 6125
1533
- },
1534
- {
1535
- "epoch": 15.3,
1536
- "learning_rate": 1.2205263157894737e-09,
1537
- "loss": 0.0002,
1538
- "step": 6150
1539
- },
1540
- {
1541
- "epoch": 15.36,
1542
- "learning_rate": 1.2126315789473684e-09,
1543
- "loss": 0.0002,
1544
- "step": 6175
1545
- },
1546
- {
1547
- "epoch": 15.42,
1548
- "learning_rate": 1.204736842105263e-09,
1549
- "loss": 0.0002,
1550
- "step": 6200
1551
- },
1552
- {
1553
- "epoch": 15.49,
1554
- "learning_rate": 1.1968421052631577e-09,
1555
- "loss": 0.0002,
1556
- "step": 6225
1557
- },
1558
- {
1559
- "epoch": 15.55,
1560
- "learning_rate": 1.1889473684210526e-09,
1561
- "loss": 0.0002,
1562
- "step": 6250
1563
- },
1564
- {
1565
- "epoch": 15.61,
1566
- "learning_rate": 1.1810526315789475e-09,
1567
- "loss": 0.0001,
1568
- "step": 6275
1569
- },
1570
- {
1571
- "epoch": 15.67,
1572
- "learning_rate": 1.1731578947368421e-09,
1573
- "loss": 0.0002,
1574
- "step": 6300
1575
- },
1576
- {
1577
- "epoch": 15.73,
1578
- "learning_rate": 1.1652631578947368e-09,
1579
- "loss": 0.0002,
1580
- "step": 6325
1581
- },
1582
- {
1583
- "epoch": 15.8,
1584
- "learning_rate": 1.1573684210526315e-09,
1585
- "loss": 0.0002,
1586
- "step": 6350
1587
- },
1588
- {
1589
- "epoch": 15.86,
1590
- "learning_rate": 1.1494736842105264e-09,
1591
- "loss": 0.0002,
1592
- "step": 6375
1593
- },
1594
- {
1595
- "epoch": 15.92,
1596
- "learning_rate": 1.141578947368421e-09,
1597
- "loss": 0.0002,
1598
- "step": 6400
1599
- },
1600
- {
1601
- "epoch": 15.98,
1602
- "learning_rate": 1.1336842105263159e-09,
1603
- "loss": 0.0002,
1604
- "step": 6425
1605
- },
1606
- {
1607
- "epoch": 16.04,
1608
- "learning_rate": 1.1257894736842106e-09,
1609
- "loss": 0.0002,
1610
- "step": 6450
1611
- },
1612
- {
1613
- "epoch": 16.11,
1614
- "learning_rate": 1.1178947368421052e-09,
1615
- "loss": 0.0002,
1616
- "step": 6475
1617
- },
1618
- {
1619
- "epoch": 16.17,
1620
- "learning_rate": 1.1099999999999999e-09,
1621
- "loss": 0.0002,
1622
- "step": 6500
1623
- },
1624
- {
1625
- "epoch": 16.23,
1626
- "learning_rate": 1.1021052631578948e-09,
1627
- "loss": 0.0002,
1628
- "step": 6525
1629
- },
1630
- {
1631
- "epoch": 16.29,
1632
- "learning_rate": 1.0942105263157894e-09,
1633
- "loss": 0.0002,
1634
- "step": 6550
1635
- },
1636
- {
1637
- "epoch": 16.36,
1638
- "learning_rate": 1.0863157894736843e-09,
1639
- "loss": 0.0002,
1640
- "step": 6575
1641
- },
1642
- {
1643
- "epoch": 16.42,
1644
- "learning_rate": 1.078421052631579e-09,
1645
- "loss": 0.0002,
1646
- "step": 6600
1647
- },
1648
- {
1649
- "epoch": 16.48,
1650
- "learning_rate": 1.0705263157894736e-09,
1651
- "loss": 0.0002,
1652
- "step": 6625
1653
- },
1654
- {
1655
- "epoch": 16.54,
1656
- "learning_rate": 1.0626315789473685e-09,
1657
- "loss": 0.0002,
1658
- "step": 6650
1659
- },
1660
- {
1661
- "epoch": 16.6,
1662
- "learning_rate": 1.0547368421052632e-09,
1663
- "loss": 0.0002,
1664
- "step": 6675
1665
- },
1666
- {
1667
- "epoch": 16.67,
1668
- "learning_rate": 1.0468421052631578e-09,
1669
- "loss": 0.0002,
1670
- "step": 6700
1671
- },
1672
- {
1673
- "epoch": 16.73,
1674
- "learning_rate": 1.0389473684210525e-09,
1675
- "loss": 0.0002,
1676
- "step": 6725
1677
- },
1678
- {
1679
- "epoch": 16.79,
1680
- "learning_rate": 1.0310526315789474e-09,
1681
- "loss": 0.0002,
1682
- "step": 6750
1683
- },
1684
- {
1685
- "epoch": 16.85,
1686
- "learning_rate": 1.0231578947368423e-09,
1687
- "loss": 0.0002,
1688
- "step": 6775
1689
- },
1690
- {
1691
- "epoch": 16.92,
1692
- "learning_rate": 1.015263157894737e-09,
1693
- "loss": 0.0002,
1694
- "step": 6800
1695
- },
1696
- {
1697
- "epoch": 16.98,
1698
- "learning_rate": 1.0073684210526316e-09,
1699
- "loss": 0.0002,
1700
- "step": 6825
1701
- },
1702
- {
1703
- "epoch": 17.04,
1704
- "learning_rate": 9.994736842105262e-10,
1705
- "loss": 0.0002,
1706
- "step": 6850
1707
- },
1708
- {
1709
- "epoch": 17.1,
1710
- "learning_rate": 9.91578947368421e-10,
1711
- "loss": 0.0002,
1712
- "step": 6875
1713
- },
1714
- {
1715
- "epoch": 17.16,
1716
- "learning_rate": 9.836842105263158e-10,
1717
- "loss": 0.0002,
1718
- "step": 6900
1719
- },
1720
- {
1721
- "epoch": 17.23,
1722
- "learning_rate": 9.757894736842107e-10,
1723
- "loss": 0.0002,
1724
- "step": 6925
1725
- },
1726
- {
1727
- "epoch": 17.29,
1728
- "learning_rate": 9.678947368421053e-10,
1729
- "loss": 0.0002,
1730
- "step": 6950
1731
- },
1732
- {
1733
- "epoch": 17.35,
1734
- "learning_rate": 9.6e-10,
1735
- "loss": 0.0002,
1736
- "step": 6975
1737
- },
1738
- {
1739
- "epoch": 17.41,
1740
- "learning_rate": 9.521052631578947e-10,
1741
- "loss": 0.0002,
1742
- "step": 7000
1743
- },
1744
- {
1745
- "epoch": 17.41,
1746
- "eval_loss": 0.50146484375,
1747
- "eval_runtime": 167.242,
1748
- "eval_samples_per_second": 10.141,
1749
- "eval_steps_per_second": 0.634,
1750
- "eval_wer": 16.539747399702822,
1751
- "step": 7000
1752
- },
1753
- {
1754
- "epoch": 17.48,
1755
- "learning_rate": 9.44842105263158e-10,
1756
- "loss": 0.0002,
1757
- "step": 7025
1758
- },
1759
- {
1760
- "epoch": 17.54,
1761
- "learning_rate": 9.369473684210527e-10,
1762
- "loss": 0.0002,
1763
- "step": 7050
1764
- },
1765
- {
1766
- "epoch": 17.6,
1767
- "learning_rate": 9.290526315789473e-10,
1768
- "loss": 0.0002,
1769
- "step": 7075
1770
- },
1771
- {
1772
- "epoch": 17.66,
1773
- "learning_rate": 9.211578947368421e-10,
1774
- "loss": 0.0002,
1775
- "step": 7100
1776
- },
1777
- {
1778
- "epoch": 17.72,
1779
- "learning_rate": 9.132631578947368e-10,
1780
- "loss": 0.0002,
1781
- "step": 7125
1782
- },
1783
- {
1784
- "epoch": 17.79,
1785
- "learning_rate": 9.053684210526316e-10,
1786
- "loss": 0.0002,
1787
- "step": 7150
1788
- },
1789
- {
1790
- "epoch": 17.85,
1791
- "learning_rate": 8.974736842105264e-10,
1792
- "loss": 0.0001,
1793
- "step": 7175
1794
- },
1795
- {
1796
- "epoch": 17.91,
1797
- "learning_rate": 8.895789473684211e-10,
1798
- "loss": 0.0002,
1799
- "step": 7200
1800
- },
1801
- {
1802
- "epoch": 17.97,
1803
- "learning_rate": 8.816842105263158e-10,
1804
- "loss": 0.0002,
1805
- "step": 7225
1806
- },
1807
- {
1808
- "epoch": 18.03,
1809
- "learning_rate": 8.737894736842105e-10,
1810
- "loss": 0.0002,
1811
- "step": 7250
1812
- },
1813
- {
1814
- "epoch": 18.1,
1815
- "learning_rate": 8.658947368421052e-10,
1816
- "loss": 0.0002,
1817
- "step": 7275
1818
- },
1819
- {
1820
- "epoch": 18.16,
1821
- "learning_rate": 8.579999999999999e-10,
1822
- "loss": 0.0002,
1823
- "step": 7300
1824
- },
1825
- {
1826
- "epoch": 18.22,
1827
- "learning_rate": 8.501052631578948e-10,
1828
- "loss": 0.0002,
1829
- "step": 7325
1830
- },
1831
- {
1832
- "epoch": 18.28,
1833
- "learning_rate": 8.422105263157895e-10,
1834
- "loss": 0.0002,
1835
- "step": 7350
1836
- },
1837
- {
1838
- "epoch": 18.35,
1839
- "learning_rate": 8.343157894736842e-10,
1840
- "loss": 0.0002,
1841
- "step": 7375
1842
- },
1843
- {
1844
- "epoch": 18.41,
1845
- "learning_rate": 8.264210526315789e-10,
1846
- "loss": 0.0002,
1847
- "step": 7400
1848
- },
1849
- {
1850
- "epoch": 18.47,
1851
- "learning_rate": 8.185263157894737e-10,
1852
- "loss": 0.0002,
1853
- "step": 7425
1854
- },
1855
- {
1856
- "epoch": 18.53,
1857
- "learning_rate": 8.106315789473683e-10,
1858
- "loss": 0.0002,
1859
- "step": 7450
1860
- },
1861
- {
1862
- "epoch": 18.59,
1863
- "learning_rate": 8.027368421052631e-10,
1864
- "loss": 0.0002,
1865
- "step": 7475
1866
- },
1867
- {
1868
- "epoch": 18.66,
1869
- "learning_rate": 7.94842105263158e-10,
1870
- "loss": 0.0002,
1871
- "step": 7500
1872
- },
1873
- {
1874
- "epoch": 18.72,
1875
- "learning_rate": 7.869473684210527e-10,
1876
- "loss": 0.0002,
1877
- "step": 7525
1878
- },
1879
- {
1880
- "epoch": 18.78,
1881
- "learning_rate": 7.790526315789474e-10,
1882
- "loss": 0.0002,
1883
- "step": 7550
1884
- },
1885
- {
1886
- "epoch": 18.84,
1887
- "learning_rate": 7.711578947368421e-10,
1888
- "loss": 0.0002,
1889
- "step": 7575
1890
- },
1891
- {
1892
- "epoch": 18.91,
1893
- "learning_rate": 7.632631578947369e-10,
1894
- "loss": 0.0002,
1895
- "step": 7600
1896
- },
1897
- {
1898
- "epoch": 18.97,
1899
- "learning_rate": 7.553684210526315e-10,
1900
- "loss": 0.0002,
1901
- "step": 7625
1902
- },
1903
- {
1904
- "epoch": 19.03,
1905
- "learning_rate": 7.474736842105263e-10,
1906
- "loss": 0.0002,
1907
- "step": 7650
1908
- },
1909
- {
1910
- "epoch": 19.09,
1911
- "learning_rate": 7.395789473684211e-10,
1912
- "loss": 0.0002,
1913
- "step": 7675
1914
- },
1915
- {
1916
- "epoch": 19.15,
1917
- "learning_rate": 7.316842105263158e-10,
1918
- "loss": 0.0002,
1919
- "step": 7700
1920
- },
1921
- {
1922
- "epoch": 19.22,
1923
- "learning_rate": 7.237894736842105e-10,
1924
- "loss": 0.0002,
1925
- "step": 7725
1926
- },
1927
- {
1928
- "epoch": 19.28,
1929
- "learning_rate": 7.158947368421053e-10,
1930
- "loss": 0.0002,
1931
- "step": 7750
1932
- },
1933
- {
1934
- "epoch": 19.34,
1935
- "learning_rate": 7.079999999999999e-10,
1936
- "loss": 0.0002,
1937
- "step": 7775
1938
- },
1939
- {
1940
- "epoch": 19.4,
1941
- "learning_rate": 7.001052631578947e-10,
1942
- "loss": 0.0002,
1943
- "step": 7800
1944
- },
1945
- {
1946
- "epoch": 19.47,
1947
- "learning_rate": 6.922105263157895e-10,
1948
- "loss": 0.0002,
1949
- "step": 7825
1950
- },
1951
- {
1952
- "epoch": 19.53,
1953
- "learning_rate": 6.843157894736841e-10,
1954
- "loss": 0.0002,
1955
- "step": 7850
1956
- },
1957
- {
1958
- "epoch": 19.59,
1959
- "learning_rate": 6.76421052631579e-10,
1960
- "loss": 0.0002,
1961
- "step": 7875
1962
- },
1963
- {
1964
- "epoch": 19.65,
1965
- "learning_rate": 6.685263157894737e-10,
1966
- "loss": 0.0002,
1967
- "step": 7900
1968
- },
1969
- {
1970
- "epoch": 19.71,
1971
- "learning_rate": 6.606315789473684e-10,
1972
- "loss": 0.0002,
1973
- "step": 7925
1974
- },
1975
- {
1976
- "epoch": 19.78,
1977
- "learning_rate": 6.527368421052632e-10,
1978
- "loss": 0.0002,
1979
- "step": 7950
1980
- },
1981
- {
1982
- "epoch": 19.84,
1983
- "learning_rate": 6.448421052631579e-10,
1984
- "loss": 0.0002,
1985
- "step": 7975
1986
- },
1987
- {
1988
- "epoch": 19.9,
1989
- "learning_rate": 6.369473684210527e-10,
1990
- "loss": 0.0002,
1991
- "step": 8000
1992
- },
1993
- {
1994
- "epoch": 19.9,
1995
- "eval_loss": 0.50146484375,
1996
- "eval_runtime": 167.9653,
1997
- "eval_samples_per_second": 10.097,
1998
- "eval_steps_per_second": 0.631,
1999
- "eval_wer": 16.50260029717682,
2000
- "step": 8000
2001
- },
2002
- {
2003
- "epoch": 19.96,
2004
- "learning_rate": 6.296842105263158e-10,
2005
- "loss": 0.0002,
2006
- "step": 8025
2007
- },
2008
- {
2009
- "epoch": 20.02,
2010
- "learning_rate": 6.217894736842105e-10,
2011
- "loss": 0.0002,
2012
- "step": 8050
2013
- },
2014
- {
2015
- "epoch": 20.09,
2016
- "learning_rate": 6.138947368421052e-10,
2017
- "loss": 0.0002,
2018
- "step": 8075
2019
- },
2020
- {
2021
- "epoch": 20.15,
2022
- "learning_rate": 6.060000000000001e-10,
2023
- "loss": 0.0002,
2024
- "step": 8100
2025
- },
2026
- {
2027
- "epoch": 20.21,
2028
- "learning_rate": 5.981052631578947e-10,
2029
- "loss": 0.0002,
2030
- "step": 8125
2031
- },
2032
- {
2033
- "epoch": 20.27,
2034
- "learning_rate": 5.902105263157894e-10,
2035
- "loss": 0.0002,
2036
- "step": 8150
2037
- },
2038
- {
2039
- "epoch": 20.34,
2040
- "learning_rate": 5.823157894736842e-10,
2041
- "loss": 0.0002,
2042
- "step": 8175
2043
- },
2044
- {
2045
- "epoch": 20.4,
2046
- "learning_rate": 5.74421052631579e-10,
2047
- "loss": 0.0002,
2048
- "step": 8200
2049
- },
2050
- {
2051
- "epoch": 20.46,
2052
- "learning_rate": 5.665263157894737e-10,
2053
- "loss": 0.0002,
2054
- "step": 8225
2055
- },
2056
- {
2057
- "epoch": 20.52,
2058
- "learning_rate": 5.586315789473684e-10,
2059
- "loss": 0.0002,
2060
- "step": 8250
2061
- },
2062
- {
2063
- "epoch": 20.58,
2064
- "learning_rate": 5.507368421052632e-10,
2065
- "loss": 0.0002,
2066
- "step": 8275
2067
- },
2068
- {
2069
- "epoch": 20.65,
2070
- "learning_rate": 5.428421052631579e-10,
2071
- "loss": 0.0002,
2072
- "step": 8300
2073
- },
2074
- {
2075
- "epoch": 20.71,
2076
- "learning_rate": 5.349473684210526e-10,
2077
- "loss": 0.0002,
2078
- "step": 8325
2079
- },
2080
- {
2081
- "epoch": 20.77,
2082
- "learning_rate": 5.270526315789474e-10,
2083
- "loss": 0.0002,
2084
- "step": 8350
2085
- },
2086
- {
2087
- "epoch": 20.83,
2088
- "learning_rate": 5.191578947368421e-10,
2089
- "loss": 0.0002,
2090
- "step": 8375
2091
- },
2092
- {
2093
- "epoch": 20.9,
2094
- "learning_rate": 5.112631578947368e-10,
2095
- "loss": 0.0002,
2096
- "step": 8400
2097
- },
2098
- {
2099
- "epoch": 20.96,
2100
- "learning_rate": 5.033684210526316e-10,
2101
- "loss": 0.0002,
2102
- "step": 8425
2103
- },
2104
- {
2105
- "epoch": 21.02,
2106
- "learning_rate": 4.954736842105263e-10,
2107
- "loss": 0.0002,
2108
- "step": 8450
2109
- },
2110
- {
2111
- "epoch": 21.08,
2112
- "learning_rate": 4.87578947368421e-10,
2113
- "loss": 0.0002,
2114
- "step": 8475
2115
- },
2116
- {
2117
- "epoch": 21.14,
2118
- "learning_rate": 4.796842105263158e-10,
2119
- "loss": 0.0002,
2120
- "step": 8500
2121
- },
2122
- {
2123
- "epoch": 21.21,
2124
- "learning_rate": 4.717894736842105e-10,
2125
- "loss": 0.0002,
2126
- "step": 8525
2127
- },
2128
- {
2129
- "epoch": 21.27,
2130
- "learning_rate": 4.6389473684210526e-10,
2131
- "loss": 0.0002,
2132
- "step": 8550
2133
- },
2134
- {
2135
- "epoch": 21.33,
2136
- "learning_rate": 4.56e-10,
2137
- "loss": 0.0002,
2138
- "step": 8575
2139
- },
2140
- {
2141
- "epoch": 21.39,
2142
- "learning_rate": 4.481052631578947e-10,
2143
- "loss": 0.0002,
2144
- "step": 8600
2145
- },
2146
- {
2147
- "epoch": 21.46,
2148
- "learning_rate": 4.402105263157895e-10,
2149
- "loss": 0.0002,
2150
- "step": 8625
2151
- },
2152
- {
2153
- "epoch": 21.52,
2154
- "learning_rate": 4.323157894736842e-10,
2155
- "loss": 0.0002,
2156
- "step": 8650
2157
- },
2158
- {
2159
- "epoch": 21.58,
2160
- "learning_rate": 4.244210526315789e-10,
2161
- "loss": 0.0002,
2162
- "step": 8675
2163
- },
2164
- {
2165
- "epoch": 21.64,
2166
- "learning_rate": 4.165263157894737e-10,
2167
- "loss": 0.0002,
2168
- "step": 8700
2169
- },
2170
- {
2171
- "epoch": 21.7,
2172
- "learning_rate": 4.0863157894736844e-10,
2173
- "loss": 0.0002,
2174
- "step": 8725
2175
- },
2176
- {
2177
- "epoch": 21.77,
2178
- "learning_rate": 4.0073684210526316e-10,
2179
- "loss": 0.0002,
2180
- "step": 8750
2181
- },
2182
- {
2183
- "epoch": 21.83,
2184
- "learning_rate": 3.928421052631579e-10,
2185
- "loss": 0.0002,
2186
- "step": 8775
2187
- },
2188
- {
2189
- "epoch": 21.89,
2190
- "learning_rate": 3.8494736842105264e-10,
2191
- "loss": 0.0002,
2192
- "step": 8800
2193
- },
2194
- {
2195
- "epoch": 21.95,
2196
- "learning_rate": 3.7705263157894736e-10,
2197
- "loss": 0.0002,
2198
- "step": 8825
2199
- },
2200
- {
2201
- "epoch": 22.01,
2202
- "learning_rate": 3.6915789473684213e-10,
2203
- "loss": 0.0002,
2204
- "step": 8850
2205
- },
2206
- {
2207
- "epoch": 22.08,
2208
- "learning_rate": 3.6126315789473685e-10,
2209
- "loss": 0.0002,
2210
- "step": 8875
2211
- },
2212
- {
2213
- "epoch": 22.14,
2214
- "learning_rate": 3.5336842105263157e-10,
2215
- "loss": 0.0002,
2216
- "step": 8900
2217
- },
2218
- {
2219
- "epoch": 22.2,
2220
- "learning_rate": 3.4547368421052634e-10,
2221
- "loss": 0.0002,
2222
- "step": 8925
2223
- },
2224
- {
2225
- "epoch": 22.26,
2226
- "learning_rate": 3.3757894736842105e-10,
2227
- "loss": 0.0002,
2228
- "step": 8950
2229
- },
2230
- {
2231
- "epoch": 22.33,
2232
- "learning_rate": 3.296842105263158e-10,
2233
- "loss": 0.0002,
2234
- "step": 8975
2235
- },
2236
- {
2237
- "epoch": 22.39,
2238
- "learning_rate": 3.217894736842105e-10,
2239
- "loss": 0.0002,
2240
- "step": 9000
2241
- },
2242
- {
2243
- "epoch": 22.39,
2244
- "eval_loss": 0.50146484375,
2245
- "eval_runtime": 167.9301,
2246
- "eval_samples_per_second": 10.099,
2247
- "eval_steps_per_second": 0.631,
2248
- "eval_wer": 16.521173848439823,
2249
- "step": 9000
2250
- },
2251
- {
2252
- "epoch": 22.45,
2253
- "learning_rate": 3.1452631578947366e-10,
2254
- "loss": 0.0002,
2255
- "step": 9025
2256
- },
2257
- {
2258
- "epoch": 22.51,
2259
- "learning_rate": 3.0663157894736843e-10,
2260
- "loss": 0.0002,
2261
- "step": 9050
2262
- },
2263
- {
2264
- "epoch": 22.57,
2265
- "learning_rate": 2.987368421052632e-10,
2266
- "loss": 0.0002,
2267
- "step": 9075
2268
- },
2269
- {
2270
- "epoch": 22.64,
2271
- "learning_rate": 2.9084210526315786e-10,
2272
- "loss": 0.0002,
2273
- "step": 9100
2274
- },
2275
- {
2276
- "epoch": 22.7,
2277
- "learning_rate": 2.8294736842105263e-10,
2278
- "loss": 0.0002,
2279
- "step": 9125
2280
- },
2281
- {
2282
- "epoch": 22.76,
2283
- "learning_rate": 2.7505263157894735e-10,
2284
- "loss": 0.0001,
2285
- "step": 9150
2286
- },
2287
- {
2288
- "epoch": 22.82,
2289
- "learning_rate": 2.671578947368421e-10,
2290
- "loss": 0.0002,
2291
- "step": 9175
2292
- },
2293
- {
2294
- "epoch": 22.89,
2295
- "learning_rate": 2.5926315789473684e-10,
2296
- "loss": 0.0002,
2297
- "step": 9200
2298
- },
2299
- {
2300
- "epoch": 22.95,
2301
- "learning_rate": 2.5136842105263156e-10,
2302
- "loss": 0.0002,
2303
- "step": 9225
2304
- },
2305
- {
2306
- "epoch": 23.01,
2307
- "learning_rate": 2.4347368421052633e-10,
2308
- "loss": 0.0002,
2309
- "step": 9250
2310
- },
2311
- {
2312
- "epoch": 23.07,
2313
- "learning_rate": 2.3557894736842104e-10,
2314
- "loss": 0.0002,
2315
- "step": 9275
2316
- },
2317
- {
2318
- "epoch": 23.13,
2319
- "learning_rate": 2.276842105263158e-10,
2320
- "loss": 0.0002,
2321
- "step": 9300
2322
- },
2323
- {
2324
- "epoch": 23.2,
2325
- "learning_rate": 2.197894736842105e-10,
2326
- "loss": 0.0002,
2327
- "step": 9325
2328
- },
2329
- {
2330
- "epoch": 23.26,
2331
- "learning_rate": 2.1189473684210525e-10,
2332
- "loss": 0.0002,
2333
- "step": 9350
2334
- },
2335
- {
2336
- "epoch": 23.32,
2337
- "learning_rate": 2.0400000000000002e-10,
2338
- "loss": 0.0002,
2339
- "step": 9375
2340
- },
2341
- {
2342
- "epoch": 23.38,
2343
- "learning_rate": 1.9610526315789474e-10,
2344
- "loss": 0.0002,
2345
- "step": 9400
2346
- },
2347
- {
2348
- "epoch": 23.45,
2349
- "learning_rate": 1.8821052631578948e-10,
2350
- "loss": 0.0002,
2351
- "step": 9425
2352
- },
2353
- {
2354
- "epoch": 23.51,
2355
- "learning_rate": 1.8031578947368422e-10,
2356
- "loss": 0.0002,
2357
- "step": 9450
2358
- },
2359
- {
2360
- "epoch": 23.57,
2361
- "learning_rate": 1.7242105263157894e-10,
2362
- "loss": 0.0002,
2363
- "step": 9475
2364
- },
2365
- {
2366
- "epoch": 23.63,
2367
- "learning_rate": 1.6452631578947369e-10,
2368
- "loss": 0.0002,
2369
- "step": 9500
2370
- },
2371
- {
2372
- "epoch": 23.69,
2373
- "learning_rate": 1.566315789473684e-10,
2374
- "loss": 0.0002,
2375
- "step": 9525
2376
- },
2377
- {
2378
- "epoch": 23.76,
2379
- "learning_rate": 1.4873684210526317e-10,
2380
- "loss": 0.0002,
2381
- "step": 9550
2382
- },
2383
- {
2384
- "epoch": 23.82,
2385
- "learning_rate": 1.408421052631579e-10,
2386
- "loss": 0.0002,
2387
- "step": 9575
2388
- },
2389
- {
2390
- "epoch": 23.88,
2391
- "learning_rate": 1.3294736842105264e-10,
2392
- "loss": 0.0002,
2393
- "step": 9600
2394
- },
2395
- {
2396
- "epoch": 23.94,
2397
- "learning_rate": 1.2505263157894735e-10,
2398
- "loss": 0.0002,
2399
- "step": 9625
2400
- },
2401
- {
2402
- "epoch": 24.0,
2403
- "learning_rate": 1.171578947368421e-10,
2404
- "loss": 0.0002,
2405
- "step": 9650
2406
- },
2407
- {
2408
- "epoch": 24.07,
2409
- "learning_rate": 1.0926315789473683e-10,
2410
- "loss": 0.0002,
2411
- "step": 9675
2412
- },
2413
- {
2414
- "epoch": 24.13,
2415
- "learning_rate": 1.0136842105263158e-10,
2416
- "loss": 0.0002,
2417
- "step": 9700
2418
- },
2419
- {
2420
- "epoch": 24.19,
2421
- "learning_rate": 9.347368421052631e-11,
2422
- "loss": 0.0002,
2423
- "step": 9725
2424
- },
2425
- {
2426
- "epoch": 24.25,
2427
- "learning_rate": 8.557894736842106e-11,
2428
- "loss": 0.0002,
2429
- "step": 9750
2430
- },
2431
- {
2432
- "epoch": 24.32,
2433
- "learning_rate": 7.768421052631579e-11,
2434
- "loss": 0.0002,
2435
- "step": 9775
2436
- },
2437
- {
2438
- "epoch": 24.38,
2439
- "learning_rate": 6.978947368421053e-11,
2440
- "loss": 0.0002,
2441
- "step": 9800
2442
- },
2443
- {
2444
- "epoch": 24.44,
2445
- "learning_rate": 6.189473684210526e-11,
2446
- "loss": 0.0002,
2447
- "step": 9825
2448
- },
2449
- {
2450
- "epoch": 24.5,
2451
- "learning_rate": 5.3999999999999994e-11,
2452
- "loss": 0.0002,
2453
- "step": 9850
2454
- },
2455
- {
2456
- "epoch": 24.56,
2457
- "learning_rate": 4.610526315789473e-11,
2458
- "loss": 0.0002,
2459
- "step": 9875
2460
- },
2461
- {
2462
- "epoch": 24.63,
2463
- "learning_rate": 3.8210526315789475e-11,
2464
- "loss": 0.0002,
2465
- "step": 9900
2466
- },
2467
- {
2468
- "epoch": 24.69,
2469
- "learning_rate": 3.031578947368421e-11,
2470
- "loss": 0.0002,
2471
- "step": 9925
2472
- },
2473
- {
2474
- "epoch": 24.75,
2475
- "learning_rate": 2.2421052631578947e-11,
2476
- "loss": 0.0002,
2477
- "step": 9950
2478
- },
2479
- {
2480
- "epoch": 24.81,
2481
- "learning_rate": 1.4526315789473685e-11,
2482
- "loss": 0.0002,
2483
- "step": 9975
2484
- },
2485
- {
2486
- "epoch": 24.88,
2487
- "learning_rate": 6.63157894736842e-12,
2488
- "loss": 0.0002,
2489
- "step": 10000
2490
- },
2491
- {
2492
- "epoch": 24.88,
2493
- "eval_loss": 0.501953125,
2494
- "eval_runtime": 167.4253,
2495
- "eval_samples_per_second": 10.13,
2496
- "eval_steps_per_second": 0.633,
2497
- "eval_wer": 16.558320950965825,
2498
- "step": 10000
2499
- },
2500
- {
2501
- "epoch": 24.88,
2502
- "step": 10000,
2503
- "total_flos": 9.23057726024665e+19,
2504
- "train_loss": 0.00017381784915924072,
2505
- "train_runtime": 19905.1566,
2506
- "train_samples_per_second": 16.076,
2507
- "train_steps_per_second": 0.502
2508
  }
2509
  ],
2510
- "max_steps": 10000,
2511
- "num_train_epochs": 25,
2512
- "total_flos": 9.23057726024665e+19,
2513
  "trial_name": null,
2514
  "trial_params": null
2515
  }
 
1
  {
2
+ "best_metric": 16.465453194650816,
3
+ "best_model_checkpoint": "./checkpoint-3000",
4
+ "epoch": 12.437810945273633,
5
+ "global_step": 5000,
6
  "is_hyper_param_search": false,
7
  "is_local_process_zero": true,
8
  "is_world_process_zero": true,
9
  "log_history": [
10
  {
11
  "epoch": 0.06,
12
+ "learning_rate": 5.045361133432068e-10,
13
  "loss": 0.0002,
14
  "step": 25
15
  },
16
  {
17
  "epoch": 0.12,
18
+ "learning_rate": 6.229195710491768e-10,
19
  "loss": 0.0002,
20
  "step": 50
21
  },
22
  {
23
  "epoch": 0.19,
24
+ "learning_rate": 6.903829450223392e-10,
25
  "loss": 0.0002,
26
  "step": 75
27
  },
28
  {
29
  "epoch": 0.25,
30
+ "learning_rate": 7.377725845391017e-10,
31
  "loss": 0.0002,
32
  "step": 100
33
  },
34
  {
35
  "epoch": 0.31,
36
+ "learning_rate": 7.743343231239583e-10,
37
  "loss": 0.0002,
38
  "step": 125
39
  },
40
  {
41
  "epoch": 0.37,
42
+ "learning_rate": 8.041073861170494e-10,
43
  "loss": 0.0002,
44
  "step": 150
45
  },
46
  {
47
  "epoch": 0.44,
48
+ "learning_rate": 8.292222957399573e-10,
49
  "loss": 0.0002,
50
  "step": 175
51
  },
52
  {
53
  "epoch": 0.5,
54
+ "learning_rate": 8.509413541357753e-10,
55
  "loss": 0.0002,
56
  "step": 200
57
  },
58
  {
59
  "epoch": 0.56,
60
+ "learning_rate": 8.700744577655556e-10,
61
  "loss": 0.0002,
62
  "step": 225
63
  },
64
  {
65
  "epoch": 0.62,
66
+ "learning_rate": 8.871723942761204e-10,
67
  "loss": 0.0002,
68
  "step": 250
69
  },
70
  {
71
  "epoch": 0.68,
72
+ "learning_rate": 9.026267958246848e-10,
73
  "loss": 0.0002,
74
  "step": 275
75
  },
76
  {
77
  "epoch": 0.75,
78
+ "learning_rate": 9.16726106663399e-10,
79
  "loss": 0.0002,
80
  "step": 300
81
  },
82
  {
83
  "epoch": 0.81,
84
+ "learning_rate": 9.296889251455016e-10,
85
  "loss": 0.0002,
86
  "step": 325
87
  },
88
  {
89
  "epoch": 0.87,
90
+ "learning_rate": 9.416848797368693e-10,
91
  "loss": 0.0002,
92
  "step": 350
93
  },
94
  {
95
  "epoch": 0.93,
96
+ "learning_rate": 9.528482449516372e-10,
97
  "loss": 0.0002,
98
  "step": 375
99
  },
100
  {
101
  "epoch": 1.0,
102
+ "learning_rate": 9.632871309784313e-10,
103
  "loss": 0.0002,
104
  "step": 400
105
  },
106
  {
107
  "epoch": 1.06,
108
+ "learning_rate": 9.73089868785391e-10,
109
  "loss": 0.0002,
110
  "step": 425
111
  },
112
  {
113
  "epoch": 1.12,
114
+ "learning_rate": 9.823295589572114e-10,
115
  "loss": 0.0002,
116
  "step": 450
117
  },
118
  {
119
  "epoch": 1.18,
120
+ "learning_rate": 9.910673836465485e-10,
121
  "loss": 0.0002,
122
  "step": 475
123
  },
124
  {
125
  "epoch": 1.24,
126
+ "learning_rate": 9.993550644973806e-10,
127
  "loss": 0.0002,
128
  "step": 500
129
  },
130
  {
131
  "epoch": 1.31,
132
+ "learning_rate": 9.95111111111111e-10,
133
  "loss": 0.0002,
134
  "step": 525
135
  },
136
  {
137
  "epoch": 1.37,
138
+ "learning_rate": 9.895555555555556e-10,
139
  "loss": 0.0002,
140
  "step": 550
141
  },
142
  {
143
  "epoch": 1.43,
144
+ "learning_rate": 9.840000000000001e-10,
145
  "loss": 0.0002,
146
  "step": 575
147
  },
148
  {
149
  "epoch": 1.49,
150
+ "learning_rate": 9.784444444444444e-10,
151
  "loss": 0.0002,
152
  "step": 600
153
  },
154
  {
155
  "epoch": 1.55,
156
+ "learning_rate": 9.72888888888889e-10,
157
  "loss": 0.0002,
158
  "step": 625
159
  },
160
  {
161
  "epoch": 1.62,
162
+ "learning_rate": 9.673333333333335e-10,
163
  "loss": 0.0002,
164
  "step": 650
165
  },
166
  {
167
  "epoch": 1.68,
168
+ "learning_rate": 9.617777777777778e-10,
169
  "loss": 0.0002,
170
  "step": 675
171
  },
172
  {
173
  "epoch": 1.74,
174
+ "learning_rate": 9.562222222222222e-10,
175
  "loss": 0.0002,
176
  "step": 700
177
  },
178
  {
179
  "epoch": 1.8,
180
+ "learning_rate": 9.506666666666667e-10,
181
  "loss": 0.0002,
182
  "step": 725
183
  },
184
  {
185
  "epoch": 1.87,
186
+ "learning_rate": 9.451111111111112e-10,
187
  "loss": 0.0002,
188
  "step": 750
189
  },
190
  {
191
  "epoch": 1.93,
192
+ "learning_rate": 9.395555555555556e-10,
193
  "loss": 0.0002,
194
  "step": 775
195
  },
196
  {
197
  "epoch": 1.99,
198
+ "learning_rate": 9.34e-10,
199
  "loss": 0.0002,
200
  "step": 800
201
  },
202
  {
203
  "epoch": 2.05,
204
+ "learning_rate": 9.284444444444445e-10,
205
  "loss": 0.0002,
206
  "step": 825
207
  },
208
  {
209
  "epoch": 2.11,
210
+ "learning_rate": 9.228888888888889e-10,
211
  "loss": 0.0002,
212
  "step": 850
213
  },
214
  {
215
  "epoch": 2.18,
216
+ "learning_rate": 9.173333333333334e-10,
217
  "loss": 0.0002,
218
  "step": 875
219
  },
220
  {
221
  "epoch": 2.24,
222
+ "learning_rate": 9.117777777777779e-10,
223
  "loss": 0.0002,
224
  "step": 900
225
  },
226
  {
227
  "epoch": 2.3,
228
+ "learning_rate": 9.062222222222223e-10,
229
  "loss": 0.0002,
230
  "step": 925
231
  },
232
  {
233
  "epoch": 2.36,
234
+ "learning_rate": 9.006666666666667e-10,
235
  "loss": 0.0002,
236
  "step": 950
237
  },
238
  {
239
  "epoch": 2.43,
240
+ "learning_rate": 8.951111111111111e-10,
241
  "loss": 0.0002,
242
  "step": 975
243
  },
244
  {
245
  "epoch": 2.49,
246
+ "learning_rate": 8.895555555555556e-10,
247
  "loss": 0.0002,
248
  "step": 1000
249
  },
250
  {
251
  "epoch": 2.49,
252
  "eval_loss": 0.50146484375,
253
+ "eval_runtime": 168.0976,
254
+ "eval_samples_per_second": 10.089,
255
+ "eval_steps_per_second": 0.631,
256
+ "eval_wer": 16.51188707280832,
257
  "step": 1000
258
  },
259
  {
260
  "epoch": 2.55,
261
+ "learning_rate": 8.844444444444446e-10,
262
  "loss": 0.0002,
263
  "step": 1025
264
  },
265
  {
266
  "epoch": 2.61,
267
+ "learning_rate": 8.78888888888889e-10,
268
  "loss": 0.0002,
269
  "step": 1050
270
  },
271
  {
272
  "epoch": 2.67,
273
+ "learning_rate": 8.733333333333333e-10,
274
  "loss": 0.0002,
275
  "step": 1075
276
  },
277
  {
278
  "epoch": 2.74,
279
+ "learning_rate": 8.677777777777778e-10,
280
  "loss": 0.0002,
281
  "step": 1100
282
  },
283
  {
284
  "epoch": 2.8,
285
+ "learning_rate": 8.622222222222223e-10,
286
  "loss": 0.0002,
287
  "step": 1125
288
  },
289
  {
290
  "epoch": 2.86,
291
+ "learning_rate": 8.566666666666667e-10,
292
  "loss": 0.0002,
293
  "step": 1150
294
  },
295
  {
296
  "epoch": 2.92,
297
+ "learning_rate": 8.511111111111112e-10,
298
  "loss": 0.0002,
299
  "step": 1175
300
  },
301
  {
302
  "epoch": 2.99,
303
+ "learning_rate": 8.455555555555556e-10,
304
  "loss": 0.0002,
305
  "step": 1200
306
  },
307
  {
308
  "epoch": 3.05,
309
+ "learning_rate": 8.4e-10,
310
  "loss": 0.0002,
311
  "step": 1225
312
  },
313
  {
314
  "epoch": 3.11,
315
+ "learning_rate": 8.344444444444445e-10,
316
  "loss": 0.0002,
317
  "step": 1250
318
  },
319
  {
320
  "epoch": 3.17,
321
+ "learning_rate": 8.28888888888889e-10,
322
  "loss": 0.0002,
323
  "step": 1275
324
  },
325
  {
326
  "epoch": 3.23,
327
+ "learning_rate": 8.233333333333334e-10,
328
  "loss": 0.0002,
329
  "step": 1300
330
  },
331
  {
332
  "epoch": 3.3,
333
+ "learning_rate": 8.177777777777779e-10,
334
  "loss": 0.0002,
335
  "step": 1325
336
  },
337
  {
338
  "epoch": 3.36,
339
+ "learning_rate": 8.122222222222222e-10,
340
  "loss": 0.0002,
341
  "step": 1350
342
  },
343
  {
344
  "epoch": 3.42,
345
+ "learning_rate": 8.066666666666667e-10,
346
  "loss": 0.0002,
347
  "step": 1375
348
  },
349
  {
350
  "epoch": 3.48,
351
+ "learning_rate": 8.011111111111112e-10,
352
  "loss": 0.0002,
353
  "step": 1400
354
  },
355
  {
356
  "epoch": 3.54,
357
+ "learning_rate": 7.955555555555556e-10,
358
  "loss": 0.0002,
359
  "step": 1425
360
  },
361
  {
362
  "epoch": 3.61,
363
+ "learning_rate": 7.900000000000001e-10,
364
  "loss": 0.0002,
365
  "step": 1450
366
  },
367
  {
368
  "epoch": 3.67,
369
+ "learning_rate": 7.844444444444446e-10,
370
  "loss": 0.0002,
371
  "step": 1475
372
  },
373
  {
374
  "epoch": 3.73,
375
+ "learning_rate": 7.788888888888889e-10,
376
  "loss": 0.0002,
377
  "step": 1500
378
  },
379
  {
380
  "epoch": 3.79,
381
+ "learning_rate": 7.733333333333334e-10,
382
  "loss": 0.0002,
383
  "step": 1525
384
  },
385
  {
386
  "epoch": 3.86,
387
+ "learning_rate": 7.677777777777778e-10,
388
  "loss": 0.0002,
389
  "step": 1550
390
  },
391
  {
392
  "epoch": 3.92,
393
+ "learning_rate": 7.622222222222223e-10,
394
  "loss": 0.0002,
395
  "step": 1575
396
  },
397
  {
398
  "epoch": 3.98,
399
+ "learning_rate": 7.566666666666667e-10,
400
  "loss": 0.0002,
401
  "step": 1600
402
  },
403
  {
404
  "epoch": 4.04,
405
+ "learning_rate": 7.511111111111111e-10,
406
  "loss": 0.0002,
407
  "step": 1625
408
  },
409
  {
410
  "epoch": 4.1,
411
+ "learning_rate": 7.455555555555556e-10,
412
  "loss": 0.0002,
413
  "step": 1650
414
  },
415
  {
416
  "epoch": 4.17,
417
+ "learning_rate": 7.4e-10,
418
  "loss": 0.0002,
419
  "step": 1675
420
  },
421
  {
422
  "epoch": 4.23,
423
+ "learning_rate": 7.344444444444445e-10,
424
  "loss": 0.0002,
425
  "step": 1700
426
  },
427
  {
428
  "epoch": 4.29,
429
+ "learning_rate": 7.28888888888889e-10,
430
  "loss": 0.0002,
431
  "step": 1725
432
  },
433
  {
434
  "epoch": 4.35,
435
+ "learning_rate": 7.233333333333334e-10,
436
  "loss": 0.0002,
437
  "step": 1750
438
  },
439
  {
440
  "epoch": 4.42,
441
+ "learning_rate": 7.177777777777777e-10,
442
  "loss": 0.0002,
443
  "step": 1775
444
  },
445
  {
446
  "epoch": 4.48,
447
+ "learning_rate": 7.122222222222223e-10,
448
  "loss": 0.0002,
449
  "step": 1800
450
  },
451
  {
452
  "epoch": 4.54,
453
+ "learning_rate": 7.066666666666667e-10,
454
  "loss": 0.0002,
455
  "step": 1825
456
  },
457
  {
458
  "epoch": 4.6,
459
+ "learning_rate": 7.011111111111111e-10,
460
  "loss": 0.0002,
461
  "step": 1850
462
  },
463
  {
464
  "epoch": 4.66,
465
+ "learning_rate": 6.955555555555557e-10,
466
  "loss": 0.0002,
467
  "step": 1875
468
  },
469
  {
470
  "epoch": 4.73,
471
+ "learning_rate": 6.9e-10,
472
  "loss": 0.0002,
473
  "step": 1900
474
  },
475
  {
476
  "epoch": 4.79,
477
+ "learning_rate": 6.844444444444444e-10,
478
  "loss": 0.0002,
479
  "step": 1925
480
  },
481
  {
482
  "epoch": 4.85,
483
+ "learning_rate": 6.78888888888889e-10,
484
  "loss": 0.0002,
485
  "step": 1950
486
  },
487
  {
488
  "epoch": 4.91,
489
+ "learning_rate": 6.733333333333334e-10,
490
  "loss": 0.0002,
491
  "step": 1975
492
  },
493
  {
494
  "epoch": 4.98,
495
+ "learning_rate": 6.677777777777778e-10,
496
  "loss": 0.0002,
497
  "step": 2000
498
  },
499
  {
500
  "epoch": 4.98,
501
  "eval_loss": 0.50146484375,
502
+ "eval_runtime": 168.0899,
503
+ "eval_samples_per_second": 10.09,
504
+ "eval_steps_per_second": 0.631,
505
+ "eval_wer": 16.558320950965825,
506
  "step": 2000
507
  },
508
  {
509
  "epoch": 5.04,
510
+ "learning_rate": 6.626666666666667e-10,
511
  "loss": 0.0002,
512
  "step": 2025
513
  },
514
  {
515
  "epoch": 5.1,
516
+ "learning_rate": 6.571111111111111e-10,
517
  "loss": 0.0002,
518
  "step": 2050
519
  },
520
  {
521
  "epoch": 5.16,
522
+ "learning_rate": 6.515555555555556e-10,
523
  "loss": 0.0002,
524
  "step": 2075
525
  },
526
  {
527
  "epoch": 5.22,
528
+ "learning_rate": 6.46e-10,
529
  "loss": 0.0002,
530
  "step": 2100
531
  },
532
  {
533
  "epoch": 5.29,
534
+ "learning_rate": 6.404444444444445e-10,
535
  "loss": 0.0002,
536
  "step": 2125
537
  },
538
  {
539
  "epoch": 5.35,
540
+ "learning_rate": 6.348888888888889e-10,
541
  "loss": 0.0002,
542
  "step": 2150
543
  },
544
  {
545
  "epoch": 5.41,
546
+ "learning_rate": 6.293333333333333e-10,
547
  "loss": 0.0002,
548
  "step": 2175
549
  },
550
  {
551
  "epoch": 5.47,
552
+ "learning_rate": 6.237777777777778e-10,
553
  "loss": 0.0002,
554
  "step": 2200
555
  },
556
  {
557
  "epoch": 5.53,
558
+ "learning_rate": 6.182222222222223e-10,
559
  "loss": 0.0002,
560
  "step": 2225
561
  },
562
  {
563
  "epoch": 5.6,
564
+ "learning_rate": 6.126666666666667e-10,
565
  "loss": 0.0002,
566
  "step": 2250
567
  },
568
  {
569
  "epoch": 5.66,
570
+ "learning_rate": 6.071111111111112e-10,
571
  "loss": 0.0002,
572
  "step": 2275
573
  },
574
  {
575
  "epoch": 5.72,
576
+ "learning_rate": 6.015555555555556e-10,
577
  "loss": 0.0002,
578
  "step": 2300
579
  },
580
  {
581
  "epoch": 5.78,
582
+ "learning_rate": 5.96e-10,
583
  "loss": 0.0002,
584
  "step": 2325
585
  },
586
  {
587
  "epoch": 5.85,
588
+ "learning_rate": 5.904444444444444e-10,
589
  "loss": 0.0002,
590
  "step": 2350
591
  },
592
  {
593
  "epoch": 5.91,
594
+ "learning_rate": 5.84888888888889e-10,
595
  "loss": 0.0002,
596
  "step": 2375
597
  },
598
  {
599
  "epoch": 5.97,
600
+ "learning_rate": 5.793333333333334e-10,
601
  "loss": 0.0002,
602
  "step": 2400
603
  },
604
  {
605
  "epoch": 6.03,
606
+ "learning_rate": 5.737777777777778e-10,
607
  "loss": 0.0002,
608
  "step": 2425
609
  },
610
  {
611
  "epoch": 6.09,
612
+ "learning_rate": 5.682222222222223e-10,
613
  "loss": 0.0002,
614
  "step": 2450
615
  },
616
  {
617
  "epoch": 6.16,
618
+ "learning_rate": 5.626666666666667e-10,
619
  "loss": 0.0002,
620
  "step": 2475
621
  },
622
  {
623
  "epoch": 6.22,
624
+ "learning_rate": 5.571111111111111e-10,
625
  "loss": 0.0002,
626
  "step": 2500
627
  },
628
  {
629
  "epoch": 6.28,
630
+ "learning_rate": 5.515555555555556e-10,
631
  "loss": 0.0002,
632
  "step": 2525
633
  },
634
  {
635
  "epoch": 6.34,
636
+ "learning_rate": 5.460000000000001e-10,
637
  "loss": 0.0002,
638
  "step": 2550
639
  },
640
  {
641
  "epoch": 6.41,
642
+ "learning_rate": 5.404444444444444e-10,
643
  "loss": 0.0002,
644
  "step": 2575
645
  },
646
  {
647
  "epoch": 6.47,
648
+ "learning_rate": 5.348888888888889e-10,
649
  "loss": 0.0002,
650
  "step": 2600
651
  },
652
  {
653
  "epoch": 6.53,
654
+ "learning_rate": 5.293333333333334e-10,
655
  "loss": 0.0002,
656
  "step": 2625
657
  },
658
  {
659
  "epoch": 6.59,
660
+ "learning_rate": 5.237777777777778e-10,
661
  "loss": 0.0002,
662
  "step": 2650
663
  },
664
  {
665
  "epoch": 6.65,
666
+ "learning_rate": 5.182222222222223e-10,
667
  "loss": 0.0002,
668
  "step": 2675
669
  },
670
  {
671
  "epoch": 6.72,
672
+ "learning_rate": 5.126666666666668e-10,
673
  "loss": 0.0002,
674
  "step": 2700
675
  },
676
  {
677
  "epoch": 6.78,
678
+ "learning_rate": 5.071111111111111e-10,
679
  "loss": 0.0002,
680
  "step": 2725
681
  },
682
  {
683
  "epoch": 6.84,
684
+ "learning_rate": 5.015555555555555e-10,
685
  "loss": 0.0002,
686
  "step": 2750
687
  },
688
  {
689
  "epoch": 6.9,
690
+ "learning_rate": 4.96e-10,
691
  "loss": 0.0002,
692
  "step": 2775
693
  },
694
  {
695
  "epoch": 6.97,
696
+ "learning_rate": 4.904444444444445e-10,
697
  "loss": 0.0002,
698
  "step": 2800
699
  },
700
  {
701
  "epoch": 7.03,
702
+ "learning_rate": 4.848888888888889e-10,
703
  "loss": 0.0002,
704
  "step": 2825
705
  },
706
  {
707
  "epoch": 7.09,
708
+ "learning_rate": 4.793333333333333e-10,
709
  "loss": 0.0002,
710
  "step": 2850
711
  },
712
  {
713
  "epoch": 7.15,
714
+ "learning_rate": 4.737777777777779e-10,
715
  "loss": 0.0002,
716
  "step": 2875
717
  },
718
  {
719
  "epoch": 7.21,
720
+ "learning_rate": 4.682222222222222e-10,
721
  "loss": 0.0002,
722
  "step": 2900
723
  },
724
  {
725
  "epoch": 7.28,
726
+ "learning_rate": 4.626666666666667e-10,
727
  "loss": 0.0002,
728
  "step": 2925
729
  },
730
  {
731
  "epoch": 7.34,
732
+ "learning_rate": 4.5711111111111115e-10,
733
  "loss": 0.0002,
734
  "step": 2950
735
  },
736
  {
737
  "epoch": 7.4,
738
+ "learning_rate": 4.515555555555556e-10,
739
  "loss": 0.0002,
740
  "step": 2975
741
  },
742
  {
743
  "epoch": 7.46,
744
+ "learning_rate": 4.46e-10,
745
  "loss": 0.0002,
746
  "step": 3000
747
  },
748
  {
749
  "epoch": 7.46,
750
  "eval_loss": 0.50146484375,
751
+ "eval_runtime": 167.3892,
752
+ "eval_samples_per_second": 10.132,
753
  "eval_steps_per_second": 0.633,
754
+ "eval_wer": 16.465453194650816,
755
  "step": 3000
756
  },
757
  {
758
  "epoch": 7.52,
759
+ "learning_rate": 4.408888888888889e-10,
760
  "loss": 0.0002,
761
  "step": 3025
762
  },
763
  {
764
  "epoch": 7.59,
765
+ "learning_rate": 4.353333333333334e-10,
766
  "loss": 0.0001,
767
  "step": 3050
768
  },
769
  {
770
  "epoch": 7.65,
771
+ "learning_rate": 4.297777777777778e-10,
772
  "loss": 0.0002,
773
  "step": 3075
774
  },
775
  {
776
  "epoch": 7.71,
777
+ "learning_rate": 4.2422222222222224e-10,
778
  "loss": 0.0002,
779
  "step": 3100
780
  },
781
  {
782
  "epoch": 7.77,
783
+ "learning_rate": 4.186666666666667e-10,
784
  "loss": 0.0002,
785
  "step": 3125
786
  },
787
  {
788
  "epoch": 7.84,
789
+ "learning_rate": 4.131111111111111e-10,
790
  "loss": 0.0002,
791
  "step": 3150
792
  },
793
  {
794
  "epoch": 7.9,
795
+ "learning_rate": 4.075555555555556e-10,
796
  "loss": 0.0002,
797
  "step": 3175
798
  },
799
  {
800
  "epoch": 7.96,
801
+ "learning_rate": 4.0200000000000006e-10,
802
  "loss": 0.0002,
803
  "step": 3200
804
  },
805
  {
806
  "epoch": 8.02,
807
+ "learning_rate": 3.9644444444444444e-10,
808
  "loss": 0.0002,
809
  "step": 3225
810
  },
811
  {
812
  "epoch": 8.08,
813
+ "learning_rate": 3.908888888888889e-10,
814
  "loss": 0.0002,
815
  "step": 3250
816
  },
817
  {
818
  "epoch": 8.15,
819
+ "learning_rate": 3.853333333333334e-10,
820
  "loss": 0.0002,
821
  "step": 3275
822
  },
823
  {
824
  "epoch": 8.21,
825
+ "learning_rate": 3.797777777777778e-10,
826
  "loss": 0.0002,
827
  "step": 3300
828
  },
829
  {
830
  "epoch": 8.27,
831
+ "learning_rate": 3.7422222222222226e-10,
832
  "loss": 0.0002,
833
  "step": 3325
834
  },
835
  {
836
  "epoch": 8.33,
837
+ "learning_rate": 3.686666666666667e-10,
838
  "loss": 0.0002,
839
  "step": 3350
840
  },
841
  {
842
  "epoch": 8.4,
843
+ "learning_rate": 3.631111111111111e-10,
844
  "loss": 0.0002,
845
  "step": 3375
846
  },
847
  {
848
  "epoch": 8.46,
849
+ "learning_rate": 3.575555555555556e-10,
850
  "loss": 0.0002,
851
  "step": 3400
852
  },
853
  {
854
  "epoch": 8.52,
855
+ "learning_rate": 3.52e-10,
856
  "loss": 0.0002,
857
  "step": 3425
858
  },
859
  {
860
  "epoch": 8.58,
861
+ "learning_rate": 3.4644444444444445e-10,
862
  "loss": 0.0002,
863
  "step": 3450
864
  },
865
  {
866
  "epoch": 8.64,
867
+ "learning_rate": 3.4088888888888894e-10,
868
  "loss": 0.0002,
869
  "step": 3475
870
  },
871
  {
872
  "epoch": 8.71,
873
+ "learning_rate": 3.353333333333333e-10,
874
  "loss": 0.0002,
875
  "step": 3500
876
  },
877
  {
878
  "epoch": 8.77,
879
+ "learning_rate": 3.297777777777778e-10,
880
+ "loss": 0.0002,
881
  "step": 3525
882
  },
883
  {
884
  "epoch": 8.83,
885
+ "learning_rate": 3.242222222222223e-10,
886
  "loss": 0.0002,
887
  "step": 3550
888
  },
889
  {
890
  "epoch": 8.89,
891
+ "learning_rate": 3.1866666666666665e-10,
892
  "loss": 0.0002,
893
  "step": 3575
894
  },
895
  {
896
  "epoch": 8.96,
897
+ "learning_rate": 3.1311111111111113e-10,
898
  "loss": 0.0002,
899
  "step": 3600
900
  },
901
  {
902
  "epoch": 9.02,
903
+ "learning_rate": 3.075555555555556e-10,
904
  "loss": 0.0002,
905
  "step": 3625
906
  },
907
  {
908
  "epoch": 9.08,
909
+ "learning_rate": 3.02e-10,
910
  "loss": 0.0002,
911
  "step": 3650
912
  },
913
  {
914
  "epoch": 9.14,
915
+ "learning_rate": 2.9644444444444447e-10,
916
  "loss": 0.0002,
917
  "step": 3675
918
  },
919
  {
920
  "epoch": 9.2,
921
+ "learning_rate": 2.908888888888889e-10,
922
  "loss": 0.0002,
923
  "step": 3700
924
  },
925
  {
926
  "epoch": 9.27,
927
+ "learning_rate": 2.8533333333333333e-10,
928
  "loss": 0.0002,
929
  "step": 3725
930
  },
931
  {
932
  "epoch": 9.33,
933
+ "learning_rate": 2.797777777777778e-10,
934
  "loss": 0.0002,
935
  "step": 3750
936
  },
937
  {
938
  "epoch": 9.39,
939
+ "learning_rate": 2.7422222222222224e-10,
940
  "loss": 0.0002,
941
  "step": 3775
942
  },
943
  {
944
  "epoch": 9.45,
945
+ "learning_rate": 2.6866666666666667e-10,
946
  "loss": 0.0002,
947
  "step": 3800
948
  },
949
  {
950
  "epoch": 9.51,
951
+ "learning_rate": 2.6311111111111115e-10,
952
  "loss": 0.0002,
953
  "step": 3825
954
  },
955
  {
956
  "epoch": 9.58,
957
+ "learning_rate": 2.5755555555555553e-10,
958
  "loss": 0.0002,
959
  "step": 3850
960
  },
961
  {
962
  "epoch": 9.64,
963
+ "learning_rate": 2.52e-10,
964
  "loss": 0.0002,
965
  "step": 3875
966
  },
967
  {
968
  "epoch": 9.7,
969
+ "learning_rate": 2.4644444444444444e-10,
970
  "loss": 0.0002,
971
  "step": 3900
972
  },
973
  {
974
  "epoch": 9.76,
975
+ "learning_rate": 2.408888888888889e-10,
976
  "loss": 0.0002,
977
  "step": 3925
978
  },
979
  {
980
  "epoch": 9.83,
981
+ "learning_rate": 2.3533333333333335e-10,
982
  "loss": 0.0002,
983
  "step": 3950
984
  },
985
  {
986
  "epoch": 9.89,
987
+ "learning_rate": 2.2977777777777778e-10,
988
  "loss": 0.0002,
989
  "step": 3975
990
  },
991
  {
992
  "epoch": 9.95,
993
+ "learning_rate": 2.2422222222222223e-10,
994
  "loss": 0.0002,
995
  "step": 4000
996
  },
997
  {
998
  "epoch": 9.95,
999
  "eval_loss": 0.50146484375,
1000
+ "eval_runtime": 167.9097,
1001
+ "eval_samples_per_second": 10.101,
1002
+ "eval_steps_per_second": 0.631,
1003
+ "eval_wer": 16.51188707280832,
1004
  "step": 4000
1005
  },
1006
  {
1007
  "epoch": 10.01,
1008
+ "learning_rate": 2.1911111111111112e-10,
1009
  "loss": 0.0002,
1010
  "step": 4025
1011
  },
1012
  {
1013
  "epoch": 10.07,
1014
+ "learning_rate": 2.1355555555555558e-10,
1015
  "loss": 0.0002,
1016
  "step": 4050
1017
  },
1018
  {
1019
  "epoch": 10.14,
1020
+ "learning_rate": 2.08e-10,
1021
  "loss": 0.0002,
1022
  "step": 4075
1023
  },
1024
  {
1025
  "epoch": 10.2,
1026
+ "learning_rate": 2.0244444444444446e-10,
1027
  "loss": 0.0002,
1028
  "step": 4100
1029
  },
1030
  {
1031
  "epoch": 10.26,
1032
+ "learning_rate": 1.9688888888888892e-10,
1033
  "loss": 0.0002,
1034
  "step": 4125
1035
  },
1036
  {
1037
  "epoch": 10.32,
1038
+ "learning_rate": 1.9133333333333334e-10,
1039
  "loss": 0.0002,
1040
  "step": 4150
1041
  },
1042
  {
1043
  "epoch": 10.39,
1044
+ "learning_rate": 1.8577777777777777e-10,
1045
  "loss": 0.0002,
1046
  "step": 4175
1047
  },
1048
  {
1049
  "epoch": 10.45,
1050
+ "learning_rate": 1.8022222222222223e-10,
1051
  "loss": 0.0002,
1052
  "step": 4200
1053
  },
1054
  {
1055
  "epoch": 10.51,
1056
+ "learning_rate": 1.7466666666666668e-10,
1057
  "loss": 0.0002,
1058
  "step": 4225
1059
  },
1060
  {
1061
  "epoch": 10.57,
1062
+ "learning_rate": 1.6911111111111111e-10,
1063
  "loss": 0.0002,
1064
  "step": 4250
1065
  },
1066
  {
1067
  "epoch": 10.63,
1068
+ "learning_rate": 1.6355555555555557e-10,
1069
  "loss": 0.0002,
1070
  "step": 4275
1071
  },
1072
  {
1073
  "epoch": 10.7,
1074
+ "learning_rate": 1.5800000000000002e-10,
1075
  "loss": 0.0002,
1076
  "step": 4300
1077
  },
1078
  {
1079
  "epoch": 10.76,
1080
+ "learning_rate": 1.5244444444444445e-10,
1081
  "loss": 0.0002,
1082
  "step": 4325
1083
  },
1084
  {
1085
  "epoch": 10.82,
1086
+ "learning_rate": 1.468888888888889e-10,
1087
  "loss": 0.0002,
1088
  "step": 4350
1089
  },
1090
  {
1091
  "epoch": 10.88,
1092
+ "learning_rate": 1.4133333333333334e-10,
1093
  "loss": 0.0002,
1094
  "step": 4375
1095
  },
1096
  {
1097
  "epoch": 10.95,
1098
+ "learning_rate": 1.357777777777778e-10,
1099
  "loss": 0.0002,
1100
  "step": 4400
1101
  },
1102
  {
1103
  "epoch": 11.01,
1104
+ "learning_rate": 1.3022222222222222e-10,
1105
  "loss": 0.0002,
1106
  "step": 4425
1107
  },
1108
  {
1109
  "epoch": 11.07,
1110
+ "learning_rate": 1.2466666666666668e-10,
1111
  "loss": 0.0002,
1112
  "step": 4450
1113
  },
1114
  {
1115
  "epoch": 11.13,
1116
+ "learning_rate": 1.1911111111111113e-10,
1117
  "loss": 0.0002,
1118
  "step": 4475
1119
  },
1120
  {
1121
  "epoch": 11.19,
1122
+ "learning_rate": 1.1355555555555557e-10,
1123
  "loss": 0.0002,
1124
  "step": 4500
1125
  },
1126
  {
1127
  "epoch": 11.26,
1128
+ "learning_rate": 1.08e-10,
1129
  "loss": 0.0002,
1130
  "step": 4525
1131
  },
1132
  {
1133
  "epoch": 11.32,
1134
+ "learning_rate": 1.0244444444444446e-10,
1135
  "loss": 0.0002,
1136
  "step": 4550
1137
  },
1138
  {
1139
  "epoch": 11.38,
1140
+ "learning_rate": 9.688888888888889e-11,
1141
  "loss": 0.0002,
1142
  "step": 4575
1143
  },
1144
  {
1145
  "epoch": 11.44,
1146
+ "learning_rate": 9.133333333333334e-11,
1147
  "loss": 0.0002,
1148
  "step": 4600
1149
  },
1150
  {
1151
  "epoch": 11.5,
1152
+ "learning_rate": 8.577777777777778e-11,
1153
  "loss": 0.0002,
1154
  "step": 4625
1155
  },
1156
  {
1157
  "epoch": 11.57,
1158
+ "learning_rate": 8.022222222222223e-11,
1159
  "loss": 0.0002,
1160
  "step": 4650
1161
  },
1162
  {
1163
  "epoch": 11.63,
1164
+ "learning_rate": 7.466666666666668e-11,
1165
  "loss": 0.0002,
1166
  "step": 4675
1167
  },
1168
  {
1169
  "epoch": 11.69,
1170
+ "learning_rate": 6.911111111111111e-11,
1171
  "loss": 0.0002,
1172
  "step": 4700
1173
  },
1174
  {
1175
  "epoch": 11.75,
1176
+ "learning_rate": 6.355555555555556e-11,
1177
  "loss": 0.0002,
1178
  "step": 4725
1179
  },
1180
  {
1181
  "epoch": 11.82,
1182
+ "learning_rate": 5.8000000000000007e-11,
1183
  "loss": 0.0002,
1184
  "step": 4750
1185
  },
1186
  {
1187
  "epoch": 11.88,
1188
+ "learning_rate": 5.244444444444445e-11,
1189
  "loss": 0.0002,
1190
  "step": 4775
1191
  },
1192
  {
1193
  "epoch": 11.94,
1194
+ "learning_rate": 4.688888888888889e-11,
1195
  "loss": 0.0002,
1196
  "step": 4800
1197
  },
1198
  {
1199
  "epoch": 12.0,
1200
+ "learning_rate": 4.133333333333333e-11,
1201
  "loss": 0.0002,
1202
  "step": 4825
1203
  },
1204
  {
1205
  "epoch": 12.06,
1206
+ "learning_rate": 3.577777777777778e-11,
1207
  "loss": 0.0002,
1208
  "step": 4850
1209
  },
1210
  {
1211
  "epoch": 12.13,
1212
+ "learning_rate": 3.0222222222222223e-11,
1213
  "loss": 0.0002,
1214
  "step": 4875
1215
  },
1216
  {
1217
  "epoch": 12.19,
1218
+ "learning_rate": 2.466666666666667e-11,
1219
  "loss": 0.0002,
1220
  "step": 4900
1221
  },
1222
  {
1223
  "epoch": 12.25,
1224
+ "learning_rate": 1.911111111111111e-11,
1225
  "loss": 0.0002,
1226
  "step": 4925
1227
  },
1228
  {
1229
  "epoch": 12.31,
1230
+ "learning_rate": 1.3555555555555556e-11,
1231
  "loss": 0.0002,
1232
  "step": 4950
1233
  },
1234
  {
1235
  "epoch": 12.38,
1236
+ "learning_rate": 8.000000000000001e-12,
1237
  "loss": 0.0002,
1238
  "step": 4975
1239
  },
1240
  {
1241
  "epoch": 12.44,
1242
+ "learning_rate": 2.4444444444444444e-12,
1243
  "loss": 0.0002,
1244
  "step": 5000
1245
  },
1246
  {
1247
  "epoch": 12.44,
1248
  "eval_loss": 0.50146484375,
1249
+ "eval_runtime": 168.0048,
1250
+ "eval_samples_per_second": 10.095,
1251
+ "eval_steps_per_second": 0.631,
1252
  "eval_wer": 16.558320950965825,
1253
  "step": 5000
1254
  },
1255
  {
1256
+ "epoch": 12.44,
1257
+ "step": 5000,
1258
+ "total_flos": 4.615288630123325e+19,
1259
+ "train_loss": 0.00017441691160202026,
1260
+ "train_runtime": 9920.3408,
1261
+ "train_samples_per_second": 16.128,
1262
+ "train_steps_per_second": 0.504
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1263
  }
1264
  ],
1265
+ "max_steps": 5000,
1266
+ "num_train_epochs": 13,
1267
+ "total_flos": 4.615288630123325e+19,
1268
  "trial_name": null,
1269
  "trial_params": null
1270
  }