xezpeleta commited on
Commit
1447f68
·
verified ·
1 Parent(s): 68c652e

End of training

Browse files
Files changed (5) hide show
  1. README.md +19 -6
  2. all_results.json +11 -11
  3. eval_results.json +6 -6
  4. train_results.json +6 -6
  5. trainer_state.json +1132 -1132
README.md CHANGED
@@ -3,23 +3,36 @@ library_name: transformers
3
  license: apache-2.0
4
  base_model: openai/whisper-medium
5
  tags:
 
6
  - generated_from_trainer
 
 
7
  metrics:
8
  - wer
9
  model-index:
10
- - name: openai/whisper-medium
11
- results: []
 
 
 
 
 
 
 
 
 
 
12
  ---
13
 
14
  <!-- This model card has been generated automatically according to the information the Trainer had access to. You
15
  should probably proofread and complete it, then remove this comment. -->
16
 
17
- # openai/whisper-medium
18
 
19
- This model is a fine-tuned version of [openai/whisper-medium](https://huggingface.co/openai/whisper-medium) on an unknown dataset.
20
  It achieves the following results on the evaluation set:
21
- - Loss: 0.2141
22
- - Wer: 10.1290
23
 
24
  ## Model description
25
 
 
3
  license: apache-2.0
4
  base_model: openai/whisper-medium
5
  tags:
6
+ - whisper-event
7
  - generated_from_trainer
8
+ datasets:
9
+ - asierhv/composite_corpus_eu_v2.1
10
  metrics:
11
  - wer
12
  model-index:
13
+ - name: Whisper Medium Basque
14
+ results:
15
+ - task:
16
+ name: Automatic Speech Recognition
17
+ type: automatic-speech-recognition
18
+ dataset:
19
+ name: asierhv/composite_corpus_eu_v2.1
20
+ type: asierhv/composite_corpus_eu_v2.1
21
+ metrics:
22
+ - name: Wer
23
+ type: wer
24
+ value: 9.98410769374591
25
  ---
26
 
27
  <!-- This model card has been generated automatically according to the information the Trainer had access to. You
28
  should probably proofread and complete it, then remove this comment. -->
29
 
30
+ # Whisper Medium Basque
31
 
32
+ This model is a fine-tuned version of [openai/whisper-medium](https://huggingface.co/openai/whisper-medium) on the asierhv/composite_corpus_eu_v2.1 dataset.
33
  It achieves the following results on the evaluation set:
34
+ - Loss: 0.2191
35
+ - Wer: 9.9841
36
 
37
  ## Model description
38
 
all_results.json CHANGED
@@ -1,13 +1,13 @@
1
  {
2
- "epoch": 4.148,
3
- "eval_loss": 0.17873740196228027,
4
- "eval_runtime": 2417.8154,
5
- "eval_samples_per_second": 5.637,
6
- "eval_steps_per_second": 0.705,
7
- "eval_wer": 8.8020814247499,
8
- "total_flos": 1.3062109848403968e+20,
9
- "train_loss": 0.11351343880966305,
10
- "train_runtime": 52381.6915,
11
- "train_samples_per_second": 2.444,
12
- "train_steps_per_second": 0.153
13
  }
 
1
  {
2
+ "epoch": 1.0,
3
+ "eval_loss": 0.21914222836494446,
4
+ "eval_runtime": 416.2982,
5
+ "eval_samples_per_second": 5.054,
6
+ "eval_steps_per_second": 0.632,
7
+ "eval_wer": 9.98410769374591,
8
+ "total_flos": 1.3063742816256e+20,
9
+ "train_loss": 0.1566779458373785,
10
+ "train_runtime": 20473.0101,
11
+ "train_samples_per_second": 6.252,
12
+ "train_steps_per_second": 0.391
13
  }
eval_results.json CHANGED
@@ -1,8 +1,8 @@
1
  {
2
- "epoch": 4.148,
3
- "eval_loss": 0.17873740196228027,
4
- "eval_runtime": 2417.8154,
5
- "eval_samples_per_second": 5.637,
6
- "eval_steps_per_second": 0.705,
7
- "eval_wer": 8.8020814247499
8
  }
 
1
  {
2
+ "epoch": 1.0,
3
+ "eval_loss": 0.21914222836494446,
4
+ "eval_runtime": 416.2982,
5
+ "eval_samples_per_second": 5.054,
6
+ "eval_steps_per_second": 0.632,
7
+ "eval_wer": 9.98410769374591
8
  }
train_results.json CHANGED
@@ -1,8 +1,8 @@
1
  {
2
- "epoch": 4.148,
3
- "total_flos": 1.3062109848403968e+20,
4
- "train_loss": 0.11351343880966305,
5
- "train_runtime": 52381.6915,
6
- "train_samples_per_second": 2.444,
7
- "train_steps_per_second": 0.153
8
  }
 
1
  {
2
+ "epoch": 1.0,
3
+ "total_flos": 1.3063742816256e+20,
4
+ "train_loss": 0.1566779458373785,
5
+ "train_runtime": 20473.0101,
6
+ "train_samples_per_second": 6.252,
7
+ "train_steps_per_second": 0.391
8
  }
trainer_state.json CHANGED
@@ -1,7 +1,7 @@
1
  {
2
- "best_metric": 8.8020814247499,
3
- "best_model_checkpoint": "./checkpoint-8000",
4
- "epoch": 4.148,
5
  "eval_steps": 500,
6
  "global_step": 8000,
7
  "is_hyper_param_search": false,
@@ -10,2396 +10,2396 @@
10
  "log_history": [
11
  {
12
  "epoch": 0.003125,
13
- "grad_norm": 15.080086708068848,
14
  "learning_rate": 2.875e-07,
15
- "loss": 1.3478,
16
  "step": 25
17
  },
18
  {
19
  "epoch": 0.00625,
20
- "grad_norm": 11.962413787841797,
21
  "learning_rate": 6.000000000000001e-07,
22
- "loss": 1.14,
23
  "step": 50
24
  },
25
  {
26
  "epoch": 0.009375,
27
- "grad_norm": 10.828227996826172,
28
  "learning_rate": 9.124999999999999e-07,
29
- "loss": 0.8401,
30
  "step": 75
31
  },
32
  {
33
  "epoch": 0.0125,
34
- "grad_norm": 9.401681900024414,
35
  "learning_rate": 1.2250000000000001e-06,
36
- "loss": 0.7112,
37
  "step": 100
38
  },
39
  {
40
  "epoch": 0.015625,
41
- "grad_norm": 9.252142906188965,
42
  "learning_rate": 1.5375e-06,
43
- "loss": 0.6528,
44
  "step": 125
45
  },
46
  {
47
  "epoch": 0.01875,
48
- "grad_norm": 10.718783378601074,
49
  "learning_rate": 1.85e-06,
50
- "loss": 0.6492,
51
  "step": 150
52
  },
53
  {
54
  "epoch": 0.021875,
55
- "grad_norm": 7.8105082511901855,
56
  "learning_rate": 2.1625e-06,
57
- "loss": 0.5886,
58
  "step": 175
59
  },
60
  {
61
  "epoch": 0.025,
62
- "grad_norm": 8.969450950622559,
63
  "learning_rate": 2.4750000000000004e-06,
64
- "loss": 0.5284,
65
  "step": 200
66
  },
67
  {
68
  "epoch": 0.028125,
69
- "grad_norm": 8.110017776489258,
70
  "learning_rate": 2.7875e-06,
71
- "loss": 0.5097,
72
  "step": 225
73
  },
74
  {
75
  "epoch": 0.03125,
76
- "grad_norm": 8.07854175567627,
77
  "learning_rate": 3.1e-06,
78
- "loss": 0.48,
79
  "step": 250
80
  },
81
  {
82
  "epoch": 0.034375,
83
- "grad_norm": 9.469429016113281,
84
  "learning_rate": 3.4125000000000004e-06,
85
- "loss": 0.4453,
86
  "step": 275
87
  },
88
  {
89
  "epoch": 0.0375,
90
- "grad_norm": 6.849759578704834,
91
  "learning_rate": 3.725e-06,
92
- "loss": 0.4249,
93
  "step": 300
94
  },
95
  {
96
  "epoch": 0.040625,
97
- "grad_norm": 8.43980598449707,
98
  "learning_rate": 4.037500000000001e-06,
99
- "loss": 0.4093,
100
  "step": 325
101
  },
102
  {
103
  "epoch": 0.04375,
104
- "grad_norm": 7.9978132247924805,
105
  "learning_rate": 4.35e-06,
106
- "loss": 0.4179,
107
  "step": 350
108
  },
109
  {
110
  "epoch": 0.046875,
111
- "grad_norm": 7.179676532745361,
112
  "learning_rate": 4.6625e-06,
113
- "loss": 0.366,
114
  "step": 375
115
  },
116
  {
117
  "epoch": 0.05,
118
- "grad_norm": 8.746236801147461,
119
  "learning_rate": 4.975000000000001e-06,
120
- "loss": 0.3484,
121
  "step": 400
122
  },
123
  {
124
  "epoch": 0.053125,
125
- "grad_norm": 6.08207893371582,
126
  "learning_rate": 5.2875e-06,
127
- "loss": 0.3177,
128
  "step": 425
129
  },
130
  {
131
  "epoch": 0.05625,
132
- "grad_norm": 7.5096235275268555,
133
  "learning_rate": 5.600000000000001e-06,
134
- "loss": 0.3407,
135
  "step": 450
136
  },
137
  {
138
  "epoch": 0.059375,
139
- "grad_norm": 6.521783828735352,
140
  "learning_rate": 5.9125e-06,
141
- "loss": 0.3323,
142
  "step": 475
143
  },
144
  {
145
  "epoch": 0.0625,
146
- "grad_norm": 6.018587589263916,
147
  "learning_rate": 6.2250000000000005e-06,
148
- "loss": 0.3171,
149
  "step": 500
150
  },
151
  {
152
  "epoch": 0.0625,
153
- "eval_loss": 0.33685919642448425,
154
- "eval_runtime": 2424.3615,
155
- "eval_samples_per_second": 5.622,
156
- "eval_steps_per_second": 0.703,
157
- "eval_wer": 25.53043350800689,
158
  "step": 500
159
  },
160
  {
161
  "epoch": 0.065625,
162
- "grad_norm": 6.343411922454834,
163
  "learning_rate": 6.230833333333334e-06,
164
- "loss": 0.323,
165
  "step": 525
166
  },
167
  {
168
  "epoch": 0.06875,
169
- "grad_norm": 6.164433479309082,
170
  "learning_rate": 6.210000000000001e-06,
171
- "loss": 0.2979,
172
  "step": 550
173
  },
174
  {
175
  "epoch": 0.071875,
176
- "grad_norm": 7.514057159423828,
177
  "learning_rate": 6.1891666666666666e-06,
178
- "loss": 0.2956,
179
  "step": 575
180
  },
181
  {
182
  "epoch": 0.075,
183
- "grad_norm": 5.7609992027282715,
184
  "learning_rate": 6.168333333333333e-06,
185
- "loss": 0.2966,
186
  "step": 600
187
  },
188
  {
189
  "epoch": 0.078125,
190
- "grad_norm": 6.035708427429199,
191
  "learning_rate": 6.147500000000001e-06,
192
- "loss": 0.2914,
193
  "step": 625
194
  },
195
  {
196
  "epoch": 0.08125,
197
- "grad_norm": 6.485240459442139,
198
  "learning_rate": 6.126666666666667e-06,
199
- "loss": 0.2929,
200
  "step": 650
201
  },
202
  {
203
  "epoch": 0.084375,
204
- "grad_norm": 5.631970405578613,
205
  "learning_rate": 6.1058333333333335e-06,
206
- "loss": 0.2676,
207
  "step": 675
208
  },
209
  {
210
  "epoch": 0.0875,
211
- "grad_norm": 6.642117977142334,
212
  "learning_rate": 6.085e-06,
213
- "loss": 0.2756,
214
  "step": 700
215
  },
216
  {
217
  "epoch": 0.090625,
218
- "grad_norm": 6.473007678985596,
219
  "learning_rate": 6.064166666666667e-06,
220
- "loss": 0.2613,
221
  "step": 725
222
  },
223
  {
224
  "epoch": 0.09375,
225
- "grad_norm": 6.47869348526001,
226
  "learning_rate": 6.043333333333334e-06,
227
- "loss": 0.2667,
228
  "step": 750
229
  },
230
  {
231
  "epoch": 0.096875,
232
- "grad_norm": 6.658367156982422,
233
  "learning_rate": 6.0225e-06,
234
- "loss": 0.2778,
235
  "step": 775
236
  },
237
  {
238
  "epoch": 0.1,
239
- "grad_norm": 7.887542724609375,
240
  "learning_rate": 6.001666666666667e-06,
241
- "loss": 0.3095,
242
  "step": 800
243
  },
244
  {
245
  "epoch": 0.103125,
246
- "grad_norm": 6.103913307189941,
247
  "learning_rate": 5.980833333333334e-06,
248
- "loss": 0.297,
249
  "step": 825
250
  },
251
  {
252
  "epoch": 0.10625,
253
- "grad_norm": 6.087416648864746,
254
  "learning_rate": 5.9600000000000005e-06,
255
- "loss": 0.2326,
256
  "step": 850
257
  },
258
  {
259
  "epoch": 0.109375,
260
- "grad_norm": 5.486704349517822,
261
  "learning_rate": 5.939166666666667e-06,
262
- "loss": 0.2215,
263
  "step": 875
264
  },
265
  {
266
  "epoch": 0.1125,
267
- "grad_norm": 5.353816986083984,
268
  "learning_rate": 5.918333333333333e-06,
269
- "loss": 0.205,
270
  "step": 900
271
  },
272
  {
273
  "epoch": 0.115625,
274
- "grad_norm": 5.429187774658203,
275
  "learning_rate": 5.8975e-06,
276
- "loss": 0.2185,
277
  "step": 925
278
  },
279
  {
280
  "epoch": 0.11875,
281
- "grad_norm": 5.181328773498535,
282
  "learning_rate": 5.8766666666666674e-06,
283
- "loss": 0.2069,
284
  "step": 950
285
  },
286
  {
287
  "epoch": 0.121875,
288
- "grad_norm": 4.126291751861572,
289
  "learning_rate": 5.855833333333333e-06,
290
- "loss": 0.2062,
291
  "step": 975
292
  },
293
  {
294
  "epoch": 0.125,
295
- "grad_norm": 5.896920204162598,
296
  "learning_rate": 5.835e-06,
297
- "loss": 0.1852,
298
  "step": 1000
299
  },
300
  {
301
  "epoch": 0.125,
302
- "eval_loss": 0.2408558428287506,
303
- "eval_runtime": 2415.6545,
304
- "eval_samples_per_second": 5.642,
305
- "eval_steps_per_second": 0.705,
306
- "eval_wer": 17.311004434021037,
307
  "step": 1000
308
  },
309
  {
310
  "epoch": 0.128125,
311
- "grad_norm": 5.046872138977051,
312
  "learning_rate": 5.814166666666667e-06,
313
- "loss": 0.2142,
314
  "step": 1025
315
  },
316
  {
317
  "epoch": 0.13125,
318
- "grad_norm": 6.671748638153076,
319
  "learning_rate": 5.793333333333334e-06,
320
- "loss": 0.2208,
321
  "step": 1050
322
  },
323
  {
324
  "epoch": 0.134375,
325
- "grad_norm": 6.533191680908203,
326
  "learning_rate": 5.7725e-06,
327
- "loss": 0.1944,
328
  "step": 1075
329
  },
330
  {
331
  "epoch": 0.1375,
332
- "grad_norm": 4.43493127822876,
333
  "learning_rate": 5.751666666666667e-06,
334
- "loss": 0.1816,
335
  "step": 1100
336
  },
337
  {
338
  "epoch": 0.140625,
339
- "grad_norm": 5.601134777069092,
340
  "learning_rate": 5.730833333333334e-06,
341
- "loss": 0.1884,
342
  "step": 1125
343
  },
344
  {
345
  "epoch": 0.14375,
346
- "grad_norm": 4.886395454406738,
347
  "learning_rate": 5.71e-06,
348
- "loss": 0.1712,
349
  "step": 1150
350
  },
351
  {
352
  "epoch": 0.146875,
353
- "grad_norm": 5.513830184936523,
354
  "learning_rate": 5.689166666666667e-06,
355
- "loss": 0.1835,
356
  "step": 1175
357
  },
358
  {
359
  "epoch": 0.15,
360
- "grad_norm": 6.305610179901123,
361
  "learning_rate": 5.668333333333334e-06,
362
- "loss": 0.2221,
363
  "step": 1200
364
  },
365
  {
366
  "epoch": 0.153125,
367
- "grad_norm": 6.482845306396484,
368
  "learning_rate": 5.6475e-06,
369
- "loss": 0.2138,
370
  "step": 1225
371
  },
372
  {
373
  "epoch": 0.15625,
374
- "grad_norm": 6.316329002380371,
375
  "learning_rate": 5.626666666666667e-06,
376
- "loss": 0.2338,
377
  "step": 1250
378
  },
379
  {
380
  "epoch": 0.159375,
381
- "grad_norm": 6.650278091430664,
382
  "learning_rate": 5.605833333333334e-06,
383
- "loss": 0.2231,
384
  "step": 1275
385
  },
386
  {
387
  "epoch": 0.1625,
388
- "grad_norm": 5.289668560028076,
389
  "learning_rate": 5.585e-06,
390
- "loss": 0.2018,
391
  "step": 1300
392
  },
393
  {
394
  "epoch": 0.165625,
395
- "grad_norm": 6.051737308502197,
396
  "learning_rate": 5.564166666666667e-06,
397
- "loss": 0.2092,
398
  "step": 1325
399
  },
400
  {
401
  "epoch": 0.16875,
402
- "grad_norm": 4.950199604034424,
403
  "learning_rate": 5.543333333333333e-06,
404
- "loss": 0.1934,
405
  "step": 1350
406
  },
407
  {
408
  "epoch": 0.171875,
409
- "grad_norm": 5.296252727508545,
410
  "learning_rate": 5.522500000000001e-06,
411
- "loss": 0.1806,
412
  "step": 1375
413
  },
414
  {
415
  "epoch": 0.175,
416
- "grad_norm": 5.999615669250488,
417
  "learning_rate": 5.501666666666667e-06,
418
- "loss": 0.1782,
419
  "step": 1400
420
  },
421
  {
422
  "epoch": 0.178125,
423
- "grad_norm": 3.7982959747314453,
424
  "learning_rate": 5.4808333333333335e-06,
425
- "loss": 0.1712,
426
  "step": 1425
427
  },
428
  {
429
  "epoch": 0.18125,
430
- "grad_norm": 6.798803806304932,
431
  "learning_rate": 5.46e-06,
432
- "loss": 0.1972,
433
  "step": 1450
434
  },
435
  {
436
  "epoch": 0.184375,
437
- "grad_norm": 5.545141220092773,
438
  "learning_rate": 5.439166666666667e-06,
439
- "loss": 0.2153,
440
  "step": 1475
441
  },
442
  {
443
  "epoch": 0.1875,
444
- "grad_norm": 5.619574546813965,
445
  "learning_rate": 5.418333333333334e-06,
446
- "loss": 0.2353,
447
  "step": 1500
448
  },
449
  {
450
  "epoch": 0.1875,
451
- "eval_loss": 0.20496371388435364,
452
- "eval_runtime": 2428.1499,
453
- "eval_samples_per_second": 5.613,
454
- "eval_steps_per_second": 0.702,
455
- "eval_wer": 14.222763750961926,
456
  "step": 1500
457
  },
458
  {
459
  "epoch": 0.190625,
460
- "grad_norm": 6.522052764892578,
461
  "learning_rate": 5.3975e-06,
462
- "loss": 0.2049,
463
  "step": 1525
464
  },
465
  {
466
  "epoch": 0.19375,
467
- "grad_norm": 5.805539608001709,
468
  "learning_rate": 5.376666666666666e-06,
469
- "loss": 0.1931,
470
  "step": 1550
471
  },
472
  {
473
  "epoch": 0.196875,
474
- "grad_norm": 5.707961082458496,
475
  "learning_rate": 5.355833333333334e-06,
476
- "loss": 0.1944,
477
  "step": 1575
478
  },
479
  {
480
  "epoch": 0.2,
481
- "grad_norm": 6.126225471496582,
482
  "learning_rate": 5.335000000000001e-06,
483
- "loss": 0.225,
484
  "step": 1600
485
  },
486
  {
487
  "epoch": 0.203125,
488
- "grad_norm": 5.682012557983398,
489
  "learning_rate": 5.3141666666666665e-06,
490
- "loss": 0.2225,
491
  "step": 1625
492
  },
493
  {
494
  "epoch": 0.20625,
495
- "grad_norm": 5.529600620269775,
496
  "learning_rate": 5.293333333333333e-06,
497
- "loss": 0.2154,
498
  "step": 1650
499
  },
500
  {
501
  "epoch": 0.209375,
502
- "grad_norm": 8.373395919799805,
503
  "learning_rate": 5.272500000000001e-06,
504
- "loss": 0.1866,
505
  "step": 1675
506
  },
507
  {
508
  "epoch": 0.2125,
509
- "grad_norm": 4.936291694641113,
510
  "learning_rate": 5.2516666666666675e-06,
511
- "loss": 0.1615,
512
  "step": 1700
513
  },
514
  {
515
- "epoch": 1.002625,
516
- "grad_norm": 4.893776893615723,
517
  "learning_rate": 5.230833333333333e-06,
518
- "loss": 0.172,
519
  "step": 1725
520
  },
521
  {
522
- "epoch": 1.00575,
523
- "grad_norm": 4.98813533782959,
524
  "learning_rate": 5.21e-06,
525
- "loss": 0.1591,
526
  "step": 1750
527
  },
528
  {
529
- "epoch": 1.008875,
530
- "grad_norm": 6.166538715362549,
531
  "learning_rate": 5.189166666666667e-06,
532
- "loss": 0.1712,
533
  "step": 1775
534
  },
535
  {
536
- "epoch": 1.012,
537
- "grad_norm": 4.1829071044921875,
538
  "learning_rate": 5.1683333333333335e-06,
539
- "loss": 0.1908,
540
  "step": 1800
541
  },
542
  {
543
- "epoch": 1.015125,
544
- "grad_norm": 5.497808456420898,
545
  "learning_rate": 5.1475e-06,
546
- "loss": 0.1791,
547
  "step": 1825
548
  },
549
  {
550
- "epoch": 1.01825,
551
- "grad_norm": 4.581858158111572,
552
  "learning_rate": 5.126666666666667e-06,
553
- "loss": 0.1685,
554
  "step": 1850
555
  },
556
  {
557
- "epoch": 1.021375,
558
- "grad_norm": 4.6282267570495605,
559
  "learning_rate": 5.105833333333334e-06,
560
- "loss": 0.1691,
561
  "step": 1875
562
  },
563
  {
564
- "epoch": 1.0245,
565
- "grad_norm": 5.748936653137207,
566
  "learning_rate": 5.0850000000000004e-06,
567
- "loss": 0.1577,
568
  "step": 1900
569
  },
570
  {
571
- "epoch": 1.027625,
572
- "grad_norm": 4.339770793914795,
573
  "learning_rate": 5.064166666666667e-06,
574
- "loss": 0.168,
575
  "step": 1925
576
  },
577
  {
578
- "epoch": 1.03075,
579
- "grad_norm": 3.72379469871521,
580
  "learning_rate": 5.043333333333333e-06,
581
- "loss": 0.1616,
582
  "step": 1950
583
  },
584
  {
585
- "epoch": 1.033875,
586
- "grad_norm": 5.169766902923584,
587
  "learning_rate": 5.0225e-06,
588
- "loss": 0.1663,
589
  "step": 1975
590
  },
591
  {
592
- "epoch": 1.037,
593
- "grad_norm": 6.120935440063477,
594
  "learning_rate": 5.001666666666667e-06,
595
- "loss": 0.1569,
596
  "step": 2000
597
  },
598
  {
599
- "epoch": 1.037,
600
- "eval_loss": 0.181504026055336,
601
- "eval_runtime": 2441.5281,
602
- "eval_samples_per_second": 5.583,
603
- "eval_steps_per_second": 0.698,
604
- "eval_wer": 12.286085968705338,
605
  "step": 2000
606
  },
607
  {
608
- "epoch": 1.040125,
609
- "grad_norm": 3.2327628135681152,
610
  "learning_rate": 4.980833333333334e-06,
611
- "loss": 0.1526,
612
  "step": 2025
613
  },
614
  {
615
- "epoch": 1.04325,
616
- "grad_norm": 4.2089948654174805,
617
  "learning_rate": 4.96e-06,
618
- "loss": 0.1427,
619
  "step": 2050
620
  },
621
  {
622
- "epoch": 1.046375,
623
- "grad_norm": 4.837276458740234,
624
  "learning_rate": 4.939166666666667e-06,
625
- "loss": 0.1429,
626
  "step": 2075
627
  },
628
  {
629
- "epoch": 1.0495,
630
- "grad_norm": 4.590527057647705,
631
  "learning_rate": 4.918333333333334e-06,
632
- "loss": 0.1306,
633
  "step": 2100
634
  },
635
  {
636
- "epoch": 1.052625,
637
- "grad_norm": 5.821957111358643,
638
  "learning_rate": 4.8975e-06,
639
- "loss": 0.1504,
640
  "step": 2125
641
  },
642
  {
643
- "epoch": 1.05575,
644
- "grad_norm": 4.136687278747559,
645
  "learning_rate": 4.876666666666667e-06,
646
- "loss": 0.1431,
647
  "step": 2150
648
  },
649
  {
650
- "epoch": 1.058875,
651
- "grad_norm": 4.310347080230713,
652
  "learning_rate": 4.8558333333333336e-06,
653
- "loss": 0.1364,
654
  "step": 2175
655
  },
656
  {
657
- "epoch": 1.062,
658
- "grad_norm": 4.1295485496521,
659
  "learning_rate": 4.835e-06,
660
- "loss": 0.1272,
661
  "step": 2200
662
  },
663
  {
664
- "epoch": 1.065125,
665
- "grad_norm": 4.432501316070557,
666
  "learning_rate": 4.814166666666667e-06,
667
- "loss": 0.1256,
668
  "step": 2225
669
  },
670
  {
671
- "epoch": 1.06825,
672
- "grad_norm": 3.792029619216919,
673
  "learning_rate": 4.793333333333334e-06,
674
- "loss": 0.1322,
675
  "step": 2250
676
  },
677
  {
678
- "epoch": 1.071375,
679
- "grad_norm": 4.919213771820068,
680
  "learning_rate": 4.7725e-06,
681
- "loss": 0.1477,
682
  "step": 2275
683
  },
684
  {
685
- "epoch": 1.0745,
686
- "grad_norm": 5.92459774017334,
687
  "learning_rate": 4.751666666666666e-06,
688
- "loss": 0.1518,
689
  "step": 2300
690
  },
691
  {
692
- "epoch": 1.077625,
693
- "grad_norm": 5.6381635665893555,
694
  "learning_rate": 4.730833333333334e-06,
695
- "loss": 0.1489,
696
  "step": 2325
697
  },
698
  {
699
- "epoch": 1.08075,
700
- "grad_norm": 4.690910816192627,
701
  "learning_rate": 4.710000000000001e-06,
702
- "loss": 0.1216,
703
  "step": 2350
704
  },
705
  {
706
- "epoch": 1.083875,
707
- "grad_norm": 3.847102165222168,
708
  "learning_rate": 4.6891666666666665e-06,
709
- "loss": 0.1243,
710
  "step": 2375
711
  },
712
  {
713
- "epoch": 1.087,
714
- "grad_norm": 2.3183677196502686,
715
  "learning_rate": 4.668333333333333e-06,
716
- "loss": 0.1301,
717
  "step": 2400
718
  },
719
  {
720
- "epoch": 1.090125,
721
- "grad_norm": 3.9808385372161865,
722
  "learning_rate": 4.647500000000001e-06,
723
- "loss": 0.1289,
724
  "step": 2425
725
  },
726
  {
727
- "epoch": 1.09325,
728
- "grad_norm": 4.1279616355896,
729
  "learning_rate": 4.626666666666667e-06,
730
- "loss": 0.119,
731
  "step": 2450
732
  },
733
  {
734
- "epoch": 1.096375,
735
- "grad_norm": 4.029735088348389,
736
  "learning_rate": 4.605833333333333e-06,
737
- "loss": 0.1235,
738
  "step": 2475
739
  },
740
  {
741
- "epoch": 1.0995,
742
- "grad_norm": 5.72581148147583,
743
  "learning_rate": 4.585e-06,
744
- "loss": 0.125,
745
  "step": 2500
746
  },
747
  {
748
- "epoch": 1.0995,
749
- "eval_loss": 0.16921907663345337,
750
- "eval_runtime": 2457.6523,
751
- "eval_samples_per_second": 5.546,
752
- "eval_steps_per_second": 0.693,
753
- "eval_wer": 11.114368426838652,
754
  "step": 2500
755
  },
756
  {
757
- "epoch": 1.102625,
758
- "grad_norm": 4.8854875564575195,
759
  "learning_rate": 4.564166666666667e-06,
760
- "loss": 0.122,
761
  "step": 2525
762
  },
763
  {
764
- "epoch": 1.10575,
765
- "grad_norm": 3.682393789291382,
766
  "learning_rate": 4.543333333333334e-06,
767
- "loss": 0.1169,
768
  "step": 2550
769
  },
770
  {
771
- "epoch": 1.108875,
772
- "grad_norm": 3.8288307189941406,
773
  "learning_rate": 4.5225e-06,
774
- "loss": 0.1184,
775
  "step": 2575
776
  },
777
  {
778
- "epoch": 1.112,
779
- "grad_norm": 5.098357677459717,
780
  "learning_rate": 4.501666666666667e-06,
781
- "loss": 0.1235,
782
  "step": 2600
783
  },
784
  {
785
- "epoch": 1.115125,
786
- "grad_norm": 3.420466899871826,
787
- "learning_rate": 4.480833333333334e-06,
788
- "loss": 0.1277,
789
  "step": 2625
790
  },
791
  {
792
- "epoch": 1.11825,
793
- "grad_norm": 4.542791843414307,
794
- "learning_rate": 4.4600000000000005e-06,
795
- "loss": 0.1214,
796
  "step": 2650
797
  },
798
  {
799
- "epoch": 1.121375,
800
- "grad_norm": 3.245755195617676,
801
- "learning_rate": 4.439166666666667e-06,
802
- "loss": 0.1109,
803
  "step": 2675
804
  },
805
  {
806
- "epoch": 1.1245,
807
- "grad_norm": 5.041585445404053,
808
- "learning_rate": 4.418333333333333e-06,
809
- "loss": 0.1295,
810
  "step": 2700
811
  },
812
  {
813
- "epoch": 1.127625,
814
- "grad_norm": 4.113171577453613,
815
- "learning_rate": 4.3975e-06,
816
- "loss": 0.1153,
817
  "step": 2725
818
  },
819
  {
820
- "epoch": 1.13075,
821
- "grad_norm": 5.032025337219238,
822
- "learning_rate": 4.376666666666667e-06,
823
- "loss": 0.1204,
824
  "step": 2750
825
  },
826
  {
827
- "epoch": 1.133875,
828
- "grad_norm": 5.080983638763428,
829
- "learning_rate": 4.355833333333333e-06,
830
- "loss": 0.1213,
831
  "step": 2775
832
  },
833
  {
834
- "epoch": 1.137,
835
- "grad_norm": 4.304152011871338,
836
- "learning_rate": 4.335e-06,
837
- "loss": 0.1069,
838
  "step": 2800
839
  },
840
  {
841
- "epoch": 1.140125,
842
- "grad_norm": 3.1360485553741455,
843
- "learning_rate": 4.314166666666667e-06,
844
- "loss": 0.1167,
845
  "step": 2825
846
  },
847
  {
848
- "epoch": 1.14325,
849
- "grad_norm": 4.444480895996094,
850
- "learning_rate": 4.2933333333333334e-06,
851
- "loss": 0.1117,
852
  "step": 2850
853
  },
854
  {
855
- "epoch": 1.146375,
856
- "grad_norm": 3.8886942863464355,
857
- "learning_rate": 4.2725e-06,
858
- "loss": 0.1134,
859
  "step": 2875
860
  },
861
  {
862
- "epoch": 1.1495,
863
- "grad_norm": 4.360485076904297,
864
- "learning_rate": 4.251666666666667e-06,
865
- "loss": 0.1334,
866
  "step": 2900
867
  },
868
  {
869
- "epoch": 1.152625,
870
- "grad_norm": 5.376945972442627,
871
- "learning_rate": 4.230833333333334e-06,
872
- "loss": 0.1163,
873
  "step": 2925
874
  },
875
  {
876
- "epoch": 1.15575,
877
- "grad_norm": 4.359200954437256,
878
- "learning_rate": 4.21e-06,
879
- "loss": 0.1351,
880
  "step": 2950
881
  },
882
  {
883
- "epoch": 1.158875,
884
- "grad_norm": 5.360095977783203,
885
- "learning_rate": 4.189166666666667e-06,
886
- "loss": 0.1113,
887
  "step": 2975
888
  },
889
  {
890
- "epoch": 1.162,
891
- "grad_norm": 3.6014363765716553,
892
- "learning_rate": 4.168333333333334e-06,
893
- "loss": 0.12,
894
  "step": 3000
895
  },
896
  {
897
- "epoch": 1.162,
898
- "eval_loss": 0.15999051928520203,
899
- "eval_runtime": 2448.4453,
900
- "eval_samples_per_second": 5.567,
901
- "eval_steps_per_second": 0.696,
902
- "eval_wer": 10.697533804829785,
903
  "step": 3000
904
  },
905
  {
906
- "epoch": 1.165125,
907
- "grad_norm": 4.150473594665527,
908
- "learning_rate": 4.1475e-06,
909
- "loss": 0.1196,
910
  "step": 3025
911
  },
912
  {
913
- "epoch": 1.16825,
914
- "grad_norm": 4.962148666381836,
915
- "learning_rate": 4.126666666666667e-06,
916
- "loss": 0.1261,
917
  "step": 3050
918
  },
919
  {
920
- "epoch": 1.171375,
921
- "grad_norm": 2.9675393104553223,
922
- "learning_rate": 4.105833333333334e-06,
923
- "loss": 0.1087,
924
  "step": 3075
925
  },
926
  {
927
- "epoch": 1.1745,
928
- "grad_norm": 5.842774868011475,
929
- "learning_rate": 4.085e-06,
930
- "loss": 0.1067,
931
  "step": 3100
932
  },
933
  {
934
- "epoch": 1.177625,
935
- "grad_norm": 5.209335803985596,
936
- "learning_rate": 4.064166666666667e-06,
937
- "loss": 0.114,
938
  "step": 3125
939
  },
940
  {
941
- "epoch": 1.18075,
942
- "grad_norm": 4.343747138977051,
943
- "learning_rate": 4.043333333333333e-06,
944
- "loss": 0.1398,
945
  "step": 3150
946
  },
947
  {
948
- "epoch": 1.183875,
949
- "grad_norm": 4.5666890144348145,
950
- "learning_rate": 4.0225e-06,
951
- "loss": 0.112,
952
  "step": 3175
953
  },
954
  {
955
- "epoch": 1.187,
956
- "grad_norm": 3.5483310222625732,
957
- "learning_rate": 4.001666666666667e-06,
958
- "loss": 0.1041,
959
  "step": 3200
960
  },
961
  {
962
- "epoch": 1.190125,
963
- "grad_norm": 5.006927013397217,
964
- "learning_rate": 3.9808333333333335e-06,
965
- "loss": 0.1184,
966
  "step": 3225
967
  },
968
  {
969
- "epoch": 1.19325,
970
- "grad_norm": 5.658267498016357,
971
- "learning_rate": 3.96e-06,
972
- "loss": 0.1141,
973
  "step": 3250
974
  },
975
  {
976
- "epoch": 1.196375,
977
- "grad_norm": 2.7597854137420654,
978
- "learning_rate": 3.939166666666667e-06,
979
- "loss": 0.1107,
980
  "step": 3275
981
  },
982
  {
983
- "epoch": 1.1995,
984
- "grad_norm": 4.687257289886475,
985
- "learning_rate": 3.918333333333334e-06,
986
- "loss": 0.1223,
987
  "step": 3300
988
  },
989
  {
990
- "epoch": 1.202625,
991
- "grad_norm": 5.1347336769104,
992
- "learning_rate": 3.8975e-06,
993
- "loss": 0.1277,
994
  "step": 3325
995
  },
996
  {
997
- "epoch": 1.20575,
998
- "grad_norm": 7.7792067527771,
999
- "learning_rate": 3.876666666666666e-06,
1000
- "loss": 0.1293,
1001
  "step": 3350
1002
  },
1003
  {
1004
- "epoch": 1.208875,
1005
- "grad_norm": 3.461538791656494,
1006
- "learning_rate": 3.855833333333334e-06,
1007
- "loss": 0.1235,
1008
  "step": 3375
1009
  },
1010
  {
1011
- "epoch": 1.212,
1012
- "grad_norm": 3.458538055419922,
1013
- "learning_rate": 3.8350000000000006e-06,
1014
- "loss": 0.1094,
1015
  "step": 3400
1016
  },
1017
  {
1018
- "epoch": 2.002125,
1019
- "grad_norm": 6.5652313232421875,
1020
- "learning_rate": 3.8141666666666664e-06,
1021
- "loss": 0.0766,
1022
  "step": 3425
1023
  },
1024
  {
1025
- "epoch": 2.00525,
1026
- "grad_norm": 2.599691152572632,
1027
- "learning_rate": 3.7933333333333336e-06,
1028
- "loss": 0.0666,
1029
  "step": 3450
1030
  },
1031
  {
1032
- "epoch": 2.008375,
1033
- "grad_norm": 5.211915493011475,
1034
- "learning_rate": 3.7725000000000003e-06,
1035
- "loss": 0.0635,
1036
  "step": 3475
1037
  },
1038
  {
1039
- "epoch": 2.0115,
1040
- "grad_norm": 3.1992459297180176,
1041
- "learning_rate": 3.7516666666666666e-06,
1042
- "loss": 0.069,
1043
  "step": 3500
1044
  },
1045
  {
1046
- "epoch": 2.0115,
1047
- "eval_loss": 0.15404893457889557,
1048
- "eval_runtime": 2458.0949,
1049
- "eval_samples_per_second": 5.545,
1050
- "eval_steps_per_second": 0.693,
1051
- "eval_wer": 9.764923595587966,
1052
  "step": 3500
1053
  },
1054
  {
1055
- "epoch": 2.014625,
1056
- "grad_norm": 3.740165948867798,
1057
- "learning_rate": 3.7308333333333333e-06,
1058
- "loss": 0.0699,
1059
  "step": 3525
1060
  },
1061
  {
1062
- "epoch": 2.01775,
1063
- "grad_norm": 2.624305009841919,
1064
- "learning_rate": 3.7100000000000005e-06,
1065
- "loss": 0.0644,
1066
  "step": 3550
1067
  },
1068
  {
1069
- "epoch": 2.020875,
1070
- "grad_norm": 3.66835355758667,
1071
- "learning_rate": 3.689166666666667e-06,
1072
- "loss": 0.0552,
1073
  "step": 3575
1074
  },
1075
  {
1076
- "epoch": 2.024,
1077
- "grad_norm": 3.7992517948150635,
1078
- "learning_rate": 3.6683333333333335e-06,
1079
- "loss": 0.0715,
1080
  "step": 3600
1081
  },
1082
  {
1083
- "epoch": 2.027125,
1084
- "grad_norm": 3.4328665733337402,
1085
- "learning_rate": 3.6475000000000002e-06,
1086
- "loss": 0.0642,
1087
  "step": 3625
1088
  },
1089
  {
1090
- "epoch": 2.03025,
1091
- "grad_norm": 3.206305503845215,
1092
- "learning_rate": 3.626666666666667e-06,
1093
- "loss": 0.068,
1094
  "step": 3650
1095
  },
1096
  {
1097
- "epoch": 2.033375,
1098
- "grad_norm": 3.6906914710998535,
1099
- "learning_rate": 3.6058333333333333e-06,
1100
- "loss": 0.065,
1101
  "step": 3675
1102
  },
1103
  {
1104
- "epoch": 2.0365,
1105
- "grad_norm": 3.6564929485321045,
1106
- "learning_rate": 3.585e-06,
1107
- "loss": 0.0634,
1108
  "step": 3700
1109
  },
1110
  {
1111
- "epoch": 2.039625,
1112
- "grad_norm": 2.8516416549682617,
1113
- "learning_rate": 3.564166666666667e-06,
1114
- "loss": 0.0632,
1115
  "step": 3725
1116
  },
1117
  {
1118
- "epoch": 2.04275,
1119
- "grad_norm": 2.905165672302246,
1120
- "learning_rate": 3.5433333333333334e-06,
1121
- "loss": 0.0528,
1122
  "step": 3750
1123
  },
1124
  {
1125
- "epoch": 2.045875,
1126
- "grad_norm": 2.2724170684814453,
1127
- "learning_rate": 3.5225e-06,
1128
- "loss": 0.0604,
1129
  "step": 3775
1130
  },
1131
  {
1132
- "epoch": 2.049,
1133
- "grad_norm": 2.6760237216949463,
1134
- "learning_rate": 3.501666666666667e-06,
1135
- "loss": 0.0528,
1136
  "step": 3800
1137
  },
1138
  {
1139
- "epoch": 2.052125,
1140
- "grad_norm": 4.052576541900635,
1141
- "learning_rate": 3.480833333333333e-06,
1142
- "loss": 0.0535,
1143
  "step": 3825
1144
  },
1145
  {
1146
- "epoch": 2.05525,
1147
- "grad_norm": 3.6434435844421387,
1148
- "learning_rate": 3.46e-06,
1149
- "loss": 0.0499,
1150
  "step": 3850
1151
  },
1152
  {
1153
- "epoch": 2.058375,
1154
- "grad_norm": 2.612650156021118,
1155
- "learning_rate": 3.439166666666667e-06,
1156
- "loss": 0.0489,
1157
  "step": 3875
1158
  },
1159
  {
1160
- "epoch": 2.0615,
1161
- "grad_norm": 1.6679494380950928,
1162
- "learning_rate": 3.4183333333333338e-06,
1163
- "loss": 0.0475,
1164
  "step": 3900
1165
  },
1166
  {
1167
- "epoch": 2.064625,
1168
- "grad_norm": 2.7951669692993164,
1169
- "learning_rate": 3.3975e-06,
1170
- "loss": 0.0517,
1171
  "step": 3925
1172
  },
1173
  {
1174
- "epoch": 2.06775,
1175
- "grad_norm": 2.6957435607910156,
1176
- "learning_rate": 3.376666666666667e-06,
1177
- "loss": 0.0508,
1178
  "step": 3950
1179
  },
1180
  {
1181
- "epoch": 2.070875,
1182
- "grad_norm": 2.930025577545166,
1183
- "learning_rate": 3.355833333333334e-06,
1184
- "loss": 0.0554,
1185
  "step": 3975
1186
  },
1187
  {
1188
- "epoch": 2.074,
1189
- "grad_norm": 2.0811214447021484,
1190
- "learning_rate": 3.335e-06,
1191
- "loss": 0.0606,
1192
  "step": 4000
1193
  },
1194
  {
1195
- "epoch": 2.074,
1196
- "eval_loss": 0.1549645960330963,
1197
- "eval_runtime": 2475.9667,
1198
- "eval_samples_per_second": 5.505,
1199
- "eval_steps_per_second": 0.688,
1200
- "eval_wer": 9.819890798490235,
1201
  "step": 4000
1202
  },
1203
  {
1204
- "epoch": 2.077125,
1205
- "grad_norm": 2.389423370361328,
1206
- "learning_rate": 3.314166666666667e-06,
1207
- "loss": 0.0551,
1208
  "step": 4025
1209
  },
1210
  {
1211
- "epoch": 2.08025,
1212
- "grad_norm": 1.8350708484649658,
1213
- "learning_rate": 3.2933333333333337e-06,
1214
- "loss": 0.0501,
1215
  "step": 4050
1216
  },
1217
  {
1218
- "epoch": 2.083375,
1219
- "grad_norm": 3.053312063217163,
1220
- "learning_rate": 3.2725e-06,
1221
- "loss": 0.0526,
1222
  "step": 4075
1223
  },
1224
  {
1225
- "epoch": 2.0865,
1226
- "grad_norm": 3.489823341369629,
1227
- "learning_rate": 3.2516666666666667e-06,
1228
- "loss": 0.0476,
1229
  "step": 4100
1230
  },
1231
  {
1232
- "epoch": 2.089625,
1233
- "grad_norm": 3.742950916290283,
1234
- "learning_rate": 3.2308333333333335e-06,
1235
- "loss": 0.0614,
1236
  "step": 4125
1237
  },
1238
  {
1239
- "epoch": 2.09275,
1240
- "grad_norm": 1.9854848384857178,
1241
- "learning_rate": 3.2099999999999998e-06,
1242
- "loss": 0.0487,
1243
  "step": 4150
1244
  },
1245
  {
1246
- "epoch": 2.095875,
1247
- "grad_norm": 2.3751885890960693,
1248
- "learning_rate": 3.1891666666666665e-06,
1249
- "loss": 0.0496,
1250
  "step": 4175
1251
  },
1252
  {
1253
- "epoch": 2.099,
1254
- "grad_norm": 2.182997703552246,
1255
- "learning_rate": 3.1683333333333336e-06,
1256
- "loss": 0.0442,
1257
  "step": 4200
1258
  },
1259
  {
1260
- "epoch": 2.102125,
1261
- "grad_norm": 1.963120937347412,
1262
- "learning_rate": 3.1475000000000004e-06,
1263
- "loss": 0.0437,
1264
  "step": 4225
1265
  },
1266
  {
1267
- "epoch": 2.10525,
1268
- "grad_norm": 1.7127807140350342,
1269
- "learning_rate": 3.1266666666666667e-06,
1270
- "loss": 0.0479,
1271
  "step": 4250
1272
  },
1273
  {
1274
- "epoch": 2.108375,
1275
- "grad_norm": 3.277400016784668,
1276
- "learning_rate": 3.1058333333333334e-06,
1277
- "loss": 0.0535,
1278
  "step": 4275
1279
  },
1280
  {
1281
- "epoch": 2.1115,
1282
- "grad_norm": 3.1404621601104736,
1283
- "learning_rate": 3.085e-06,
1284
- "loss": 0.0431,
1285
  "step": 4300
1286
  },
1287
  {
1288
- "epoch": 2.114625,
1289
- "grad_norm": 3.8738794326782227,
1290
- "learning_rate": 3.064166666666667e-06,
1291
- "loss": 0.0436,
1292
  "step": 4325
1293
  },
1294
  {
1295
- "epoch": 2.11775,
1296
- "grad_norm": 2.9267311096191406,
1297
- "learning_rate": 3.0433333333333336e-06,
1298
- "loss": 0.0496,
1299
  "step": 4350
1300
  },
1301
  {
1302
- "epoch": 2.120875,
1303
- "grad_norm": 4.0710320472717285,
1304
- "learning_rate": 3.0225e-06,
1305
- "loss": 0.047,
1306
  "step": 4375
1307
  },
1308
  {
1309
- "epoch": 2.124,
1310
- "grad_norm": 2.9265050888061523,
1311
- "learning_rate": 3.001666666666667e-06,
1312
- "loss": 0.0434,
1313
  "step": 4400
1314
  },
1315
  {
1316
- "epoch": 2.127125,
1317
- "grad_norm": 2.666417121887207,
1318
- "learning_rate": 2.9808333333333333e-06,
1319
- "loss": 0.0357,
1320
  "step": 4425
1321
  },
1322
  {
1323
- "epoch": 2.13025,
1324
- "grad_norm": 3.082674741744995,
1325
- "learning_rate": 2.9600000000000005e-06,
1326
- "loss": 0.0486,
1327
  "step": 4450
1328
  },
1329
  {
1330
- "epoch": 2.133375,
1331
- "grad_norm": 2.291168689727783,
1332
- "learning_rate": 2.9391666666666668e-06,
1333
- "loss": 0.046,
1334
  "step": 4475
1335
  },
1336
  {
1337
- "epoch": 2.1365,
1338
- "grad_norm": 2.878455877304077,
1339
- "learning_rate": 2.9183333333333335e-06,
1340
- "loss": 0.0434,
1341
  "step": 4500
1342
  },
1343
  {
1344
- "epoch": 2.1365,
1345
- "eval_loss": 0.15800228714942932,
1346
- "eval_runtime": 2430.3639,
1347
- "eval_samples_per_second": 5.608,
1348
- "eval_steps_per_second": 0.701,
1349
- "eval_wer": 9.457107259335263,
1350
  "step": 4500
1351
  },
1352
  {
1353
- "epoch": 2.139625,
1354
- "grad_norm": 2.2872824668884277,
1355
- "learning_rate": 2.8975e-06,
1356
- "loss": 0.0507,
1357
  "step": 4525
1358
  },
1359
  {
1360
- "epoch": 2.14275,
1361
- "grad_norm": 1.6797173023223877,
1362
- "learning_rate": 2.876666666666667e-06,
1363
- "loss": 0.044,
1364
  "step": 4550
1365
  },
1366
  {
1367
- "epoch": 2.145875,
1368
- "grad_norm": 2.690349817276001,
1369
- "learning_rate": 2.8558333333333337e-06,
1370
- "loss": 0.041,
1371
  "step": 4575
1372
  },
1373
  {
1374
- "epoch": 2.149,
1375
- "grad_norm": 2.515873670578003,
1376
- "learning_rate": 2.835e-06,
1377
- "loss": 0.0503,
1378
  "step": 4600
1379
  },
1380
  {
1381
- "epoch": 2.152125,
1382
- "grad_norm": 3.210235595703125,
1383
- "learning_rate": 2.8141666666666667e-06,
1384
- "loss": 0.0539,
1385
  "step": 4625
1386
  },
1387
  {
1388
- "epoch": 2.15525,
1389
- "grad_norm": 2.19775128364563,
1390
- "learning_rate": 2.7933333333333334e-06,
1391
- "loss": 0.0486,
1392
  "step": 4650
1393
  },
1394
  {
1395
- "epoch": 2.158375,
1396
- "grad_norm": 2.8275535106658936,
1397
- "learning_rate": 2.7725e-06,
1398
- "loss": 0.0455,
1399
  "step": 4675
1400
  },
1401
  {
1402
- "epoch": 2.1615,
1403
- "grad_norm": 2.911288022994995,
1404
- "learning_rate": 2.7516666666666664e-06,
1405
- "loss": 0.0495,
1406
  "step": 4700
1407
  },
1408
  {
1409
- "epoch": 2.164625,
1410
- "grad_norm": 3.446293592453003,
1411
- "learning_rate": 2.7308333333333336e-06,
1412
- "loss": 0.0527,
1413
  "step": 4725
1414
  },
1415
  {
1416
- "epoch": 2.16775,
1417
- "grad_norm": 2.1223082542419434,
1418
- "learning_rate": 2.71e-06,
1419
- "loss": 0.0437,
1420
  "step": 4750
1421
  },
1422
  {
1423
- "epoch": 2.170875,
1424
- "grad_norm": 2.4212393760681152,
1425
- "learning_rate": 2.689166666666667e-06,
1426
- "loss": 0.0504,
1427
  "step": 4775
1428
  },
1429
  {
1430
- "epoch": 2.174,
1431
- "grad_norm": 2.440826177597046,
1432
- "learning_rate": 2.6683333333333333e-06,
1433
- "loss": 0.0432,
1434
  "step": 4800
1435
  },
1436
  {
1437
- "epoch": 2.177125,
1438
- "grad_norm": 2.3568456172943115,
1439
- "learning_rate": 2.6475e-06,
1440
- "loss": 0.0404,
1441
  "step": 4825
1442
  },
1443
  {
1444
- "epoch": 2.18025,
1445
- "grad_norm": 2.638301372528076,
1446
- "learning_rate": 2.6266666666666668e-06,
1447
- "loss": 0.0528,
1448
  "step": 4850
1449
  },
1450
  {
1451
- "epoch": 2.183375,
1452
- "grad_norm": 2.1262662410736084,
1453
- "learning_rate": 2.6058333333333335e-06,
1454
- "loss": 0.0468,
1455
  "step": 4875
1456
  },
1457
  {
1458
- "epoch": 2.1865,
1459
- "grad_norm": 1.8121278285980225,
1460
- "learning_rate": 2.5850000000000002e-06,
1461
- "loss": 0.0414,
1462
  "step": 4900
1463
  },
1464
  {
1465
- "epoch": 2.189625,
1466
- "grad_norm": 3.5271337032318115,
1467
- "learning_rate": 2.564166666666667e-06,
1468
- "loss": 0.0477,
1469
  "step": 4925
1470
  },
1471
  {
1472
- "epoch": 2.19275,
1473
- "grad_norm": 2.0672607421875,
1474
- "learning_rate": 2.5433333333333333e-06,
1475
- "loss": 0.0402,
1476
  "step": 4950
1477
  },
1478
  {
1479
- "epoch": 2.195875,
1480
- "grad_norm": 2.3378803730010986,
1481
- "learning_rate": 2.5225000000000004e-06,
1482
- "loss": 0.0458,
1483
  "step": 4975
1484
  },
1485
  {
1486
- "epoch": 2.199,
1487
- "grad_norm": 2.3618690967559814,
1488
- "learning_rate": 2.5016666666666667e-06,
1489
- "loss": 0.0455,
1490
  "step": 5000
1491
  },
1492
  {
1493
- "epoch": 2.199,
1494
- "eval_loss": 0.15326862037181854,
1495
- "eval_runtime": 2431.3758,
1496
- "eval_samples_per_second": 5.606,
1497
- "eval_steps_per_second": 0.701,
1498
- "eval_wer": 9.14104584264722,
1499
  "step": 5000
1500
  },
1501
  {
1502
- "epoch": 2.202125,
1503
- "grad_norm": 3.066169261932373,
1504
- "learning_rate": 2.4808333333333334e-06,
1505
- "loss": 0.0514,
1506
  "step": 5025
1507
  },
1508
  {
1509
- "epoch": 2.20525,
1510
- "grad_norm": 2.8991472721099854,
1511
- "learning_rate": 2.46e-06,
1512
- "loss": 0.0454,
1513
  "step": 5050
1514
  },
1515
  {
1516
- "epoch": 2.208375,
1517
- "grad_norm": 2.641075611114502,
1518
- "learning_rate": 2.439166666666667e-06,
1519
- "loss": 0.0448,
1520
  "step": 5075
1521
  },
1522
  {
1523
- "epoch": 2.2115,
1524
- "grad_norm": 3.234225034713745,
1525
- "learning_rate": 2.4183333333333336e-06,
1526
- "loss": 0.0504,
1527
  "step": 5100
1528
  },
1529
  {
1530
- "epoch": 3.001625,
1531
- "grad_norm": 1.9421311616897583,
1532
- "learning_rate": 2.3975e-06,
1533
- "loss": 0.0377,
1534
  "step": 5125
1535
  },
1536
  {
1537
- "epoch": 3.00475,
1538
- "grad_norm": 1.9280989170074463,
1539
- "learning_rate": 2.3766666666666666e-06,
1540
- "loss": 0.0291,
1541
  "step": 5150
1542
  },
1543
  {
1544
- "epoch": 3.007875,
1545
- "grad_norm": 1.701106309890747,
1546
- "learning_rate": 2.3558333333333334e-06,
1547
- "loss": 0.0254,
1548
  "step": 5175
1549
  },
1550
  {
1551
- "epoch": 3.011,
1552
- "grad_norm": 1.4093270301818848,
1553
- "learning_rate": 2.335e-06,
1554
- "loss": 0.0267,
1555
  "step": 5200
1556
  },
1557
  {
1558
- "epoch": 3.014125,
1559
- "grad_norm": 2.7806079387664795,
1560
- "learning_rate": 2.314166666666667e-06,
1561
- "loss": 0.0271,
1562
  "step": 5225
1563
  },
1564
  {
1565
- "epoch": 3.01725,
1566
- "grad_norm": 2.454941511154175,
1567
- "learning_rate": 2.2933333333333335e-06,
1568
- "loss": 0.0296,
1569
  "step": 5250
1570
  },
1571
  {
1572
- "epoch": 3.020375,
1573
- "grad_norm": 1.8080620765686035,
1574
- "learning_rate": 2.2725e-06,
1575
- "loss": 0.0254,
1576
  "step": 5275
1577
  },
1578
  {
1579
- "epoch": 3.0235,
1580
- "grad_norm": 2.4920754432678223,
1581
- "learning_rate": 2.251666666666667e-06,
1582
- "loss": 0.0242,
1583
  "step": 5300
1584
  },
1585
  {
1586
- "epoch": 3.026625,
1587
- "grad_norm": 1.4802467823028564,
1588
- "learning_rate": 2.2308333333333333e-06,
1589
- "loss": 0.0242,
1590
  "step": 5325
1591
  },
1592
  {
1593
- "epoch": 3.02975,
1594
- "grad_norm": 4.049746036529541,
1595
- "learning_rate": 2.2100000000000004e-06,
1596
- "loss": 0.026,
1597
  "step": 5350
1598
  },
1599
  {
1600
- "epoch": 3.032875,
1601
- "grad_norm": 2.304689884185791,
1602
- "learning_rate": 2.1891666666666667e-06,
1603
- "loss": 0.0261,
1604
  "step": 5375
1605
  },
1606
  {
1607
- "epoch": 3.036,
1608
- "grad_norm": 1.9863944053649902,
1609
- "learning_rate": 2.1683333333333335e-06,
1610
- "loss": 0.0251,
1611
  "step": 5400
1612
  },
1613
  {
1614
- "epoch": 3.039125,
1615
- "grad_norm": 2.0497422218322754,
1616
- "learning_rate": 2.1475e-06,
1617
- "loss": 0.0254,
1618
  "step": 5425
1619
  },
1620
  {
1621
- "epoch": 3.04225,
1622
- "grad_norm": 2.5717766284942627,
1623
- "learning_rate": 2.126666666666667e-06,
1624
- "loss": 0.0238,
1625
  "step": 5450
1626
  },
1627
  {
1628
- "epoch": 3.045375,
1629
- "grad_norm": 1.1389164924621582,
1630
- "learning_rate": 2.1058333333333332e-06,
1631
- "loss": 0.0208,
1632
  "step": 5475
1633
  },
1634
  {
1635
- "epoch": 3.0485,
1636
- "grad_norm": 1.5230340957641602,
1637
- "learning_rate": 2.085e-06,
1638
- "loss": 0.0216,
1639
  "step": 5500
1640
  },
1641
  {
1642
- "epoch": 3.0485,
1643
- "eval_loss": 0.1619918942451477,
1644
- "eval_runtime": 2437.6868,
1645
- "eval_samples_per_second": 5.591,
1646
- "eval_steps_per_second": 0.699,
1647
- "eval_wer": 9.08424639964821,
1648
  "step": 5500
1649
  },
1650
  {
1651
- "epoch": 3.051625,
1652
- "grad_norm": 1.907436728477478,
1653
- "learning_rate": 2.0641666666666667e-06,
1654
- "loss": 0.0224,
1655
  "step": 5525
1656
  },
1657
  {
1658
- "epoch": 3.05475,
1659
- "grad_norm": 1.5222604274749756,
1660
- "learning_rate": 2.0433333333333334e-06,
1661
- "loss": 0.0197,
1662
  "step": 5550
1663
  },
1664
  {
1665
- "epoch": 3.057875,
1666
- "grad_norm": 1.5284624099731445,
1667
- "learning_rate": 2.0225e-06,
1668
- "loss": 0.0152,
1669
  "step": 5575
1670
  },
1671
  {
1672
- "epoch": 3.061,
1673
- "grad_norm": 0.7098265886306763,
1674
- "learning_rate": 2.0016666666666664e-06,
1675
- "loss": 0.019,
1676
  "step": 5600
1677
  },
1678
  {
1679
- "epoch": 3.064125,
1680
- "grad_norm": 2.1706318855285645,
1681
- "learning_rate": 1.9808333333333336e-06,
1682
- "loss": 0.0189,
1683
  "step": 5625
1684
  },
1685
  {
1686
- "epoch": 3.06725,
1687
- "grad_norm": 2.888962745666504,
1688
- "learning_rate": 1.96e-06,
1689
- "loss": 0.0201,
1690
  "step": 5650
1691
  },
1692
  {
1693
- "epoch": 3.070375,
1694
- "grad_norm": 3.0322179794311523,
1695
- "learning_rate": 1.939166666666667e-06,
1696
- "loss": 0.0211,
1697
  "step": 5675
1698
  },
1699
  {
1700
- "epoch": 3.0735,
1701
- "grad_norm": 3.066394329071045,
1702
- "learning_rate": 1.9183333333333333e-06,
1703
- "loss": 0.0253,
1704
  "step": 5700
1705
  },
1706
  {
1707
- "epoch": 3.076625,
1708
- "grad_norm": 2.5032601356506348,
1709
- "learning_rate": 1.8975e-06,
1710
- "loss": 0.0236,
1711
  "step": 5725
1712
  },
1713
  {
1714
- "epoch": 3.07975,
1715
- "grad_norm": 1.5625773668289185,
1716
- "learning_rate": 1.8766666666666668e-06,
1717
- "loss": 0.0193,
1718
  "step": 5750
1719
  },
1720
  {
1721
- "epoch": 3.082875,
1722
- "grad_norm": 1.7981406450271606,
1723
- "learning_rate": 1.8558333333333333e-06,
1724
- "loss": 0.0157,
1725
  "step": 5775
1726
  },
1727
  {
1728
- "epoch": 3.086,
1729
- "grad_norm": 1.1411957740783691,
1730
- "learning_rate": 1.8350000000000002e-06,
1731
- "loss": 0.0217,
1732
  "step": 5800
1733
  },
1734
  {
1735
- "epoch": 3.089125,
1736
- "grad_norm": 1.1639596223831177,
1737
- "learning_rate": 1.8141666666666667e-06,
1738
- "loss": 0.0239,
1739
  "step": 5825
1740
  },
1741
  {
1742
- "epoch": 3.09225,
1743
- "grad_norm": 0.7168381810188293,
1744
- "learning_rate": 1.7933333333333332e-06,
1745
- "loss": 0.0218,
1746
  "step": 5850
1747
  },
1748
  {
1749
- "epoch": 3.095375,
1750
- "grad_norm": 1.1308009624481201,
1751
- "learning_rate": 1.7725000000000002e-06,
1752
- "loss": 0.0214,
1753
  "step": 5875
1754
  },
1755
  {
1756
- "epoch": 3.0985,
1757
- "grad_norm": 2.1142430305480957,
1758
- "learning_rate": 1.7516666666666667e-06,
1759
- "loss": 0.0155,
1760
  "step": 5900
1761
  },
1762
  {
1763
- "epoch": 3.101625,
1764
- "grad_norm": 1.479252815246582,
1765
- "learning_rate": 1.7308333333333332e-06,
1766
- "loss": 0.0176,
1767
  "step": 5925
1768
  },
1769
  {
1770
- "epoch": 3.10475,
1771
- "grad_norm": 1.3254590034484863,
1772
- "learning_rate": 1.7100000000000001e-06,
1773
- "loss": 0.0144,
1774
  "step": 5950
1775
  },
1776
  {
1777
- "epoch": 3.107875,
1778
- "grad_norm": 2.1925458908081055,
1779
- "learning_rate": 1.6891666666666667e-06,
1780
- "loss": 0.0162,
1781
  "step": 5975
1782
  },
1783
  {
1784
- "epoch": 3.111,
1785
- "grad_norm": 1.774483561515808,
1786
- "learning_rate": 1.6683333333333336e-06,
1787
- "loss": 0.017,
1788
  "step": 6000
1789
  },
1790
  {
1791
- "epoch": 3.111,
1792
- "eval_loss": 0.17044013738632202,
1793
- "eval_runtime": 2431.1861,
1794
- "eval_samples_per_second": 5.606,
1795
- "eval_steps_per_second": 0.701,
1796
- "eval_wer": 9.097988200373777,
1797
  "step": 6000
1798
  },
1799
  {
1800
- "epoch": 3.114125,
1801
- "grad_norm": 3.372814893722534,
1802
  "learning_rate": 1.6483333333333334e-06,
1803
- "loss": 0.0216,
1804
  "step": 6025
1805
  },
1806
  {
1807
- "epoch": 3.11725,
1808
- "grad_norm": 0.39716529846191406,
1809
  "learning_rate": 1.6275000000000003e-06,
1810
- "loss": 0.0161,
1811
  "step": 6050
1812
  },
1813
  {
1814
- "epoch": 3.120375,
1815
- "grad_norm": 1.4220778942108154,
1816
  "learning_rate": 1.6066666666666668e-06,
1817
- "loss": 0.0211,
1818
  "step": 6075
1819
  },
1820
  {
1821
- "epoch": 3.1235,
1822
- "grad_norm": 1.2959835529327393,
1823
  "learning_rate": 1.5858333333333333e-06,
1824
- "loss": 0.0187,
1825
  "step": 6100
1826
  },
1827
  {
1828
- "epoch": 3.1266249999999998,
1829
- "grad_norm": 1.9399360418319702,
1830
  "learning_rate": 1.565e-06,
1831
- "loss": 0.0123,
1832
  "step": 6125
1833
  },
1834
  {
1835
- "epoch": 3.12975,
1836
- "grad_norm": 2.898085594177246,
1837
  "learning_rate": 1.5441666666666668e-06,
1838
- "loss": 0.0197,
1839
  "step": 6150
1840
  },
1841
  {
1842
- "epoch": 3.132875,
1843
- "grad_norm": 3.642364263534546,
1844
  "learning_rate": 1.5233333333333333e-06,
1845
- "loss": 0.0162,
1846
  "step": 6175
1847
  },
1848
  {
1849
- "epoch": 3.136,
1850
- "grad_norm": 1.7888002395629883,
1851
  "learning_rate": 1.5025e-06,
1852
- "loss": 0.0164,
1853
  "step": 6200
1854
  },
1855
  {
1856
- "epoch": 3.139125,
1857
- "grad_norm": 2.3871753215789795,
1858
  "learning_rate": 1.4816666666666667e-06,
1859
- "loss": 0.0175,
1860
  "step": 6225
1861
  },
1862
  {
1863
- "epoch": 3.1422499999999998,
1864
- "grad_norm": 1.4263437986373901,
1865
  "learning_rate": 1.4608333333333333e-06,
1866
- "loss": 0.0152,
1867
  "step": 6250
1868
  },
1869
  {
1870
- "epoch": 3.145375,
1871
- "grad_norm": 2.174880027770996,
1872
  "learning_rate": 1.44e-06,
1873
- "loss": 0.0172,
1874
  "step": 6275
1875
  },
1876
  {
1877
- "epoch": 3.1485,
1878
- "grad_norm": 0.9558664560317993,
1879
  "learning_rate": 1.4191666666666667e-06,
1880
- "loss": 0.0172,
1881
  "step": 6300
1882
  },
1883
  {
1884
- "epoch": 3.151625,
1885
- "grad_norm": 2.228374719619751,
1886
  "learning_rate": 1.3983333333333334e-06,
1887
- "loss": 0.0173,
1888
  "step": 6325
1889
  },
1890
  {
1891
- "epoch": 3.15475,
1892
- "grad_norm": 1.3473858833312988,
1893
  "learning_rate": 1.3775000000000002e-06,
1894
- "loss": 0.0211,
1895
  "step": 6350
1896
  },
1897
  {
1898
- "epoch": 3.1578749999999998,
1899
- "grad_norm": 1.575217843055725,
1900
  "learning_rate": 1.3566666666666667e-06,
1901
- "loss": 0.0195,
1902
  "step": 6375
1903
  },
1904
  {
1905
- "epoch": 3.161,
1906
- "grad_norm": 1.4997564554214478,
1907
  "learning_rate": 1.3358333333333334e-06,
1908
- "loss": 0.0174,
1909
  "step": 6400
1910
  },
1911
  {
1912
- "epoch": 3.164125,
1913
- "grad_norm": 1.6651334762573242,
1914
  "learning_rate": 1.3150000000000001e-06,
1915
- "loss": 0.0178,
1916
  "step": 6425
1917
  },
1918
  {
1919
- "epoch": 3.16725,
1920
- "grad_norm": 1.9218391180038452,
1921
  "learning_rate": 1.2941666666666668e-06,
1922
- "loss": 0.0168,
1923
  "step": 6450
1924
  },
1925
  {
1926
- "epoch": 3.170375,
1927
- "grad_norm": 1.322709560394287,
1928
  "learning_rate": 1.2733333333333334e-06,
1929
- "loss": 0.0155,
1930
  "step": 6475
1931
  },
1932
  {
1933
- "epoch": 3.1734999999999998,
1934
- "grad_norm": 0.7265995144844055,
1935
  "learning_rate": 1.2525e-06,
1936
- "loss": 0.0174,
1937
  "step": 6500
1938
  },
1939
  {
1940
- "epoch": 3.1734999999999998,
1941
- "eval_loss": 0.16809040307998657,
1942
- "eval_runtime": 2425.0716,
1943
- "eval_samples_per_second": 5.62,
1944
- "eval_steps_per_second": 0.703,
1945
- "eval_wer": 9.072336839019385,
1946
  "step": 6500
1947
  },
1948
  {
1949
- "epoch": 3.176625,
1950
- "grad_norm": 3.6835756301879883,
1951
  "learning_rate": 1.2316666666666668e-06,
1952
- "loss": 0.0177,
1953
  "step": 6525
1954
  },
1955
  {
1956
- "epoch": 3.17975,
1957
- "grad_norm": 1.7619342803955078,
1958
  "learning_rate": 1.2108333333333335e-06,
1959
- "loss": 0.0212,
1960
  "step": 6550
1961
  },
1962
  {
1963
- "epoch": 3.182875,
1964
- "grad_norm": 1.547814130783081,
1965
  "learning_rate": 1.19e-06,
1966
- "loss": 0.0213,
1967
  "step": 6575
1968
  },
1969
  {
1970
- "epoch": 3.186,
1971
- "grad_norm": 2.0077638626098633,
1972
  "learning_rate": 1.1691666666666668e-06,
1973
- "loss": 0.016,
1974
  "step": 6600
1975
  },
1976
  {
1977
- "epoch": 3.1891249999999998,
1978
- "grad_norm": 1.806665062904358,
1979
- "learning_rate": 1.1483333333333333e-06,
1980
- "loss": 0.0165,
1981
  "step": 6625
1982
  },
1983
  {
1984
- "epoch": 3.19225,
1985
- "grad_norm": 1.9576735496520996,
1986
  "learning_rate": 1.1283333333333333e-06,
1987
- "loss": 0.0173,
1988
  "step": 6650
1989
  },
1990
  {
1991
- "epoch": 3.195375,
1992
- "grad_norm": 1.992625117301941,
1993
  "learning_rate": 1.1075e-06,
1994
- "loss": 0.0179,
1995
  "step": 6675
1996
  },
1997
  {
1998
- "epoch": 3.1985,
1999
- "grad_norm": 1.9625897407531738,
2000
  "learning_rate": 1.0866666666666667e-06,
2001
- "loss": 0.0174,
2002
  "step": 6700
2003
  },
2004
  {
2005
- "epoch": 3.201625,
2006
- "grad_norm": 1.079950213432312,
2007
  "learning_rate": 1.0658333333333334e-06,
2008
- "loss": 0.0189,
2009
  "step": 6725
2010
  },
2011
  {
2012
- "epoch": 3.2047499999999998,
2013
- "grad_norm": 1.7856156826019287,
2014
  "learning_rate": 1.045e-06,
2015
- "loss": 0.0179,
2016
  "step": 6750
2017
  },
2018
  {
2019
- "epoch": 3.207875,
2020
- "grad_norm": 0.44674980640411377,
2021
  "learning_rate": 1.0241666666666667e-06,
2022
- "loss": 0.0185,
2023
  "step": 6775
2024
  },
2025
  {
2026
- "epoch": 3.211,
2027
- "grad_norm": 2.1849780082702637,
2028
  "learning_rate": 1.0033333333333334e-06,
2029
- "loss": 0.0208,
2030
  "step": 6800
2031
  },
2032
  {
2033
- "epoch": 4.001125,
2034
- "grad_norm": 1.4259858131408691,
2035
  "learning_rate": 9.825000000000001e-07,
2036
- "loss": 0.0162,
2037
  "step": 6825
2038
  },
2039
  {
2040
- "epoch": 4.00425,
2041
- "grad_norm": 0.5507416129112244,
2042
  "learning_rate": 9.616666666666668e-07,
2043
- "loss": 0.0099,
2044
  "step": 6850
2045
  },
2046
  {
2047
- "epoch": 4.007375,
2048
- "grad_norm": 1.9662590026855469,
2049
  "learning_rate": 9.408333333333334e-07,
2050
- "loss": 0.0117,
2051
  "step": 6875
2052
  },
2053
  {
2054
- "epoch": 4.0105,
2055
- "grad_norm": 1.9439060688018799,
2056
  "learning_rate": 9.2e-07,
2057
- "loss": 0.0114,
2058
  "step": 6900
2059
  },
2060
  {
2061
- "epoch": 4.013625,
2062
- "grad_norm": 1.266473412513733,
2063
  "learning_rate": 8.991666666666667e-07,
2064
- "loss": 0.0085,
2065
  "step": 6925
2066
  },
2067
  {
2068
- "epoch": 4.01675,
2069
- "grad_norm": 1.4318881034851074,
2070
  "learning_rate": 8.783333333333334e-07,
2071
- "loss": 0.0095,
2072
  "step": 6950
2073
  },
2074
  {
2075
- "epoch": 4.019875,
2076
- "grad_norm": 1.7301366329193115,
2077
  "learning_rate": 8.574999999999999e-07,
2078
- "loss": 0.01,
2079
  "step": 6975
2080
  },
2081
  {
2082
- "epoch": 4.023,
2083
- "grad_norm": 0.7250347137451172,
2084
  "learning_rate": 8.366666666666667e-07,
2085
- "loss": 0.0098,
2086
  "step": 7000
2087
  },
2088
  {
2089
- "epoch": 4.023,
2090
- "eval_loss": 0.17248913645744324,
2091
- "eval_runtime": 2424.7286,
2092
- "eval_samples_per_second": 5.621,
2093
- "eval_steps_per_second": 0.703,
2094
- "eval_wer": 8.862545347942394,
2095
  "step": 7000
2096
  },
2097
  {
2098
- "epoch": 4.026125,
2099
- "grad_norm": 0.9742090702056885,
2100
  "learning_rate": 8.158333333333334e-07,
2101
- "loss": 0.0083,
2102
  "step": 7025
2103
  },
2104
  {
2105
- "epoch": 4.02925,
2106
- "grad_norm": 1.966017723083496,
2107
  "learning_rate": 7.950000000000001e-07,
2108
- "loss": 0.0098,
2109
  "step": 7050
2110
  },
2111
  {
2112
- "epoch": 4.032375,
2113
- "grad_norm": 0.3238462209701538,
2114
  "learning_rate": 7.741666666666667e-07,
2115
- "loss": 0.0106,
2116
  "step": 7075
2117
  },
2118
  {
2119
- "epoch": 4.0355,
2120
- "grad_norm": 1.1980866193771362,
2121
  "learning_rate": 7.533333333333334e-07,
2122
- "loss": 0.0095,
2123
  "step": 7100
2124
  },
2125
  {
2126
- "epoch": 4.038625,
2127
- "grad_norm": 1.5639567375183105,
2128
  "learning_rate": 7.325e-07,
2129
- "loss": 0.0079,
2130
  "step": 7125
2131
  },
2132
  {
2133
- "epoch": 4.04175,
2134
- "grad_norm": 2.4864511489868164,
2135
  "learning_rate": 7.116666666666667e-07,
2136
- "loss": 0.0081,
2137
  "step": 7150
2138
  },
2139
  {
2140
- "epoch": 4.044875,
2141
- "grad_norm": 0.3260515332221985,
2142
  "learning_rate": 6.908333333333333e-07,
2143
- "loss": 0.0078,
2144
  "step": 7175
2145
  },
2146
  {
2147
- "epoch": 4.048,
2148
- "grad_norm": 1.6305910348892212,
2149
  "learning_rate": 6.7e-07,
2150
- "loss": 0.0093,
2151
  "step": 7200
2152
  },
2153
  {
2154
- "epoch": 4.051125,
2155
- "grad_norm": 0.6141969561576843,
2156
  "learning_rate": 6.491666666666667e-07,
2157
- "loss": 0.0082,
2158
  "step": 7225
2159
  },
2160
  {
2161
- "epoch": 4.05425,
2162
- "grad_norm": 1.9699019193649292,
2163
  "learning_rate": 6.283333333333334e-07,
2164
- "loss": 0.0089,
2165
  "step": 7250
2166
  },
2167
  {
2168
- "epoch": 4.057375,
2169
- "grad_norm": 0.2788224518299103,
2170
  "learning_rate": 6.075e-07,
2171
- "loss": 0.0053,
2172
  "step": 7275
2173
  },
2174
  {
2175
- "epoch": 4.0605,
2176
- "grad_norm": 1.0774401426315308,
2177
  "learning_rate": 5.866666666666667e-07,
2178
- "loss": 0.0074,
2179
  "step": 7300
2180
  },
2181
  {
2182
- "epoch": 4.063625,
2183
- "grad_norm": 0.2802826166152954,
2184
  "learning_rate": 5.658333333333334e-07,
2185
- "loss": 0.007,
2186
  "step": 7325
2187
  },
2188
  {
2189
- "epoch": 4.06675,
2190
- "grad_norm": 0.459989458322525,
2191
  "learning_rate": 5.450000000000001e-07,
2192
- "loss": 0.0061,
2193
  "step": 7350
2194
  },
2195
  {
2196
- "epoch": 4.069875,
2197
- "grad_norm": 1.6869885921478271,
2198
  "learning_rate": 5.241666666666667e-07,
2199
- "loss": 0.007,
2200
  "step": 7375
2201
  },
2202
  {
2203
- "epoch": 4.073,
2204
- "grad_norm": 1.150252103805542,
2205
  "learning_rate": 5.033333333333333e-07,
2206
- "loss": 0.009,
2207
  "step": 7400
2208
  },
2209
  {
2210
- "epoch": 4.076125,
2211
- "grad_norm": 0.7096041440963745,
2212
  "learning_rate": 4.825e-07,
2213
- "loss": 0.0074,
2214
  "step": 7425
2215
  },
2216
  {
2217
- "epoch": 4.07925,
2218
- "grad_norm": 1.9114930629730225,
2219
  "learning_rate": 4.6166666666666666e-07,
2220
- "loss": 0.0081,
2221
  "step": 7450
2222
  },
2223
  {
2224
- "epoch": 4.082375,
2225
- "grad_norm": 0.41340845823287964,
2226
  "learning_rate": 4.408333333333334e-07,
2227
- "loss": 0.0078,
2228
  "step": 7475
2229
  },
2230
  {
2231
- "epoch": 4.0855,
2232
- "grad_norm": 1.241665005683899,
2233
  "learning_rate": 4.2e-07,
2234
- "loss": 0.0076,
2235
  "step": 7500
2236
  },
2237
  {
2238
- "epoch": 4.0855,
2239
- "eval_loss": 0.17651478946208954,
2240
- "eval_runtime": 2432.1699,
2241
- "eval_samples_per_second": 5.604,
2242
- "eval_steps_per_second": 0.701,
2243
- "eval_wer": 8.83506174649126,
2244
  "step": 7500
2245
  },
2246
  {
2247
- "epoch": 4.088625,
2248
- "grad_norm": 0.6228423714637756,
2249
  "learning_rate": 3.991666666666667e-07,
2250
- "loss": 0.0075,
2251
  "step": 7525
2252
  },
2253
  {
2254
- "epoch": 4.09175,
2255
- "grad_norm": 0.5548863410949707,
2256
  "learning_rate": 3.7833333333333335e-07,
2257
- "loss": 0.007,
2258
  "step": 7550
2259
  },
2260
  {
2261
- "epoch": 4.094875,
2262
- "grad_norm": 0.33007875084877014,
2263
  "learning_rate": 3.575e-07,
2264
- "loss": 0.0058,
2265
  "step": 7575
2266
  },
2267
  {
2268
- "epoch": 4.098,
2269
- "grad_norm": 1.3314837217330933,
2270
  "learning_rate": 3.366666666666667e-07,
2271
- "loss": 0.0068,
2272
  "step": 7600
2273
  },
2274
  {
2275
- "epoch": 4.101125,
2276
- "grad_norm": 2.230480909347534,
2277
  "learning_rate": 3.1583333333333336e-07,
2278
- "loss": 0.007,
2279
  "step": 7625
2280
  },
2281
  {
2282
- "epoch": 4.10425,
2283
- "grad_norm": 0.3246554136276245,
2284
  "learning_rate": 2.95e-07,
2285
- "loss": 0.0058,
2286
  "step": 7650
2287
  },
2288
  {
2289
- "epoch": 4.107375,
2290
- "grad_norm": 3.8842251300811768,
2291
  "learning_rate": 2.7416666666666665e-07,
2292
- "loss": 0.0071,
2293
  "step": 7675
2294
  },
2295
  {
2296
- "epoch": 4.1105,
2297
- "grad_norm": 0.27049753069877625,
2298
  "learning_rate": 2.533333333333333e-07,
2299
- "loss": 0.0068,
2300
  "step": 7700
2301
  },
2302
  {
2303
- "epoch": 4.113625,
2304
- "grad_norm": 1.5919678211212158,
2305
  "learning_rate": 2.325e-07,
2306
- "loss": 0.009,
2307
  "step": 7725
2308
  },
2309
  {
2310
- "epoch": 4.11675,
2311
- "grad_norm": 1.0917800664901733,
2312
  "learning_rate": 2.116666666666667e-07,
2313
- "loss": 0.0083,
2314
  "step": 7750
2315
  },
2316
  {
2317
- "epoch": 4.119875,
2318
- "grad_norm": 1.6236002445220947,
2319
  "learning_rate": 1.9083333333333334e-07,
2320
- "loss": 0.0077,
2321
  "step": 7775
2322
  },
2323
  {
2324
- "epoch": 4.123,
2325
- "grad_norm": 0.34154245257377625,
2326
  "learning_rate": 1.7e-07,
2327
- "loss": 0.0064,
2328
  "step": 7800
2329
  },
2330
  {
2331
- "epoch": 4.126125,
2332
- "grad_norm": 0.7562180757522583,
2333
  "learning_rate": 1.4916666666666669e-07,
2334
- "loss": 0.0073,
2335
  "step": 7825
2336
  },
2337
  {
2338
- "epoch": 4.12925,
2339
- "grad_norm": 1.4198355674743652,
2340
  "learning_rate": 1.2833333333333333e-07,
2341
- "loss": 0.0051,
2342
  "step": 7850
2343
  },
2344
  {
2345
- "epoch": 4.132375,
2346
- "grad_norm": 0.38768094778060913,
2347
  "learning_rate": 1.075e-07,
2348
- "loss": 0.0073,
2349
  "step": 7875
2350
  },
2351
  {
2352
- "epoch": 4.1355,
2353
- "grad_norm": 2.1387102603912354,
2354
  "learning_rate": 8.666666666666666e-08,
2355
- "loss": 0.0078,
2356
  "step": 7900
2357
  },
2358
  {
2359
- "epoch": 4.138625,
2360
- "grad_norm": 0.7683693170547485,
2361
  "learning_rate": 6.583333333333333e-08,
2362
- "loss": 0.006,
2363
  "step": 7925
2364
  },
2365
  {
2366
- "epoch": 4.14175,
2367
- "grad_norm": 0.40976452827453613,
2368
  "learning_rate": 4.5e-08,
2369
- "loss": 0.0059,
2370
  "step": 7950
2371
  },
2372
  {
2373
- "epoch": 4.144875,
2374
- "grad_norm": 0.3620973229408264,
2375
  "learning_rate": 2.4166666666666668e-08,
2376
- "loss": 0.0054,
2377
  "step": 7975
2378
  },
2379
  {
2380
- "epoch": 4.148,
2381
- "grad_norm": 0.28266406059265137,
2382
  "learning_rate": 3.333333333333334e-09,
2383
- "loss": 0.007,
2384
  "step": 8000
2385
  },
2386
  {
2387
- "epoch": 4.148,
2388
- "eval_loss": 0.17873740196228027,
2389
- "eval_runtime": 2435.5612,
2390
- "eval_samples_per_second": 5.596,
2391
- "eval_steps_per_second": 0.7,
2392
- "eval_wer": 8.8020814247499,
2393
  "step": 8000
2394
  },
2395
  {
2396
- "epoch": 4.148,
2397
  "step": 8000,
2398
- "total_flos": 1.3062109848403968e+20,
2399
- "train_loss": 0.11351343880966305,
2400
- "train_runtime": 52381.6915,
2401
- "train_samples_per_second": 2.444,
2402
- "train_steps_per_second": 0.153
2403
  }
2404
  ],
2405
  "logging_steps": 25,
@@ -2419,7 +2419,7 @@
2419
  "attributes": {}
2420
  }
2421
  },
2422
- "total_flos": 1.3062109848403968e+20,
2423
  "train_batch_size": 16,
2424
  "trial_name": null,
2425
  "trial_params": null
 
1
  {
2
+ "best_metric": 9.98410769374591,
3
+ "best_model_checkpoint": "./checkpoint-6000",
4
+ "epoch": 1.0,
5
  "eval_steps": 500,
6
  "global_step": 8000,
7
  "is_hyper_param_search": false,
 
10
  "log_history": [
11
  {
12
  "epoch": 0.003125,
13
+ "grad_norm": 18.986873626708984,
14
  "learning_rate": 2.875e-07,
15
+ "loss": 1.979,
16
  "step": 25
17
  },
18
  {
19
  "epoch": 0.00625,
20
+ "grad_norm": 16.025917053222656,
21
  "learning_rate": 6.000000000000001e-07,
22
+ "loss": 1.8343,
23
  "step": 50
24
  },
25
  {
26
  "epoch": 0.009375,
27
+ "grad_norm": 11.7916841506958,
28
  "learning_rate": 9.124999999999999e-07,
29
+ "loss": 1.4286,
30
  "step": 75
31
  },
32
  {
33
  "epoch": 0.0125,
34
+ "grad_norm": 9.848176002502441,
35
  "learning_rate": 1.2250000000000001e-06,
36
+ "loss": 0.9655,
37
  "step": 100
38
  },
39
  {
40
  "epoch": 0.015625,
41
+ "grad_norm": 9.252968788146973,
42
  "learning_rate": 1.5375e-06,
43
+ "loss": 0.7411,
44
  "step": 125
45
  },
46
  {
47
  "epoch": 0.01875,
48
+ "grad_norm": 9.25166130065918,
49
  "learning_rate": 1.85e-06,
50
+ "loss": 0.7377,
51
  "step": 150
52
  },
53
  {
54
  "epoch": 0.021875,
55
+ "grad_norm": 9.127242088317871,
56
  "learning_rate": 2.1625e-06,
57
+ "loss": 0.5628,
58
  "step": 175
59
  },
60
  {
61
  "epoch": 0.025,
62
+ "grad_norm": 7.140044212341309,
63
  "learning_rate": 2.4750000000000004e-06,
64
+ "loss": 0.5043,
65
  "step": 200
66
  },
67
  {
68
  "epoch": 0.028125,
69
+ "grad_norm": 7.495832920074463,
70
  "learning_rate": 2.7875e-06,
71
+ "loss": 0.4543,
72
  "step": 225
73
  },
74
  {
75
  "epoch": 0.03125,
76
+ "grad_norm": 7.260509014129639,
77
  "learning_rate": 3.1e-06,
78
+ "loss": 0.441,
79
  "step": 250
80
  },
81
  {
82
  "epoch": 0.034375,
83
+ "grad_norm": 7.78987455368042,
84
  "learning_rate": 3.4125000000000004e-06,
85
+ "loss": 0.3709,
86
  "step": 275
87
  },
88
  {
89
  "epoch": 0.0375,
90
+ "grad_norm": 6.570291042327881,
91
  "learning_rate": 3.725e-06,
92
+ "loss": 0.3778,
93
  "step": 300
94
  },
95
  {
96
  "epoch": 0.040625,
97
+ "grad_norm": 6.600038051605225,
98
  "learning_rate": 4.037500000000001e-06,
99
+ "loss": 0.342,
100
  "step": 325
101
  },
102
  {
103
  "epoch": 0.04375,
104
+ "grad_norm": 6.174134731292725,
105
  "learning_rate": 4.35e-06,
106
+ "loss": 0.3479,
107
  "step": 350
108
  },
109
  {
110
  "epoch": 0.046875,
111
+ "grad_norm": 5.382558345794678,
112
  "learning_rate": 4.6625e-06,
113
+ "loss": 0.3389,
114
  "step": 375
115
  },
116
  {
117
  "epoch": 0.05,
118
+ "grad_norm": 6.139970302581787,
119
  "learning_rate": 4.975000000000001e-06,
120
+ "loss": 0.3001,
121
  "step": 400
122
  },
123
  {
124
  "epoch": 0.053125,
125
+ "grad_norm": 6.267641544342041,
126
  "learning_rate": 5.2875e-06,
127
+ "loss": 0.2827,
128
  "step": 425
129
  },
130
  {
131
  "epoch": 0.05625,
132
+ "grad_norm": 4.701253414154053,
133
  "learning_rate": 5.600000000000001e-06,
134
+ "loss": 0.252,
135
  "step": 450
136
  },
137
  {
138
  "epoch": 0.059375,
139
+ "grad_norm": 7.49235725402832,
140
  "learning_rate": 5.9125e-06,
141
+ "loss": 0.2724,
142
  "step": 475
143
  },
144
  {
145
  "epoch": 0.0625,
146
+ "grad_norm": 8.219965934753418,
147
  "learning_rate": 6.2250000000000005e-06,
148
+ "loss": 0.3412,
149
  "step": 500
150
  },
151
  {
152
  "epoch": 0.0625,
153
+ "eval_loss": 0.4569947421550751,
154
+ "eval_runtime": 421.2437,
155
+ "eval_samples_per_second": 4.995,
156
+ "eval_steps_per_second": 0.624,
157
+ "eval_wer": 28.21819201645321,
158
  "step": 500
159
  },
160
  {
161
  "epoch": 0.065625,
162
+ "grad_norm": 7.646754741668701,
163
  "learning_rate": 6.230833333333334e-06,
164
+ "loss": 0.3663,
165
  "step": 525
166
  },
167
  {
168
  "epoch": 0.06875,
169
+ "grad_norm": 6.3216094970703125,
170
  "learning_rate": 6.210000000000001e-06,
171
+ "loss": 0.3401,
172
  "step": 550
173
  },
174
  {
175
  "epoch": 0.071875,
176
+ "grad_norm": 6.551443099975586,
177
  "learning_rate": 6.1891666666666666e-06,
178
+ "loss": 0.3617,
179
  "step": 575
180
  },
181
  {
182
  "epoch": 0.075,
183
+ "grad_norm": 7.667718887329102,
184
  "learning_rate": 6.168333333333333e-06,
185
+ "loss": 0.3339,
186
  "step": 600
187
  },
188
  {
189
  "epoch": 0.078125,
190
+ "grad_norm": 6.759644031524658,
191
  "learning_rate": 6.147500000000001e-06,
192
+ "loss": 0.3236,
193
  "step": 625
194
  },
195
  {
196
  "epoch": 0.08125,
197
+ "grad_norm": 5.439680576324463,
198
  "learning_rate": 6.126666666666667e-06,
199
+ "loss": 0.2588,
200
  "step": 650
201
  },
202
  {
203
  "epoch": 0.084375,
204
+ "grad_norm": 5.2066450119018555,
205
  "learning_rate": 6.1058333333333335e-06,
206
+ "loss": 0.2389,
207
  "step": 675
208
  },
209
  {
210
  "epoch": 0.0875,
211
+ "grad_norm": 4.867877960205078,
212
  "learning_rate": 6.085e-06,
213
+ "loss": 0.2178,
214
  "step": 700
215
  },
216
  {
217
  "epoch": 0.090625,
218
+ "grad_norm": 4.836174011230469,
219
  "learning_rate": 6.064166666666667e-06,
220
+ "loss": 0.185,
221
  "step": 725
222
  },
223
  {
224
  "epoch": 0.09375,
225
+ "grad_norm": 4.676128387451172,
226
  "learning_rate": 6.043333333333334e-06,
227
+ "loss": 0.1968,
228
  "step": 750
229
  },
230
  {
231
  "epoch": 0.096875,
232
+ "grad_norm": 3.805962324142456,
233
  "learning_rate": 6.0225e-06,
234
+ "loss": 0.1987,
235
  "step": 775
236
  },
237
  {
238
  "epoch": 0.1,
239
+ "grad_norm": 4.182210922241211,
240
  "learning_rate": 6.001666666666667e-06,
241
+ "loss": 0.1945,
242
  "step": 800
243
  },
244
  {
245
  "epoch": 0.103125,
246
+ "grad_norm": 4.078372001647949,
247
  "learning_rate": 5.980833333333334e-06,
248
+ "loss": 0.1806,
249
  "step": 825
250
  },
251
  {
252
  "epoch": 0.10625,
253
+ "grad_norm": 4.926514148712158,
254
  "learning_rate": 5.9600000000000005e-06,
255
+ "loss": 0.1655,
256
  "step": 850
257
  },
258
  {
259
  "epoch": 0.109375,
260
+ "grad_norm": 4.110943794250488,
261
  "learning_rate": 5.939166666666667e-06,
262
+ "loss": 0.1711,
263
  "step": 875
264
  },
265
  {
266
  "epoch": 0.1125,
267
+ "grad_norm": 4.059125900268555,
268
  "learning_rate": 5.918333333333333e-06,
269
+ "loss": 0.1721,
270
  "step": 900
271
  },
272
  {
273
  "epoch": 0.115625,
274
+ "grad_norm": 4.911381244659424,
275
  "learning_rate": 5.8975e-06,
276
+ "loss": 0.1617,
277
  "step": 925
278
  },
279
  {
280
  "epoch": 0.11875,
281
+ "grad_norm": 4.673095226287842,
282
  "learning_rate": 5.8766666666666674e-06,
283
+ "loss": 0.1543,
284
  "step": 950
285
  },
286
  {
287
  "epoch": 0.121875,
288
+ "grad_norm": 4.966635704040527,
289
  "learning_rate": 5.855833333333333e-06,
290
+ "loss": 0.1585,
291
  "step": 975
292
  },
293
  {
294
  "epoch": 0.125,
295
+ "grad_norm": 4.074397087097168,
296
  "learning_rate": 5.835e-06,
297
+ "loss": 0.1462,
298
  "step": 1000
299
  },
300
  {
301
  "epoch": 0.125,
302
+ "eval_loss": 0.3524394631385803,
303
+ "eval_runtime": 423.5166,
304
+ "eval_samples_per_second": 4.968,
305
+ "eval_steps_per_second": 0.621,
306
+ "eval_wer": 19.940170141161072,
307
  "step": 1000
308
  },
309
  {
310
  "epoch": 0.128125,
311
+ "grad_norm": 2.7621817588806152,
312
  "learning_rate": 5.814166666666667e-06,
313
+ "loss": 0.1543,
314
  "step": 1025
315
  },
316
  {
317
  "epoch": 0.13125,
318
+ "grad_norm": 5.36495304107666,
319
  "learning_rate": 5.793333333333334e-06,
320
+ "loss": 0.1356,
321
  "step": 1050
322
  },
323
  {
324
  "epoch": 0.134375,
325
+ "grad_norm": 4.922938346862793,
326
  "learning_rate": 5.7725e-06,
327
+ "loss": 0.1459,
328
  "step": 1075
329
  },
330
  {
331
  "epoch": 0.1375,
332
+ "grad_norm": 3.6823904514312744,
333
  "learning_rate": 5.751666666666667e-06,
334
+ "loss": 0.148,
335
  "step": 1100
336
  },
337
  {
338
  "epoch": 0.140625,
339
+ "grad_norm": 3.583972215652466,
340
  "learning_rate": 5.730833333333334e-06,
341
+ "loss": 0.1408,
342
  "step": 1125
343
  },
344
  {
345
  "epoch": 0.14375,
346
+ "grad_norm": 4.794659614562988,
347
  "learning_rate": 5.71e-06,
348
+ "loss": 0.1363,
349
  "step": 1150
350
  },
351
  {
352
  "epoch": 0.146875,
353
+ "grad_norm": 2.823441743850708,
354
  "learning_rate": 5.689166666666667e-06,
355
+ "loss": 0.1378,
356
  "step": 1175
357
  },
358
  {
359
  "epoch": 0.15,
360
+ "grad_norm": 5.426193714141846,
361
  "learning_rate": 5.668333333333334e-06,
362
+ "loss": 0.1454,
363
  "step": 1200
364
  },
365
  {
366
  "epoch": 0.153125,
367
+ "grad_norm": 3.506147861480713,
368
  "learning_rate": 5.6475e-06,
369
+ "loss": 0.124,
370
  "step": 1225
371
  },
372
  {
373
  "epoch": 0.15625,
374
+ "grad_norm": 3.6159119606018066,
375
  "learning_rate": 5.626666666666667e-06,
376
+ "loss": 0.1214,
377
  "step": 1250
378
  },
379
  {
380
  "epoch": 0.159375,
381
+ "grad_norm": 4.304079055786133,
382
  "learning_rate": 5.605833333333334e-06,
383
+ "loss": 0.1266,
384
  "step": 1275
385
  },
386
  {
387
  "epoch": 0.1625,
388
+ "grad_norm": 3.570537805557251,
389
  "learning_rate": 5.585e-06,
390
+ "loss": 0.1474,
391
  "step": 1300
392
  },
393
  {
394
  "epoch": 0.165625,
395
+ "grad_norm": 3.944892644882202,
396
  "learning_rate": 5.564166666666667e-06,
397
+ "loss": 0.1327,
398
  "step": 1325
399
  },
400
  {
401
  "epoch": 0.16875,
402
+ "grad_norm": 4.3111572265625,
403
  "learning_rate": 5.543333333333333e-06,
404
+ "loss": 0.1361,
405
  "step": 1350
406
  },
407
  {
408
  "epoch": 0.171875,
409
+ "grad_norm": 4.4654083251953125,
410
  "learning_rate": 5.522500000000001e-06,
411
+ "loss": 0.1348,
412
  "step": 1375
413
  },
414
  {
415
  "epoch": 0.175,
416
+ "grad_norm": 4.158225059509277,
417
  "learning_rate": 5.501666666666667e-06,
418
+ "loss": 0.1321,
419
  "step": 1400
420
  },
421
  {
422
  "epoch": 0.178125,
423
+ "grad_norm": 3.5653274059295654,
424
  "learning_rate": 5.4808333333333335e-06,
425
+ "loss": 0.1392,
426
  "step": 1425
427
  },
428
  {
429
  "epoch": 0.18125,
430
+ "grad_norm": 8.204817771911621,
431
  "learning_rate": 5.46e-06,
432
+ "loss": 0.1697,
433
  "step": 1450
434
  },
435
  {
436
  "epoch": 0.184375,
437
+ "grad_norm": 6.251273155212402,
438
  "learning_rate": 5.439166666666667e-06,
439
+ "loss": 0.2126,
440
  "step": 1475
441
  },
442
  {
443
  "epoch": 0.1875,
444
+ "grad_norm": 5.315432071685791,
445
  "learning_rate": 5.418333333333334e-06,
446
+ "loss": 0.2495,
447
  "step": 1500
448
  },
449
  {
450
  "epoch": 0.1875,
451
+ "eval_loss": 0.30772972106933594,
452
+ "eval_runtime": 441.4634,
453
+ "eval_samples_per_second": 4.766,
454
+ "eval_steps_per_second": 0.596,
455
+ "eval_wer": 17.523604748995044,
456
  "step": 1500
457
  },
458
  {
459
  "epoch": 0.190625,
460
+ "grad_norm": 5.567235469818115,
461
  "learning_rate": 5.3975e-06,
462
+ "loss": 0.2418,
463
  "step": 1525
464
  },
465
  {
466
  "epoch": 0.19375,
467
+ "grad_norm": 5.031063079833984,
468
  "learning_rate": 5.376666666666666e-06,
469
+ "loss": 0.2061,
470
  "step": 1550
471
  },
472
  {
473
  "epoch": 0.196875,
474
+ "grad_norm": 6.948727130889893,
475
  "learning_rate": 5.355833333333334e-06,
476
+ "loss": 0.2166,
477
  "step": 1575
478
  },
479
  {
480
  "epoch": 0.2,
481
+ "grad_norm": 7.243198394775391,
482
  "learning_rate": 5.335000000000001e-06,
483
+ "loss": 0.278,
484
  "step": 1600
485
  },
486
  {
487
  "epoch": 0.203125,
488
+ "grad_norm": 4.161729335784912,
489
  "learning_rate": 5.3141666666666665e-06,
490
+ "loss": 0.1822,
491
  "step": 1625
492
  },
493
  {
494
  "epoch": 0.20625,
495
+ "grad_norm": 4.0524516105651855,
496
  "learning_rate": 5.293333333333333e-06,
497
+ "loss": 0.1439,
498
  "step": 1650
499
  },
500
  {
501
  "epoch": 0.209375,
502
+ "grad_norm": 4.263937473297119,
503
  "learning_rate": 5.272500000000001e-06,
504
+ "loss": 0.1272,
505
  "step": 1675
506
  },
507
  {
508
  "epoch": 0.2125,
509
+ "grad_norm": 3.639070987701416,
510
  "learning_rate": 5.2516666666666675e-06,
511
+ "loss": 0.1252,
512
  "step": 1700
513
  },
514
  {
515
+ "epoch": 0.215625,
516
+ "grad_norm": 3.305999517440796,
517
  "learning_rate": 5.230833333333333e-06,
518
+ "loss": 0.1183,
519
  "step": 1725
520
  },
521
  {
522
+ "epoch": 0.21875,
523
+ "grad_norm": 2.888228178024292,
524
  "learning_rate": 5.21e-06,
525
+ "loss": 0.1101,
526
  "step": 1750
527
  },
528
  {
529
+ "epoch": 0.221875,
530
+ "grad_norm": 5.215433597564697,
531
  "learning_rate": 5.189166666666667e-06,
532
+ "loss": 0.1562,
533
  "step": 1775
534
  },
535
  {
536
+ "epoch": 0.225,
537
+ "grad_norm": 4.641208171844482,
538
  "learning_rate": 5.1683333333333335e-06,
539
+ "loss": 0.192,
540
  "step": 1800
541
  },
542
  {
543
+ "epoch": 0.228125,
544
+ "grad_norm": 6.326239109039307,
545
  "learning_rate": 5.1475e-06,
546
+ "loss": 0.2123,
547
  "step": 1825
548
  },
549
  {
550
+ "epoch": 0.23125,
551
+ "grad_norm": 7.012181282043457,
552
  "learning_rate": 5.126666666666667e-06,
553
+ "loss": 0.2123,
554
  "step": 1850
555
  },
556
  {
557
+ "epoch": 0.234375,
558
+ "grad_norm": 5.915773391723633,
559
  "learning_rate": 5.105833333333334e-06,
560
+ "loss": 0.1966,
561
  "step": 1875
562
  },
563
  {
564
+ "epoch": 0.2375,
565
+ "grad_norm": 5.602591037750244,
566
  "learning_rate": 5.0850000000000004e-06,
567
+ "loss": 0.1913,
568
  "step": 1900
569
  },
570
  {
571
+ "epoch": 0.240625,
572
+ "grad_norm": 5.096761703491211,
573
  "learning_rate": 5.064166666666667e-06,
574
+ "loss": 0.2013,
575
  "step": 1925
576
  },
577
  {
578
+ "epoch": 0.24375,
579
+ "grad_norm": 11.189478874206543,
580
  "learning_rate": 5.043333333333333e-06,
581
+ "loss": 0.587,
582
  "step": 1950
583
  },
584
  {
585
+ "epoch": 0.246875,
586
+ "grad_norm": 6.038069248199463,
587
  "learning_rate": 5.0225e-06,
588
+ "loss": 0.3751,
589
  "step": 1975
590
  },
591
  {
592
+ "epoch": 0.25,
593
+ "grad_norm": 6.957058429718018,
594
  "learning_rate": 5.001666666666667e-06,
595
+ "loss": 0.2617,
596
  "step": 2000
597
  },
598
  {
599
+ "epoch": 0.25,
600
+ "eval_loss": 0.2810758948326111,
601
+ "eval_runtime": 423.474,
602
+ "eval_samples_per_second": 4.968,
603
+ "eval_steps_per_second": 0.621,
604
+ "eval_wer": 16.58408899691502,
605
  "step": 2000
606
  },
607
  {
608
+ "epoch": 0.253125,
609
+ "grad_norm": 5.579774856567383,
610
  "learning_rate": 4.980833333333334e-06,
611
+ "loss": 0.2469,
612
  "step": 2025
613
  },
614
  {
615
+ "epoch": 0.25625,
616
+ "grad_norm": 5.4091620445251465,
617
  "learning_rate": 4.96e-06,
618
+ "loss": 0.2291,
619
  "step": 2050
620
  },
621
  {
622
+ "epoch": 0.259375,
623
+ "grad_norm": 4.21276330947876,
624
  "learning_rate": 4.939166666666667e-06,
625
+ "loss": 0.1921,
626
  "step": 2075
627
  },
628
  {
629
+ "epoch": 0.2625,
630
+ "grad_norm": 3.7961809635162354,
631
  "learning_rate": 4.918333333333334e-06,
632
+ "loss": 0.1341,
633
  "step": 2100
634
  },
635
  {
636
+ "epoch": 0.265625,
637
+ "grad_norm": 3.204401969909668,
638
  "learning_rate": 4.8975e-06,
639
+ "loss": 0.107,
640
  "step": 2125
641
  },
642
  {
643
+ "epoch": 0.26875,
644
+ "grad_norm": 3.3962206840515137,
645
  "learning_rate": 4.876666666666667e-06,
646
+ "loss": 0.1206,
647
  "step": 2150
648
  },
649
  {
650
+ "epoch": 0.271875,
651
+ "grad_norm": 3.666205644607544,
652
  "learning_rate": 4.8558333333333336e-06,
653
+ "loss": 0.1059,
654
  "step": 2175
655
  },
656
  {
657
+ "epoch": 0.275,
658
+ "grad_norm": 3.0882160663604736,
659
  "learning_rate": 4.835e-06,
660
+ "loss": 0.097,
661
  "step": 2200
662
  },
663
  {
664
+ "epoch": 0.278125,
665
+ "grad_norm": 3.348127603530884,
666
  "learning_rate": 4.814166666666667e-06,
667
+ "loss": 0.0965,
668
  "step": 2225
669
  },
670
  {
671
+ "epoch": 0.28125,
672
+ "grad_norm": 2.4447720050811768,
673
  "learning_rate": 4.793333333333334e-06,
674
+ "loss": 0.1003,
675
  "step": 2250
676
  },
677
  {
678
+ "epoch": 0.284375,
679
+ "grad_norm": 4.615771293640137,
680
  "learning_rate": 4.7725e-06,
681
+ "loss": 0.1012,
682
  "step": 2275
683
  },
684
  {
685
+ "epoch": 0.2875,
686
+ "grad_norm": 3.513615131378174,
687
  "learning_rate": 4.751666666666666e-06,
688
+ "loss": 0.107,
689
  "step": 2300
690
  },
691
  {
692
+ "epoch": 0.290625,
693
+ "grad_norm": 3.266713857650757,
694
  "learning_rate": 4.730833333333334e-06,
695
+ "loss": 0.1073,
696
  "step": 2325
697
  },
698
  {
699
+ "epoch": 0.29375,
700
+ "grad_norm": 3.3199737071990967,
701
  "learning_rate": 4.710000000000001e-06,
702
+ "loss": 0.1077,
703
  "step": 2350
704
  },
705
  {
706
+ "epoch": 0.296875,
707
+ "grad_norm": 2.671046018600464,
708
  "learning_rate": 4.6891666666666665e-06,
709
+ "loss": 0.1031,
710
  "step": 2375
711
  },
712
  {
713
+ "epoch": 0.3,
714
+ "grad_norm": 3.041368007659912,
715
  "learning_rate": 4.668333333333333e-06,
716
+ "loss": 0.1053,
717
  "step": 2400
718
  },
719
  {
720
+ "epoch": 0.303125,
721
+ "grad_norm": 3.7318310737609863,
722
  "learning_rate": 4.647500000000001e-06,
723
+ "loss": 0.1439,
724
  "step": 2425
725
  },
726
  {
727
+ "epoch": 0.30625,
728
+ "grad_norm": 7.745230674743652,
729
  "learning_rate": 4.626666666666667e-06,
730
+ "loss": 0.1686,
731
  "step": 2450
732
  },
733
  {
734
+ "epoch": 0.309375,
735
+ "grad_norm": 5.621090412139893,
736
  "learning_rate": 4.605833333333333e-06,
737
+ "loss": 0.1794,
738
  "step": 2475
739
  },
740
  {
741
+ "epoch": 0.3125,
742
+ "grad_norm": 4.522252559661865,
743
  "learning_rate": 4.585e-06,
744
+ "loss": 0.1646,
745
  "step": 2500
746
  },
747
  {
748
+ "epoch": 0.3125,
749
+ "eval_loss": 0.2725737690925598,
750
+ "eval_runtime": 422.3202,
751
+ "eval_samples_per_second": 4.982,
752
+ "eval_steps_per_second": 0.623,
753
+ "eval_wer": 13.891745349163317,
754
  "step": 2500
755
  },
756
  {
757
+ "epoch": 0.315625,
758
+ "grad_norm": 5.429344177246094,
759
  "learning_rate": 4.564166666666667e-06,
760
+ "loss": 0.188,
761
  "step": 2525
762
  },
763
  {
764
+ "epoch": 0.31875,
765
+ "grad_norm": 6.522274971008301,
766
  "learning_rate": 4.543333333333334e-06,
767
+ "loss": 0.1988,
768
  "step": 2550
769
  },
770
  {
771
+ "epoch": 0.321875,
772
+ "grad_norm": 6.914414405822754,
773
  "learning_rate": 4.5225e-06,
774
+ "loss": 0.1915,
775
  "step": 2575
776
  },
777
  {
778
+ "epoch": 0.325,
779
+ "grad_norm": 5.277989387512207,
780
  "learning_rate": 4.501666666666667e-06,
781
+ "loss": 0.2011,
782
  "step": 2600
783
  },
784
  {
785
+ "epoch": 0.328125,
786
+ "grad_norm": 5.887080192565918,
787
+ "learning_rate": 4.481666666666666e-06,
788
+ "loss": 0.1717,
789
  "step": 2625
790
  },
791
  {
792
+ "epoch": 0.33125,
793
+ "grad_norm": 5.534679412841797,
794
+ "learning_rate": 4.460833333333333e-06,
795
+ "loss": 0.1696,
796
  "step": 2650
797
  },
798
  {
799
+ "epoch": 0.334375,
800
+ "grad_norm": 5.044061183929443,
801
+ "learning_rate": 4.440000000000001e-06,
802
+ "loss": 0.1809,
803
  "step": 2675
804
  },
805
  {
806
+ "epoch": 0.3375,
807
+ "grad_norm": 6.7157769203186035,
808
+ "learning_rate": 4.4191666666666666e-06,
809
+ "loss": 0.1763,
810
  "step": 2700
811
  },
812
  {
813
+ "epoch": 0.340625,
814
+ "grad_norm": 5.815196990966797,
815
+ "learning_rate": 4.398333333333333e-06,
816
+ "loss": 0.1626,
817
  "step": 2725
818
  },
819
  {
820
+ "epoch": 0.34375,
821
+ "grad_norm": 5.573261737823486,
822
+ "learning_rate": 4.3775e-06,
823
+ "loss": 0.1599,
824
  "step": 2750
825
  },
826
  {
827
+ "epoch": 0.346875,
828
+ "grad_norm": 4.859520435333252,
829
+ "learning_rate": 4.356666666666667e-06,
830
+ "loss": 0.1523,
831
  "step": 2775
832
  },
833
  {
834
+ "epoch": 0.35,
835
+ "grad_norm": 5.533599853515625,
836
+ "learning_rate": 4.3358333333333335e-06,
837
+ "loss": 0.1672,
838
  "step": 2800
839
  },
840
  {
841
+ "epoch": 0.353125,
842
+ "grad_norm": 6.5196123123168945,
843
+ "learning_rate": 4.315e-06,
844
+ "loss": 0.1652,
845
  "step": 2825
846
  },
847
  {
848
+ "epoch": 0.35625,
849
+ "grad_norm": 5.192087173461914,
850
+ "learning_rate": 4.294166666666667e-06,
851
+ "loss": 0.1587,
852
  "step": 2850
853
  },
854
  {
855
+ "epoch": 0.359375,
856
+ "grad_norm": 4.697035789489746,
857
+ "learning_rate": 4.273333333333334e-06,
858
+ "loss": 0.1697,
859
  "step": 2875
860
  },
861
  {
862
+ "epoch": 0.3625,
863
+ "grad_norm": 4.622238636016846,
864
+ "learning_rate": 4.2525e-06,
865
+ "loss": 0.1431,
866
  "step": 2900
867
  },
868
  {
869
+ "epoch": 0.365625,
870
+ "grad_norm": 2.833672046661377,
871
+ "learning_rate": 4.231666666666667e-06,
872
+ "loss": 0.1187,
873
  "step": 2925
874
  },
875
  {
876
+ "epoch": 0.36875,
877
+ "grad_norm": 2.756924867630005,
878
+ "learning_rate": 4.210833333333333e-06,
879
+ "loss": 0.098,
880
  "step": 2950
881
  },
882
  {
883
+ "epoch": 0.371875,
884
+ "grad_norm": 4.0311598777771,
885
+ "learning_rate": 4.1900000000000005e-06,
886
+ "loss": 0.0956,
887
  "step": 2975
888
  },
889
  {
890
+ "epoch": 0.375,
891
+ "grad_norm": 3.7465600967407227,
892
+ "learning_rate": 4.169166666666667e-06,
893
+ "loss": 0.0934,
894
  "step": 3000
895
  },
896
  {
897
+ "epoch": 0.375,
898
+ "eval_loss": 0.2532876133918762,
899
+ "eval_runtime": 423.4639,
900
+ "eval_samples_per_second": 4.969,
901
+ "eval_steps_per_second": 0.621,
902
+ "eval_wer": 14.02729737309526,
903
  "step": 3000
904
  },
905
  {
906
+ "epoch": 0.378125,
907
+ "grad_norm": 3.0190958976745605,
908
+ "learning_rate": 4.148333333333333e-06,
909
+ "loss": 0.1074,
910
  "step": 3025
911
  },
912
  {
913
+ "epoch": 0.38125,
914
+ "grad_norm": 4.197691917419434,
915
+ "learning_rate": 4.1275e-06,
916
+ "loss": 0.0952,
917
  "step": 3050
918
  },
919
  {
920
+ "epoch": 0.384375,
921
+ "grad_norm": 4.304806709289551,
922
+ "learning_rate": 4.106666666666667e-06,
923
+ "loss": 0.1005,
924
  "step": 3075
925
  },
926
  {
927
+ "epoch": 0.3875,
928
+ "grad_norm": 3.895831823348999,
929
+ "learning_rate": 4.085833333333334e-06,
930
+ "loss": 0.1027,
931
  "step": 3100
932
  },
933
  {
934
+ "epoch": 0.390625,
935
+ "grad_norm": 2.959507703781128,
936
+ "learning_rate": 4.065e-06,
937
+ "loss": 0.0863,
938
  "step": 3125
939
  },
940
  {
941
+ "epoch": 0.39375,
942
+ "grad_norm": 2.9817397594451904,
943
+ "learning_rate": 4.044166666666667e-06,
944
+ "loss": 0.0773,
945
  "step": 3150
946
  },
947
  {
948
+ "epoch": 0.396875,
949
+ "grad_norm": 3.26869535446167,
950
+ "learning_rate": 4.0233333333333335e-06,
951
+ "loss": 0.0885,
952
  "step": 3175
953
  },
954
  {
955
+ "epoch": 0.4,
956
+ "grad_norm": 4.37345552444458,
957
+ "learning_rate": 4.0025e-06,
958
+ "loss": 0.0899,
959
  "step": 3200
960
  },
961
  {
962
+ "epoch": 0.403125,
963
+ "grad_norm": 4.3736371994018555,
964
+ "learning_rate": 3.981666666666667e-06,
965
+ "loss": 0.11,
966
  "step": 3225
967
  },
968
  {
969
+ "epoch": 0.40625,
970
+ "grad_norm": 3.9477250576019287,
971
+ "learning_rate": 3.960833333333334e-06,
972
+ "loss": 0.1579,
973
  "step": 3250
974
  },
975
  {
976
+ "epoch": 0.409375,
977
+ "grad_norm": 4.6521315574646,
978
+ "learning_rate": 3.9399999999999995e-06,
979
+ "loss": 0.1409,
980
  "step": 3275
981
  },
982
  {
983
+ "epoch": 0.4125,
984
+ "grad_norm": 3.4862189292907715,
985
+ "learning_rate": 3.919166666666667e-06,
986
+ "loss": 0.1368,
987
  "step": 3300
988
  },
989
  {
990
+ "epoch": 0.415625,
991
+ "grad_norm": 4.412058353424072,
992
+ "learning_rate": 3.898333333333334e-06,
993
+ "loss": 0.136,
994
  "step": 3325
995
  },
996
  {
997
+ "epoch": 0.41875,
998
+ "grad_norm": 5.891563892364502,
999
+ "learning_rate": 3.8775e-06,
1000
+ "loss": 0.1514,
1001
  "step": 3350
1002
  },
1003
  {
1004
+ "epoch": 0.421875,
1005
+ "grad_norm": 4.186588287353516,
1006
+ "learning_rate": 3.8566666666666664e-06,
1007
+ "loss": 0.1574,
1008
  "step": 3375
1009
  },
1010
  {
1011
+ "epoch": 0.425,
1012
+ "grad_norm": 3.0448837280273438,
1013
+ "learning_rate": 3.835833333333334e-06,
1014
+ "loss": 0.1198,
1015
  "step": 3400
1016
  },
1017
  {
1018
+ "epoch": 0.428125,
1019
+ "grad_norm": 3.597623825073242,
1020
+ "learning_rate": 3.815000000000001e-06,
1021
+ "loss": 0.1079,
1022
  "step": 3425
1023
  },
1024
  {
1025
+ "epoch": 0.43125,
1026
+ "grad_norm": 4.119424819946289,
1027
+ "learning_rate": 3.7941666666666666e-06,
1028
+ "loss": 0.1015,
1029
  "step": 3450
1030
  },
1031
  {
1032
+ "epoch": 0.434375,
1033
+ "grad_norm": 4.269451141357422,
1034
+ "learning_rate": 3.7733333333333338e-06,
1035
+ "loss": 0.0931,
1036
  "step": 3475
1037
  },
1038
  {
1039
+ "epoch": 0.4375,
1040
+ "grad_norm": 3.5041770935058594,
1041
+ "learning_rate": 3.7525000000000005e-06,
1042
+ "loss": 0.1016,
1043
  "step": 3500
1044
  },
1045
  {
1046
+ "epoch": 0.4375,
1047
+ "eval_loss": 0.23310637474060059,
1048
+ "eval_runtime": 422.6444,
1049
+ "eval_samples_per_second": 4.978,
1050
+ "eval_steps_per_second": 0.622,
1051
+ "eval_wer": 12.162288492100588,
1052
  "step": 3500
1053
  },
1054
  {
1055
+ "epoch": 0.440625,
1056
+ "grad_norm": 3.1294009685516357,
1057
+ "learning_rate": 3.731666666666667e-06,
1058
+ "loss": 0.0875,
1059
  "step": 3525
1060
  },
1061
  {
1062
+ "epoch": 0.44375,
1063
+ "grad_norm": 5.66436767578125,
1064
+ "learning_rate": 3.7108333333333335e-06,
1065
+ "loss": 0.0852,
1066
  "step": 3550
1067
  },
1068
  {
1069
+ "epoch": 0.446875,
1070
+ "grad_norm": 3.854020833969116,
1071
+ "learning_rate": 3.6900000000000002e-06,
1072
+ "loss": 0.1009,
1073
  "step": 3575
1074
  },
1075
  {
1076
+ "epoch": 0.45,
1077
+ "grad_norm": 2.3957531452178955,
1078
+ "learning_rate": 3.6691666666666665e-06,
1079
+ "loss": 0.0884,
1080
  "step": 3600
1081
  },
1082
  {
1083
+ "epoch": 0.453125,
1084
+ "grad_norm": 2.6974878311157227,
1085
+ "learning_rate": 3.6483333333333333e-06,
1086
+ "loss": 0.0878,
1087
  "step": 3625
1088
  },
1089
  {
1090
+ "epoch": 0.45625,
1091
+ "grad_norm": 2.4071967601776123,
1092
+ "learning_rate": 3.6275000000000004e-06,
1093
+ "loss": 0.0822,
1094
  "step": 3650
1095
  },
1096
  {
1097
+ "epoch": 0.459375,
1098
+ "grad_norm": 3.604412078857422,
1099
+ "learning_rate": 3.6066666666666667e-06,
1100
+ "loss": 0.0885,
1101
  "step": 3675
1102
  },
1103
  {
1104
+ "epoch": 0.4625,
1105
+ "grad_norm": 3.1856794357299805,
1106
+ "learning_rate": 3.5858333333333334e-06,
1107
+ "loss": 0.0795,
1108
  "step": 3700
1109
  },
1110
  {
1111
+ "epoch": 0.465625,
1112
+ "grad_norm": 2.82853102684021,
1113
+ "learning_rate": 3.565e-06,
1114
+ "loss": 0.0839,
1115
  "step": 3725
1116
  },
1117
  {
1118
+ "epoch": 0.46875,
1119
+ "grad_norm": 3.0090298652648926,
1120
+ "learning_rate": 3.5441666666666673e-06,
1121
+ "loss": 0.0861,
1122
  "step": 3750
1123
  },
1124
  {
1125
+ "epoch": 0.471875,
1126
+ "grad_norm": 4.2935028076171875,
1127
+ "learning_rate": 3.523333333333333e-06,
1128
+ "loss": 0.0902,
1129
  "step": 3775
1130
  },
1131
  {
1132
+ "epoch": 0.475,
1133
+ "grad_norm": 2.894404172897339,
1134
+ "learning_rate": 3.5025000000000003e-06,
1135
+ "loss": 0.0897,
1136
  "step": 3800
1137
  },
1138
  {
1139
+ "epoch": 0.478125,
1140
+ "grad_norm": 2.974064826965332,
1141
+ "learning_rate": 3.481666666666667e-06,
1142
+ "loss": 0.0846,
1143
  "step": 3825
1144
  },
1145
  {
1146
+ "epoch": 0.48125,
1147
+ "grad_norm": 1.8990185260772705,
1148
+ "learning_rate": 3.4608333333333334e-06,
1149
+ "loss": 0.0782,
1150
  "step": 3850
1151
  },
1152
  {
1153
+ "epoch": 0.484375,
1154
+ "grad_norm": 3.043663740158081,
1155
+ "learning_rate": 3.44e-06,
1156
+ "loss": 0.0923,
1157
  "step": 3875
1158
  },
1159
  {
1160
+ "epoch": 0.4875,
1161
+ "grad_norm": 4.826819896697998,
1162
+ "learning_rate": 3.4191666666666672e-06,
1163
+ "loss": 0.1242,
1164
  "step": 3900
1165
  },
1166
  {
1167
+ "epoch": 0.490625,
1168
+ "grad_norm": 4.978621006011963,
1169
+ "learning_rate": 3.398333333333333e-06,
1170
+ "loss": 0.1445,
1171
  "step": 3925
1172
  },
1173
  {
1174
+ "epoch": 0.49375,
1175
+ "grad_norm": 4.0232977867126465,
1176
+ "learning_rate": 3.3775000000000003e-06,
1177
+ "loss": 0.1514,
1178
  "step": 3950
1179
  },
1180
  {
1181
+ "epoch": 0.496875,
1182
+ "grad_norm": 5.176286220550537,
1183
+ "learning_rate": 3.356666666666667e-06,
1184
+ "loss": 0.1532,
1185
  "step": 3975
1186
  },
1187
  {
1188
+ "epoch": 0.5,
1189
+ "grad_norm": 4.363390922546387,
1190
+ "learning_rate": 3.3358333333333333e-06,
1191
+ "loss": 0.1454,
1192
  "step": 4000
1193
  },
1194
  {
1195
+ "epoch": 0.5,
1196
+ "eval_loss": 0.22985798120498657,
1197
+ "eval_runtime": 420.4785,
1198
+ "eval_samples_per_second": 5.004,
1199
+ "eval_steps_per_second": 0.625,
1200
+ "eval_wer": 11.55464148826774,
1201
  "step": 4000
1202
  },
1203
  {
1204
+ "epoch": 0.503125,
1205
+ "grad_norm": 4.654495716094971,
1206
+ "learning_rate": 3.315e-06,
1207
+ "loss": 0.1331,
1208
  "step": 4025
1209
  },
1210
  {
1211
+ "epoch": 0.50625,
1212
+ "grad_norm": 3.879624605178833,
1213
+ "learning_rate": 3.2941666666666667e-06,
1214
+ "loss": 0.1029,
1215
  "step": 4050
1216
  },
1217
  {
1218
+ "epoch": 0.509375,
1219
+ "grad_norm": 3.2961080074310303,
1220
+ "learning_rate": 3.273333333333334e-06,
1221
+ "loss": 0.0842,
1222
  "step": 4075
1223
  },
1224
  {
1225
+ "epoch": 0.5125,
1226
+ "grad_norm": 2.5998172760009766,
1227
+ "learning_rate": 3.2525e-06,
1228
+ "loss": 0.0846,
1229
  "step": 4100
1230
  },
1231
  {
1232
+ "epoch": 0.515625,
1233
+ "grad_norm": 2.965538501739502,
1234
+ "learning_rate": 3.231666666666667e-06,
1235
+ "loss": 0.0858,
1236
  "step": 4125
1237
  },
1238
  {
1239
+ "epoch": 0.51875,
1240
+ "grad_norm": 2.8639001846313477,
1241
+ "learning_rate": 3.2108333333333336e-06,
1242
+ "loss": 0.0836,
1243
  "step": 4150
1244
  },
1245
  {
1246
+ "epoch": 0.521875,
1247
+ "grad_norm": 3.651369094848633,
1248
+ "learning_rate": 3.19e-06,
1249
+ "loss": 0.0852,
1250
  "step": 4175
1251
  },
1252
  {
1253
+ "epoch": 0.525,
1254
+ "grad_norm": 4.119676113128662,
1255
+ "learning_rate": 3.1691666666666667e-06,
1256
+ "loss": 0.0886,
1257
  "step": 4200
1258
  },
1259
  {
1260
+ "epoch": 0.528125,
1261
+ "grad_norm": 2.3661563396453857,
1262
+ "learning_rate": 3.148333333333334e-06,
1263
+ "loss": 0.0732,
1264
  "step": 4225
1265
  },
1266
  {
1267
+ "epoch": 0.53125,
1268
+ "grad_norm": 4.026716232299805,
1269
+ "learning_rate": 3.1274999999999997e-06,
1270
+ "loss": 0.0739,
1271
  "step": 4250
1272
  },
1273
  {
1274
+ "epoch": 0.534375,
1275
+ "grad_norm": 2.2528867721557617,
1276
+ "learning_rate": 3.106666666666667e-06,
1277
+ "loss": 0.0682,
1278
  "step": 4275
1279
  },
1280
  {
1281
+ "epoch": 0.5375,
1282
+ "grad_norm": 3.5776236057281494,
1283
+ "learning_rate": 3.0858333333333336e-06,
1284
+ "loss": 0.0729,
1285
  "step": 4300
1286
  },
1287
  {
1288
+ "epoch": 0.540625,
1289
+ "grad_norm": 2.0452890396118164,
1290
+ "learning_rate": 3.0650000000000003e-06,
1291
+ "loss": 0.0676,
1292
  "step": 4325
1293
  },
1294
  {
1295
+ "epoch": 0.54375,
1296
+ "grad_norm": 3.9987590312957764,
1297
+ "learning_rate": 3.0441666666666666e-06,
1298
+ "loss": 0.081,
1299
  "step": 4350
1300
  },
1301
  {
1302
+ "epoch": 0.546875,
1303
+ "grad_norm": 4.795535087585449,
1304
+ "learning_rate": 3.0233333333333338e-06,
1305
+ "loss": 0.126,
1306
  "step": 4375
1307
  },
1308
  {
1309
+ "epoch": 0.55,
1310
+ "grad_norm": 4.841895580291748,
1311
+ "learning_rate": 3.0025e-06,
1312
+ "loss": 0.1363,
1313
  "step": 4400
1314
  },
1315
  {
1316
+ "epoch": 0.553125,
1317
+ "grad_norm": 6.109241962432861,
1318
+ "learning_rate": 2.9816666666666668e-06,
1319
+ "loss": 0.1325,
1320
  "step": 4425
1321
  },
1322
  {
1323
+ "epoch": 0.55625,
1324
+ "grad_norm": 4.623290538787842,
1325
+ "learning_rate": 2.9608333333333335e-06,
1326
+ "loss": 0.123,
1327
  "step": 4450
1328
  },
1329
  {
1330
+ "epoch": 0.559375,
1331
+ "grad_norm": 3.5602827072143555,
1332
+ "learning_rate": 2.9400000000000002e-06,
1333
+ "loss": 0.1361,
1334
  "step": 4475
1335
  },
1336
  {
1337
+ "epoch": 0.5625,
1338
+ "grad_norm": 4.564285755157471,
1339
+ "learning_rate": 2.919166666666667e-06,
1340
+ "loss": 0.1502,
1341
  "step": 4500
1342
  },
1343
  {
1344
+ "epoch": 0.5625,
1345
+ "eval_loss": 0.23331405222415924,
1346
+ "eval_runtime": 420.0095,
1347
+ "eval_samples_per_second": 5.009,
1348
+ "eval_steps_per_second": 0.626,
1349
+ "eval_wer": 12.400673085911938,
1350
  "step": 4500
1351
  },
1352
  {
1353
+ "epoch": 0.565625,
1354
+ "grad_norm": 3.0876269340515137,
1355
+ "learning_rate": 2.8983333333333333e-06,
1356
+ "loss": 0.1061,
1357
  "step": 4525
1358
  },
1359
  {
1360
+ "epoch": 0.56875,
1361
+ "grad_norm": 2.9698376655578613,
1362
+ "learning_rate": 2.8775e-06,
1363
+ "loss": 0.0809,
1364
  "step": 4550
1365
  },
1366
  {
1367
+ "epoch": 0.571875,
1368
+ "grad_norm": 2.491389274597168,
1369
+ "learning_rate": 2.8566666666666667e-06,
1370
+ "loss": 0.0769,
1371
  "step": 4575
1372
  },
1373
  {
1374
+ "epoch": 0.575,
1375
+ "grad_norm": 3.7412362098693848,
1376
+ "learning_rate": 2.8358333333333334e-06,
1377
+ "loss": 0.0632,
1378
  "step": 4600
1379
  },
1380
  {
1381
+ "epoch": 0.578125,
1382
+ "grad_norm": 3.1096959114074707,
1383
+ "learning_rate": 2.815e-06,
1384
+ "loss": 0.0731,
1385
  "step": 4625
1386
  },
1387
  {
1388
+ "epoch": 0.58125,
1389
+ "grad_norm": 3.5074427127838135,
1390
+ "learning_rate": 2.794166666666667e-06,
1391
+ "loss": 0.0724,
1392
  "step": 4650
1393
  },
1394
  {
1395
+ "epoch": 0.584375,
1396
+ "grad_norm": 2.3038923740386963,
1397
+ "learning_rate": 2.773333333333333e-06,
1398
+ "loss": 0.0663,
1399
  "step": 4675
1400
  },
1401
  {
1402
+ "epoch": 0.5875,
1403
+ "grad_norm": 2.202913522720337,
1404
+ "learning_rate": 2.7525000000000003e-06,
1405
+ "loss": 0.0624,
1406
  "step": 4700
1407
  },
1408
  {
1409
+ "epoch": 0.590625,
1410
+ "grad_norm": 3.385122060775757,
1411
+ "learning_rate": 2.7316666666666666e-06,
1412
+ "loss": 0.0764,
1413
  "step": 4725
1414
  },
1415
  {
1416
+ "epoch": 0.59375,
1417
+ "grad_norm": 2.382167100906372,
1418
+ "learning_rate": 2.7108333333333338e-06,
1419
+ "loss": 0.0735,
1420
  "step": 4750
1421
  },
1422
  {
1423
+ "epoch": 0.596875,
1424
+ "grad_norm": 2.670067071914673,
1425
+ "learning_rate": 2.69e-06,
1426
+ "loss": 0.0769,
1427
  "step": 4775
1428
  },
1429
  {
1430
+ "epoch": 0.6,
1431
+ "grad_norm": 2.72542667388916,
1432
+ "learning_rate": 2.669166666666667e-06,
1433
+ "loss": 0.0699,
1434
  "step": 4800
1435
  },
1436
  {
1437
+ "epoch": 0.603125,
1438
+ "grad_norm": 3.4631733894348145,
1439
+ "learning_rate": 2.6483333333333335e-06,
1440
+ "loss": 0.0748,
1441
  "step": 4825
1442
  },
1443
  {
1444
+ "epoch": 0.60625,
1445
+ "grad_norm": 2.1158626079559326,
1446
+ "learning_rate": 2.6275000000000003e-06,
1447
+ "loss": 0.0775,
1448
  "step": 4850
1449
  },
1450
  {
1451
+ "epoch": 0.609375,
1452
+ "grad_norm": 3.326186418533325,
1453
+ "learning_rate": 2.6066666666666666e-06,
1454
+ "loss": 0.0781,
1455
  "step": 4875
1456
  },
1457
  {
1458
+ "epoch": 0.6125,
1459
+ "grad_norm": 3.0408577919006348,
1460
+ "learning_rate": 2.5858333333333337e-06,
1461
+ "loss": 0.0712,
1462
  "step": 4900
1463
  },
1464
  {
1465
+ "epoch": 0.615625,
1466
+ "grad_norm": 2.389796018600464,
1467
+ "learning_rate": 2.565e-06,
1468
+ "loss": 0.0728,
1469
  "step": 4925
1470
  },
1471
  {
1472
+ "epoch": 0.61875,
1473
+ "grad_norm": 2.9459266662597656,
1474
+ "learning_rate": 2.5441666666666667e-06,
1475
+ "loss": 0.0818,
1476
  "step": 4950
1477
  },
1478
  {
1479
+ "epoch": 0.621875,
1480
+ "grad_norm": 2.216707706451416,
1481
+ "learning_rate": 2.5233333333333335e-06,
1482
+ "loss": 0.0887,
1483
  "step": 4975
1484
  },
1485
  {
1486
+ "epoch": 0.625,
1487
+ "grad_norm": 4.172521114349365,
1488
+ "learning_rate": 2.5025e-06,
1489
+ "loss": 0.0916,
1490
  "step": 5000
1491
  },
1492
  {
1493
+ "epoch": 0.625,
1494
+ "eval_loss": 0.22707216441631317,
1495
+ "eval_runtime": 421.6318,
1496
+ "eval_samples_per_second": 4.99,
1497
+ "eval_steps_per_second": 0.624,
1498
+ "eval_wer": 10.965691315322053,
1499
  "step": 5000
1500
  },
1501
  {
1502
+ "epoch": 0.628125,
1503
+ "grad_norm": 3.083894968032837,
1504
+ "learning_rate": 2.481666666666667e-06,
1505
+ "loss": 0.1084,
1506
  "step": 5025
1507
  },
1508
  {
1509
+ "epoch": 0.63125,
1510
+ "grad_norm": 3.9233384132385254,
1511
+ "learning_rate": 2.460833333333333e-06,
1512
+ "loss": 0.1161,
1513
  "step": 5050
1514
  },
1515
  {
1516
+ "epoch": 0.634375,
1517
+ "grad_norm": 4.261771202087402,
1518
+ "learning_rate": 2.4400000000000004e-06,
1519
+ "loss": 0.1032,
1520
  "step": 5075
1521
  },
1522
  {
1523
+ "epoch": 0.6375,
1524
+ "grad_norm": 4.277398109436035,
1525
+ "learning_rate": 2.4191666666666667e-06,
1526
+ "loss": 0.1063,
1527
  "step": 5100
1528
  },
1529
  {
1530
+ "epoch": 0.640625,
1531
+ "grad_norm": 4.196617126464844,
1532
+ "learning_rate": 2.3983333333333334e-06,
1533
+ "loss": 0.138,
1534
  "step": 5125
1535
  },
1536
  {
1537
+ "epoch": 0.64375,
1538
+ "grad_norm": 4.253470420837402,
1539
+ "learning_rate": 2.3775e-06,
1540
+ "loss": 0.1308,
1541
  "step": 5150
1542
  },
1543
  {
1544
+ "epoch": 0.646875,
1545
+ "grad_norm": 3.221344470977783,
1546
+ "learning_rate": 2.356666666666667e-06,
1547
+ "loss": 0.1118,
1548
  "step": 5175
1549
  },
1550
  {
1551
+ "epoch": 0.65,
1552
+ "grad_norm": 3.630119800567627,
1553
+ "learning_rate": 2.335833333333333e-06,
1554
+ "loss": 0.0882,
1555
  "step": 5200
1556
  },
1557
  {
1558
+ "epoch": 0.653125,
1559
+ "grad_norm": 3.146988868713379,
1560
+ "learning_rate": 2.3150000000000003e-06,
1561
+ "loss": 0.08,
1562
  "step": 5225
1563
  },
1564
  {
1565
+ "epoch": 0.65625,
1566
+ "grad_norm": 3.6203882694244385,
1567
+ "learning_rate": 2.2941666666666666e-06,
1568
+ "loss": 0.0769,
1569
  "step": 5250
1570
  },
1571
  {
1572
+ "epoch": 0.659375,
1573
+ "grad_norm": 2.9987850189208984,
1574
+ "learning_rate": 2.2733333333333337e-06,
1575
+ "loss": 0.0775,
1576
  "step": 5275
1577
  },
1578
  {
1579
+ "epoch": 0.6625,
1580
+ "grad_norm": 2.3863637447357178,
1581
+ "learning_rate": 2.2525e-06,
1582
+ "loss": 0.0694,
1583
  "step": 5300
1584
  },
1585
  {
1586
+ "epoch": 0.665625,
1587
+ "grad_norm": 2.7977538108825684,
1588
+ "learning_rate": 2.2316666666666668e-06,
1589
+ "loss": 0.0677,
1590
  "step": 5325
1591
  },
1592
  {
1593
+ "epoch": 0.66875,
1594
+ "grad_norm": 3.0015907287597656,
1595
+ "learning_rate": 2.2108333333333335e-06,
1596
+ "loss": 0.0737,
1597
  "step": 5350
1598
  },
1599
  {
1600
+ "epoch": 0.671875,
1601
+ "grad_norm": 2.2097315788269043,
1602
+ "learning_rate": 2.19e-06,
1603
+ "loss": 0.0671,
1604
  "step": 5375
1605
  },
1606
  {
1607
+ "epoch": 0.675,
1608
+ "grad_norm": 1.3963428735733032,
1609
+ "learning_rate": 2.169166666666667e-06,
1610
+ "loss": 0.0665,
1611
  "step": 5400
1612
  },
1613
  {
1614
+ "epoch": 0.678125,
1615
+ "grad_norm": 4.170374393463135,
1616
+ "learning_rate": 2.1483333333333337e-06,
1617
+ "loss": 0.0807,
1618
  "step": 5425
1619
  },
1620
  {
1621
+ "epoch": 0.68125,
1622
+ "grad_norm": 2.4668662548065186,
1623
+ "learning_rate": 2.1275e-06,
1624
+ "loss": 0.0887,
1625
  "step": 5450
1626
  },
1627
  {
1628
+ "epoch": 0.684375,
1629
+ "grad_norm": 3.388085126876831,
1630
+ "learning_rate": 2.1066666666666667e-06,
1631
+ "loss": 0.0773,
1632
  "step": 5475
1633
  },
1634
  {
1635
+ "epoch": 0.6875,
1636
+ "grad_norm": 3.437046527862549,
1637
+ "learning_rate": 2.0858333333333334e-06,
1638
+ "loss": 0.0914,
1639
  "step": 5500
1640
  },
1641
  {
1642
+ "epoch": 0.6875,
1643
+ "eval_loss": 0.23427686095237732,
1644
+ "eval_runtime": 419.3101,
1645
+ "eval_samples_per_second": 5.018,
1646
+ "eval_steps_per_second": 0.627,
1647
+ "eval_wer": 10.502944750864728,
1648
  "step": 5500
1649
  },
1650
  {
1651
+ "epoch": 0.690625,
1652
+ "grad_norm": 4.649775981903076,
1653
+ "learning_rate": 2.065e-06,
1654
+ "loss": 0.1537,
1655
  "step": 5525
1656
  },
1657
  {
1658
+ "epoch": 0.69375,
1659
+ "grad_norm": 3.8799123764038086,
1660
+ "learning_rate": 2.044166666666667e-06,
1661
+ "loss": 0.1565,
1662
  "step": 5550
1663
  },
1664
  {
1665
+ "epoch": 0.696875,
1666
+ "grad_norm": 4.4588518142700195,
1667
+ "learning_rate": 2.023333333333333e-06,
1668
+ "loss": 0.1427,
1669
  "step": 5575
1670
  },
1671
  {
1672
+ "epoch": 0.7,
1673
+ "grad_norm": 3.449648141860962,
1674
+ "learning_rate": 2.0025000000000003e-06,
1675
+ "loss": 0.1312,
1676
  "step": 5600
1677
  },
1678
  {
1679
+ "epoch": 0.703125,
1680
+ "grad_norm": 4.717497825622559,
1681
+ "learning_rate": 1.9816666666666666e-06,
1682
+ "loss": 0.1093,
1683
  "step": 5625
1684
  },
1685
  {
1686
+ "epoch": 0.70625,
1687
+ "grad_norm": 4.465198040008545,
1688
+ "learning_rate": 1.9608333333333333e-06,
1689
+ "loss": 0.1237,
1690
  "step": 5650
1691
  },
1692
  {
1693
+ "epoch": 0.709375,
1694
+ "grad_norm": 4.121485233306885,
1695
+ "learning_rate": 1.94e-06,
1696
+ "loss": 0.1196,
1697
  "step": 5675
1698
  },
1699
  {
1700
+ "epoch": 0.7125,
1701
+ "grad_norm": 3.461294651031494,
1702
+ "learning_rate": 1.9191666666666668e-06,
1703
+ "loss": 0.1204,
1704
  "step": 5700
1705
  },
1706
  {
1707
+ "epoch": 0.715625,
1708
+ "grad_norm": 5.659304618835449,
1709
+ "learning_rate": 1.8983333333333335e-06,
1710
+ "loss": 0.1229,
1711
  "step": 5725
1712
  },
1713
  {
1714
+ "epoch": 0.71875,
1715
+ "grad_norm": 4.469748497009277,
1716
+ "learning_rate": 1.8775e-06,
1717
+ "loss": 0.1253,
1718
  "step": 5750
1719
  },
1720
  {
1721
+ "epoch": 0.721875,
1722
+ "grad_norm": 4.66398811340332,
1723
+ "learning_rate": 1.8566666666666665e-06,
1724
+ "loss": 0.1146,
1725
  "step": 5775
1726
  },
1727
  {
1728
+ "epoch": 0.725,
1729
+ "grad_norm": 4.326991558074951,
1730
+ "learning_rate": 1.8358333333333335e-06,
1731
+ "loss": 0.1213,
1732
  "step": 5800
1733
  },
1734
  {
1735
+ "epoch": 0.728125,
1736
+ "grad_norm": 3.054807662963867,
1737
+ "learning_rate": 1.815e-06,
1738
+ "loss": 0.0985,
1739
  "step": 5825
1740
  },
1741
  {
1742
+ "epoch": 0.73125,
1743
+ "grad_norm": 3.3157272338867188,
1744
+ "learning_rate": 1.794166666666667e-06,
1745
+ "loss": 0.0958,
1746
  "step": 5850
1747
  },
1748
  {
1749
+ "epoch": 0.734375,
1750
+ "grad_norm": 2.41603422164917,
1751
+ "learning_rate": 1.7733333333333334e-06,
1752
+ "loss": 0.069,
1753
  "step": 5875
1754
  },
1755
  {
1756
+ "epoch": 0.7375,
1757
+ "grad_norm": 3.2789347171783447,
1758
+ "learning_rate": 1.7525e-06,
1759
+ "loss": 0.0713,
1760
  "step": 5900
1761
  },
1762
  {
1763
+ "epoch": 0.740625,
1764
+ "grad_norm": 3.526294231414795,
1765
+ "learning_rate": 1.7316666666666669e-06,
1766
+ "loss": 0.0713,
1767
  "step": 5925
1768
  },
1769
  {
1770
+ "epoch": 0.74375,
1771
+ "grad_norm": 2.1724507808685303,
1772
+ "learning_rate": 1.7108333333333334e-06,
1773
+ "loss": 0.0793,
1774
  "step": 5950
1775
  },
1776
  {
1777
+ "epoch": 0.746875,
1778
+ "grad_norm": 3.1178219318389893,
1779
+ "learning_rate": 1.69e-06,
1780
+ "loss": 0.1,
1781
  "step": 5975
1782
  },
1783
  {
1784
+ "epoch": 0.75,
1785
+ "grad_norm": 4.3492889404296875,
1786
+ "learning_rate": 1.6691666666666668e-06,
1787
+ "loss": 0.1093,
1788
  "step": 6000
1789
  },
1790
  {
1791
+ "epoch": 0.75,
1792
+ "eval_loss": 0.21914222836494446,
1793
+ "eval_runtime": 421.5164,
1794
+ "eval_samples_per_second": 4.992,
1795
+ "eval_steps_per_second": 0.624,
1796
+ "eval_wer": 9.98410769374591,
1797
  "step": 6000
1798
  },
1799
  {
1800
+ "epoch": 0.753125,
1801
+ "grad_norm": 4.253927707672119,
1802
  "learning_rate": 1.6483333333333334e-06,
1803
+ "loss": 0.1182,
1804
  "step": 6025
1805
  },
1806
  {
1807
+ "epoch": 0.75625,
1808
+ "grad_norm": 5.901562213897705,
1809
  "learning_rate": 1.6275000000000003e-06,
1810
+ "loss": 0.1278,
1811
  "step": 6050
1812
  },
1813
  {
1814
+ "epoch": 0.759375,
1815
+ "grad_norm": 5.934751510620117,
1816
  "learning_rate": 1.6066666666666668e-06,
1817
+ "loss": 0.1411,
1818
  "step": 6075
1819
  },
1820
  {
1821
+ "epoch": 0.7625,
1822
+ "grad_norm": 5.152722358703613,
1823
  "learning_rate": 1.5858333333333333e-06,
1824
+ "loss": 0.1496,
1825
  "step": 6100
1826
  },
1827
  {
1828
+ "epoch": 0.765625,
1829
+ "grad_norm": 4.460409641265869,
1830
  "learning_rate": 1.565e-06,
1831
+ "loss": 0.1132,
1832
  "step": 6125
1833
  },
1834
  {
1835
+ "epoch": 0.76875,
1836
+ "grad_norm": 2.9203169345855713,
1837
  "learning_rate": 1.5441666666666668e-06,
1838
+ "loss": 0.0827,
1839
  "step": 6150
1840
  },
1841
  {
1842
+ "epoch": 0.771875,
1843
+ "grad_norm": 2.982921600341797,
1844
  "learning_rate": 1.5233333333333333e-06,
1845
+ "loss": 0.0708,
1846
  "step": 6175
1847
  },
1848
  {
1849
+ "epoch": 0.775,
1850
+ "grad_norm": 3.2219862937927246,
1851
  "learning_rate": 1.5025e-06,
1852
+ "loss": 0.0705,
1853
  "step": 6200
1854
  },
1855
  {
1856
+ "epoch": 0.778125,
1857
+ "grad_norm": 2.3243980407714844,
1858
  "learning_rate": 1.4816666666666667e-06,
1859
+ "loss": 0.0666,
1860
  "step": 6225
1861
  },
1862
  {
1863
+ "epoch": 0.78125,
1864
+ "grad_norm": 2.5418896675109863,
1865
  "learning_rate": 1.4608333333333333e-06,
1866
+ "loss": 0.0692,
1867
  "step": 6250
1868
  },
1869
  {
1870
+ "epoch": 0.784375,
1871
+ "grad_norm": 3.7306313514709473,
1872
  "learning_rate": 1.44e-06,
1873
+ "loss": 0.0772,
1874
  "step": 6275
1875
  },
1876
  {
1877
+ "epoch": 0.7875,
1878
+ "grad_norm": 3.970508098602295,
1879
  "learning_rate": 1.4191666666666667e-06,
1880
+ "loss": 0.0843,
1881
  "step": 6300
1882
  },
1883
  {
1884
+ "epoch": 0.790625,
1885
+ "grad_norm": 3.8446128368377686,
1886
  "learning_rate": 1.3983333333333334e-06,
1887
+ "loss": 0.1233,
1888
  "step": 6325
1889
  },
1890
  {
1891
+ "epoch": 0.79375,
1892
+ "grad_norm": 4.295629501342773,
1893
  "learning_rate": 1.3775000000000002e-06,
1894
+ "loss": 0.139,
1895
  "step": 6350
1896
  },
1897
  {
1898
+ "epoch": 0.796875,
1899
+ "grad_norm": 4.724053382873535,
1900
  "learning_rate": 1.3566666666666667e-06,
1901
+ "loss": 0.1107,
1902
  "step": 6375
1903
  },
1904
  {
1905
+ "epoch": 0.8,
1906
+ "grad_norm": 5.828359127044678,
1907
  "learning_rate": 1.3358333333333334e-06,
1908
+ "loss": 0.1304,
1909
  "step": 6400
1910
  },
1911
  {
1912
+ "epoch": 0.803125,
1913
+ "grad_norm": 4.042730331420898,
1914
  "learning_rate": 1.3150000000000001e-06,
1915
+ "loss": 0.1277,
1916
  "step": 6425
1917
  },
1918
  {
1919
+ "epoch": 0.80625,
1920
+ "grad_norm": 3.5273425579071045,
1921
  "learning_rate": 1.2941666666666668e-06,
1922
+ "loss": 0.126,
1923
  "step": 6450
1924
  },
1925
  {
1926
+ "epoch": 0.809375,
1927
+ "grad_norm": 2.901884078979492,
1928
  "learning_rate": 1.2733333333333334e-06,
1929
+ "loss": 0.0929,
1930
  "step": 6475
1931
  },
1932
  {
1933
+ "epoch": 0.8125,
1934
+ "grad_norm": 4.719346523284912,
1935
  "learning_rate": 1.2525e-06,
1936
+ "loss": 0.0948,
1937
  "step": 6500
1938
  },
1939
  {
1940
+ "epoch": 0.8125,
1941
+ "eval_loss": 0.2214665412902832,
1942
+ "eval_runtime": 423.0169,
1943
+ "eval_samples_per_second": 4.974,
1944
+ "eval_steps_per_second": 0.622,
1945
+ "eval_wer": 10.535664204917266,
1946
  "step": 6500
1947
  },
1948
  {
1949
+ "epoch": 0.815625,
1950
+ "grad_norm": 4.184325218200684,
1951
  "learning_rate": 1.2316666666666668e-06,
1952
+ "loss": 0.1045,
1953
  "step": 6525
1954
  },
1955
  {
1956
+ "epoch": 0.81875,
1957
+ "grad_norm": 4.737115383148193,
1958
  "learning_rate": 1.2108333333333335e-06,
1959
+ "loss": 0.112,
1960
  "step": 6550
1961
  },
1962
  {
1963
+ "epoch": 0.821875,
1964
+ "grad_norm": 7.072691440582275,
1965
  "learning_rate": 1.19e-06,
1966
+ "loss": 0.1326,
1967
  "step": 6575
1968
  },
1969
  {
1970
+ "epoch": 0.825,
1971
+ "grad_norm": 2.486250162124634,
1972
  "learning_rate": 1.1691666666666668e-06,
1973
+ "loss": 0.1154,
1974
  "step": 6600
1975
  },
1976
  {
1977
+ "epoch": 0.828125,
1978
+ "grad_norm": 4.1657328605651855,
1979
+ "learning_rate": 1.1491666666666667e-06,
1980
+ "loss": 0.1102,
1981
  "step": 6625
1982
  },
1983
  {
1984
+ "epoch": 0.83125,
1985
+ "grad_norm": 3.565835475921631,
1986
  "learning_rate": 1.1283333333333333e-06,
1987
+ "loss": 0.0793,
1988
  "step": 6650
1989
  },
1990
  {
1991
+ "epoch": 0.834375,
1992
+ "grad_norm": 2.6341757774353027,
1993
  "learning_rate": 1.1075e-06,
1994
+ "loss": 0.0698,
1995
  "step": 6675
1996
  },
1997
  {
1998
+ "epoch": 0.8375,
1999
+ "grad_norm": 3.431013584136963,
2000
  "learning_rate": 1.0866666666666667e-06,
2001
+ "loss": 0.0757,
2002
  "step": 6700
2003
  },
2004
  {
2005
+ "epoch": 0.840625,
2006
+ "grad_norm": 2.743353843688965,
2007
  "learning_rate": 1.0658333333333334e-06,
2008
+ "loss": 0.0606,
2009
  "step": 6725
2010
  },
2011
  {
2012
+ "epoch": 0.84375,
2013
+ "grad_norm": 2.702622890472412,
2014
  "learning_rate": 1.045e-06,
2015
+ "loss": 0.0598,
2016
  "step": 6750
2017
  },
2018
  {
2019
+ "epoch": 0.846875,
2020
+ "grad_norm": 2.669710636138916,
2021
  "learning_rate": 1.0241666666666667e-06,
2022
+ "loss": 0.0641,
2023
  "step": 6775
2024
  },
2025
  {
2026
+ "epoch": 0.85,
2027
+ "grad_norm": 3.356062173843384,
2028
  "learning_rate": 1.0033333333333334e-06,
2029
+ "loss": 0.0717,
2030
  "step": 6800
2031
  },
2032
  {
2033
+ "epoch": 0.853125,
2034
+ "grad_norm": 3.792300224304199,
2035
  "learning_rate": 9.825000000000001e-07,
2036
+ "loss": 0.0755,
2037
  "step": 6825
2038
  },
2039
  {
2040
+ "epoch": 0.85625,
2041
+ "grad_norm": 2.8524975776672363,
2042
  "learning_rate": 9.616666666666668e-07,
2043
+ "loss": 0.074,
2044
  "step": 6850
2045
  },
2046
  {
2047
+ "epoch": 0.859375,
2048
+ "grad_norm": 2.653484344482422,
2049
  "learning_rate": 9.408333333333334e-07,
2050
+ "loss": 0.0732,
2051
  "step": 6875
2052
  },
2053
  {
2054
+ "epoch": 0.8625,
2055
+ "grad_norm": 2.2992992401123047,
2056
  "learning_rate": 9.2e-07,
2057
+ "loss": 0.0653,
2058
  "step": 6900
2059
  },
2060
  {
2061
+ "epoch": 0.865625,
2062
+ "grad_norm": 2.3256728649139404,
2063
  "learning_rate": 8.991666666666667e-07,
2064
+ "loss": 0.0612,
2065
  "step": 6925
2066
  },
2067
  {
2068
+ "epoch": 0.86875,
2069
+ "grad_norm": 3.0332698822021484,
2070
  "learning_rate": 8.783333333333334e-07,
2071
+ "loss": 0.0533,
2072
  "step": 6950
2073
  },
2074
  {
2075
+ "epoch": 0.871875,
2076
+ "grad_norm": 4.096222877502441,
2077
  "learning_rate": 8.574999999999999e-07,
2078
+ "loss": 0.0704,
2079
  "step": 6975
2080
  },
2081
  {
2082
+ "epoch": 0.875,
2083
+ "grad_norm": 3.0144271850585938,
2084
  "learning_rate": 8.366666666666667e-07,
2085
+ "loss": 0.0744,
2086
  "step": 7000
2087
  },
2088
  {
2089
+ "epoch": 0.875,
2090
+ "eval_loss": 0.21083347499370575,
2091
+ "eval_runtime": 429.259,
2092
+ "eval_samples_per_second": 4.901,
2093
+ "eval_steps_per_second": 0.613,
2094
+ "eval_wer": 11.23679536318594,
2095
  "step": 7000
2096
  },
2097
  {
2098
+ "epoch": 0.878125,
2099
+ "grad_norm": 2.6104869842529297,
2100
  "learning_rate": 8.158333333333334e-07,
2101
+ "loss": 0.0669,
2102
  "step": 7025
2103
  },
2104
  {
2105
+ "epoch": 0.88125,
2106
+ "grad_norm": 2.6073827743530273,
2107
  "learning_rate": 7.950000000000001e-07,
2108
+ "loss": 0.0651,
2109
  "step": 7050
2110
  },
2111
  {
2112
+ "epoch": 0.884375,
2113
+ "grad_norm": 2.584033966064453,
2114
  "learning_rate": 7.741666666666667e-07,
2115
+ "loss": 0.0622,
2116
  "step": 7075
2117
  },
2118
  {
2119
+ "epoch": 0.8875,
2120
+ "grad_norm": 2.425426959991455,
2121
  "learning_rate": 7.533333333333334e-07,
2122
+ "loss": 0.0735,
2123
  "step": 7100
2124
  },
2125
  {
2126
+ "epoch": 0.890625,
2127
+ "grad_norm": 3.056304931640625,
2128
  "learning_rate": 7.325e-07,
2129
+ "loss": 0.0982,
2130
  "step": 7125
2131
  },
2132
  {
2133
+ "epoch": 0.89375,
2134
+ "grad_norm": 3.8735291957855225,
2135
  "learning_rate": 7.116666666666667e-07,
2136
+ "loss": 0.1166,
2137
  "step": 7150
2138
  },
2139
  {
2140
+ "epoch": 0.896875,
2141
+ "grad_norm": 4.358260631561279,
2142
  "learning_rate": 6.908333333333333e-07,
2143
+ "loss": 0.1212,
2144
  "step": 7175
2145
  },
2146
  {
2147
+ "epoch": 0.9,
2148
+ "grad_norm": 3.1888036727905273,
2149
  "learning_rate": 6.7e-07,
2150
+ "loss": 0.1209,
2151
  "step": 7200
2152
  },
2153
  {
2154
+ "epoch": 0.903125,
2155
+ "grad_norm": 4.592689514160156,
2156
  "learning_rate": 6.491666666666667e-07,
2157
+ "loss": 0.1265,
2158
  "step": 7225
2159
  },
2160
  {
2161
+ "epoch": 0.90625,
2162
+ "grad_norm": 4.064499378204346,
2163
  "learning_rate": 6.283333333333334e-07,
2164
+ "loss": 0.1031,
2165
  "step": 7250
2166
  },
2167
  {
2168
+ "epoch": 0.909375,
2169
+ "grad_norm": 4.060811996459961,
2170
  "learning_rate": 6.075e-07,
2171
+ "loss": 0.0694,
2172
  "step": 7275
2173
  },
2174
  {
2175
+ "epoch": 0.9125,
2176
+ "grad_norm": 2.3940441608428955,
2177
  "learning_rate": 5.866666666666667e-07,
2178
+ "loss": 0.0717,
2179
  "step": 7300
2180
  },
2181
  {
2182
+ "epoch": 0.915625,
2183
+ "grad_norm": 3.34171199798584,
2184
  "learning_rate": 5.658333333333334e-07,
2185
+ "loss": 0.0693,
2186
  "step": 7325
2187
  },
2188
  {
2189
+ "epoch": 0.91875,
2190
+ "grad_norm": 3.1847307682037354,
2191
  "learning_rate": 5.450000000000001e-07,
2192
+ "loss": 0.0549,
2193
  "step": 7350
2194
  },
2195
  {
2196
+ "epoch": 0.921875,
2197
+ "grad_norm": 2.4034082889556885,
2198
  "learning_rate": 5.241666666666667e-07,
2199
+ "loss": 0.0679,
2200
  "step": 7375
2201
  },
2202
  {
2203
+ "epoch": 0.925,
2204
+ "grad_norm": 2.2434728145599365,
2205
  "learning_rate": 5.033333333333333e-07,
2206
+ "loss": 0.0677,
2207
  "step": 7400
2208
  },
2209
  {
2210
+ "epoch": 0.928125,
2211
+ "grad_norm": 2.655233144760132,
2212
  "learning_rate": 4.825e-07,
2213
+ "loss": 0.0844,
2214
  "step": 7425
2215
  },
2216
  {
2217
+ "epoch": 0.93125,
2218
+ "grad_norm": 3.4723622798919678,
2219
  "learning_rate": 4.6166666666666666e-07,
2220
+ "loss": 0.0766,
2221
  "step": 7450
2222
  },
2223
  {
2224
+ "epoch": 0.934375,
2225
+ "grad_norm": 3.544377326965332,
2226
  "learning_rate": 4.408333333333334e-07,
2227
+ "loss": 0.0761,
2228
  "step": 7475
2229
  },
2230
  {
2231
+ "epoch": 0.9375,
2232
+ "grad_norm": 4.966926097869873,
2233
  "learning_rate": 4.2e-07,
2234
+ "loss": 0.1269,
2235
  "step": 7500
2236
  },
2237
  {
2238
+ "epoch": 0.9375,
2239
+ "eval_loss": 0.21579307317733765,
2240
+ "eval_runtime": 453.0321,
2241
+ "eval_samples_per_second": 4.644,
2242
+ "eval_steps_per_second": 0.581,
2243
+ "eval_wer": 10.002804524633074,
2244
  "step": 7500
2245
  },
2246
  {
2247
+ "epoch": 0.940625,
2248
+ "grad_norm": 4.923036098480225,
2249
  "learning_rate": 3.991666666666667e-07,
2250
+ "loss": 0.1428,
2251
  "step": 7525
2252
  },
2253
  {
2254
+ "epoch": 0.94375,
2255
+ "grad_norm": 3.906621217727661,
2256
  "learning_rate": 3.7833333333333335e-07,
2257
+ "loss": 0.1148,
2258
  "step": 7550
2259
  },
2260
  {
2261
+ "epoch": 0.946875,
2262
+ "grad_norm": 3.8426077365875244,
2263
  "learning_rate": 3.575e-07,
2264
+ "loss": 0.1139,
2265
  "step": 7575
2266
  },
2267
  {
2268
+ "epoch": 0.95,
2269
+ "grad_norm": 4.980268955230713,
2270
  "learning_rate": 3.366666666666667e-07,
2271
+ "loss": 0.1389,
2272
  "step": 7600
2273
  },
2274
  {
2275
+ "epoch": 0.953125,
2276
+ "grad_norm": 5.212338447570801,
2277
  "learning_rate": 3.1583333333333336e-07,
2278
+ "loss": 0.1296,
2279
  "step": 7625
2280
  },
2281
  {
2282
+ "epoch": 0.95625,
2283
+ "grad_norm": 4.394927024841309,
2284
  "learning_rate": 2.95e-07,
2285
+ "loss": 0.1125,
2286
  "step": 7650
2287
  },
2288
  {
2289
+ "epoch": 0.959375,
2290
+ "grad_norm": 5.008238792419434,
2291
  "learning_rate": 2.7416666666666665e-07,
2292
+ "loss": 0.1323,
2293
  "step": 7675
2294
  },
2295
  {
2296
+ "epoch": 0.9625,
2297
+ "grad_norm": 6.502245903015137,
2298
  "learning_rate": 2.533333333333333e-07,
2299
+ "loss": 0.1401,
2300
  "step": 7700
2301
  },
2302
  {
2303
+ "epoch": 0.965625,
2304
+ "grad_norm": 5.630526542663574,
2305
  "learning_rate": 2.325e-07,
2306
+ "loss": 0.1358,
2307
  "step": 7725
2308
  },
2309
  {
2310
+ "epoch": 0.96875,
2311
+ "grad_norm": 2.802499532699585,
2312
  "learning_rate": 2.116666666666667e-07,
2313
+ "loss": 0.1068,
2314
  "step": 7750
2315
  },
2316
  {
2317
+ "epoch": 0.971875,
2318
+ "grad_norm": 2.5446484088897705,
2319
  "learning_rate": 1.9083333333333334e-07,
2320
+ "loss": 0.0862,
2321
  "step": 7775
2322
  },
2323
  {
2324
+ "epoch": 0.975,
2325
+ "grad_norm": 5.739973068237305,
2326
  "learning_rate": 1.7e-07,
2327
+ "loss": 0.0749,
2328
  "step": 7800
2329
  },
2330
  {
2331
+ "epoch": 0.978125,
2332
+ "grad_norm": 2.2183213233947754,
2333
  "learning_rate": 1.4916666666666669e-07,
2334
+ "loss": 0.0694,
2335
  "step": 7825
2336
  },
2337
  {
2338
+ "epoch": 0.98125,
2339
+ "grad_norm": 2.4163272380828857,
2340
  "learning_rate": 1.2833333333333333e-07,
2341
+ "loss": 0.0768,
2342
  "step": 7850
2343
  },
2344
  {
2345
+ "epoch": 0.984375,
2346
+ "grad_norm": 3.4462175369262695,
2347
  "learning_rate": 1.075e-07,
2348
+ "loss": 0.0635,
2349
  "step": 7875
2350
  },
2351
  {
2352
+ "epoch": 0.9875,
2353
+ "grad_norm": 2.5306878089904785,
2354
  "learning_rate": 8.666666666666666e-08,
2355
+ "loss": 0.0679,
2356
  "step": 7900
2357
  },
2358
  {
2359
+ "epoch": 0.990625,
2360
+ "grad_norm": 4.3514485359191895,
2361
  "learning_rate": 6.583333333333333e-08,
2362
+ "loss": 0.1073,
2363
  "step": 7925
2364
  },
2365
  {
2366
+ "epoch": 0.99375,
2367
+ "grad_norm": 5.388062953948975,
2368
  "learning_rate": 4.5e-08,
2369
+ "loss": 0.1159,
2370
  "step": 7950
2371
  },
2372
  {
2373
+ "epoch": 0.996875,
2374
+ "grad_norm": 3.7506585121154785,
2375
  "learning_rate": 2.4166666666666668e-08,
2376
+ "loss": 0.1783,
2377
  "step": 7975
2378
  },
2379
  {
2380
+ "epoch": 1.0,
2381
+ "grad_norm": 4.964086532592773,
2382
  "learning_rate": 3.333333333333334e-09,
2383
+ "loss": 0.1408,
2384
  "step": 8000
2385
  },
2386
  {
2387
+ "epoch": 1.0,
2388
+ "eval_loss": 0.21413126587867737,
2389
+ "eval_runtime": 423.6508,
2390
+ "eval_samples_per_second": 4.966,
2391
+ "eval_steps_per_second": 0.621,
2392
+ "eval_wer": 10.129008133121436,
2393
  "step": 8000
2394
  },
2395
  {
2396
+ "epoch": 1.0,
2397
  "step": 8000,
2398
+ "total_flos": 1.3063742816256e+20,
2399
+ "train_loss": 0.1566779458373785,
2400
+ "train_runtime": 20473.0101,
2401
+ "train_samples_per_second": 6.252,
2402
+ "train_steps_per_second": 0.391
2403
  }
2404
  ],
2405
  "logging_steps": 25,
 
2419
  "attributes": {}
2420
  }
2421
  },
2422
+ "total_flos": 1.3063742816256e+20,
2423
  "train_batch_size": 16,
2424
  "trial_name": null,
2425
  "trial_params": null