anuragshas commited on
Commit
f869201
·
1 Parent(s): edb375d

End of training

Browse files
Files changed (4) hide show
  1. all_results.json +14 -0
  2. eval_results.json +9 -0
  3. train_results.json +8 -0
  4. trainer_state.json +928 -0
all_results.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 500.0,
3
+ "eval_loss": 0.6693080067634583,
4
+ "eval_runtime": 13.4537,
5
+ "eval_samples": 306,
6
+ "eval_samples_per_second": 22.745,
7
+ "eval_steps_per_second": 1.487,
8
+ "eval_wer": 0.592057761732852,
9
+ "train_loss": 1.1389288659529253,
10
+ "train_runtime": 23734.473,
11
+ "train_samples": 698,
12
+ "train_samples_per_second": 14.704,
13
+ "train_steps_per_second": 0.463
14
+ }
eval_results.json ADDED
@@ -0,0 +1,9 @@
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 500.0,
3
+ "eval_loss": 0.6693080067634583,
4
+ "eval_runtime": 13.4537,
5
+ "eval_samples": 306,
6
+ "eval_samples_per_second": 22.745,
7
+ "eval_steps_per_second": 1.487,
8
+ "eval_wer": 0.592057761732852
9
+ }
train_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 500.0,
3
+ "train_loss": 1.1389288659529253,
4
+ "train_runtime": 23734.473,
5
+ "train_samples": 698,
6
+ "train_samples_per_second": 14.704,
7
+ "train_steps_per_second": 0.463
8
+ }
trainer_state.json ADDED
@@ -0,0 +1,928 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": null,
3
+ "best_model_checkpoint": null,
4
+ "epoch": 500.0,
5
+ "global_step": 11000,
6
+ "is_hyper_param_search": false,
7
+ "is_local_process_zero": true,
8
+ "is_world_process_zero": true,
9
+ "log_history": [
10
+ {
11
+ "epoch": 4.55,
12
+ "learning_rate": 3.675e-06,
13
+ "loss": 15.8714,
14
+ "step": 100
15
+ },
16
+ {
17
+ "epoch": 9.09,
18
+ "learning_rate": 7.425e-06,
19
+ "loss": 8.905,
20
+ "step": 200
21
+ },
22
+ {
23
+ "epoch": 13.64,
24
+ "learning_rate": 1.1174999999999999e-05,
25
+ "loss": 5.8648,
26
+ "step": 300
27
+ },
28
+ {
29
+ "epoch": 18.18,
30
+ "learning_rate": 1.4925e-05,
31
+ "loss": 4.9504,
32
+ "step": 400
33
+ },
34
+ {
35
+ "epoch": 18.18,
36
+ "eval_loss": 4.673031330108643,
37
+ "eval_runtime": 13.8453,
38
+ "eval_samples_per_second": 22.101,
39
+ "eval_steps_per_second": 1.445,
40
+ "eval_wer": 1.0,
41
+ "step": 400
42
+ },
43
+ {
44
+ "epoch": 22.73,
45
+ "learning_rate": 1.8675e-05,
46
+ "loss": 4.2429,
47
+ "step": 500
48
+ },
49
+ {
50
+ "epoch": 27.27,
51
+ "learning_rate": 2.2424999999999996e-05,
52
+ "loss": 3.72,
53
+ "step": 600
54
+ },
55
+ {
56
+ "epoch": 31.82,
57
+ "learning_rate": 2.6174999999999996e-05,
58
+ "loss": 3.4596,
59
+ "step": 700
60
+ },
61
+ {
62
+ "epoch": 36.36,
63
+ "learning_rate": 2.9925e-05,
64
+ "loss": 3.3766,
65
+ "step": 800
66
+ },
67
+ {
68
+ "epoch": 36.36,
69
+ "eval_loss": 3.3464324474334717,
70
+ "eval_runtime": 13.5196,
71
+ "eval_samples_per_second": 22.634,
72
+ "eval_steps_per_second": 1.479,
73
+ "eval_wer": 1.0,
74
+ "step": 800
75
+ },
76
+ {
77
+ "epoch": 40.91,
78
+ "learning_rate": 3.3675e-05,
79
+ "loss": 3.3035,
80
+ "step": 900
81
+ },
82
+ {
83
+ "epoch": 45.45,
84
+ "learning_rate": 3.7424999999999995e-05,
85
+ "loss": 3.2559,
86
+ "step": 1000
87
+ },
88
+ {
89
+ "epoch": 50.0,
90
+ "learning_rate": 4.1175e-05,
91
+ "loss": 3.2202,
92
+ "step": 1100
93
+ },
94
+ {
95
+ "epoch": 54.55,
96
+ "learning_rate": 4.4924999999999994e-05,
97
+ "loss": 3.1128,
98
+ "step": 1200
99
+ },
100
+ {
101
+ "epoch": 54.55,
102
+ "eval_loss": 3.0176751613616943,
103
+ "eval_runtime": 13.6849,
104
+ "eval_samples_per_second": 22.36,
105
+ "eval_steps_per_second": 1.461,
106
+ "eval_wer": 0.9979943842759728,
107
+ "step": 1200
108
+ },
109
+ {
110
+ "epoch": 59.09,
111
+ "learning_rate": 4.8675e-05,
112
+ "loss": 2.9121,
113
+ "step": 1300
114
+ },
115
+ {
116
+ "epoch": 63.64,
117
+ "learning_rate": 5.2424999999999994e-05,
118
+ "loss": 2.4741,
119
+ "step": 1400
120
+ },
121
+ {
122
+ "epoch": 68.18,
123
+ "learning_rate": 5.6175e-05,
124
+ "loss": 2.0461,
125
+ "step": 1500
126
+ },
127
+ {
128
+ "epoch": 72.73,
129
+ "learning_rate": 5.9925e-05,
130
+ "loss": 1.7966,
131
+ "step": 1600
132
+ },
133
+ {
134
+ "epoch": 72.73,
135
+ "eval_loss": 0.8733049631118774,
136
+ "eval_runtime": 13.6227,
137
+ "eval_samples_per_second": 22.463,
138
+ "eval_steps_per_second": 1.468,
139
+ "eval_wer": 0.8038507821901324,
140
+ "step": 1600
141
+ },
142
+ {
143
+ "epoch": 77.27,
144
+ "learning_rate": 6.367499999999999e-05,
145
+ "loss": 1.6388,
146
+ "step": 1700
147
+ },
148
+ {
149
+ "epoch": 81.82,
150
+ "learning_rate": 6.7425e-05,
151
+ "loss": 1.5466,
152
+ "step": 1800
153
+ },
154
+ {
155
+ "epoch": 86.36,
156
+ "learning_rate": 7.1175e-05,
157
+ "loss": 1.461,
158
+ "step": 1900
159
+ },
160
+ {
161
+ "epoch": 90.91,
162
+ "learning_rate": 7.48875e-05,
163
+ "loss": 1.4085,
164
+ "step": 2000
165
+ },
166
+ {
167
+ "epoch": 90.91,
168
+ "eval_loss": 0.5555232763290405,
169
+ "eval_runtime": 13.4681,
170
+ "eval_samples_per_second": 22.72,
171
+ "eval_steps_per_second": 1.485,
172
+ "eval_wer": 0.645808263136783,
173
+ "step": 2000
174
+ },
175
+ {
176
+ "epoch": 95.45,
177
+ "learning_rate": 7.419166666666666e-05,
178
+ "loss": 1.3233,
179
+ "step": 2100
180
+ },
181
+ {
182
+ "epoch": 100.0,
183
+ "learning_rate": 7.335833333333333e-05,
184
+ "loss": 1.2821,
185
+ "step": 2200
186
+ },
187
+ {
188
+ "epoch": 104.55,
189
+ "learning_rate": 7.252499999999999e-05,
190
+ "loss": 1.2194,
191
+ "step": 2300
192
+ },
193
+ {
194
+ "epoch": 109.09,
195
+ "learning_rate": 7.169166666666666e-05,
196
+ "loss": 1.1731,
197
+ "step": 2400
198
+ },
199
+ {
200
+ "epoch": 109.09,
201
+ "eval_loss": 0.4929651618003845,
202
+ "eval_runtime": 13.4716,
203
+ "eval_samples_per_second": 22.715,
204
+ "eval_steps_per_second": 1.485,
205
+ "eval_wer": 0.6438026474127557,
206
+ "step": 2400
207
+ },
208
+ {
209
+ "epoch": 113.64,
210
+ "learning_rate": 7.085833333333333e-05,
211
+ "loss": 1.135,
212
+ "step": 2500
213
+ },
214
+ {
215
+ "epoch": 118.18,
216
+ "learning_rate": 7.0025e-05,
217
+ "loss": 1.1009,
218
+ "step": 2600
219
+ },
220
+ {
221
+ "epoch": 122.73,
222
+ "learning_rate": 6.919166666666666e-05,
223
+ "loss": 1.0712,
224
+ "step": 2700
225
+ },
226
+ {
227
+ "epoch": 127.27,
228
+ "learning_rate": 6.835833333333332e-05,
229
+ "loss": 1.0271,
230
+ "step": 2800
231
+ },
232
+ {
233
+ "epoch": 127.27,
234
+ "eval_loss": 0.47801950573921204,
235
+ "eval_runtime": 13.4955,
236
+ "eval_samples_per_second": 22.674,
237
+ "eval_steps_per_second": 1.482,
238
+ "eval_wer": 0.6093060569594866,
239
+ "step": 2800
240
+ },
241
+ {
242
+ "epoch": 131.82,
243
+ "learning_rate": 6.753333333333333e-05,
244
+ "loss": 1.0016,
245
+ "step": 2900
246
+ },
247
+ {
248
+ "epoch": 136.36,
249
+ "learning_rate": 6.67e-05,
250
+ "loss": 0.9638,
251
+ "step": 3000
252
+ },
253
+ {
254
+ "epoch": 140.91,
255
+ "learning_rate": 6.586666666666666e-05,
256
+ "loss": 0.9327,
257
+ "step": 3100
258
+ },
259
+ {
260
+ "epoch": 145.45,
261
+ "learning_rate": 6.503333333333333e-05,
262
+ "loss": 0.9045,
263
+ "step": 3200
264
+ },
265
+ {
266
+ "epoch": 145.45,
267
+ "eval_loss": 0.46472442150115967,
268
+ "eval_runtime": 13.3444,
269
+ "eval_samples_per_second": 22.931,
270
+ "eval_steps_per_second": 1.499,
271
+ "eval_wer": 0.6578419574809466,
272
+ "step": 3200
273
+ },
274
+ {
275
+ "epoch": 150.0,
276
+ "learning_rate": 6.419999999999999e-05,
277
+ "loss": 0.8865,
278
+ "step": 3300
279
+ },
280
+ {
281
+ "epoch": 154.55,
282
+ "learning_rate": 6.336666666666666e-05,
283
+ "loss": 0.8703,
284
+ "step": 3400
285
+ },
286
+ {
287
+ "epoch": 159.09,
288
+ "learning_rate": 6.253333333333333e-05,
289
+ "loss": 0.8379,
290
+ "step": 3500
291
+ },
292
+ {
293
+ "epoch": 163.64,
294
+ "learning_rate": 6.17e-05,
295
+ "loss": 0.807,
296
+ "step": 3600
297
+ },
298
+ {
299
+ "epoch": 163.64,
300
+ "eval_loss": 0.4505322575569153,
301
+ "eval_runtime": 13.3663,
302
+ "eval_samples_per_second": 22.893,
303
+ "eval_steps_per_second": 1.496,
304
+ "eval_wer": 0.5924588848776574,
305
+ "step": 3600
306
+ },
307
+ {
308
+ "epoch": 168.18,
309
+ "learning_rate": 6.0866666666666664e-05,
310
+ "loss": 0.805,
311
+ "step": 3700
312
+ },
313
+ {
314
+ "epoch": 172.73,
315
+ "learning_rate": 6.003333333333333e-05,
316
+ "loss": 0.7889,
317
+ "step": 3800
318
+ },
319
+ {
320
+ "epoch": 177.27,
321
+ "learning_rate": 5.9199999999999996e-05,
322
+ "loss": 0.764,
323
+ "step": 3900
324
+ },
325
+ {
326
+ "epoch": 181.82,
327
+ "learning_rate": 5.8366666666666665e-05,
328
+ "loss": 0.741,
329
+ "step": 4000
330
+ },
331
+ {
332
+ "epoch": 181.82,
333
+ "eval_loss": 0.4745561182498932,
334
+ "eval_runtime": 13.2681,
335
+ "eval_samples_per_second": 23.063,
336
+ "eval_steps_per_second": 1.507,
337
+ "eval_wer": 0.6024869634977938,
338
+ "step": 4000
339
+ },
340
+ {
341
+ "epoch": 186.36,
342
+ "learning_rate": 5.753333333333333e-05,
343
+ "loss": 0.7192,
344
+ "step": 4100
345
+ },
346
+ {
347
+ "epoch": 190.91,
348
+ "learning_rate": 5.6699999999999996e-05,
349
+ "loss": 0.6977,
350
+ "step": 4200
351
+ },
352
+ {
353
+ "epoch": 195.45,
354
+ "learning_rate": 5.5866666666666665e-05,
355
+ "loss": 0.6882,
356
+ "step": 4300
357
+ },
358
+ {
359
+ "epoch": 200.0,
360
+ "learning_rate": 5.503333333333333e-05,
361
+ "loss": 0.6706,
362
+ "step": 4400
363
+ },
364
+ {
365
+ "epoch": 200.0,
366
+ "eval_loss": 0.5003653168678284,
367
+ "eval_runtime": 13.3324,
368
+ "eval_samples_per_second": 22.952,
369
+ "eval_steps_per_second": 1.5,
370
+ "eval_wer": 0.5844364219815483,
371
+ "step": 4400
372
+ },
373
+ {
374
+ "epoch": 204.55,
375
+ "learning_rate": 5.4199999999999996e-05,
376
+ "loss": 0.6627,
377
+ "step": 4500
378
+ },
379
+ {
380
+ "epoch": 209.09,
381
+ "learning_rate": 5.3366666666666665e-05,
382
+ "loss": 0.6453,
383
+ "step": 4600
384
+ },
385
+ {
386
+ "epoch": 213.64,
387
+ "learning_rate": 5.253333333333333e-05,
388
+ "loss": 0.6311,
389
+ "step": 4700
390
+ },
391
+ {
392
+ "epoch": 218.18,
393
+ "learning_rate": 5.1699999999999996e-05,
394
+ "loss": 0.6186,
395
+ "step": 4800
396
+ },
397
+ {
398
+ "epoch": 218.18,
399
+ "eval_loss": 0.4983522891998291,
400
+ "eval_runtime": 13.4916,
401
+ "eval_samples_per_second": 22.681,
402
+ "eval_steps_per_second": 1.482,
403
+ "eval_wer": 0.5996791014841556,
404
+ "step": 4800
405
+ },
406
+ {
407
+ "epoch": 222.73,
408
+ "learning_rate": 5.086666666666666e-05,
409
+ "loss": 0.5976,
410
+ "step": 4900
411
+ },
412
+ {
413
+ "epoch": 227.27,
414
+ "learning_rate": 5.003333333333333e-05,
415
+ "loss": 0.5832,
416
+ "step": 5000
417
+ },
418
+ {
419
+ "epoch": 231.82,
420
+ "learning_rate": 4.9199999999999997e-05,
421
+ "loss": 0.5663,
422
+ "step": 5100
423
+ },
424
+ {
425
+ "epoch": 236.36,
426
+ "learning_rate": 4.836666666666666e-05,
427
+ "loss": 0.5508,
428
+ "step": 5200
429
+ },
430
+ {
431
+ "epoch": 236.36,
432
+ "eval_loss": 0.5298363566398621,
433
+ "eval_runtime": 13.4008,
434
+ "eval_samples_per_second": 22.834,
435
+ "eval_steps_per_second": 1.492,
436
+ "eval_wer": 0.5635780184516647,
437
+ "step": 5200
438
+ },
439
+ {
440
+ "epoch": 240.91,
441
+ "learning_rate": 4.753333333333333e-05,
442
+ "loss": 0.554,
443
+ "step": 5300
444
+ },
445
+ {
446
+ "epoch": 245.45,
447
+ "learning_rate": 4.67e-05,
448
+ "loss": 0.543,
449
+ "step": 5400
450
+ },
451
+ {
452
+ "epoch": 250.0,
453
+ "learning_rate": 4.586666666666666e-05,
454
+ "loss": 0.5221,
455
+ "step": 5500
456
+ },
457
+ {
458
+ "epoch": 254.55,
459
+ "learning_rate": 4.503333333333333e-05,
460
+ "loss": 0.5123,
461
+ "step": 5600
462
+ },
463
+ {
464
+ "epoch": 254.55,
465
+ "eval_loss": 0.5410219430923462,
466
+ "eval_runtime": 13.3891,
467
+ "eval_samples_per_second": 22.854,
468
+ "eval_steps_per_second": 1.494,
469
+ "eval_wer": 0.51103088648215,
470
+ "step": 5600
471
+ },
472
+ {
473
+ "epoch": 259.09,
474
+ "learning_rate": 4.42e-05,
475
+ "loss": 0.5023,
476
+ "step": 5700
477
+ },
478
+ {
479
+ "epoch": 263.64,
480
+ "learning_rate": 4.336666666666666e-05,
481
+ "loss": 0.4854,
482
+ "step": 5800
483
+ },
484
+ {
485
+ "epoch": 268.18,
486
+ "learning_rate": 4.253333333333333e-05,
487
+ "loss": 0.4795,
488
+ "step": 5900
489
+ },
490
+ {
491
+ "epoch": 272.73,
492
+ "learning_rate": 4.17e-05,
493
+ "loss": 0.4623,
494
+ "step": 6000
495
+ },
496
+ {
497
+ "epoch": 272.73,
498
+ "eval_loss": 0.5591160655021667,
499
+ "eval_runtime": 13.3234,
500
+ "eval_samples_per_second": 22.967,
501
+ "eval_steps_per_second": 1.501,
502
+ "eval_wer": 0.538307260328921,
503
+ "step": 6000
504
+ },
505
+ {
506
+ "epoch": 277.27,
507
+ "learning_rate": 4.086666666666666e-05,
508
+ "loss": 0.4593,
509
+ "step": 6100
510
+ },
511
+ {
512
+ "epoch": 281.82,
513
+ "learning_rate": 4.003333333333333e-05,
514
+ "loss": 0.4435,
515
+ "step": 6200
516
+ },
517
+ {
518
+ "epoch": 286.36,
519
+ "learning_rate": 3.919999999999999e-05,
520
+ "loss": 0.4432,
521
+ "step": 6300
522
+ },
523
+ {
524
+ "epoch": 290.91,
525
+ "learning_rate": 3.836666666666666e-05,
526
+ "loss": 0.4281,
527
+ "step": 6400
528
+ },
529
+ {
530
+ "epoch": 290.91,
531
+ "eval_loss": 0.5775493383407593,
532
+ "eval_runtime": 13.3759,
533
+ "eval_samples_per_second": 22.877,
534
+ "eval_steps_per_second": 1.495,
535
+ "eval_wer": 0.5599679101484155,
536
+ "step": 6400
537
+ },
538
+ {
539
+ "epoch": 295.45,
540
+ "learning_rate": 3.753333333333333e-05,
541
+ "loss": 0.4264,
542
+ "step": 6500
543
+ },
544
+ {
545
+ "epoch": 300.0,
546
+ "learning_rate": 3.67e-05,
547
+ "loss": 0.4187,
548
+ "step": 6600
549
+ },
550
+ {
551
+ "epoch": 304.55,
552
+ "learning_rate": 3.586666666666666e-05,
553
+ "loss": 0.3965,
554
+ "step": 6700
555
+ },
556
+ {
557
+ "epoch": 309.09,
558
+ "learning_rate": 3.503333333333333e-05,
559
+ "loss": 0.4045,
560
+ "step": 6800
561
+ },
562
+ {
563
+ "epoch": 309.09,
564
+ "eval_loss": 0.5923808217048645,
565
+ "eval_runtime": 13.6647,
566
+ "eval_samples_per_second": 22.394,
567
+ "eval_steps_per_second": 1.464,
568
+ "eval_wer": 0.5579622944243883,
569
+ "step": 6800
570
+ },
571
+ {
572
+ "epoch": 313.64,
573
+ "learning_rate": 3.42e-05,
574
+ "loss": 0.3857,
575
+ "step": 6900
576
+ },
577
+ {
578
+ "epoch": 318.18,
579
+ "learning_rate": 3.336666666666667e-05,
580
+ "loss": 0.373,
581
+ "step": 7000
582
+ },
583
+ {
584
+ "epoch": 322.73,
585
+ "learning_rate": 3.253333333333333e-05,
586
+ "loss": 0.3752,
587
+ "step": 7100
588
+ },
589
+ {
590
+ "epoch": 327.27,
591
+ "learning_rate": 3.17e-05,
592
+ "loss": 0.3651,
593
+ "step": 7200
594
+ },
595
+ {
596
+ "epoch": 327.27,
597
+ "eval_loss": 0.567070484161377,
598
+ "eval_runtime": 13.4998,
599
+ "eval_samples_per_second": 22.667,
600
+ "eval_steps_per_second": 1.482,
601
+ "eval_wer": 0.5683914961893302,
602
+ "step": 7200
603
+ },
604
+ {
605
+ "epoch": 331.82,
606
+ "learning_rate": 3.086666666666667e-05,
607
+ "loss": 0.3567,
608
+ "step": 7300
609
+ },
610
+ {
611
+ "epoch": 336.36,
612
+ "learning_rate": 3.003333333333333e-05,
613
+ "loss": 0.3551,
614
+ "step": 7400
615
+ },
616
+ {
617
+ "epoch": 340.91,
618
+ "learning_rate": 2.9199999999999995e-05,
619
+ "loss": 0.351,
620
+ "step": 7500
621
+ },
622
+ {
623
+ "epoch": 345.45,
624
+ "learning_rate": 2.8366666666666664e-05,
625
+ "loss": 0.343,
626
+ "step": 7600
627
+ },
628
+ {
629
+ "epoch": 345.45,
630
+ "eval_loss": 0.6082874536514282,
631
+ "eval_runtime": 13.5565,
632
+ "eval_samples_per_second": 22.572,
633
+ "eval_steps_per_second": 1.475,
634
+ "eval_wer": 0.5944645006016848,
635
+ "step": 7600
636
+ },
637
+ {
638
+ "epoch": 350.0,
639
+ "learning_rate": 2.7541666666666664e-05,
640
+ "loss": 0.3379,
641
+ "step": 7700
642
+ },
643
+ {
644
+ "epoch": 354.55,
645
+ "learning_rate": 2.6716666666666664e-05,
646
+ "loss": 0.3257,
647
+ "step": 7800
648
+ },
649
+ {
650
+ "epoch": 359.09,
651
+ "learning_rate": 2.588333333333333e-05,
652
+ "loss": 0.3285,
653
+ "step": 7900
654
+ },
655
+ {
656
+ "epoch": 363.64,
657
+ "learning_rate": 2.505e-05,
658
+ "loss": 0.3085,
659
+ "step": 8000
660
+ },
661
+ {
662
+ "epoch": 363.64,
663
+ "eval_loss": 0.6242865324020386,
664
+ "eval_runtime": 13.4343,
665
+ "eval_samples_per_second": 22.778,
666
+ "eval_steps_per_second": 1.489,
667
+ "eval_wer": 0.5728038507821901,
668
+ "step": 8000
669
+ },
670
+ {
671
+ "epoch": 368.18,
672
+ "learning_rate": 2.4216666666666665e-05,
673
+ "loss": 0.3127,
674
+ "step": 8100
675
+ },
676
+ {
677
+ "epoch": 372.73,
678
+ "learning_rate": 2.338333333333333e-05,
679
+ "loss": 0.3149,
680
+ "step": 8200
681
+ },
682
+ {
683
+ "epoch": 377.27,
684
+ "learning_rate": 2.255e-05,
685
+ "loss": 0.307,
686
+ "step": 8300
687
+ },
688
+ {
689
+ "epoch": 381.82,
690
+ "learning_rate": 2.1716666666666665e-05,
691
+ "loss": 0.2941,
692
+ "step": 8400
693
+ },
694
+ {
695
+ "epoch": 381.82,
696
+ "eval_loss": 0.6244971752166748,
697
+ "eval_runtime": 13.5184,
698
+ "eval_samples_per_second": 22.636,
699
+ "eval_steps_per_second": 1.479,
700
+ "eval_wer": 0.5579622944243883,
701
+ "step": 8400
702
+ },
703
+ {
704
+ "epoch": 386.36,
705
+ "learning_rate": 2.088333333333333e-05,
706
+ "loss": 0.295,
707
+ "step": 8500
708
+ },
709
+ {
710
+ "epoch": 390.91,
711
+ "learning_rate": 2.0049999999999996e-05,
712
+ "loss": 0.2842,
713
+ "step": 8600
714
+ },
715
+ {
716
+ "epoch": 395.45,
717
+ "learning_rate": 1.9216666666666665e-05,
718
+ "loss": 0.2817,
719
+ "step": 8700
720
+ },
721
+ {
722
+ "epoch": 400.0,
723
+ "learning_rate": 1.838333333333333e-05,
724
+ "loss": 0.2735,
725
+ "step": 8800
726
+ },
727
+ {
728
+ "epoch": 400.0,
729
+ "eval_loss": 0.6457676291465759,
730
+ "eval_runtime": 13.5206,
731
+ "eval_samples_per_second": 22.632,
732
+ "eval_steps_per_second": 1.479,
733
+ "eval_wer": 0.5804251905334937,
734
+ "step": 8800
735
+ },
736
+ {
737
+ "epoch": 404.55,
738
+ "learning_rate": 1.755e-05,
739
+ "loss": 0.2786,
740
+ "step": 8900
741
+ },
742
+ {
743
+ "epoch": 409.09,
744
+ "learning_rate": 1.6716666666666665e-05,
745
+ "loss": 0.2708,
746
+ "step": 9000
747
+ },
748
+ {
749
+ "epoch": 413.64,
750
+ "learning_rate": 1.5883333333333334e-05,
751
+ "loss": 0.2661,
752
+ "step": 9100
753
+ },
754
+ {
755
+ "epoch": 418.18,
756
+ "learning_rate": 1.5049999999999998e-05,
757
+ "loss": 0.262,
758
+ "step": 9200
759
+ },
760
+ {
761
+ "epoch": 418.18,
762
+ "eval_loss": 0.656562328338623,
763
+ "eval_runtime": 13.3117,
764
+ "eval_samples_per_second": 22.987,
765
+ "eval_steps_per_second": 1.502,
766
+ "eval_wer": 0.5824308062575211,
767
+ "step": 9200
768
+ },
769
+ {
770
+ "epoch": 422.73,
771
+ "learning_rate": 1.4216666666666666e-05,
772
+ "loss": 0.2577,
773
+ "step": 9300
774
+ },
775
+ {
776
+ "epoch": 427.27,
777
+ "learning_rate": 1.3383333333333331e-05,
778
+ "loss": 0.2576,
779
+ "step": 9400
780
+ },
781
+ {
782
+ "epoch": 431.82,
783
+ "learning_rate": 1.2549999999999998e-05,
784
+ "loss": 0.2573,
785
+ "step": 9500
786
+ },
787
+ {
788
+ "epoch": 436.36,
789
+ "learning_rate": 1.1716666666666666e-05,
790
+ "loss": 0.2578,
791
+ "step": 9600
792
+ },
793
+ {
794
+ "epoch": 436.36,
795
+ "eval_loss": 0.6557896733283997,
796
+ "eval_runtime": 13.599,
797
+ "eval_samples_per_second": 22.502,
798
+ "eval_steps_per_second": 1.471,
799
+ "eval_wer": 0.596470116325712,
800
+ "step": 9600
801
+ },
802
+ {
803
+ "epoch": 440.91,
804
+ "learning_rate": 1.0883333333333331e-05,
805
+ "loss": 0.2445,
806
+ "step": 9700
807
+ },
808
+ {
809
+ "epoch": 445.45,
810
+ "learning_rate": 1.005e-05,
811
+ "loss": 0.2422,
812
+ "step": 9800
813
+ },
814
+ {
815
+ "epoch": 450.0,
816
+ "learning_rate": 9.216666666666666e-06,
817
+ "loss": 0.2481,
818
+ "step": 9900
819
+ },
820
+ {
821
+ "epoch": 454.55,
822
+ "learning_rate": 8.383333333333333e-06,
823
+ "loss": 0.2388,
824
+ "step": 10000
825
+ },
826
+ {
827
+ "epoch": 454.55,
828
+ "eval_loss": 0.659763514995575,
829
+ "eval_runtime": 13.4458,
830
+ "eval_samples_per_second": 22.758,
831
+ "eval_steps_per_second": 1.487,
832
+ "eval_wer": 0.5992779783393501,
833
+ "step": 10000
834
+ },
835
+ {
836
+ "epoch": 459.09,
837
+ "learning_rate": 7.55e-06,
838
+ "loss": 0.2362,
839
+ "step": 10100
840
+ },
841
+ {
842
+ "epoch": 463.64,
843
+ "learning_rate": 6.716666666666666e-06,
844
+ "loss": 0.2374,
845
+ "step": 10200
846
+ },
847
+ {
848
+ "epoch": 468.18,
849
+ "learning_rate": 5.883333333333333e-06,
850
+ "loss": 0.2352,
851
+ "step": 10300
852
+ },
853
+ {
854
+ "epoch": 472.73,
855
+ "learning_rate": 5.049999999999999e-06,
856
+ "loss": 0.2328,
857
+ "step": 10400
858
+ },
859
+ {
860
+ "epoch": 472.73,
861
+ "eval_loss": 0.6699528694152832,
862
+ "eval_runtime": 13.3932,
863
+ "eval_samples_per_second": 22.847,
864
+ "eval_steps_per_second": 1.493,
865
+ "eval_wer": 0.6040914560770156,
866
+ "step": 10400
867
+ },
868
+ {
869
+ "epoch": 477.27,
870
+ "learning_rate": 4.216666666666666e-06,
871
+ "loss": 0.2286,
872
+ "step": 10500
873
+ },
874
+ {
875
+ "epoch": 481.82,
876
+ "learning_rate": 3.3916666666666662e-06,
877
+ "loss": 0.232,
878
+ "step": 10600
879
+ },
880
+ {
881
+ "epoch": 486.36,
882
+ "learning_rate": 2.558333333333333e-06,
883
+ "loss": 0.2323,
884
+ "step": 10700
885
+ },
886
+ {
887
+ "epoch": 490.91,
888
+ "learning_rate": 1.7249999999999998e-06,
889
+ "loss": 0.2286,
890
+ "step": 10800
891
+ },
892
+ {
893
+ "epoch": 490.91,
894
+ "eval_loss": 0.6684302091598511,
895
+ "eval_runtime": 13.5254,
896
+ "eval_samples_per_second": 22.624,
897
+ "eval_steps_per_second": 1.479,
898
+ "eval_wer": 0.5956678700361011,
899
+ "step": 10800
900
+ },
901
+ {
902
+ "epoch": 495.45,
903
+ "learning_rate": 8.916666666666666e-07,
904
+ "loss": 0.229,
905
+ "step": 10900
906
+ },
907
+ {
908
+ "epoch": 500.0,
909
+ "learning_rate": 5.8333333333333326e-08,
910
+ "loss": 0.2255,
911
+ "step": 11000
912
+ },
913
+ {
914
+ "epoch": 500.0,
915
+ "step": 11000,
916
+ "total_flos": 6.534167693112984e+19,
917
+ "train_loss": 1.1389288659529253,
918
+ "train_runtime": 23734.473,
919
+ "train_samples_per_second": 14.704,
920
+ "train_steps_per_second": 0.463
921
+ }
922
+ ],
923
+ "max_steps": 11000,
924
+ "num_train_epochs": 500,
925
+ "total_flos": 6.534167693112984e+19,
926
+ "trial_name": null,
927
+ "trial_params": null
928
+ }