geninhu commited on
Commit
673be58
1 Parent(s): d6460d8

End of training

Browse files
all_results.json ADDED
@@ -0,0 +1,13 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 8.0,
3
+ "eval_cer": 7.639759839893262,
4
+ "eval_loss": 0.40291938185691833,
5
+ "eval_runtime": 1167.6733,
6
+ "eval_samples_per_second": 1.059,
7
+ "eval_steps_per_second": 0.265,
8
+ "eval_wer": 15.749067778021498,
9
+ "train_loss": 0.2192393777370453,
10
+ "train_runtime": 54122.9791,
11
+ "train_samples_per_second": 2.217,
12
+ "train_steps_per_second": 0.092
13
+ }
eval_results.json ADDED
@@ -0,0 +1,9 @@
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 8.0,
3
+ "eval_cer": 7.639759839893262,
4
+ "eval_loss": 0.40291938185691833,
5
+ "eval_runtime": 1167.6733,
6
+ "eval_samples_per_second": 1.059,
7
+ "eval_steps_per_second": 0.265,
8
+ "eval_wer": 15.749067778021498
9
+ }
runs/Dec09_13-54-47_132-145-179-103/events.out.tfevents.1670649644.132-145-179-103.2897147.2 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5ba29c0fcfacd1aba02285dc176bce3f05e172f17deff96a9e2201d62f625235
3
+ size 405
train_results.json ADDED
@@ -0,0 +1,7 @@
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 8.0,
3
+ "train_loss": 0.2192393777370453,
4
+ "train_runtime": 54122.9791,
5
+ "train_samples_per_second": 2.217,
6
+ "train_steps_per_second": 0.092
7
+ }
trainer_state.json ADDED
@@ -0,0 +1,1325 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": 15.749067778021498,
3
+ "best_model_checkpoint": "./checkpoint-4000",
4
+ "epoch": 8.0048,
5
+ "global_step": 5000,
6
+ "is_hyper_param_search": false,
7
+ "is_local_process_zero": true,
8
+ "is_world_process_zero": true,
9
+ "log_history": [
10
+ {
11
+ "epoch": 0.01,
12
+ "learning_rate": 4.6e-09,
13
+ "loss": 0.9435,
14
+ "step": 25
15
+ },
16
+ {
17
+ "epoch": 0.01,
18
+ "learning_rate": 9.6e-09,
19
+ "loss": 0.9281,
20
+ "step": 50
21
+ },
22
+ {
23
+ "epoch": 0.01,
24
+ "learning_rate": 1.4599999999999998e-08,
25
+ "loss": 0.9519,
26
+ "step": 75
27
+ },
28
+ {
29
+ "epoch": 0.02,
30
+ "learning_rate": 1.94e-08,
31
+ "loss": 0.9436,
32
+ "step": 100
33
+ },
34
+ {
35
+ "epoch": 0.03,
36
+ "learning_rate": 2.4399999999999997e-08,
37
+ "loss": 0.9253,
38
+ "step": 125
39
+ },
40
+ {
41
+ "epoch": 0.03,
42
+ "learning_rate": 2.94e-08,
43
+ "loss": 0.9338,
44
+ "step": 150
45
+ },
46
+ {
47
+ "epoch": 0.04,
48
+ "learning_rate": 3.44e-08,
49
+ "loss": 0.9108,
50
+ "step": 175
51
+ },
52
+ {
53
+ "epoch": 0.04,
54
+ "learning_rate": 3.94e-08,
55
+ "loss": 0.8899,
56
+ "step": 200
57
+ },
58
+ {
59
+ "epoch": 0.04,
60
+ "learning_rate": 4.44e-08,
61
+ "loss": 0.8772,
62
+ "step": 225
63
+ },
64
+ {
65
+ "epoch": 0.05,
66
+ "learning_rate": 4.92e-08,
67
+ "loss": 0.8194,
68
+ "step": 250
69
+ },
70
+ {
71
+ "epoch": 0.06,
72
+ "learning_rate": 5.42e-08,
73
+ "loss": 0.7858,
74
+ "step": 275
75
+ },
76
+ {
77
+ "epoch": 0.06,
78
+ "learning_rate": 5.9199999999999994e-08,
79
+ "loss": 0.772,
80
+ "step": 300
81
+ },
82
+ {
83
+ "epoch": 0.07,
84
+ "learning_rate": 6.419999999999999e-08,
85
+ "loss": 0.7039,
86
+ "step": 325
87
+ },
88
+ {
89
+ "epoch": 0.07,
90
+ "learning_rate": 6.92e-08,
91
+ "loss": 0.6403,
92
+ "step": 350
93
+ },
94
+ {
95
+ "epoch": 0.07,
96
+ "learning_rate": 7.419999999999999e-08,
97
+ "loss": 0.5761,
98
+ "step": 375
99
+ },
100
+ {
101
+ "epoch": 0.08,
102
+ "learning_rate": 7.92e-08,
103
+ "loss": 0.4753,
104
+ "step": 400
105
+ },
106
+ {
107
+ "epoch": 0.09,
108
+ "learning_rate": 8.42e-08,
109
+ "loss": 0.4406,
110
+ "step": 425
111
+ },
112
+ {
113
+ "epoch": 0.09,
114
+ "learning_rate": 8.919999999999999e-08,
115
+ "loss": 0.4276,
116
+ "step": 450
117
+ },
118
+ {
119
+ "epoch": 0.1,
120
+ "learning_rate": 9.42e-08,
121
+ "loss": 0.3747,
122
+ "step": 475
123
+ },
124
+ {
125
+ "epoch": 0.1,
126
+ "learning_rate": 9.919999999999999e-08,
127
+ "loss": 0.3983,
128
+ "step": 500
129
+ },
130
+ {
131
+ "epoch": 0.1,
132
+ "eval_cer": 10.639092728485657,
133
+ "eval_loss": 0.5338271260261536,
134
+ "eval_runtime": 1141.2363,
135
+ "eval_samples_per_second": 1.084,
136
+ "eval_steps_per_second": 0.272,
137
+ "eval_wer": 19.587628865979383,
138
+ "step": 500
139
+ },
140
+ {
141
+ "epoch": 0.1,
142
+ "learning_rate": 9.953333333333332e-08,
143
+ "loss": 0.3437,
144
+ "step": 525
145
+ },
146
+ {
147
+ "epoch": 0.11,
148
+ "learning_rate": 9.897777777777777e-08,
149
+ "loss": 0.3388,
150
+ "step": 550
151
+ },
152
+ {
153
+ "epoch": 0.12,
154
+ "learning_rate": 9.842222222222222e-08,
155
+ "loss": 0.32,
156
+ "step": 575
157
+ },
158
+ {
159
+ "epoch": 0.12,
160
+ "learning_rate": 9.786666666666667e-08,
161
+ "loss": 0.2985,
162
+ "step": 600
163
+ },
164
+ {
165
+ "epoch": 1.0,
166
+ "learning_rate": 9.73111111111111e-08,
167
+ "loss": 0.3006,
168
+ "step": 625
169
+ },
170
+ {
171
+ "epoch": 1.01,
172
+ "learning_rate": 9.675555555555554e-08,
173
+ "loss": 0.2939,
174
+ "step": 650
175
+ },
176
+ {
177
+ "epoch": 1.01,
178
+ "learning_rate": 9.619999999999999e-08,
179
+ "loss": 0.2768,
180
+ "step": 675
181
+ },
182
+ {
183
+ "epoch": 1.02,
184
+ "learning_rate": 9.564444444444444e-08,
185
+ "loss": 0.2703,
186
+ "step": 700
187
+ },
188
+ {
189
+ "epoch": 1.02,
190
+ "learning_rate": 9.511111111111111e-08,
191
+ "loss": 0.2733,
192
+ "step": 725
193
+ },
194
+ {
195
+ "epoch": 1.03,
196
+ "learning_rate": 9.455555555555556e-08,
197
+ "loss": 0.2623,
198
+ "step": 750
199
+ },
200
+ {
201
+ "epoch": 1.03,
202
+ "learning_rate": 9.4e-08,
203
+ "loss": 0.2679,
204
+ "step": 775
205
+ },
206
+ {
207
+ "epoch": 1.04,
208
+ "learning_rate": 9.344444444444444e-08,
209
+ "loss": 0.2431,
210
+ "step": 800
211
+ },
212
+ {
213
+ "epoch": 1.04,
214
+ "learning_rate": 9.288888888888888e-08,
215
+ "loss": 0.2415,
216
+ "step": 825
217
+ },
218
+ {
219
+ "epoch": 1.05,
220
+ "learning_rate": 9.233333333333333e-08,
221
+ "loss": 0.2584,
222
+ "step": 850
223
+ },
224
+ {
225
+ "epoch": 1.05,
226
+ "learning_rate": 9.177777777777777e-08,
227
+ "loss": 0.229,
228
+ "step": 875
229
+ },
230
+ {
231
+ "epoch": 1.06,
232
+ "learning_rate": 9.122222222222222e-08,
233
+ "loss": 0.2333,
234
+ "step": 900
235
+ },
236
+ {
237
+ "epoch": 1.06,
238
+ "learning_rate": 9.066666666666666e-08,
239
+ "loss": 0.2333,
240
+ "step": 925
241
+ },
242
+ {
243
+ "epoch": 1.07,
244
+ "learning_rate": 9.01111111111111e-08,
245
+ "loss": 0.2233,
246
+ "step": 950
247
+ },
248
+ {
249
+ "epoch": 1.07,
250
+ "learning_rate": 8.955555555555555e-08,
251
+ "loss": 0.2306,
252
+ "step": 975
253
+ },
254
+ {
255
+ "epoch": 1.08,
256
+ "learning_rate": 8.9e-08,
257
+ "loss": 0.2277,
258
+ "step": 1000
259
+ },
260
+ {
261
+ "epoch": 1.08,
262
+ "eval_cer": 8.266844563042028,
263
+ "eval_loss": 0.4134095311164856,
264
+ "eval_runtime": 1163.4198,
265
+ "eval_samples_per_second": 1.063,
266
+ "eval_steps_per_second": 0.266,
267
+ "eval_wer": 16.582583899978065,
268
+ "step": 1000
269
+ },
270
+ {
271
+ "epoch": 1.08,
272
+ "learning_rate": 8.844444444444444e-08,
273
+ "loss": 0.213,
274
+ "step": 1025
275
+ },
276
+ {
277
+ "epoch": 1.09,
278
+ "learning_rate": 8.788888888888889e-08,
279
+ "loss": 0.2195,
280
+ "step": 1050
281
+ },
282
+ {
283
+ "epoch": 1.09,
284
+ "learning_rate": 8.733333333333332e-08,
285
+ "loss": 0.2242,
286
+ "step": 1075
287
+ },
288
+ {
289
+ "epoch": 1.1,
290
+ "learning_rate": 8.677777777777777e-08,
291
+ "loss": 0.2075,
292
+ "step": 1100
293
+ },
294
+ {
295
+ "epoch": 1.1,
296
+ "learning_rate": 8.622222222222222e-08,
297
+ "loss": 0.2077,
298
+ "step": 1125
299
+ },
300
+ {
301
+ "epoch": 1.11,
302
+ "learning_rate": 8.566666666666667e-08,
303
+ "loss": 0.2004,
304
+ "step": 1150
305
+ },
306
+ {
307
+ "epoch": 1.11,
308
+ "learning_rate": 8.511111111111111e-08,
309
+ "loss": 0.209,
310
+ "step": 1175
311
+ },
312
+ {
313
+ "epoch": 1.12,
314
+ "learning_rate": 8.457777777777778e-08,
315
+ "loss": 0.2083,
316
+ "step": 1200
317
+ },
318
+ {
319
+ "epoch": 1.12,
320
+ "learning_rate": 8.402222222222221e-08,
321
+ "loss": 0.1933,
322
+ "step": 1225
323
+ },
324
+ {
325
+ "epoch": 2.0,
326
+ "learning_rate": 8.346666666666666e-08,
327
+ "loss": 0.2018,
328
+ "step": 1250
329
+ },
330
+ {
331
+ "epoch": 2.01,
332
+ "learning_rate": 8.291111111111111e-08,
333
+ "loss": 0.1949,
334
+ "step": 1275
335
+ },
336
+ {
337
+ "epoch": 2.01,
338
+ "learning_rate": 8.235555555555556e-08,
339
+ "loss": 0.2019,
340
+ "step": 1300
341
+ },
342
+ {
343
+ "epoch": 2.02,
344
+ "learning_rate": 8.179999999999999e-08,
345
+ "loss": 0.1877,
346
+ "step": 1325
347
+ },
348
+ {
349
+ "epoch": 2.02,
350
+ "learning_rate": 8.124444444444444e-08,
351
+ "loss": 0.192,
352
+ "step": 1350
353
+ },
354
+ {
355
+ "epoch": 2.03,
356
+ "learning_rate": 8.068888888888889e-08,
357
+ "loss": 0.204,
358
+ "step": 1375
359
+ },
360
+ {
361
+ "epoch": 2.03,
362
+ "learning_rate": 8.013333333333334e-08,
363
+ "loss": 0.1995,
364
+ "step": 1400
365
+ },
366
+ {
367
+ "epoch": 2.04,
368
+ "learning_rate": 7.957777777777777e-08,
369
+ "loss": 0.1851,
370
+ "step": 1425
371
+ },
372
+ {
373
+ "epoch": 2.04,
374
+ "learning_rate": 7.902222222222222e-08,
375
+ "loss": 0.187,
376
+ "step": 1450
377
+ },
378
+ {
379
+ "epoch": 2.05,
380
+ "learning_rate": 7.846666666666665e-08,
381
+ "loss": 0.1929,
382
+ "step": 1475
383
+ },
384
+ {
385
+ "epoch": 2.05,
386
+ "learning_rate": 7.79111111111111e-08,
387
+ "loss": 0.172,
388
+ "step": 1500
389
+ },
390
+ {
391
+ "epoch": 2.05,
392
+ "eval_cer": 7.978652434956637,
393
+ "eval_loss": 0.3968185782432556,
394
+ "eval_runtime": 1160.0567,
395
+ "eval_samples_per_second": 1.066,
396
+ "eval_steps_per_second": 0.267,
397
+ "eval_wer": 16.30840096512393,
398
+ "step": 1500
399
+ },
400
+ {
401
+ "epoch": 2.06,
402
+ "learning_rate": 7.735555555555555e-08,
403
+ "loss": 0.1847,
404
+ "step": 1525
405
+ },
406
+ {
407
+ "epoch": 2.06,
408
+ "learning_rate": 7.68e-08,
409
+ "loss": 0.1803,
410
+ "step": 1550
411
+ },
412
+ {
413
+ "epoch": 2.07,
414
+ "learning_rate": 7.624444444444445e-08,
415
+ "loss": 0.1808,
416
+ "step": 1575
417
+ },
418
+ {
419
+ "epoch": 2.07,
420
+ "learning_rate": 7.56888888888889e-08,
421
+ "loss": 0.1782,
422
+ "step": 1600
423
+ },
424
+ {
425
+ "epoch": 2.08,
426
+ "learning_rate": 7.513333333333333e-08,
427
+ "loss": 0.1894,
428
+ "step": 1625
429
+ },
430
+ {
431
+ "epoch": 2.08,
432
+ "learning_rate": 7.457777777777777e-08,
433
+ "loss": 0.1754,
434
+ "step": 1650
435
+ },
436
+ {
437
+ "epoch": 2.09,
438
+ "learning_rate": 7.402222222222221e-08,
439
+ "loss": 0.1811,
440
+ "step": 1675
441
+ },
442
+ {
443
+ "epoch": 2.09,
444
+ "learning_rate": 7.346666666666666e-08,
445
+ "loss": 0.1733,
446
+ "step": 1700
447
+ },
448
+ {
449
+ "epoch": 2.1,
450
+ "learning_rate": 7.291111111111111e-08,
451
+ "loss": 0.1717,
452
+ "step": 1725
453
+ },
454
+ {
455
+ "epoch": 2.1,
456
+ "learning_rate": 7.235555555555555e-08,
457
+ "loss": 0.1814,
458
+ "step": 1750
459
+ },
460
+ {
461
+ "epoch": 2.11,
462
+ "learning_rate": 7.18e-08,
463
+ "loss": 0.1753,
464
+ "step": 1775
465
+ },
466
+ {
467
+ "epoch": 2.11,
468
+ "learning_rate": 7.124444444444444e-08,
469
+ "loss": 0.1671,
470
+ "step": 1800
471
+ },
472
+ {
473
+ "epoch": 2.12,
474
+ "learning_rate": 7.068888888888889e-08,
475
+ "loss": 0.1668,
476
+ "step": 1825
477
+ },
478
+ {
479
+ "epoch": 2.12,
480
+ "learning_rate": 7.013333333333334e-08,
481
+ "loss": 0.163,
482
+ "step": 1850
483
+ },
484
+ {
485
+ "epoch": 3.0,
486
+ "learning_rate": 6.957777777777777e-08,
487
+ "loss": 0.1589,
488
+ "step": 1875
489
+ },
490
+ {
491
+ "epoch": 3.01,
492
+ "learning_rate": 6.902222222222221e-08,
493
+ "loss": 0.1689,
494
+ "step": 1900
495
+ },
496
+ {
497
+ "epoch": 3.01,
498
+ "learning_rate": 6.846666666666666e-08,
499
+ "loss": 0.1641,
500
+ "step": 1925
501
+ },
502
+ {
503
+ "epoch": 3.02,
504
+ "learning_rate": 6.79111111111111e-08,
505
+ "loss": 0.1598,
506
+ "step": 1950
507
+ },
508
+ {
509
+ "epoch": 3.02,
510
+ "learning_rate": 6.735555555555555e-08,
511
+ "loss": 0.1692,
512
+ "step": 1975
513
+ },
514
+ {
515
+ "epoch": 3.03,
516
+ "learning_rate": 6.68e-08,
517
+ "loss": 0.1823,
518
+ "step": 2000
519
+ },
520
+ {
521
+ "epoch": 3.03,
522
+ "eval_cer": 7.815877251501001,
523
+ "eval_loss": 0.39564967155456543,
524
+ "eval_runtime": 1167.325,
525
+ "eval_samples_per_second": 1.06,
526
+ "eval_steps_per_second": 0.266,
527
+ "eval_wer": 16.176793156393945,
528
+ "step": 2000
529
+ },
530
+ {
531
+ "epoch": 3.03,
532
+ "learning_rate": 6.624444444444444e-08,
533
+ "loss": 0.1666,
534
+ "step": 2025
535
+ },
536
+ {
537
+ "epoch": 3.04,
538
+ "learning_rate": 6.568888888888889e-08,
539
+ "loss": 0.1582,
540
+ "step": 2050
541
+ },
542
+ {
543
+ "epoch": 3.04,
544
+ "learning_rate": 6.513333333333333e-08,
545
+ "loss": 0.1562,
546
+ "step": 2075
547
+ },
548
+ {
549
+ "epoch": 3.05,
550
+ "learning_rate": 6.457777777777777e-08,
551
+ "loss": 0.1703,
552
+ "step": 2100
553
+ },
554
+ {
555
+ "epoch": 3.05,
556
+ "learning_rate": 6.402222222222222e-08,
557
+ "loss": 0.1494,
558
+ "step": 2125
559
+ },
560
+ {
561
+ "epoch": 3.06,
562
+ "learning_rate": 6.346666666666667e-08,
563
+ "loss": 0.1726,
564
+ "step": 2150
565
+ },
566
+ {
567
+ "epoch": 3.06,
568
+ "learning_rate": 6.29111111111111e-08,
569
+ "loss": 0.1482,
570
+ "step": 2175
571
+ },
572
+ {
573
+ "epoch": 3.07,
574
+ "learning_rate": 6.235555555555555e-08,
575
+ "loss": 0.1645,
576
+ "step": 2200
577
+ },
578
+ {
579
+ "epoch": 3.07,
580
+ "learning_rate": 6.18e-08,
581
+ "loss": 0.1549,
582
+ "step": 2225
583
+ },
584
+ {
585
+ "epoch": 3.08,
586
+ "learning_rate": 6.124444444444445e-08,
587
+ "loss": 0.1496,
588
+ "step": 2250
589
+ },
590
+ {
591
+ "epoch": 3.08,
592
+ "learning_rate": 6.06888888888889e-08,
593
+ "loss": 0.1558,
594
+ "step": 2275
595
+ },
596
+ {
597
+ "epoch": 3.09,
598
+ "learning_rate": 6.013333333333334e-08,
599
+ "loss": 0.1611,
600
+ "step": 2300
601
+ },
602
+ {
603
+ "epoch": 3.09,
604
+ "learning_rate": 5.957777777777777e-08,
605
+ "loss": 0.1535,
606
+ "step": 2325
607
+ },
608
+ {
609
+ "epoch": 3.1,
610
+ "learning_rate": 5.902222222222222e-08,
611
+ "loss": 0.1482,
612
+ "step": 2350
613
+ },
614
+ {
615
+ "epoch": 3.1,
616
+ "learning_rate": 5.846666666666667e-08,
617
+ "loss": 0.156,
618
+ "step": 2375
619
+ },
620
+ {
621
+ "epoch": 3.11,
622
+ "learning_rate": 5.791111111111111e-08,
623
+ "loss": 0.1583,
624
+ "step": 2400
625
+ },
626
+ {
627
+ "epoch": 3.11,
628
+ "learning_rate": 5.735555555555556e-08,
629
+ "loss": 0.1505,
630
+ "step": 2425
631
+ },
632
+ {
633
+ "epoch": 3.12,
634
+ "learning_rate": 5.679999999999999e-08,
635
+ "loss": 0.1421,
636
+ "step": 2450
637
+ },
638
+ {
639
+ "epoch": 3.12,
640
+ "learning_rate": 5.624444444444444e-08,
641
+ "loss": 0.1498,
642
+ "step": 2475
643
+ },
644
+ {
645
+ "epoch": 4.0,
646
+ "learning_rate": 5.568888888888888e-08,
647
+ "loss": 0.1445,
648
+ "step": 2500
649
+ },
650
+ {
651
+ "epoch": 4.0,
652
+ "eval_cer": 7.743829219479653,
653
+ "eval_loss": 0.39546218514442444,
654
+ "eval_runtime": 1163.0632,
655
+ "eval_samples_per_second": 1.064,
656
+ "eval_steps_per_second": 0.267,
657
+ "eval_wer": 16.034218030269795,
658
+ "step": 2500
659
+ },
660
+ {
661
+ "epoch": 4.01,
662
+ "learning_rate": 5.513333333333333e-08,
663
+ "loss": 0.1497,
664
+ "step": 2525
665
+ },
666
+ {
667
+ "epoch": 4.01,
668
+ "learning_rate": 5.457777777777778e-08,
669
+ "loss": 0.1455,
670
+ "step": 2550
671
+ },
672
+ {
673
+ "epoch": 4.02,
674
+ "learning_rate": 5.402222222222223e-08,
675
+ "loss": 0.1453,
676
+ "step": 2575
677
+ },
678
+ {
679
+ "epoch": 4.02,
680
+ "learning_rate": 5.346666666666666e-08,
681
+ "loss": 0.1441,
682
+ "step": 2600
683
+ },
684
+ {
685
+ "epoch": 4.03,
686
+ "learning_rate": 5.2911111111111104e-08,
687
+ "loss": 0.1611,
688
+ "step": 2625
689
+ },
690
+ {
691
+ "epoch": 4.03,
692
+ "learning_rate": 5.235555555555555e-08,
693
+ "loss": 0.1483,
694
+ "step": 2650
695
+ },
696
+ {
697
+ "epoch": 4.04,
698
+ "learning_rate": 5.18e-08,
699
+ "loss": 0.1444,
700
+ "step": 2675
701
+ },
702
+ {
703
+ "epoch": 4.04,
704
+ "learning_rate": 5.124444444444445e-08,
705
+ "loss": 0.1414,
706
+ "step": 2700
707
+ },
708
+ {
709
+ "epoch": 4.05,
710
+ "learning_rate": 5.068888888888889e-08,
711
+ "loss": 0.148,
712
+ "step": 2725
713
+ },
714
+ {
715
+ "epoch": 4.05,
716
+ "learning_rate": 5.0133333333333326e-08,
717
+ "loss": 0.1401,
718
+ "step": 2750
719
+ },
720
+ {
721
+ "epoch": 4.06,
722
+ "learning_rate": 4.9577777777777774e-08,
723
+ "loss": 0.1486,
724
+ "step": 2775
725
+ },
726
+ {
727
+ "epoch": 4.06,
728
+ "learning_rate": 4.902222222222222e-08,
729
+ "loss": 0.1329,
730
+ "step": 2800
731
+ },
732
+ {
733
+ "epoch": 4.07,
734
+ "learning_rate": 4.8466666666666664e-08,
735
+ "loss": 0.1514,
736
+ "step": 2825
737
+ },
738
+ {
739
+ "epoch": 4.07,
740
+ "learning_rate": 4.7911111111111106e-08,
741
+ "loss": 0.1392,
742
+ "step": 2850
743
+ },
744
+ {
745
+ "epoch": 4.08,
746
+ "learning_rate": 4.7355555555555554e-08,
747
+ "loss": 0.1362,
748
+ "step": 2875
749
+ },
750
+ {
751
+ "epoch": 4.08,
752
+ "learning_rate": 4.68e-08,
753
+ "loss": 0.1417,
754
+ "step": 2900
755
+ },
756
+ {
757
+ "epoch": 4.09,
758
+ "learning_rate": 4.6244444444444444e-08,
759
+ "loss": 0.1514,
760
+ "step": 2925
761
+ },
762
+ {
763
+ "epoch": 4.09,
764
+ "learning_rate": 4.5688888888888886e-08,
765
+ "loss": 0.1461,
766
+ "step": 2950
767
+ },
768
+ {
769
+ "epoch": 4.1,
770
+ "learning_rate": 4.513333333333333e-08,
771
+ "loss": 0.1355,
772
+ "step": 2975
773
+ },
774
+ {
775
+ "epoch": 4.1,
776
+ "learning_rate": 4.4577777777777775e-08,
777
+ "loss": 0.147,
778
+ "step": 3000
779
+ },
780
+ {
781
+ "epoch": 4.1,
782
+ "eval_cer": 7.71447631754503,
783
+ "eval_loss": 0.3965264558792114,
784
+ "eval_runtime": 1162.9158,
785
+ "eval_samples_per_second": 1.064,
786
+ "eval_steps_per_second": 0.267,
787
+ "eval_wer": 15.88067558675148,
788
+ "step": 3000
789
+ },
790
+ {
791
+ "epoch": 4.11,
792
+ "learning_rate": 4.4022222222222224e-08,
793
+ "loss": 0.135,
794
+ "step": 3025
795
+ },
796
+ {
797
+ "epoch": 4.11,
798
+ "learning_rate": 4.3466666666666665e-08,
799
+ "loss": 0.133,
800
+ "step": 3050
801
+ },
802
+ {
803
+ "epoch": 4.12,
804
+ "learning_rate": 4.291111111111111e-08,
805
+ "loss": 0.141,
806
+ "step": 3075
807
+ },
808
+ {
809
+ "epoch": 4.12,
810
+ "learning_rate": 4.2355555555555555e-08,
811
+ "loss": 0.1312,
812
+ "step": 3100
813
+ },
814
+ {
815
+ "epoch": 5.0,
816
+ "learning_rate": 4.18e-08,
817
+ "loss": 0.1332,
818
+ "step": 3125
819
+ },
820
+ {
821
+ "epoch": 5.01,
822
+ "learning_rate": 4.1244444444444445e-08,
823
+ "loss": 0.1314,
824
+ "step": 3150
825
+ },
826
+ {
827
+ "epoch": 5.01,
828
+ "learning_rate": 4.068888888888889e-08,
829
+ "loss": 0.139,
830
+ "step": 3175
831
+ },
832
+ {
833
+ "epoch": 5.02,
834
+ "learning_rate": 4.013333333333333e-08,
835
+ "loss": 0.1368,
836
+ "step": 3200
837
+ },
838
+ {
839
+ "epoch": 5.02,
840
+ "learning_rate": 3.957777777777778e-08,
841
+ "loss": 0.1367,
842
+ "step": 3225
843
+ },
844
+ {
845
+ "epoch": 5.03,
846
+ "learning_rate": 3.9022222222222225e-08,
847
+ "loss": 0.1448,
848
+ "step": 3250
849
+ },
850
+ {
851
+ "epoch": 5.03,
852
+ "learning_rate": 3.846666666666667e-08,
853
+ "loss": 0.1383,
854
+ "step": 3275
855
+ },
856
+ {
857
+ "epoch": 5.04,
858
+ "learning_rate": 3.791111111111111e-08,
859
+ "loss": 0.1374,
860
+ "step": 3300
861
+ },
862
+ {
863
+ "epoch": 5.04,
864
+ "learning_rate": 3.735555555555555e-08,
865
+ "loss": 0.1333,
866
+ "step": 3325
867
+ },
868
+ {
869
+ "epoch": 5.05,
870
+ "learning_rate": 3.68e-08,
871
+ "loss": 0.1325,
872
+ "step": 3350
873
+ },
874
+ {
875
+ "epoch": 5.05,
876
+ "learning_rate": 3.624444444444445e-08,
877
+ "loss": 0.1315,
878
+ "step": 3375
879
+ },
880
+ {
881
+ "epoch": 5.06,
882
+ "learning_rate": 3.571111111111111e-08,
883
+ "loss": 0.1311,
884
+ "step": 3400
885
+ },
886
+ {
887
+ "epoch": 5.06,
888
+ "learning_rate": 3.515555555555556e-08,
889
+ "loss": 0.1401,
890
+ "step": 3425
891
+ },
892
+ {
893
+ "epoch": 5.07,
894
+ "learning_rate": 3.46e-08,
895
+ "loss": 0.1297,
896
+ "step": 3450
897
+ },
898
+ {
899
+ "epoch": 5.07,
900
+ "learning_rate": 3.404444444444444e-08,
901
+ "loss": 0.1339,
902
+ "step": 3475
903
+ },
904
+ {
905
+ "epoch": 5.08,
906
+ "learning_rate": 3.348888888888889e-08,
907
+ "loss": 0.1292,
908
+ "step": 3500
909
+ },
910
+ {
911
+ "epoch": 5.08,
912
+ "eval_cer": 7.706470980653769,
913
+ "eval_loss": 0.3999946713447571,
914
+ "eval_runtime": 1162.3373,
915
+ "eval_samples_per_second": 1.064,
916
+ "eval_steps_per_second": 0.267,
917
+ "eval_wer": 15.85874095196315,
918
+ "step": 3500
919
+ },
920
+ {
921
+ "epoch": 5.08,
922
+ "learning_rate": 3.293333333333333e-08,
923
+ "loss": 0.132,
924
+ "step": 3525
925
+ },
926
+ {
927
+ "epoch": 5.09,
928
+ "learning_rate": 3.237777777777778e-08,
929
+ "loss": 0.1399,
930
+ "step": 3550
931
+ },
932
+ {
933
+ "epoch": 5.09,
934
+ "learning_rate": 3.182222222222222e-08,
935
+ "loss": 0.1248,
936
+ "step": 3575
937
+ },
938
+ {
939
+ "epoch": 5.1,
940
+ "learning_rate": 3.126666666666666e-08,
941
+ "loss": 0.1364,
942
+ "step": 3600
943
+ },
944
+ {
945
+ "epoch": 5.1,
946
+ "learning_rate": 3.071111111111111e-08,
947
+ "loss": 0.1318,
948
+ "step": 3625
949
+ },
950
+ {
951
+ "epoch": 5.11,
952
+ "learning_rate": 3.015555555555556e-08,
953
+ "loss": 0.1319,
954
+ "step": 3650
955
+ },
956
+ {
957
+ "epoch": 5.11,
958
+ "learning_rate": 2.9599999999999997e-08,
959
+ "loss": 0.1284,
960
+ "step": 3675
961
+ },
962
+ {
963
+ "epoch": 5.12,
964
+ "learning_rate": 2.9044444444444442e-08,
965
+ "loss": 0.1231,
966
+ "step": 3700
967
+ },
968
+ {
969
+ "epoch": 5.12,
970
+ "learning_rate": 2.848888888888889e-08,
971
+ "loss": 0.1305,
972
+ "step": 3725
973
+ },
974
+ {
975
+ "epoch": 6.0,
976
+ "learning_rate": 2.7933333333333332e-08,
977
+ "loss": 0.1231,
978
+ "step": 3750
979
+ },
980
+ {
981
+ "epoch": 6.01,
982
+ "learning_rate": 2.7377777777777777e-08,
983
+ "loss": 0.1236,
984
+ "step": 3775
985
+ },
986
+ {
987
+ "epoch": 6.01,
988
+ "learning_rate": 2.682222222222222e-08,
989
+ "loss": 0.1296,
990
+ "step": 3800
991
+ },
992
+ {
993
+ "epoch": 6.02,
994
+ "learning_rate": 2.6266666666666664e-08,
995
+ "loss": 0.129,
996
+ "step": 3825
997
+ },
998
+ {
999
+ "epoch": 6.02,
1000
+ "learning_rate": 2.5711111111111112e-08,
1001
+ "loss": 0.1317,
1002
+ "step": 3850
1003
+ },
1004
+ {
1005
+ "epoch": 6.03,
1006
+ "learning_rate": 2.5155555555555554e-08,
1007
+ "loss": 0.1415,
1008
+ "step": 3875
1009
+ },
1010
+ {
1011
+ "epoch": 6.03,
1012
+ "learning_rate": 2.46e-08,
1013
+ "loss": 0.1189,
1014
+ "step": 3900
1015
+ },
1016
+ {
1017
+ "epoch": 6.04,
1018
+ "learning_rate": 2.4044444444444444e-08,
1019
+ "loss": 0.1356,
1020
+ "step": 3925
1021
+ },
1022
+ {
1023
+ "epoch": 6.04,
1024
+ "learning_rate": 2.348888888888889e-08,
1025
+ "loss": 0.1232,
1026
+ "step": 3950
1027
+ },
1028
+ {
1029
+ "epoch": 6.05,
1030
+ "learning_rate": 2.2933333333333334e-08,
1031
+ "loss": 0.1315,
1032
+ "step": 3975
1033
+ },
1034
+ {
1035
+ "epoch": 6.05,
1036
+ "learning_rate": 2.2377777777777775e-08,
1037
+ "loss": 0.1187,
1038
+ "step": 4000
1039
+ },
1040
+ {
1041
+ "epoch": 6.05,
1042
+ "eval_cer": 7.639759839893262,
1043
+ "eval_loss": 0.40291938185691833,
1044
+ "eval_runtime": 1161.4251,
1045
+ "eval_samples_per_second": 1.065,
1046
+ "eval_steps_per_second": 0.267,
1047
+ "eval_wer": 15.749067778021498,
1048
+ "step": 4000
1049
+ },
1050
+ {
1051
+ "epoch": 6.06,
1052
+ "learning_rate": 2.1822222222222224e-08,
1053
+ "loss": 0.127,
1054
+ "step": 4025
1055
+ },
1056
+ {
1057
+ "epoch": 6.06,
1058
+ "learning_rate": 2.1266666666666665e-08,
1059
+ "loss": 0.1269,
1060
+ "step": 4050
1061
+ },
1062
+ {
1063
+ "epoch": 6.07,
1064
+ "learning_rate": 2.071111111111111e-08,
1065
+ "loss": 0.1273,
1066
+ "step": 4075
1067
+ },
1068
+ {
1069
+ "epoch": 6.07,
1070
+ "learning_rate": 2.0155555555555552e-08,
1071
+ "loss": 0.1253,
1072
+ "step": 4100
1073
+ },
1074
+ {
1075
+ "epoch": 6.08,
1076
+ "learning_rate": 1.96e-08,
1077
+ "loss": 0.1218,
1078
+ "step": 4125
1079
+ },
1080
+ {
1081
+ "epoch": 6.08,
1082
+ "learning_rate": 1.906666666666667e-08,
1083
+ "loss": 0.1284,
1084
+ "step": 4150
1085
+ },
1086
+ {
1087
+ "epoch": 6.09,
1088
+ "learning_rate": 1.851111111111111e-08,
1089
+ "loss": 0.1379,
1090
+ "step": 4175
1091
+ },
1092
+ {
1093
+ "epoch": 6.09,
1094
+ "learning_rate": 1.7955555555555555e-08,
1095
+ "loss": 0.1184,
1096
+ "step": 4200
1097
+ },
1098
+ {
1099
+ "epoch": 6.1,
1100
+ "learning_rate": 1.7399999999999997e-08,
1101
+ "loss": 0.133,
1102
+ "step": 4225
1103
+ },
1104
+ {
1105
+ "epoch": 6.1,
1106
+ "learning_rate": 1.6844444444444445e-08,
1107
+ "loss": 0.1334,
1108
+ "step": 4250
1109
+ },
1110
+ {
1111
+ "epoch": 6.11,
1112
+ "learning_rate": 1.6288888888888887e-08,
1113
+ "loss": 0.1184,
1114
+ "step": 4275
1115
+ },
1116
+ {
1117
+ "epoch": 6.11,
1118
+ "learning_rate": 1.5733333333333332e-08,
1119
+ "loss": 0.1254,
1120
+ "step": 4300
1121
+ },
1122
+ {
1123
+ "epoch": 6.12,
1124
+ "learning_rate": 1.5177777777777777e-08,
1125
+ "loss": 0.1212,
1126
+ "step": 4325
1127
+ },
1128
+ {
1129
+ "epoch": 6.12,
1130
+ "learning_rate": 1.4622222222222222e-08,
1131
+ "loss": 0.118,
1132
+ "step": 4350
1133
+ },
1134
+ {
1135
+ "epoch": 7.0,
1136
+ "learning_rate": 1.4066666666666665e-08,
1137
+ "loss": 0.124,
1138
+ "step": 4375
1139
+ },
1140
+ {
1141
+ "epoch": 7.01,
1142
+ "learning_rate": 1.3511111111111109e-08,
1143
+ "loss": 0.12,
1144
+ "step": 4400
1145
+ },
1146
+ {
1147
+ "epoch": 7.01,
1148
+ "learning_rate": 1.2955555555555555e-08,
1149
+ "loss": 0.1266,
1150
+ "step": 4425
1151
+ },
1152
+ {
1153
+ "epoch": 7.02,
1154
+ "learning_rate": 1.2399999999999999e-08,
1155
+ "loss": 0.1211,
1156
+ "step": 4450
1157
+ },
1158
+ {
1159
+ "epoch": 7.02,
1160
+ "learning_rate": 1.1844444444444445e-08,
1161
+ "loss": 0.1311,
1162
+ "step": 4475
1163
+ },
1164
+ {
1165
+ "epoch": 7.03,
1166
+ "learning_rate": 1.1288888888888889e-08,
1167
+ "loss": 0.1368,
1168
+ "step": 4500
1169
+ },
1170
+ {
1171
+ "epoch": 7.03,
1172
+ "eval_cer": 7.655770513675784,
1173
+ "eval_loss": 0.40414080023765564,
1174
+ "eval_runtime": 1163.7244,
1175
+ "eval_samples_per_second": 1.063,
1176
+ "eval_steps_per_second": 0.266,
1177
+ "eval_wer": 15.760035095415661,
1178
+ "step": 4500
1179
+ },
1180
+ {
1181
+ "epoch": 7.03,
1182
+ "learning_rate": 1.0733333333333333e-08,
1183
+ "loss": 0.1263,
1184
+ "step": 4525
1185
+ },
1186
+ {
1187
+ "epoch": 7.04,
1188
+ "learning_rate": 1.0177777777777777e-08,
1189
+ "loss": 0.1122,
1190
+ "step": 4550
1191
+ },
1192
+ {
1193
+ "epoch": 7.04,
1194
+ "learning_rate": 9.622222222222222e-09,
1195
+ "loss": 0.1285,
1196
+ "step": 4575
1197
+ },
1198
+ {
1199
+ "epoch": 7.05,
1200
+ "learning_rate": 9.066666666666667e-09,
1201
+ "loss": 0.1236,
1202
+ "step": 4600
1203
+ },
1204
+ {
1205
+ "epoch": 7.05,
1206
+ "learning_rate": 8.51111111111111e-09,
1207
+ "loss": 0.1237,
1208
+ "step": 4625
1209
+ },
1210
+ {
1211
+ "epoch": 7.06,
1212
+ "learning_rate": 7.955555555555555e-09,
1213
+ "loss": 0.1276,
1214
+ "step": 4650
1215
+ },
1216
+ {
1217
+ "epoch": 7.06,
1218
+ "learning_rate": 7.399999999999999e-09,
1219
+ "loss": 0.1252,
1220
+ "step": 4675
1221
+ },
1222
+ {
1223
+ "epoch": 7.07,
1224
+ "learning_rate": 6.844444444444444e-09,
1225
+ "loss": 0.1223,
1226
+ "step": 4700
1227
+ },
1228
+ {
1229
+ "epoch": 7.07,
1230
+ "learning_rate": 6.288888888888888e-09,
1231
+ "loss": 0.1232,
1232
+ "step": 4725
1233
+ },
1234
+ {
1235
+ "epoch": 7.08,
1236
+ "learning_rate": 5.733333333333333e-09,
1237
+ "loss": 0.1205,
1238
+ "step": 4750
1239
+ },
1240
+ {
1241
+ "epoch": 7.08,
1242
+ "learning_rate": 5.1777777777777775e-09,
1243
+ "loss": 0.1253,
1244
+ "step": 4775
1245
+ },
1246
+ {
1247
+ "epoch": 7.09,
1248
+ "learning_rate": 4.622222222222222e-09,
1249
+ "loss": 0.1359,
1250
+ "step": 4800
1251
+ },
1252
+ {
1253
+ "epoch": 7.09,
1254
+ "learning_rate": 4.066666666666666e-09,
1255
+ "loss": 0.1182,
1256
+ "step": 4825
1257
+ },
1258
+ {
1259
+ "epoch": 7.1,
1260
+ "learning_rate": 3.5111111111111113e-09,
1261
+ "loss": 0.1315,
1262
+ "step": 4850
1263
+ },
1264
+ {
1265
+ "epoch": 7.1,
1266
+ "learning_rate": 2.9555555555555554e-09,
1267
+ "loss": 0.1221,
1268
+ "step": 4875
1269
+ },
1270
+ {
1271
+ "epoch": 7.11,
1272
+ "learning_rate": 2.4e-09,
1273
+ "loss": 0.1175,
1274
+ "step": 4900
1275
+ },
1276
+ {
1277
+ "epoch": 7.11,
1278
+ "learning_rate": 1.8444444444444443e-09,
1279
+ "loss": 0.1226,
1280
+ "step": 4925
1281
+ },
1282
+ {
1283
+ "epoch": 7.12,
1284
+ "learning_rate": 1.288888888888889e-09,
1285
+ "loss": 0.1228,
1286
+ "step": 4950
1287
+ },
1288
+ {
1289
+ "epoch": 7.12,
1290
+ "learning_rate": 7.333333333333333e-10,
1291
+ "loss": 0.1236,
1292
+ "step": 4975
1293
+ },
1294
+ {
1295
+ "epoch": 8.0,
1296
+ "learning_rate": 1.7777777777777778e-10,
1297
+ "loss": 0.1231,
1298
+ "step": 5000
1299
+ },
1300
+ {
1301
+ "epoch": 8.0,
1302
+ "eval_cer": 7.6691127418278855,
1303
+ "eval_loss": 0.40414172410964966,
1304
+ "eval_runtime": 1171.5804,
1305
+ "eval_samples_per_second": 1.056,
1306
+ "eval_steps_per_second": 0.265,
1307
+ "eval_wer": 15.771002412809827,
1308
+ "step": 5000
1309
+ },
1310
+ {
1311
+ "epoch": 8.0,
1312
+ "step": 5000,
1313
+ "total_flos": 2.546786102870016e+20,
1314
+ "train_loss": 0.2192393777370453,
1315
+ "train_runtime": 54122.9791,
1316
+ "train_samples_per_second": 2.217,
1317
+ "train_steps_per_second": 0.092
1318
+ }
1319
+ ],
1320
+ "max_steps": 5000,
1321
+ "num_train_epochs": 9223372036854775807,
1322
+ "total_flos": 2.546786102870016e+20,
1323
+ "trial_name": null,
1324
+ "trial_params": null
1325
+ }