|
{
|
|
"best_metric": 0.13504766902825155,
|
|
"best_model_checkpoint": "results3_3\\checkpoint-108000",
|
|
"epoch": 1.2463306666666667,
|
|
"eval_steps": 12000,
|
|
"global_step": 108000,
|
|
"is_hyper_param_search": false,
|
|
"is_local_process_zero": true,
|
|
"is_world_process_zero": true,
|
|
"log_history": [
|
|
{
|
|
"epoch": 0.0005333333333333334,
|
|
"grad_norm": 12.682685852050781,
|
|
"learning_rate": 1.8800000000000002e-06,
|
|
"loss": 1.7624,
|
|
"step": 100
|
|
},
|
|
{
|
|
"epoch": 0.0010666666666666667,
|
|
"grad_norm": 9.673599243164062,
|
|
"learning_rate": 3.88e-06,
|
|
"loss": 0.9302,
|
|
"step": 200
|
|
},
|
|
{
|
|
"epoch": 0.0016,
|
|
"grad_norm": 12.075459480285645,
|
|
"learning_rate": 5.8800000000000005e-06,
|
|
"loss": 0.4712,
|
|
"step": 300
|
|
},
|
|
{
|
|
"epoch": 0.0021333333333333334,
|
|
"grad_norm": 9.02074909210205,
|
|
"learning_rate": 7.88e-06,
|
|
"loss": 0.3364,
|
|
"step": 400
|
|
},
|
|
{
|
|
"epoch": 0.0026666666666666666,
|
|
"grad_norm": 15.298815727233887,
|
|
"learning_rate": 9.88e-06,
|
|
"loss": 0.4066,
|
|
"step": 500
|
|
},
|
|
{
|
|
"epoch": 0.0032,
|
|
"grad_norm": 23.20745849609375,
|
|
"learning_rate": 9.994973262032086e-06,
|
|
"loss": 0.3955,
|
|
"step": 600
|
|
},
|
|
{
|
|
"epoch": 0.0037333333333333333,
|
|
"grad_norm": 12.026681900024414,
|
|
"learning_rate": 9.989625668449198e-06,
|
|
"loss": 0.3638,
|
|
"step": 700
|
|
},
|
|
{
|
|
"epoch": 0.004266666666666667,
|
|
"grad_norm": 7.112119674682617,
|
|
"learning_rate": 9.984278074866312e-06,
|
|
"loss": 0.364,
|
|
"step": 800
|
|
},
|
|
{
|
|
"epoch": 0.0048,
|
|
"grad_norm": 15.019401550292969,
|
|
"learning_rate": 9.978930481283423e-06,
|
|
"loss": 0.4006,
|
|
"step": 900
|
|
},
|
|
{
|
|
"epoch": 0.005333333333333333,
|
|
"grad_norm": 6.491704940795898,
|
|
"learning_rate": 9.973582887700535e-06,
|
|
"loss": 0.3714,
|
|
"step": 1000
|
|
},
|
|
{
|
|
"epoch": 0.005866666666666667,
|
|
"grad_norm": 9.685382843017578,
|
|
"learning_rate": 9.968235294117647e-06,
|
|
"loss": 0.3845,
|
|
"step": 1100
|
|
},
|
|
{
|
|
"epoch": 0.0064,
|
|
"grad_norm": 7.1199517250061035,
|
|
"learning_rate": 9.96288770053476e-06,
|
|
"loss": 0.3577,
|
|
"step": 1200
|
|
},
|
|
{
|
|
"epoch": 0.006933333333333333,
|
|
"grad_norm": 7.018744945526123,
|
|
"learning_rate": 9.957540106951872e-06,
|
|
"loss": 0.3518,
|
|
"step": 1300
|
|
},
|
|
{
|
|
"epoch": 0.007466666666666667,
|
|
"grad_norm": 12.106159210205078,
|
|
"learning_rate": 9.952192513368984e-06,
|
|
"loss": 0.355,
|
|
"step": 1400
|
|
},
|
|
{
|
|
"epoch": 0.008,
|
|
"grad_norm": 8.18734359741211,
|
|
"learning_rate": 9.946844919786098e-06,
|
|
"loss": 0.366,
|
|
"step": 1500
|
|
},
|
|
{
|
|
"epoch": 0.008533333333333334,
|
|
"grad_norm": 10.047822952270508,
|
|
"learning_rate": 9.94149732620321e-06,
|
|
"loss": 0.3424,
|
|
"step": 1600
|
|
},
|
|
{
|
|
"epoch": 0.009066666666666667,
|
|
"grad_norm": 11.106707572937012,
|
|
"learning_rate": 9.936149732620321e-06,
|
|
"loss": 0.3527,
|
|
"step": 1700
|
|
},
|
|
{
|
|
"epoch": 0.0096,
|
|
"grad_norm": 10.13370132446289,
|
|
"learning_rate": 9.930802139037435e-06,
|
|
"loss": 0.3588,
|
|
"step": 1800
|
|
},
|
|
{
|
|
"epoch": 0.010133333333333333,
|
|
"grad_norm": 6.995693683624268,
|
|
"learning_rate": 9.925454545454547e-06,
|
|
"loss": 0.3575,
|
|
"step": 1900
|
|
},
|
|
{
|
|
"epoch": 0.010666666666666666,
|
|
"grad_norm": 11.376134872436523,
|
|
"learning_rate": 9.920106951871658e-06,
|
|
"loss": 0.3649,
|
|
"step": 2000
|
|
},
|
|
{
|
|
"epoch": 0.0112,
|
|
"grad_norm": 14.864072799682617,
|
|
"learning_rate": 9.914759358288772e-06,
|
|
"loss": 0.378,
|
|
"step": 2100
|
|
},
|
|
{
|
|
"epoch": 0.011733333333333333,
|
|
"grad_norm": 11.829797744750977,
|
|
"learning_rate": 9.909411764705884e-06,
|
|
"loss": 0.358,
|
|
"step": 2200
|
|
},
|
|
{
|
|
"epoch": 0.012266666666666667,
|
|
"grad_norm": 11.30088996887207,
|
|
"learning_rate": 9.904064171122995e-06,
|
|
"loss": 0.3439,
|
|
"step": 2300
|
|
},
|
|
{
|
|
"epoch": 0.0128,
|
|
"grad_norm": 7.860215187072754,
|
|
"learning_rate": 9.898716577540107e-06,
|
|
"loss": 0.3411,
|
|
"step": 2400
|
|
},
|
|
{
|
|
"epoch": 0.013333333333333334,
|
|
"grad_norm": 11.937601089477539,
|
|
"learning_rate": 9.89336898395722e-06,
|
|
"loss": 0.3311,
|
|
"step": 2500
|
|
},
|
|
{
|
|
"epoch": 0.013866666666666666,
|
|
"grad_norm": 7.4068193435668945,
|
|
"learning_rate": 9.888021390374333e-06,
|
|
"loss": 0.368,
|
|
"step": 2600
|
|
},
|
|
{
|
|
"epoch": 0.0144,
|
|
"grad_norm": 10.59372329711914,
|
|
"learning_rate": 9.882673796791444e-06,
|
|
"loss": 0.358,
|
|
"step": 2700
|
|
},
|
|
{
|
|
"epoch": 0.014933333333333333,
|
|
"grad_norm": 10.110426902770996,
|
|
"learning_rate": 9.877326203208558e-06,
|
|
"loss": 0.348,
|
|
"step": 2800
|
|
},
|
|
{
|
|
"epoch": 0.015466666666666667,
|
|
"grad_norm": 12.541438102722168,
|
|
"learning_rate": 9.87197860962567e-06,
|
|
"loss": 0.3523,
|
|
"step": 2900
|
|
},
|
|
{
|
|
"epoch": 0.016,
|
|
"grad_norm": 14.14297866821289,
|
|
"learning_rate": 9.866631016042781e-06,
|
|
"loss": 0.3498,
|
|
"step": 3000
|
|
},
|
|
{
|
|
"epoch": 0.016533333333333334,
|
|
"grad_norm": 14.616842269897461,
|
|
"learning_rate": 9.861283422459893e-06,
|
|
"loss": 0.3392,
|
|
"step": 3100
|
|
},
|
|
{
|
|
"epoch": 0.017066666666666667,
|
|
"grad_norm": 7.4896345138549805,
|
|
"learning_rate": 9.855935828877005e-06,
|
|
"loss": 0.3409,
|
|
"step": 3200
|
|
},
|
|
{
|
|
"epoch": 0.0176,
|
|
"grad_norm": 7.518580913543701,
|
|
"learning_rate": 9.850588235294119e-06,
|
|
"loss": 0.353,
|
|
"step": 3300
|
|
},
|
|
{
|
|
"epoch": 0.018133333333333335,
|
|
"grad_norm": 14.476628303527832,
|
|
"learning_rate": 9.84524064171123e-06,
|
|
"loss": 0.3514,
|
|
"step": 3400
|
|
},
|
|
{
|
|
"epoch": 0.018666666666666668,
|
|
"grad_norm": 10.313743591308594,
|
|
"learning_rate": 9.839893048128342e-06,
|
|
"loss": 0.3479,
|
|
"step": 3500
|
|
},
|
|
{
|
|
"epoch": 0.0192,
|
|
"grad_norm": 8.568981170654297,
|
|
"learning_rate": 9.834545454545456e-06,
|
|
"loss": 0.3249,
|
|
"step": 3600
|
|
},
|
|
{
|
|
"epoch": 0.019733333333333332,
|
|
"grad_norm": 7.058041572570801,
|
|
"learning_rate": 9.829197860962568e-06,
|
|
"loss": 0.3231,
|
|
"step": 3700
|
|
},
|
|
{
|
|
"epoch": 0.020266666666666665,
|
|
"grad_norm": 10.430354118347168,
|
|
"learning_rate": 9.82385026737968e-06,
|
|
"loss": 0.3316,
|
|
"step": 3800
|
|
},
|
|
{
|
|
"epoch": 0.0208,
|
|
"grad_norm": 15.494534492492676,
|
|
"learning_rate": 9.818502673796793e-06,
|
|
"loss": 0.3552,
|
|
"step": 3900
|
|
},
|
|
{
|
|
"epoch": 0.021333333333333333,
|
|
"grad_norm": 4.254530429840088,
|
|
"learning_rate": 9.813155080213905e-06,
|
|
"loss": 0.3357,
|
|
"step": 4000
|
|
},
|
|
{
|
|
"epoch": 0.021866666666666666,
|
|
"grad_norm": 14.817956924438477,
|
|
"learning_rate": 9.807807486631016e-06,
|
|
"loss": 0.3386,
|
|
"step": 4100
|
|
},
|
|
{
|
|
"epoch": 0.0224,
|
|
"grad_norm": 7.910586833953857,
|
|
"learning_rate": 9.80245989304813e-06,
|
|
"loss": 0.3675,
|
|
"step": 4200
|
|
},
|
|
{
|
|
"epoch": 0.022933333333333333,
|
|
"grad_norm": 7.62361478805542,
|
|
"learning_rate": 9.797112299465242e-06,
|
|
"loss": 0.3378,
|
|
"step": 4300
|
|
},
|
|
{
|
|
"epoch": 0.023466666666666667,
|
|
"grad_norm": 9.862504959106445,
|
|
"learning_rate": 9.791764705882354e-06,
|
|
"loss": 0.3449,
|
|
"step": 4400
|
|
},
|
|
{
|
|
"epoch": 0.024,
|
|
"grad_norm": 12.023858070373535,
|
|
"learning_rate": 9.786417112299465e-06,
|
|
"loss": 0.3319,
|
|
"step": 4500
|
|
},
|
|
{
|
|
"epoch": 0.024533333333333334,
|
|
"grad_norm": 5.009961128234863,
|
|
"learning_rate": 9.781069518716579e-06,
|
|
"loss": 0.3728,
|
|
"step": 4600
|
|
},
|
|
{
|
|
"epoch": 0.025066666666666668,
|
|
"grad_norm": 12.042765617370605,
|
|
"learning_rate": 9.77572192513369e-06,
|
|
"loss": 0.3447,
|
|
"step": 4700
|
|
},
|
|
{
|
|
"epoch": 0.0256,
|
|
"grad_norm": 10.970171928405762,
|
|
"learning_rate": 9.770374331550802e-06,
|
|
"loss": 0.3571,
|
|
"step": 4800
|
|
},
|
|
{
|
|
"epoch": 0.026133333333333335,
|
|
"grad_norm": 9.50147819519043,
|
|
"learning_rate": 9.765026737967916e-06,
|
|
"loss": 0.3252,
|
|
"step": 4900
|
|
},
|
|
{
|
|
"epoch": 0.02666666666666667,
|
|
"grad_norm": 9.836638450622559,
|
|
"learning_rate": 9.759679144385028e-06,
|
|
"loss": 0.3473,
|
|
"step": 5000
|
|
},
|
|
{
|
|
"epoch": 0.0272,
|
|
"grad_norm": 10.238117218017578,
|
|
"learning_rate": 9.75433155080214e-06,
|
|
"loss": 0.3464,
|
|
"step": 5100
|
|
},
|
|
{
|
|
"epoch": 0.027733333333333332,
|
|
"grad_norm": 4.740981101989746,
|
|
"learning_rate": 9.748983957219253e-06,
|
|
"loss": 0.3268,
|
|
"step": 5200
|
|
},
|
|
{
|
|
"epoch": 0.028266666666666666,
|
|
"grad_norm": 11.421891212463379,
|
|
"learning_rate": 9.743636363636363e-06,
|
|
"loss": 0.3499,
|
|
"step": 5300
|
|
},
|
|
{
|
|
"epoch": 0.0288,
|
|
"grad_norm": 8.68069076538086,
|
|
"learning_rate": 9.738288770053477e-06,
|
|
"loss": 0.3354,
|
|
"step": 5400
|
|
},
|
|
{
|
|
"epoch": 0.029333333333333333,
|
|
"grad_norm": 12.214832305908203,
|
|
"learning_rate": 9.73294117647059e-06,
|
|
"loss": 0.3232,
|
|
"step": 5500
|
|
},
|
|
{
|
|
"epoch": 0.029866666666666666,
|
|
"grad_norm": 8.141294479370117,
|
|
"learning_rate": 9.7275935828877e-06,
|
|
"loss": 0.3321,
|
|
"step": 5600
|
|
},
|
|
{
|
|
"epoch": 0.0304,
|
|
"grad_norm": 10.102989196777344,
|
|
"learning_rate": 9.722245989304814e-06,
|
|
"loss": 0.3423,
|
|
"step": 5700
|
|
},
|
|
{
|
|
"epoch": 0.030933333333333334,
|
|
"grad_norm": 7.996029853820801,
|
|
"learning_rate": 9.716898395721926e-06,
|
|
"loss": 0.3404,
|
|
"step": 5800
|
|
},
|
|
{
|
|
"epoch": 0.031466666666666664,
|
|
"grad_norm": 8.540441513061523,
|
|
"learning_rate": 9.711550802139037e-06,
|
|
"loss": 0.3301,
|
|
"step": 5900
|
|
},
|
|
{
|
|
"epoch": 0.032,
|
|
"grad_norm": 9.5405912399292,
|
|
"learning_rate": 9.706203208556151e-06,
|
|
"loss": 0.3415,
|
|
"step": 6000
|
|
},
|
|
{
|
|
"epoch": 0.03253333333333333,
|
|
"grad_norm": 13.04266357421875,
|
|
"learning_rate": 9.700855614973263e-06,
|
|
"loss": 0.3332,
|
|
"step": 6100
|
|
},
|
|
{
|
|
"epoch": 0.03306666666666667,
|
|
"grad_norm": 10.254107475280762,
|
|
"learning_rate": 9.695508021390375e-06,
|
|
"loss": 0.3211,
|
|
"step": 6200
|
|
},
|
|
{
|
|
"epoch": 0.0336,
|
|
"grad_norm": 6.799915790557861,
|
|
"learning_rate": 9.690160427807488e-06,
|
|
"loss": 0.3287,
|
|
"step": 6300
|
|
},
|
|
{
|
|
"epoch": 0.034133333333333335,
|
|
"grad_norm": 8.072012901306152,
|
|
"learning_rate": 9.6848128342246e-06,
|
|
"loss": 0.3474,
|
|
"step": 6400
|
|
},
|
|
{
|
|
"epoch": 0.034666666666666665,
|
|
"grad_norm": 13.688739776611328,
|
|
"learning_rate": 9.679465240641712e-06,
|
|
"loss": 0.3234,
|
|
"step": 6500
|
|
},
|
|
{
|
|
"epoch": 0.0352,
|
|
"grad_norm": 6.636716365814209,
|
|
"learning_rate": 9.674117647058823e-06,
|
|
"loss": 0.3585,
|
|
"step": 6600
|
|
},
|
|
{
|
|
"epoch": 0.03573333333333333,
|
|
"grad_norm": 14.078845024108887,
|
|
"learning_rate": 9.668770053475937e-06,
|
|
"loss": 0.3234,
|
|
"step": 6700
|
|
},
|
|
{
|
|
"epoch": 0.03626666666666667,
|
|
"grad_norm": 5.768551826477051,
|
|
"learning_rate": 9.663422459893049e-06,
|
|
"loss": 0.3559,
|
|
"step": 6800
|
|
},
|
|
{
|
|
"epoch": 0.0368,
|
|
"grad_norm": 12.134847640991211,
|
|
"learning_rate": 9.65807486631016e-06,
|
|
"loss": 0.3075,
|
|
"step": 6900
|
|
},
|
|
{
|
|
"epoch": 0.037333333333333336,
|
|
"grad_norm": 9.488847732543945,
|
|
"learning_rate": 9.652727272727274e-06,
|
|
"loss": 0.3172,
|
|
"step": 7000
|
|
},
|
|
{
|
|
"epoch": 0.037866666666666667,
|
|
"grad_norm": 10.902628898620605,
|
|
"learning_rate": 9.647379679144386e-06,
|
|
"loss": 0.3523,
|
|
"step": 7100
|
|
},
|
|
{
|
|
"epoch": 0.0384,
|
|
"grad_norm": 11.071891784667969,
|
|
"learning_rate": 9.642032085561498e-06,
|
|
"loss": 0.3324,
|
|
"step": 7200
|
|
},
|
|
{
|
|
"epoch": 0.038933333333333334,
|
|
"grad_norm": 11.16884708404541,
|
|
"learning_rate": 9.636684491978611e-06,
|
|
"loss": 0.3085,
|
|
"step": 7300
|
|
},
|
|
{
|
|
"epoch": 0.039466666666666664,
|
|
"grad_norm": 7.358479022979736,
|
|
"learning_rate": 9.631336898395723e-06,
|
|
"loss": 0.3082,
|
|
"step": 7400
|
|
},
|
|
{
|
|
"epoch": 0.04,
|
|
"grad_norm": 11.693734169006348,
|
|
"learning_rate": 9.625989304812835e-06,
|
|
"loss": 0.336,
|
|
"step": 7500
|
|
},
|
|
{
|
|
"epoch": 0.04053333333333333,
|
|
"grad_norm": 11.842214584350586,
|
|
"learning_rate": 9.620641711229948e-06,
|
|
"loss": 0.3515,
|
|
"step": 7600
|
|
},
|
|
{
|
|
"epoch": 0.04106666666666667,
|
|
"grad_norm": 6.59236478805542,
|
|
"learning_rate": 9.61529411764706e-06,
|
|
"loss": 0.3,
|
|
"step": 7700
|
|
},
|
|
{
|
|
"epoch": 0.0416,
|
|
"grad_norm": 10.550555229187012,
|
|
"learning_rate": 9.609946524064172e-06,
|
|
"loss": 0.2965,
|
|
"step": 7800
|
|
},
|
|
{
|
|
"epoch": 0.042133333333333335,
|
|
"grad_norm": 15.540199279785156,
|
|
"learning_rate": 9.604598930481284e-06,
|
|
"loss": 0.3183,
|
|
"step": 7900
|
|
},
|
|
{
|
|
"epoch": 0.042666666666666665,
|
|
"grad_norm": 14.629020690917969,
|
|
"learning_rate": 9.599251336898396e-06,
|
|
"loss": 0.3327,
|
|
"step": 8000
|
|
},
|
|
{
|
|
"epoch": 0.0432,
|
|
"grad_norm": 8.822857856750488,
|
|
"learning_rate": 9.593903743315509e-06,
|
|
"loss": 0.3358,
|
|
"step": 8100
|
|
},
|
|
{
|
|
"epoch": 0.04373333333333333,
|
|
"grad_norm": 7.702023983001709,
|
|
"learning_rate": 9.588556149732621e-06,
|
|
"loss": 0.3271,
|
|
"step": 8200
|
|
},
|
|
{
|
|
"epoch": 0.04426666666666667,
|
|
"grad_norm": 20.20534896850586,
|
|
"learning_rate": 9.583208556149733e-06,
|
|
"loss": 0.3115,
|
|
"step": 8300
|
|
},
|
|
{
|
|
"epoch": 0.0448,
|
|
"grad_norm": 10.3837251663208,
|
|
"learning_rate": 9.577860962566846e-06,
|
|
"loss": 0.3212,
|
|
"step": 8400
|
|
},
|
|
{
|
|
"epoch": 0.04533333333333334,
|
|
"grad_norm": 7.677608489990234,
|
|
"learning_rate": 9.572513368983958e-06,
|
|
"loss": 0.3333,
|
|
"step": 8500
|
|
},
|
|
{
|
|
"epoch": 0.04586666666666667,
|
|
"grad_norm": 8.203088760375977,
|
|
"learning_rate": 9.56716577540107e-06,
|
|
"loss": 0.3038,
|
|
"step": 8600
|
|
},
|
|
{
|
|
"epoch": 0.0464,
|
|
"grad_norm": 6.146180152893066,
|
|
"learning_rate": 9.561818181818182e-06,
|
|
"loss": 0.316,
|
|
"step": 8700
|
|
},
|
|
{
|
|
"epoch": 0.046933333333333334,
|
|
"grad_norm": 17.6888427734375,
|
|
"learning_rate": 9.556470588235295e-06,
|
|
"loss": 0.3545,
|
|
"step": 8800
|
|
},
|
|
{
|
|
"epoch": 0.047466666666666664,
|
|
"grad_norm": 6.254221439361572,
|
|
"learning_rate": 9.551122994652407e-06,
|
|
"loss": 0.2936,
|
|
"step": 8900
|
|
},
|
|
{
|
|
"epoch": 0.048,
|
|
"grad_norm": 9.450068473815918,
|
|
"learning_rate": 9.545775401069519e-06,
|
|
"loss": 0.3299,
|
|
"step": 9000
|
|
},
|
|
{
|
|
"epoch": 0.04853333333333333,
|
|
"grad_norm": 5.22484827041626,
|
|
"learning_rate": 9.540427807486632e-06,
|
|
"loss": 0.3076,
|
|
"step": 9100
|
|
},
|
|
{
|
|
"epoch": 0.04906666666666667,
|
|
"grad_norm": 11.477136611938477,
|
|
"learning_rate": 9.535080213903744e-06,
|
|
"loss": 0.33,
|
|
"step": 9200
|
|
},
|
|
{
|
|
"epoch": 0.0496,
|
|
"grad_norm": 14.33831787109375,
|
|
"learning_rate": 9.529732620320856e-06,
|
|
"loss": 0.338,
|
|
"step": 9300
|
|
},
|
|
{
|
|
"epoch": 0.050133333333333335,
|
|
"grad_norm": 6.946934700012207,
|
|
"learning_rate": 9.52438502673797e-06,
|
|
"loss": 0.3282,
|
|
"step": 9400
|
|
},
|
|
{
|
|
"epoch": 0.050666666666666665,
|
|
"grad_norm": 7.85734748840332,
|
|
"learning_rate": 9.519037433155081e-06,
|
|
"loss": 0.3162,
|
|
"step": 9500
|
|
},
|
|
{
|
|
"epoch": 0.0512,
|
|
"grad_norm": 12.215442657470703,
|
|
"learning_rate": 9.513689839572193e-06,
|
|
"loss": 0.3286,
|
|
"step": 9600
|
|
},
|
|
{
|
|
"epoch": 0.05173333333333333,
|
|
"grad_norm": 16.859296798706055,
|
|
"learning_rate": 9.508342245989306e-06,
|
|
"loss": 0.3148,
|
|
"step": 9700
|
|
},
|
|
{
|
|
"epoch": 0.05226666666666667,
|
|
"grad_norm": 15.90843391418457,
|
|
"learning_rate": 9.502994652406418e-06,
|
|
"loss": 0.3492,
|
|
"step": 9800
|
|
},
|
|
{
|
|
"epoch": 0.0528,
|
|
"grad_norm": 6.754197597503662,
|
|
"learning_rate": 9.49764705882353e-06,
|
|
"loss": 0.3251,
|
|
"step": 9900
|
|
},
|
|
{
|
|
"epoch": 0.05333333333333334,
|
|
"grad_norm": 7.828423023223877,
|
|
"learning_rate": 9.492299465240642e-06,
|
|
"loss": 0.3112,
|
|
"step": 10000
|
|
},
|
|
{
|
|
"epoch": 0.05386666666666667,
|
|
"grad_norm": 5.814265251159668,
|
|
"learning_rate": 9.487005347593585e-06,
|
|
"loss": 0.3145,
|
|
"step": 10100
|
|
},
|
|
{
|
|
"epoch": 0.0544,
|
|
"grad_norm": 8.992554664611816,
|
|
"learning_rate": 9.481657754010696e-06,
|
|
"loss": 0.3534,
|
|
"step": 10200
|
|
},
|
|
{
|
|
"epoch": 0.054933333333333334,
|
|
"grad_norm": 2.707108974456787,
|
|
"learning_rate": 9.476310160427808e-06,
|
|
"loss": 0.3091,
|
|
"step": 10300
|
|
},
|
|
{
|
|
"epoch": 0.055466666666666664,
|
|
"grad_norm": 6.719486236572266,
|
|
"learning_rate": 9.47096256684492e-06,
|
|
"loss": 0.3065,
|
|
"step": 10400
|
|
},
|
|
{
|
|
"epoch": 0.056,
|
|
"grad_norm": 6.975130558013916,
|
|
"learning_rate": 9.465614973262034e-06,
|
|
"loss": 0.3387,
|
|
"step": 10500
|
|
},
|
|
{
|
|
"epoch": 0.05653333333333333,
|
|
"grad_norm": 7.222239017486572,
|
|
"learning_rate": 9.460267379679145e-06,
|
|
"loss": 0.2903,
|
|
"step": 10600
|
|
},
|
|
{
|
|
"epoch": 0.05706666666666667,
|
|
"grad_norm": 8.861376762390137,
|
|
"learning_rate": 9.454919786096257e-06,
|
|
"loss": 0.3039,
|
|
"step": 10700
|
|
},
|
|
{
|
|
"epoch": 0.0576,
|
|
"grad_norm": 3.8790180683135986,
|
|
"learning_rate": 9.44957219251337e-06,
|
|
"loss": 0.326,
|
|
"step": 10800
|
|
},
|
|
{
|
|
"epoch": 0.058133333333333335,
|
|
"grad_norm": 5.9464216232299805,
|
|
"learning_rate": 9.444278074866312e-06,
|
|
"loss": 0.3235,
|
|
"step": 10900
|
|
},
|
|
{
|
|
"epoch": 0.058666666666666666,
|
|
"grad_norm": 13.298794746398926,
|
|
"learning_rate": 9.438930481283423e-06,
|
|
"loss": 0.3344,
|
|
"step": 11000
|
|
},
|
|
{
|
|
"epoch": 0.0592,
|
|
"grad_norm": 9.65287971496582,
|
|
"learning_rate": 9.433582887700535e-06,
|
|
"loss": 0.3313,
|
|
"step": 11100
|
|
},
|
|
{
|
|
"epoch": 0.05973333333333333,
|
|
"grad_norm": 6.684828281402588,
|
|
"learning_rate": 9.428235294117649e-06,
|
|
"loss": 0.3124,
|
|
"step": 11200
|
|
},
|
|
{
|
|
"epoch": 0.06026666666666667,
|
|
"grad_norm": 12.06175708770752,
|
|
"learning_rate": 9.422887700534759e-06,
|
|
"loss": 0.3392,
|
|
"step": 11300
|
|
},
|
|
{
|
|
"epoch": 0.0608,
|
|
"grad_norm": 11.010705947875977,
|
|
"learning_rate": 9.417540106951872e-06,
|
|
"loss": 0.3069,
|
|
"step": 11400
|
|
},
|
|
{
|
|
"epoch": 0.06133333333333333,
|
|
"grad_norm": 10.140491485595703,
|
|
"learning_rate": 9.412192513368986e-06,
|
|
"loss": 0.3058,
|
|
"step": 11500
|
|
},
|
|
{
|
|
"epoch": 0.06186666666666667,
|
|
"grad_norm": 10.447724342346191,
|
|
"learning_rate": 9.406844919786096e-06,
|
|
"loss": 0.3028,
|
|
"step": 11600
|
|
},
|
|
{
|
|
"epoch": 0.0624,
|
|
"grad_norm": 9.439563751220703,
|
|
"learning_rate": 9.40149732620321e-06,
|
|
"loss": 0.3082,
|
|
"step": 11700
|
|
},
|
|
{
|
|
"epoch": 0.06293333333333333,
|
|
"grad_norm": 12.6246919631958,
|
|
"learning_rate": 9.396149732620321e-06,
|
|
"loss": 0.3063,
|
|
"step": 11800
|
|
},
|
|
{
|
|
"epoch": 0.06346666666666667,
|
|
"grad_norm": 7.701294898986816,
|
|
"learning_rate": 9.390802139037433e-06,
|
|
"loss": 0.3073,
|
|
"step": 11900
|
|
},
|
|
{
|
|
"epoch": 0.064,
|
|
"grad_norm": 6.799566268920898,
|
|
"learning_rate": 9.385454545454547e-06,
|
|
"loss": 0.3079,
|
|
"step": 12000
|
|
},
|
|
{
|
|
"epoch": 0.064,
|
|
"eval_test1_cer": 0.07394596310404063,
|
|
"eval_test1_cer_norm": 0.05342041443561361,
|
|
"eval_test1_loss": 0.2363676279783249,
|
|
"eval_test1_runtime": 3493.0306,
|
|
"eval_test1_samples_per_second": 0.716,
|
|
"eval_test1_steps_per_second": 0.179,
|
|
"eval_test1_wer": 0.2097145689378699,
|
|
"eval_test1_wer_norm": 0.14430579502615506,
|
|
"step": 12000
|
|
},
|
|
{
|
|
"epoch": 0.064,
|
|
"eval_test2_cer": 0.16905588531750476,
|
|
"eval_test2_cer_norm": 0.12996300743724823,
|
|
"eval_test2_loss": 0.3965984880924225,
|
|
"eval_test2_runtime": 3621.2985,
|
|
"eval_test2_samples_per_second": 0.69,
|
|
"eval_test2_steps_per_second": 0.173,
|
|
"eval_test2_wer": 0.3331998168917372,
|
|
"eval_test2_wer_norm": 0.26257735503094204,
|
|
"step": 12000
|
|
},
|
|
{
|
|
"epoch": 0.06453333333333333,
|
|
"grad_norm": 6.89504861831665,
|
|
"learning_rate": 9.380106951871658e-06,
|
|
"loss": 0.3254,
|
|
"step": 12100
|
|
},
|
|
{
|
|
"epoch": 0.06506666666666666,
|
|
"grad_norm": 10.308484077453613,
|
|
"learning_rate": 9.37475935828877e-06,
|
|
"loss": 0.3023,
|
|
"step": 12200
|
|
},
|
|
{
|
|
"epoch": 0.0656,
|
|
"grad_norm": 12.176148414611816,
|
|
"learning_rate": 9.369411764705884e-06,
|
|
"loss": 0.3042,
|
|
"step": 12300
|
|
},
|
|
{
|
|
"epoch": 0.06613333333333334,
|
|
"grad_norm": 11.045821189880371,
|
|
"learning_rate": 9.364064171122996e-06,
|
|
"loss": 0.3054,
|
|
"step": 12400
|
|
},
|
|
{
|
|
"epoch": 0.06666666666666667,
|
|
"grad_norm": 6.078316688537598,
|
|
"learning_rate": 9.358716577540107e-06,
|
|
"loss": 0.2774,
|
|
"step": 12500
|
|
},
|
|
{
|
|
"epoch": 0.0672,
|
|
"grad_norm": 6.855229377746582,
|
|
"learning_rate": 9.353368983957219e-06,
|
|
"loss": 0.3138,
|
|
"step": 12600
|
|
},
|
|
{
|
|
"epoch": 0.06773333333333334,
|
|
"grad_norm": 7.834438800811768,
|
|
"learning_rate": 9.348021390374333e-06,
|
|
"loss": 0.3248,
|
|
"step": 12700
|
|
},
|
|
{
|
|
"epoch": 0.06826666666666667,
|
|
"grad_norm": 6.273947715759277,
|
|
"learning_rate": 9.342673796791444e-06,
|
|
"loss": 0.3081,
|
|
"step": 12800
|
|
},
|
|
{
|
|
"epoch": 0.0688,
|
|
"grad_norm": 9.909603118896484,
|
|
"learning_rate": 9.337326203208556e-06,
|
|
"loss": 0.3062,
|
|
"step": 12900
|
|
},
|
|
{
|
|
"epoch": 0.06933333333333333,
|
|
"grad_norm": 8.648843765258789,
|
|
"learning_rate": 9.33197860962567e-06,
|
|
"loss": 0.296,
|
|
"step": 13000
|
|
},
|
|
{
|
|
"epoch": 0.06986666666666666,
|
|
"grad_norm": 18.481542587280273,
|
|
"learning_rate": 9.326631016042782e-06,
|
|
"loss": 0.3216,
|
|
"step": 13100
|
|
},
|
|
{
|
|
"epoch": 0.0704,
|
|
"grad_norm": 8.06287956237793,
|
|
"learning_rate": 9.321283422459893e-06,
|
|
"loss": 0.3264,
|
|
"step": 13200
|
|
},
|
|
{
|
|
"epoch": 0.07093333333333333,
|
|
"grad_norm": 6.104379177093506,
|
|
"learning_rate": 9.315935828877007e-06,
|
|
"loss": 0.2907,
|
|
"step": 13300
|
|
},
|
|
{
|
|
"epoch": 0.07146666666666666,
|
|
"grad_norm": 5.05776834487915,
|
|
"learning_rate": 9.310588235294119e-06,
|
|
"loss": 0.3172,
|
|
"step": 13400
|
|
},
|
|
{
|
|
"epoch": 0.072,
|
|
"grad_norm": 10.694443702697754,
|
|
"learning_rate": 9.30524064171123e-06,
|
|
"loss": 0.3137,
|
|
"step": 13500
|
|
},
|
|
{
|
|
"epoch": 0.07253333333333334,
|
|
"grad_norm": 9.1295747756958,
|
|
"learning_rate": 9.299893048128344e-06,
|
|
"loss": 0.3059,
|
|
"step": 13600
|
|
},
|
|
{
|
|
"epoch": 0.07306666666666667,
|
|
"grad_norm": 14.171150207519531,
|
|
"learning_rate": 9.294545454545456e-06,
|
|
"loss": 0.3161,
|
|
"step": 13700
|
|
},
|
|
{
|
|
"epoch": 0.0736,
|
|
"grad_norm": 4.371847629547119,
|
|
"learning_rate": 9.289197860962568e-06,
|
|
"loss": 0.2742,
|
|
"step": 13800
|
|
},
|
|
{
|
|
"epoch": 0.07413333333333333,
|
|
"grad_norm": 5.861475467681885,
|
|
"learning_rate": 9.283850267379681e-06,
|
|
"loss": 0.2969,
|
|
"step": 13900
|
|
},
|
|
{
|
|
"epoch": 0.07466666666666667,
|
|
"grad_norm": 6.731687068939209,
|
|
"learning_rate": 9.278502673796791e-06,
|
|
"loss": 0.3348,
|
|
"step": 14000
|
|
},
|
|
{
|
|
"epoch": 0.0752,
|
|
"grad_norm": 7.6385297775268555,
|
|
"learning_rate": 9.273155080213905e-06,
|
|
"loss": 0.3214,
|
|
"step": 14100
|
|
},
|
|
{
|
|
"epoch": 0.07573333333333333,
|
|
"grad_norm": 11.56203842163086,
|
|
"learning_rate": 9.267807486631017e-06,
|
|
"loss": 0.3168,
|
|
"step": 14200
|
|
},
|
|
{
|
|
"epoch": 0.07626666666666666,
|
|
"grad_norm": 12.223224639892578,
|
|
"learning_rate": 9.262459893048128e-06,
|
|
"loss": 0.2837,
|
|
"step": 14300
|
|
},
|
|
{
|
|
"epoch": 0.0768,
|
|
"grad_norm": 7.101698875427246,
|
|
"learning_rate": 9.257112299465242e-06,
|
|
"loss": 0.3215,
|
|
"step": 14400
|
|
},
|
|
{
|
|
"epoch": 0.07733333333333334,
|
|
"grad_norm": 6.637581825256348,
|
|
"learning_rate": 9.251764705882354e-06,
|
|
"loss": 0.3339,
|
|
"step": 14500
|
|
},
|
|
{
|
|
"epoch": 0.07786666666666667,
|
|
"grad_norm": 7.6208038330078125,
|
|
"learning_rate": 9.246417112299465e-06,
|
|
"loss": 0.3089,
|
|
"step": 14600
|
|
},
|
|
{
|
|
"epoch": 0.0784,
|
|
"grad_norm": 6.840024948120117,
|
|
"learning_rate": 9.241069518716577e-06,
|
|
"loss": 0.3025,
|
|
"step": 14700
|
|
},
|
|
{
|
|
"epoch": 0.07893333333333333,
|
|
"grad_norm": 7.576569080352783,
|
|
"learning_rate": 9.23572192513369e-06,
|
|
"loss": 0.283,
|
|
"step": 14800
|
|
},
|
|
{
|
|
"epoch": 0.07946666666666667,
|
|
"grad_norm": 10.964497566223145,
|
|
"learning_rate": 9.230427807486632e-06,
|
|
"loss": 0.3147,
|
|
"step": 14900
|
|
},
|
|
{
|
|
"epoch": 0.08,
|
|
"grad_norm": 7.626828670501709,
|
|
"learning_rate": 9.225080213903744e-06,
|
|
"loss": 0.2961,
|
|
"step": 15000
|
|
},
|
|
{
|
|
"epoch": 0.08053333333333333,
|
|
"grad_norm": 11.547073364257812,
|
|
"learning_rate": 9.219732620320855e-06,
|
|
"loss": 0.2821,
|
|
"step": 15100
|
|
},
|
|
{
|
|
"epoch": 0.08106666666666666,
|
|
"grad_norm": 8.551331520080566,
|
|
"learning_rate": 9.214385026737969e-06,
|
|
"loss": 0.2887,
|
|
"step": 15200
|
|
},
|
|
{
|
|
"epoch": 0.0816,
|
|
"grad_norm": 6.346571922302246,
|
|
"learning_rate": 9.20903743315508e-06,
|
|
"loss": 0.3126,
|
|
"step": 15300
|
|
},
|
|
{
|
|
"epoch": 0.08213333333333334,
|
|
"grad_norm": 8.737421989440918,
|
|
"learning_rate": 9.203689839572193e-06,
|
|
"loss": 0.3095,
|
|
"step": 15400
|
|
},
|
|
{
|
|
"epoch": 0.08266666666666667,
|
|
"grad_norm": 7.823000431060791,
|
|
"learning_rate": 9.198342245989306e-06,
|
|
"loss": 0.3318,
|
|
"step": 15500
|
|
},
|
|
{
|
|
"epoch": 0.0832,
|
|
"grad_norm": 10.868834495544434,
|
|
"learning_rate": 9.192994652406418e-06,
|
|
"loss": 0.2819,
|
|
"step": 15600
|
|
},
|
|
{
|
|
"epoch": 0.08373333333333334,
|
|
"grad_norm": 11.724994659423828,
|
|
"learning_rate": 9.18764705882353e-06,
|
|
"loss": 0.308,
|
|
"step": 15700
|
|
},
|
|
{
|
|
"epoch": 0.08426666666666667,
|
|
"grad_norm": 12.090059280395508,
|
|
"learning_rate": 9.18235294117647e-06,
|
|
"loss": 0.2893,
|
|
"step": 15800
|
|
},
|
|
{
|
|
"epoch": 0.0848,
|
|
"grad_norm": 9.195568084716797,
|
|
"learning_rate": 9.177005347593584e-06,
|
|
"loss": 0.3003,
|
|
"step": 15900
|
|
},
|
|
{
|
|
"epoch": 0.08533333333333333,
|
|
"grad_norm": 7.414088249206543,
|
|
"learning_rate": 9.171657754010696e-06,
|
|
"loss": 0.2851,
|
|
"step": 16000
|
|
},
|
|
{
|
|
"epoch": 0.08586666666666666,
|
|
"grad_norm": 9.123306274414062,
|
|
"learning_rate": 9.166310160427808e-06,
|
|
"loss": 0.2859,
|
|
"step": 16100
|
|
},
|
|
{
|
|
"epoch": 0.0864,
|
|
"grad_norm": 8.737271308898926,
|
|
"learning_rate": 9.160962566844921e-06,
|
|
"loss": 0.2932,
|
|
"step": 16200
|
|
},
|
|
{
|
|
"epoch": 0.08693333333333333,
|
|
"grad_norm": 14.485941886901855,
|
|
"learning_rate": 9.155614973262033e-06,
|
|
"loss": 0.2983,
|
|
"step": 16300
|
|
},
|
|
{
|
|
"epoch": 0.08746666666666666,
|
|
"grad_norm": 6.459070205688477,
|
|
"learning_rate": 9.150267379679145e-06,
|
|
"loss": 0.29,
|
|
"step": 16400
|
|
},
|
|
{
|
|
"epoch": 0.088,
|
|
"grad_norm": 9.596070289611816,
|
|
"learning_rate": 9.144919786096258e-06,
|
|
"loss": 0.3382,
|
|
"step": 16500
|
|
},
|
|
{
|
|
"epoch": 0.08853333333333334,
|
|
"grad_norm": 7.359094619750977,
|
|
"learning_rate": 9.13957219251337e-06,
|
|
"loss": 0.2913,
|
|
"step": 16600
|
|
},
|
|
{
|
|
"epoch": 0.08906666666666667,
|
|
"grad_norm": 12.854063987731934,
|
|
"learning_rate": 9.134224598930482e-06,
|
|
"loss": 0.3053,
|
|
"step": 16700
|
|
},
|
|
{
|
|
"epoch": 0.0896,
|
|
"grad_norm": 6.775805473327637,
|
|
"learning_rate": 9.128877005347594e-06,
|
|
"loss": 0.2967,
|
|
"step": 16800
|
|
},
|
|
{
|
|
"epoch": 0.09013333333333333,
|
|
"grad_norm": 8.06552791595459,
|
|
"learning_rate": 9.123529411764707e-06,
|
|
"loss": 0.3087,
|
|
"step": 16900
|
|
},
|
|
{
|
|
"epoch": 0.09066666666666667,
|
|
"grad_norm": 11.01732063293457,
|
|
"learning_rate": 9.118181818181819e-06,
|
|
"loss": 0.2923,
|
|
"step": 17000
|
|
},
|
|
{
|
|
"epoch": 0.0912,
|
|
"grad_norm": 6.7579450607299805,
|
|
"learning_rate": 9.112834224598931e-06,
|
|
"loss": 0.2923,
|
|
"step": 17100
|
|
},
|
|
{
|
|
"epoch": 0.09173333333333333,
|
|
"grad_norm": 13.407238006591797,
|
|
"learning_rate": 9.107486631016044e-06,
|
|
"loss": 0.3188,
|
|
"step": 17200
|
|
},
|
|
{
|
|
"epoch": 0.09226666666666666,
|
|
"grad_norm": 11.711687088012695,
|
|
"learning_rate": 9.102139037433155e-06,
|
|
"loss": 0.3148,
|
|
"step": 17300
|
|
},
|
|
{
|
|
"epoch": 0.0928,
|
|
"grad_norm": 12.918648719787598,
|
|
"learning_rate": 9.096791443850268e-06,
|
|
"loss": 0.2916,
|
|
"step": 17400
|
|
},
|
|
{
|
|
"epoch": 0.09333333333333334,
|
|
"grad_norm": 5.458356857299805,
|
|
"learning_rate": 9.091443850267382e-06,
|
|
"loss": 0.2891,
|
|
"step": 17500
|
|
},
|
|
{
|
|
"epoch": 0.09386666666666667,
|
|
"grad_norm": 12.215410232543945,
|
|
"learning_rate": 9.086096256684492e-06,
|
|
"loss": 0.3274,
|
|
"step": 17600
|
|
},
|
|
{
|
|
"epoch": 0.0944,
|
|
"grad_norm": 7.538832664489746,
|
|
"learning_rate": 9.080748663101605e-06,
|
|
"loss": 0.2962,
|
|
"step": 17700
|
|
},
|
|
{
|
|
"epoch": 0.09493333333333333,
|
|
"grad_norm": 12.217591285705566,
|
|
"learning_rate": 9.075401069518717e-06,
|
|
"loss": 0.3179,
|
|
"step": 17800
|
|
},
|
|
{
|
|
"epoch": 0.09546666666666667,
|
|
"grad_norm": 9.152289390563965,
|
|
"learning_rate": 9.070053475935829e-06,
|
|
"loss": 0.3116,
|
|
"step": 17900
|
|
},
|
|
{
|
|
"epoch": 0.096,
|
|
"grad_norm": 11.746953964233398,
|
|
"learning_rate": 9.064705882352942e-06,
|
|
"loss": 0.3198,
|
|
"step": 18000
|
|
},
|
|
{
|
|
"epoch": 0.09653333333333333,
|
|
"grad_norm": 17.57948875427246,
|
|
"learning_rate": 9.059358288770054e-06,
|
|
"loss": 0.2982,
|
|
"step": 18100
|
|
},
|
|
{
|
|
"epoch": 0.09706666666666666,
|
|
"grad_norm": 8.564026832580566,
|
|
"learning_rate": 9.054010695187166e-06,
|
|
"loss": 0.2832,
|
|
"step": 18200
|
|
},
|
|
{
|
|
"epoch": 0.0976,
|
|
"grad_norm": 14.246106147766113,
|
|
"learning_rate": 9.04866310160428e-06,
|
|
"loss": 0.2744,
|
|
"step": 18300
|
|
},
|
|
{
|
|
"epoch": 0.09813333333333334,
|
|
"grad_norm": 10.425728797912598,
|
|
"learning_rate": 9.043315508021391e-06,
|
|
"loss": 0.2967,
|
|
"step": 18400
|
|
},
|
|
{
|
|
"epoch": 0.09866666666666667,
|
|
"grad_norm": 8.130317687988281,
|
|
"learning_rate": 9.037967914438503e-06,
|
|
"loss": 0.2825,
|
|
"step": 18500
|
|
},
|
|
{
|
|
"epoch": 0.0992,
|
|
"grad_norm": 11.564924240112305,
|
|
"learning_rate": 9.032620320855617e-06,
|
|
"loss": 0.2942,
|
|
"step": 18600
|
|
},
|
|
{
|
|
"epoch": 0.09973333333333333,
|
|
"grad_norm": 10.375117301940918,
|
|
"learning_rate": 9.027272727272728e-06,
|
|
"loss": 0.2911,
|
|
"step": 18700
|
|
},
|
|
{
|
|
"epoch": 0.10026666666666667,
|
|
"grad_norm": 7.555624961853027,
|
|
"learning_rate": 9.02192513368984e-06,
|
|
"loss": 0.2822,
|
|
"step": 18800
|
|
},
|
|
{
|
|
"epoch": 0.1008,
|
|
"grad_norm": 12.56221866607666,
|
|
"learning_rate": 9.016577540106952e-06,
|
|
"loss": 0.2949,
|
|
"step": 18900
|
|
},
|
|
{
|
|
"epoch": 0.10133333333333333,
|
|
"grad_norm": 5.384222030639648,
|
|
"learning_rate": 9.011229946524065e-06,
|
|
"loss": 0.2813,
|
|
"step": 19000
|
|
},
|
|
{
|
|
"epoch": 0.10186666666666666,
|
|
"grad_norm": 5.165426254272461,
|
|
"learning_rate": 9.005882352941177e-06,
|
|
"loss": 0.2858,
|
|
"step": 19100
|
|
},
|
|
{
|
|
"epoch": 0.1024,
|
|
"grad_norm": 8.68776798248291,
|
|
"learning_rate": 9.000534759358289e-06,
|
|
"loss": 0.2712,
|
|
"step": 19200
|
|
},
|
|
{
|
|
"epoch": 0.10293333333333334,
|
|
"grad_norm": 9.408143043518066,
|
|
"learning_rate": 8.995187165775403e-06,
|
|
"loss": 0.3068,
|
|
"step": 19300
|
|
},
|
|
{
|
|
"epoch": 0.10346666666666667,
|
|
"grad_norm": 7.019859313964844,
|
|
"learning_rate": 8.989839572192514e-06,
|
|
"loss": 0.2953,
|
|
"step": 19400
|
|
},
|
|
{
|
|
"epoch": 0.104,
|
|
"grad_norm": 7.276281833648682,
|
|
"learning_rate": 8.984491978609626e-06,
|
|
"loss": 0.2883,
|
|
"step": 19500
|
|
},
|
|
{
|
|
"epoch": 0.10453333333333334,
|
|
"grad_norm": 5.113330364227295,
|
|
"learning_rate": 8.97914438502674e-06,
|
|
"loss": 0.2971,
|
|
"step": 19600
|
|
},
|
|
{
|
|
"epoch": 0.10506666666666667,
|
|
"grad_norm": 7.30579948425293,
|
|
"learning_rate": 8.973796791443851e-06,
|
|
"loss": 0.2899,
|
|
"step": 19700
|
|
},
|
|
{
|
|
"epoch": 0.1056,
|
|
"grad_norm": 6.333628177642822,
|
|
"learning_rate": 8.968502673796792e-06,
|
|
"loss": 0.2904,
|
|
"step": 19800
|
|
},
|
|
{
|
|
"epoch": 0.10613333333333333,
|
|
"grad_norm": 13.259885787963867,
|
|
"learning_rate": 8.963155080213904e-06,
|
|
"loss": 0.2824,
|
|
"step": 19900
|
|
},
|
|
{
|
|
"epoch": 0.10666666666666667,
|
|
"grad_norm": 9.42149543762207,
|
|
"learning_rate": 8.957807486631018e-06,
|
|
"loss": 0.3131,
|
|
"step": 20000
|
|
},
|
|
{
|
|
"epoch": 0.1072,
|
|
"grad_norm": 9.709293365478516,
|
|
"learning_rate": 8.95245989304813e-06,
|
|
"loss": 0.2832,
|
|
"step": 20100
|
|
},
|
|
{
|
|
"epoch": 0.10773333333333333,
|
|
"grad_norm": 7.735283374786377,
|
|
"learning_rate": 8.947112299465241e-06,
|
|
"loss": 0.2878,
|
|
"step": 20200
|
|
},
|
|
{
|
|
"epoch": 0.10826666666666666,
|
|
"grad_norm": 10.948144912719727,
|
|
"learning_rate": 8.941764705882353e-06,
|
|
"loss": 0.3114,
|
|
"step": 20300
|
|
},
|
|
{
|
|
"epoch": 0.1088,
|
|
"grad_norm": 9.456254959106445,
|
|
"learning_rate": 8.936417112299465e-06,
|
|
"loss": 0.2828,
|
|
"step": 20400
|
|
},
|
|
{
|
|
"epoch": 0.10933333333333334,
|
|
"grad_norm": 16.510723114013672,
|
|
"learning_rate": 8.931069518716579e-06,
|
|
"loss": 0.2885,
|
|
"step": 20500
|
|
},
|
|
{
|
|
"epoch": 0.10986666666666667,
|
|
"grad_norm": 9.235220909118652,
|
|
"learning_rate": 8.92577540106952e-06,
|
|
"loss": 0.2818,
|
|
"step": 20600
|
|
},
|
|
{
|
|
"epoch": 0.1104,
|
|
"grad_norm": 5.817870140075684,
|
|
"learning_rate": 8.920427807486631e-06,
|
|
"loss": 0.2837,
|
|
"step": 20700
|
|
},
|
|
{
|
|
"epoch": 0.11093333333333333,
|
|
"grad_norm": 19.72788429260254,
|
|
"learning_rate": 8.915080213903743e-06,
|
|
"loss": 0.2917,
|
|
"step": 20800
|
|
},
|
|
{
|
|
"epoch": 0.11146666666666667,
|
|
"grad_norm": 8.344571113586426,
|
|
"learning_rate": 8.909732620320857e-06,
|
|
"loss": 0.2824,
|
|
"step": 20900
|
|
},
|
|
{
|
|
"epoch": 0.112,
|
|
"grad_norm": 4.659718036651611,
|
|
"learning_rate": 8.904385026737968e-06,
|
|
"loss": 0.2938,
|
|
"step": 21000
|
|
},
|
|
{
|
|
"epoch": 0.11253333333333333,
|
|
"grad_norm": 6.766632080078125,
|
|
"learning_rate": 8.89903743315508e-06,
|
|
"loss": 0.2819,
|
|
"step": 21100
|
|
},
|
|
{
|
|
"epoch": 0.11306666666666666,
|
|
"grad_norm": 12.202324867248535,
|
|
"learning_rate": 8.893689839572194e-06,
|
|
"loss": 0.3104,
|
|
"step": 21200
|
|
},
|
|
{
|
|
"epoch": 0.1136,
|
|
"grad_norm": 5.588136196136475,
|
|
"learning_rate": 8.888342245989306e-06,
|
|
"loss": 0.2805,
|
|
"step": 21300
|
|
},
|
|
{
|
|
"epoch": 0.11413333333333334,
|
|
"grad_norm": 5.664605140686035,
|
|
"learning_rate": 8.882994652406417e-06,
|
|
"loss": 0.2708,
|
|
"step": 21400
|
|
},
|
|
{
|
|
"epoch": 0.11466666666666667,
|
|
"grad_norm": 8.890693664550781,
|
|
"learning_rate": 8.87764705882353e-06,
|
|
"loss": 0.3072,
|
|
"step": 21500
|
|
},
|
|
{
|
|
"epoch": 0.1152,
|
|
"grad_norm": 6.507345199584961,
|
|
"learning_rate": 8.872299465240643e-06,
|
|
"loss": 0.2763,
|
|
"step": 21600
|
|
},
|
|
{
|
|
"epoch": 0.11573333333333333,
|
|
"grad_norm": 10.62752628326416,
|
|
"learning_rate": 8.866951871657755e-06,
|
|
"loss": 0.2846,
|
|
"step": 21700
|
|
},
|
|
{
|
|
"epoch": 0.11626666666666667,
|
|
"grad_norm": 8.774591445922852,
|
|
"learning_rate": 8.861604278074866e-06,
|
|
"loss": 0.2676,
|
|
"step": 21800
|
|
},
|
|
{
|
|
"epoch": 0.1168,
|
|
"grad_norm": 8.119235038757324,
|
|
"learning_rate": 8.85625668449198e-06,
|
|
"loss": 0.2912,
|
|
"step": 21900
|
|
},
|
|
{
|
|
"epoch": 0.11733333333333333,
|
|
"grad_norm": 7.337321758270264,
|
|
"learning_rate": 8.850909090909092e-06,
|
|
"loss": 0.2659,
|
|
"step": 22000
|
|
},
|
|
{
|
|
"epoch": 0.11786666666666666,
|
|
"grad_norm": 6.945666790008545,
|
|
"learning_rate": 8.845561497326203e-06,
|
|
"loss": 0.3035,
|
|
"step": 22100
|
|
},
|
|
{
|
|
"epoch": 0.1184,
|
|
"grad_norm": 5.8747382164001465,
|
|
"learning_rate": 8.840213903743317e-06,
|
|
"loss": 0.2646,
|
|
"step": 22200
|
|
},
|
|
{
|
|
"epoch": 0.11893333333333334,
|
|
"grad_norm": 17.606157302856445,
|
|
"learning_rate": 8.834866310160429e-06,
|
|
"loss": 0.3014,
|
|
"step": 22300
|
|
},
|
|
{
|
|
"epoch": 0.11946666666666667,
|
|
"grad_norm": 7.643381118774414,
|
|
"learning_rate": 8.82951871657754e-06,
|
|
"loss": 0.2825,
|
|
"step": 22400
|
|
},
|
|
{
|
|
"epoch": 0.12,
|
|
"grad_norm": 6.041701793670654,
|
|
"learning_rate": 8.824171122994654e-06,
|
|
"loss": 0.3014,
|
|
"step": 22500
|
|
},
|
|
{
|
|
"epoch": 0.12053333333333334,
|
|
"grad_norm": 7.059661865234375,
|
|
"learning_rate": 8.818823529411766e-06,
|
|
"loss": 0.2972,
|
|
"step": 22600
|
|
},
|
|
{
|
|
"epoch": 0.12106666666666667,
|
|
"grad_norm": 8.363951683044434,
|
|
"learning_rate": 8.813475935828878e-06,
|
|
"loss": 0.2842,
|
|
"step": 22700
|
|
},
|
|
{
|
|
"epoch": 0.1216,
|
|
"grad_norm": 3.5356202125549316,
|
|
"learning_rate": 8.80812834224599e-06,
|
|
"loss": 0.2786,
|
|
"step": 22800
|
|
},
|
|
{
|
|
"epoch": 0.12213333333333333,
|
|
"grad_norm": 6.391851425170898,
|
|
"learning_rate": 8.802780748663103e-06,
|
|
"loss": 0.2895,
|
|
"step": 22900
|
|
},
|
|
{
|
|
"epoch": 0.12266666666666666,
|
|
"grad_norm": 5.002861499786377,
|
|
"learning_rate": 8.797433155080215e-06,
|
|
"loss": 0.2768,
|
|
"step": 23000
|
|
},
|
|
{
|
|
"epoch": 0.1232,
|
|
"grad_norm": 6.241265773773193,
|
|
"learning_rate": 8.792085561497327e-06,
|
|
"loss": 0.298,
|
|
"step": 23100
|
|
},
|
|
{
|
|
"epoch": 0.12373333333333333,
|
|
"grad_norm": 6.658164978027344,
|
|
"learning_rate": 8.78673796791444e-06,
|
|
"loss": 0.2973,
|
|
"step": 23200
|
|
},
|
|
{
|
|
"epoch": 0.12426666666666666,
|
|
"grad_norm": 12.678783416748047,
|
|
"learning_rate": 8.781390374331552e-06,
|
|
"loss": 0.2818,
|
|
"step": 23300
|
|
},
|
|
{
|
|
"epoch": 0.1248,
|
|
"grad_norm": 2.670001745223999,
|
|
"learning_rate": 8.776042780748664e-06,
|
|
"loss": 0.2702,
|
|
"step": 23400
|
|
},
|
|
{
|
|
"epoch": 0.12533333333333332,
|
|
"grad_norm": 3.68219256401062,
|
|
"learning_rate": 8.770695187165777e-06,
|
|
"loss": 0.2837,
|
|
"step": 23500
|
|
},
|
|
{
|
|
"epoch": 0.12586666666666665,
|
|
"grad_norm": 5.860738754272461,
|
|
"learning_rate": 8.765347593582887e-06,
|
|
"loss": 0.2788,
|
|
"step": 23600
|
|
},
|
|
{
|
|
"epoch": 0.1264,
|
|
"grad_norm": 15.789499282836914,
|
|
"learning_rate": 8.76e-06,
|
|
"loss": 0.2646,
|
|
"step": 23700
|
|
},
|
|
{
|
|
"epoch": 0.12693333333333334,
|
|
"grad_norm": 7.953620433807373,
|
|
"learning_rate": 8.754652406417113e-06,
|
|
"loss": 0.3039,
|
|
"step": 23800
|
|
},
|
|
{
|
|
"epoch": 0.12746666666666667,
|
|
"grad_norm": 13.38109302520752,
|
|
"learning_rate": 8.749304812834224e-06,
|
|
"loss": 0.2858,
|
|
"step": 23900
|
|
},
|
|
{
|
|
"epoch": 0.128,
|
|
"grad_norm": 7.885402202606201,
|
|
"learning_rate": 8.743957219251338e-06,
|
|
"loss": 0.3064,
|
|
"step": 24000
|
|
},
|
|
{
|
|
"epoch": 0.128,
|
|
"eval_test1_cer": 0.056688326237956534,
|
|
"eval_test1_cer_norm": 0.04170768602780513,
|
|
"eval_test1_loss": 0.2189711630344391,
|
|
"eval_test1_runtime": 3403.4454,
|
|
"eval_test1_samples_per_second": 0.735,
|
|
"eval_test1_steps_per_second": 0.184,
|
|
"eval_test1_wer": 0.17166681244351148,
|
|
"eval_test1_wer_norm": 0.11253981706069727,
|
|
"step": 24000
|
|
},
|
|
{
|
|
"epoch": 0.128,
|
|
"eval_test2_cer": 0.11683372531451823,
|
|
"eval_test2_cer_norm": 0.0943019832661915,
|
|
"eval_test2_loss": 0.3656894564628601,
|
|
"eval_test2_runtime": 3472.1039,
|
|
"eval_test2_samples_per_second": 0.72,
|
|
"eval_test2_steps_per_second": 0.18,
|
|
"eval_test2_wer": 0.25806820782787826,
|
|
"eval_test2_wer_norm": 0.18980632592253036,
|
|
"step": 24000
|
|
},
|
|
{
|
|
"epoch": 0.12853333333333333,
|
|
"grad_norm": 7.2635040283203125,
|
|
"learning_rate": 8.73860962566845e-06,
|
|
"loss": 0.276,
|
|
"step": 24100
|
|
},
|
|
{
|
|
"epoch": 0.12906666666666666,
|
|
"grad_norm": 8.451517105102539,
|
|
"learning_rate": 8.733262032085562e-06,
|
|
"loss": 0.2904,
|
|
"step": 24200
|
|
},
|
|
{
|
|
"epoch": 0.1296,
|
|
"grad_norm": 5.333487033843994,
|
|
"learning_rate": 8.727914438502675e-06,
|
|
"loss": 0.2712,
|
|
"step": 24300
|
|
},
|
|
{
|
|
"epoch": 0.13013333333333332,
|
|
"grad_norm": 17.85532569885254,
|
|
"learning_rate": 8.722566844919787e-06,
|
|
"loss": 0.2805,
|
|
"step": 24400
|
|
},
|
|
{
|
|
"epoch": 0.13066666666666665,
|
|
"grad_norm": 7.6419758796691895,
|
|
"learning_rate": 8.717219251336899e-06,
|
|
"loss": 0.269,
|
|
"step": 24500
|
|
},
|
|
{
|
|
"epoch": 0.1312,
|
|
"grad_norm": 7.9910078048706055,
|
|
"learning_rate": 8.711871657754012e-06,
|
|
"loss": 0.2876,
|
|
"step": 24600
|
|
},
|
|
{
|
|
"epoch": 0.13173333333333334,
|
|
"grad_norm": 10.937655448913574,
|
|
"learning_rate": 8.706577540106953e-06,
|
|
"loss": 0.2878,
|
|
"step": 24700
|
|
},
|
|
{
|
|
"epoch": 0.13226666666666667,
|
|
"grad_norm": 7.8148345947265625,
|
|
"learning_rate": 8.701229946524065e-06,
|
|
"loss": 0.2803,
|
|
"step": 24800
|
|
},
|
|
{
|
|
"epoch": 0.1328,
|
|
"grad_norm": 4.953359127044678,
|
|
"learning_rate": 8.695882352941177e-06,
|
|
"loss": 0.286,
|
|
"step": 24900
|
|
},
|
|
{
|
|
"epoch": 0.13333333333333333,
|
|
"grad_norm": 7.3458991050720215,
|
|
"learning_rate": 8.690534759358289e-06,
|
|
"loss": 0.3046,
|
|
"step": 25000
|
|
},
|
|
{
|
|
"epoch": 0.13386666666666666,
|
|
"grad_norm": 7.674342155456543,
|
|
"learning_rate": 8.685187165775402e-06,
|
|
"loss": 0.2593,
|
|
"step": 25100
|
|
},
|
|
{
|
|
"epoch": 0.1344,
|
|
"grad_norm": 12.090248107910156,
|
|
"learning_rate": 8.679839572192514e-06,
|
|
"loss": 0.2935,
|
|
"step": 25200
|
|
},
|
|
{
|
|
"epoch": 0.13493333333333332,
|
|
"grad_norm": 7.752098083496094,
|
|
"learning_rate": 8.674491978609626e-06,
|
|
"loss": 0.2768,
|
|
"step": 25300
|
|
},
|
|
{
|
|
"epoch": 0.13546666666666668,
|
|
"grad_norm": 6.8453474044799805,
|
|
"learning_rate": 8.66914438502674e-06,
|
|
"loss": 0.2781,
|
|
"step": 25400
|
|
},
|
|
{
|
|
"epoch": 0.136,
|
|
"grad_norm": 9.425925254821777,
|
|
"learning_rate": 8.663796791443851e-06,
|
|
"loss": 0.2765,
|
|
"step": 25500
|
|
},
|
|
{
|
|
"epoch": 0.13653333333333334,
|
|
"grad_norm": 6.801234245300293,
|
|
"learning_rate": 8.658449197860963e-06,
|
|
"loss": 0.2769,
|
|
"step": 25600
|
|
},
|
|
{
|
|
"epoch": 0.13706666666666667,
|
|
"grad_norm": 12.158049583435059,
|
|
"learning_rate": 8.653101604278076e-06,
|
|
"loss": 0.3139,
|
|
"step": 25700
|
|
},
|
|
{
|
|
"epoch": 0.1376,
|
|
"grad_norm": 12.670071601867676,
|
|
"learning_rate": 8.647754010695188e-06,
|
|
"loss": 0.2759,
|
|
"step": 25800
|
|
},
|
|
{
|
|
"epoch": 0.13813333333333333,
|
|
"grad_norm": 8.58122730255127,
|
|
"learning_rate": 8.6424064171123e-06,
|
|
"loss": 0.2911,
|
|
"step": 25900
|
|
},
|
|
{
|
|
"epoch": 0.13866666666666666,
|
|
"grad_norm": 13.413337707519531,
|
|
"learning_rate": 8.637058823529413e-06,
|
|
"loss": 0.2859,
|
|
"step": 26000
|
|
},
|
|
{
|
|
"epoch": 0.1392,
|
|
"grad_norm": 8.85180377960205,
|
|
"learning_rate": 8.631711229946525e-06,
|
|
"loss": 0.2774,
|
|
"step": 26100
|
|
},
|
|
{
|
|
"epoch": 0.13973333333333332,
|
|
"grad_norm": 7.0328369140625,
|
|
"learning_rate": 8.626363636363637e-06,
|
|
"loss": 0.303,
|
|
"step": 26200
|
|
},
|
|
{
|
|
"epoch": 0.14026666666666668,
|
|
"grad_norm": 5.400185585021973,
|
|
"learning_rate": 8.62101604278075e-06,
|
|
"loss": 0.2982,
|
|
"step": 26300
|
|
},
|
|
{
|
|
"epoch": 0.1408,
|
|
"grad_norm": 7.797464847564697,
|
|
"learning_rate": 8.61566844919786e-06,
|
|
"loss": 0.2612,
|
|
"step": 26400
|
|
},
|
|
{
|
|
"epoch": 0.14133333333333334,
|
|
"grad_norm": 3.955246925354004,
|
|
"learning_rate": 8.610320855614974e-06,
|
|
"loss": 0.2726,
|
|
"step": 26500
|
|
},
|
|
{
|
|
"epoch": 0.14186666666666667,
|
|
"grad_norm": 7.731278896331787,
|
|
"learning_rate": 8.604973262032086e-06,
|
|
"loss": 0.3041,
|
|
"step": 26600
|
|
},
|
|
{
|
|
"epoch": 0.1424,
|
|
"grad_norm": 8.174906730651855,
|
|
"learning_rate": 8.599625668449198e-06,
|
|
"loss": 0.283,
|
|
"step": 26700
|
|
},
|
|
{
|
|
"epoch": 0.14293333333333333,
|
|
"grad_norm": 10.54250717163086,
|
|
"learning_rate": 8.594331550802139e-06,
|
|
"loss": 0.2933,
|
|
"step": 26800
|
|
},
|
|
{
|
|
"epoch": 0.14346666666666666,
|
|
"grad_norm": 11.229060173034668,
|
|
"learning_rate": 8.588983957219252e-06,
|
|
"loss": 0.2924,
|
|
"step": 26900
|
|
},
|
|
{
|
|
"epoch": 0.144,
|
|
"grad_norm": 8.028762817382812,
|
|
"learning_rate": 8.583636363636364e-06,
|
|
"loss": 0.2665,
|
|
"step": 27000
|
|
},
|
|
{
|
|
"epoch": 0.14453333333333335,
|
|
"grad_norm": 6.858413219451904,
|
|
"learning_rate": 8.578288770053476e-06,
|
|
"loss": 0.2815,
|
|
"step": 27100
|
|
},
|
|
{
|
|
"epoch": 0.14506666666666668,
|
|
"grad_norm": 9.571020126342773,
|
|
"learning_rate": 8.57294117647059e-06,
|
|
"loss": 0.2875,
|
|
"step": 27200
|
|
},
|
|
{
|
|
"epoch": 0.1456,
|
|
"grad_norm": 8.27050495147705,
|
|
"learning_rate": 8.567593582887701e-06,
|
|
"loss": 0.2878,
|
|
"step": 27300
|
|
},
|
|
{
|
|
"epoch": 0.14613333333333334,
|
|
"grad_norm": 7.658331394195557,
|
|
"learning_rate": 8.562245989304813e-06,
|
|
"loss": 0.256,
|
|
"step": 27400
|
|
},
|
|
{
|
|
"epoch": 0.14666666666666667,
|
|
"grad_norm": 6.4952545166015625,
|
|
"learning_rate": 8.556898395721925e-06,
|
|
"loss": 0.2982,
|
|
"step": 27500
|
|
},
|
|
{
|
|
"epoch": 0.1472,
|
|
"grad_norm": 17.4111328125,
|
|
"learning_rate": 8.551550802139038e-06,
|
|
"loss": 0.2782,
|
|
"step": 27600
|
|
},
|
|
{
|
|
"epoch": 0.14773333333333333,
|
|
"grad_norm": 9.349753379821777,
|
|
"learning_rate": 8.54620320855615e-06,
|
|
"loss": 0.2846,
|
|
"step": 27700
|
|
},
|
|
{
|
|
"epoch": 0.14826666666666666,
|
|
"grad_norm": 8.046141624450684,
|
|
"learning_rate": 8.540855614973262e-06,
|
|
"loss": 0.2577,
|
|
"step": 27800
|
|
},
|
|
{
|
|
"epoch": 0.1488,
|
|
"grad_norm": 10.290559768676758,
|
|
"learning_rate": 8.535508021390376e-06,
|
|
"loss": 0.2699,
|
|
"step": 27900
|
|
},
|
|
{
|
|
"epoch": 0.14933333333333335,
|
|
"grad_norm": 8.05453872680664,
|
|
"learning_rate": 8.530160427807487e-06,
|
|
"loss": 0.2502,
|
|
"step": 28000
|
|
},
|
|
{
|
|
"epoch": 0.14986666666666668,
|
|
"grad_norm": 8.037001609802246,
|
|
"learning_rate": 8.524812834224599e-06,
|
|
"loss": 0.2764,
|
|
"step": 28100
|
|
},
|
|
{
|
|
"epoch": 0.1504,
|
|
"grad_norm": 9.668282508850098,
|
|
"learning_rate": 8.519465240641713e-06,
|
|
"loss": 0.2885,
|
|
"step": 28200
|
|
},
|
|
{
|
|
"epoch": 0.15093333333333334,
|
|
"grad_norm": 12.611298561096191,
|
|
"learning_rate": 8.514117647058824e-06,
|
|
"loss": 0.2873,
|
|
"step": 28300
|
|
},
|
|
{
|
|
"epoch": 0.15146666666666667,
|
|
"grad_norm": 10.143949508666992,
|
|
"learning_rate": 8.508770053475936e-06,
|
|
"loss": 0.3002,
|
|
"step": 28400
|
|
},
|
|
{
|
|
"epoch": 0.152,
|
|
"grad_norm": 6.071731090545654,
|
|
"learning_rate": 8.50342245989305e-06,
|
|
"loss": 0.2791,
|
|
"step": 28500
|
|
},
|
|
{
|
|
"epoch": 0.15253333333333333,
|
|
"grad_norm": 4.4905476570129395,
|
|
"learning_rate": 8.498074866310162e-06,
|
|
"loss": 0.2635,
|
|
"step": 28600
|
|
},
|
|
{
|
|
"epoch": 0.15306666666666666,
|
|
"grad_norm": 15.34849739074707,
|
|
"learning_rate": 8.492727272727273e-06,
|
|
"loss": 0.2652,
|
|
"step": 28700
|
|
},
|
|
{
|
|
"epoch": 0.1536,
|
|
"grad_norm": 11.22714900970459,
|
|
"learning_rate": 8.487433155080214e-06,
|
|
"loss": 0.2722,
|
|
"step": 28800
|
|
},
|
|
{
|
|
"epoch": 0.15413333333333334,
|
|
"grad_norm": 9.875467300415039,
|
|
"learning_rate": 8.482085561497328e-06,
|
|
"loss": 0.2535,
|
|
"step": 28900
|
|
},
|
|
{
|
|
"epoch": 0.15466666666666667,
|
|
"grad_norm": 6.6169209480285645,
|
|
"learning_rate": 8.47673796791444e-06,
|
|
"loss": 0.2635,
|
|
"step": 29000
|
|
},
|
|
{
|
|
"epoch": 0.1552,
|
|
"grad_norm": 5.392930507659912,
|
|
"learning_rate": 8.471390374331551e-06,
|
|
"loss": 0.2721,
|
|
"step": 29100
|
|
},
|
|
{
|
|
"epoch": 0.15573333333333333,
|
|
"grad_norm": 8.03115177154541,
|
|
"learning_rate": 8.466042780748663e-06,
|
|
"loss": 0.2616,
|
|
"step": 29200
|
|
},
|
|
{
|
|
"epoch": 0.15626666666666666,
|
|
"grad_norm": 19.12259864807129,
|
|
"learning_rate": 8.460695187165777e-06,
|
|
"loss": 0.3001,
|
|
"step": 29300
|
|
},
|
|
{
|
|
"epoch": 0.1568,
|
|
"grad_norm": 12.231781959533691,
|
|
"learning_rate": 8.455347593582889e-06,
|
|
"loss": 0.2785,
|
|
"step": 29400
|
|
},
|
|
{
|
|
"epoch": 0.15733333333333333,
|
|
"grad_norm": 7.679755210876465,
|
|
"learning_rate": 8.45e-06,
|
|
"loss": 0.2549,
|
|
"step": 29500
|
|
},
|
|
{
|
|
"epoch": 0.15786666666666666,
|
|
"grad_norm": 3.551255702972412,
|
|
"learning_rate": 8.444652406417114e-06,
|
|
"loss": 0.2805,
|
|
"step": 29600
|
|
},
|
|
{
|
|
"epoch": 0.1584,
|
|
"grad_norm": 4.727227687835693,
|
|
"learning_rate": 8.439304812834224e-06,
|
|
"loss": 0.2878,
|
|
"step": 29700
|
|
},
|
|
{
|
|
"epoch": 0.15893333333333334,
|
|
"grad_norm": 6.836880683898926,
|
|
"learning_rate": 8.433957219251338e-06,
|
|
"loss": 0.2751,
|
|
"step": 29800
|
|
},
|
|
{
|
|
"epoch": 0.15946666666666667,
|
|
"grad_norm": 5.805592060089111,
|
|
"learning_rate": 8.428609625668451e-06,
|
|
"loss": 0.2778,
|
|
"step": 29900
|
|
},
|
|
{
|
|
"epoch": 0.16,
|
|
"grad_norm": 9.587907791137695,
|
|
"learning_rate": 8.423262032085561e-06,
|
|
"loss": 0.264,
|
|
"step": 30000
|
|
},
|
|
{
|
|
"epoch": 0.16053333333333333,
|
|
"grad_norm": 7.757845401763916,
|
|
"learning_rate": 8.417914438502675e-06,
|
|
"loss": 0.2832,
|
|
"step": 30100
|
|
},
|
|
{
|
|
"epoch": 0.16106666666666666,
|
|
"grad_norm": 10.424938201904297,
|
|
"learning_rate": 8.412566844919786e-06,
|
|
"loss": 0.2775,
|
|
"step": 30200
|
|
},
|
|
{
|
|
"epoch": 0.1616,
|
|
"grad_norm": 7.460334300994873,
|
|
"learning_rate": 8.407219251336898e-06,
|
|
"loss": 0.2647,
|
|
"step": 30300
|
|
},
|
|
{
|
|
"epoch": 0.16213333333333332,
|
|
"grad_norm": 11.868377685546875,
|
|
"learning_rate": 8.401871657754012e-06,
|
|
"loss": 0.2967,
|
|
"step": 30400
|
|
},
|
|
{
|
|
"epoch": 0.16266666666666665,
|
|
"grad_norm": 7.605123996734619,
|
|
"learning_rate": 8.396524064171124e-06,
|
|
"loss": 0.2786,
|
|
"step": 30500
|
|
},
|
|
{
|
|
"epoch": 0.1632,
|
|
"grad_norm": 11.032571792602539,
|
|
"learning_rate": 8.391176470588235e-06,
|
|
"loss": 0.2905,
|
|
"step": 30600
|
|
},
|
|
{
|
|
"epoch": 0.16373333333333334,
|
|
"grad_norm": 6.505698204040527,
|
|
"learning_rate": 8.385828877005349e-06,
|
|
"loss": 0.26,
|
|
"step": 30700
|
|
},
|
|
{
|
|
"epoch": 0.16426666666666667,
|
|
"grad_norm": 21.82847785949707,
|
|
"learning_rate": 8.38053475935829e-06,
|
|
"loss": 0.276,
|
|
"step": 30800
|
|
},
|
|
{
|
|
"epoch": 0.1648,
|
|
"grad_norm": 7.524346828460693,
|
|
"learning_rate": 8.375187165775402e-06,
|
|
"loss": 0.2545,
|
|
"step": 30900
|
|
},
|
|
{
|
|
"epoch": 0.16533333333333333,
|
|
"grad_norm": 8.151107788085938,
|
|
"learning_rate": 8.369839572192514e-06,
|
|
"loss": 0.2599,
|
|
"step": 31000
|
|
},
|
|
{
|
|
"epoch": 0.16586666666666666,
|
|
"grad_norm": 7.730149745941162,
|
|
"learning_rate": 8.364491978609627e-06,
|
|
"loss": 0.2635,
|
|
"step": 31100
|
|
},
|
|
{
|
|
"epoch": 0.1664,
|
|
"grad_norm": 15.542197227478027,
|
|
"learning_rate": 8.359144385026739e-06,
|
|
"loss": 0.2994,
|
|
"step": 31200
|
|
},
|
|
{
|
|
"epoch": 0.16693333333333332,
|
|
"grad_norm": 10.223877906799316,
|
|
"learning_rate": 8.35379679144385e-06,
|
|
"loss": 0.2672,
|
|
"step": 31300
|
|
},
|
|
{
|
|
"epoch": 0.16746666666666668,
|
|
"grad_norm": 11.557316780090332,
|
|
"learning_rate": 8.348449197860962e-06,
|
|
"loss": 0.2682,
|
|
"step": 31400
|
|
},
|
|
{
|
|
"epoch": 0.168,
|
|
"grad_norm": 6.820634841918945,
|
|
"learning_rate": 8.343101604278076e-06,
|
|
"loss": 0.2639,
|
|
"step": 31500
|
|
},
|
|
{
|
|
"epoch": 0.16853333333333334,
|
|
"grad_norm": 5.330442428588867,
|
|
"learning_rate": 8.337754010695188e-06,
|
|
"loss": 0.2787,
|
|
"step": 31600
|
|
},
|
|
{
|
|
"epoch": 0.16906666666666667,
|
|
"grad_norm": 6.809030055999756,
|
|
"learning_rate": 8.3324064171123e-06,
|
|
"loss": 0.2797,
|
|
"step": 31700
|
|
},
|
|
{
|
|
"epoch": 0.1696,
|
|
"grad_norm": 9.49699592590332,
|
|
"learning_rate": 8.327058823529413e-06,
|
|
"loss": 0.2712,
|
|
"step": 31800
|
|
},
|
|
{
|
|
"epoch": 0.17013333333333333,
|
|
"grad_norm": 7.521222114562988,
|
|
"learning_rate": 8.321711229946525e-06,
|
|
"loss": 0.2624,
|
|
"step": 31900
|
|
},
|
|
{
|
|
"epoch": 0.17066666666666666,
|
|
"grad_norm": 7.700057506561279,
|
|
"learning_rate": 8.316363636363637e-06,
|
|
"loss": 0.2585,
|
|
"step": 32000
|
|
},
|
|
{
|
|
"epoch": 0.1712,
|
|
"grad_norm": 12.368854522705078,
|
|
"learning_rate": 8.31101604278075e-06,
|
|
"loss": 0.2913,
|
|
"step": 32100
|
|
},
|
|
{
|
|
"epoch": 0.17173333333333332,
|
|
"grad_norm": 6.247579097747803,
|
|
"learning_rate": 8.305668449197862e-06,
|
|
"loss": 0.2683,
|
|
"step": 32200
|
|
},
|
|
{
|
|
"epoch": 0.17226666666666668,
|
|
"grad_norm": 7.382602214813232,
|
|
"learning_rate": 8.300320855614974e-06,
|
|
"loss": 0.2884,
|
|
"step": 32300
|
|
},
|
|
{
|
|
"epoch": 0.1728,
|
|
"grad_norm": 11.26830768585205,
|
|
"learning_rate": 8.294973262032087e-06,
|
|
"loss": 0.2627,
|
|
"step": 32400
|
|
},
|
|
{
|
|
"epoch": 0.17333333333333334,
|
|
"grad_norm": 9.605709075927734,
|
|
"learning_rate": 8.289625668449199e-06,
|
|
"loss": 0.2521,
|
|
"step": 32500
|
|
},
|
|
{
|
|
"epoch": 0.17386666666666667,
|
|
"grad_norm": 7.965850353240967,
|
|
"learning_rate": 8.284278074866311e-06,
|
|
"loss": 0.2863,
|
|
"step": 32600
|
|
},
|
|
{
|
|
"epoch": 0.1744,
|
|
"grad_norm": 4.432257652282715,
|
|
"learning_rate": 8.278930481283423e-06,
|
|
"loss": 0.2791,
|
|
"step": 32700
|
|
},
|
|
{
|
|
"epoch": 0.17493333333333333,
|
|
"grad_norm": 9.002232551574707,
|
|
"learning_rate": 8.273582887700535e-06,
|
|
"loss": 0.2985,
|
|
"step": 32800
|
|
},
|
|
{
|
|
"epoch": 0.17546666666666666,
|
|
"grad_norm": 7.131585121154785,
|
|
"learning_rate": 8.268288770053477e-06,
|
|
"loss": 0.2853,
|
|
"step": 32900
|
|
},
|
|
{
|
|
"epoch": 0.176,
|
|
"grad_norm": 7.467723369598389,
|
|
"learning_rate": 8.262941176470589e-06,
|
|
"loss": 0.2757,
|
|
"step": 33000
|
|
},
|
|
{
|
|
"epoch": 0.17653333333333332,
|
|
"grad_norm": 16.1607608795166,
|
|
"learning_rate": 8.257593582887701e-06,
|
|
"loss": 0.2767,
|
|
"step": 33100
|
|
},
|
|
{
|
|
"epoch": 0.17706666666666668,
|
|
"grad_norm": 4.987593173980713,
|
|
"learning_rate": 8.252245989304813e-06,
|
|
"loss": 0.2656,
|
|
"step": 33200
|
|
},
|
|
{
|
|
"epoch": 0.1776,
|
|
"grad_norm": 10.976223945617676,
|
|
"learning_rate": 8.246898395721926e-06,
|
|
"loss": 0.2904,
|
|
"step": 33300
|
|
},
|
|
{
|
|
"epoch": 0.17813333333333334,
|
|
"grad_norm": 4.487320899963379,
|
|
"learning_rate": 8.241550802139038e-06,
|
|
"loss": 0.2948,
|
|
"step": 33400
|
|
},
|
|
{
|
|
"epoch": 0.17866666666666667,
|
|
"grad_norm": 7.877579689025879,
|
|
"learning_rate": 8.23620320855615e-06,
|
|
"loss": 0.2569,
|
|
"step": 33500
|
|
},
|
|
{
|
|
"epoch": 0.1792,
|
|
"grad_norm": 5.502078056335449,
|
|
"learning_rate": 8.230855614973263e-06,
|
|
"loss": 0.2598,
|
|
"step": 33600
|
|
},
|
|
{
|
|
"epoch": 0.17973333333333333,
|
|
"grad_norm": 7.97207498550415,
|
|
"learning_rate": 8.225508021390375e-06,
|
|
"loss": 0.3035,
|
|
"step": 33700
|
|
},
|
|
{
|
|
"epoch": 0.18026666666666666,
|
|
"grad_norm": 5.51037073135376,
|
|
"learning_rate": 8.220160427807487e-06,
|
|
"loss": 0.3264,
|
|
"step": 33800
|
|
},
|
|
{
|
|
"epoch": 0.1808,
|
|
"grad_norm": 7.9695916175842285,
|
|
"learning_rate": 8.214812834224599e-06,
|
|
"loss": 0.3119,
|
|
"step": 33900
|
|
},
|
|
{
|
|
"epoch": 0.18133333333333335,
|
|
"grad_norm": 10.134864807128906,
|
|
"learning_rate": 8.209465240641712e-06,
|
|
"loss": 0.2653,
|
|
"step": 34000
|
|
},
|
|
{
|
|
"epoch": 0.18186666666666668,
|
|
"grad_norm": 9.577049255371094,
|
|
"learning_rate": 8.204117647058824e-06,
|
|
"loss": 0.2446,
|
|
"step": 34100
|
|
},
|
|
{
|
|
"epoch": 0.1824,
|
|
"grad_norm": 7.078160762786865,
|
|
"learning_rate": 8.198770053475936e-06,
|
|
"loss": 0.2704,
|
|
"step": 34200
|
|
},
|
|
{
|
|
"epoch": 0.18293333333333334,
|
|
"grad_norm": 9.570262908935547,
|
|
"learning_rate": 8.19342245989305e-06,
|
|
"loss": 0.3154,
|
|
"step": 34300
|
|
},
|
|
{
|
|
"epoch": 0.18346666666666667,
|
|
"grad_norm": 6.36837100982666,
|
|
"learning_rate": 8.188074866310161e-06,
|
|
"loss": 0.2573,
|
|
"step": 34400
|
|
},
|
|
{
|
|
"epoch": 0.184,
|
|
"grad_norm": 8.495996475219727,
|
|
"learning_rate": 8.182727272727273e-06,
|
|
"loss": 0.2571,
|
|
"step": 34500
|
|
},
|
|
{
|
|
"epoch": 0.18453333333333333,
|
|
"grad_norm": 7.449936866760254,
|
|
"learning_rate": 8.177379679144386e-06,
|
|
"loss": 0.267,
|
|
"step": 34600
|
|
},
|
|
{
|
|
"epoch": 0.18506666666666666,
|
|
"grad_norm": 6.637203693389893,
|
|
"learning_rate": 8.172032085561498e-06,
|
|
"loss": 0.2804,
|
|
"step": 34700
|
|
},
|
|
{
|
|
"epoch": 0.1856,
|
|
"grad_norm": 6.406391620635986,
|
|
"learning_rate": 8.16668449197861e-06,
|
|
"loss": 0.2601,
|
|
"step": 34800
|
|
},
|
|
{
|
|
"epoch": 0.18613333333333335,
|
|
"grad_norm": 10.608270645141602,
|
|
"learning_rate": 8.161390374331551e-06,
|
|
"loss": 0.2597,
|
|
"step": 34900
|
|
},
|
|
{
|
|
"epoch": 0.18666666666666668,
|
|
"grad_norm": 5.937348365783691,
|
|
"learning_rate": 8.156042780748665e-06,
|
|
"loss": 0.3085,
|
|
"step": 35000
|
|
},
|
|
{
|
|
"epoch": 0.1872,
|
|
"grad_norm": 9.441184997558594,
|
|
"learning_rate": 8.150695187165776e-06,
|
|
"loss": 0.2715,
|
|
"step": 35100
|
|
},
|
|
{
|
|
"epoch": 0.18773333333333334,
|
|
"grad_norm": 9.651723861694336,
|
|
"learning_rate": 8.145347593582888e-06,
|
|
"loss": 0.2574,
|
|
"step": 35200
|
|
},
|
|
{
|
|
"epoch": 0.18826666666666667,
|
|
"grad_norm": 4.383264064788818,
|
|
"learning_rate": 8.14e-06,
|
|
"loss": 0.2742,
|
|
"step": 35300
|
|
},
|
|
{
|
|
"epoch": 0.1888,
|
|
"grad_norm": 8.176637649536133,
|
|
"learning_rate": 8.134652406417113e-06,
|
|
"loss": 0.2828,
|
|
"step": 35400
|
|
},
|
|
{
|
|
"epoch": 0.18933333333333333,
|
|
"grad_norm": 9.936506271362305,
|
|
"learning_rate": 8.129304812834225e-06,
|
|
"loss": 0.2595,
|
|
"step": 35500
|
|
},
|
|
{
|
|
"epoch": 0.18986666666666666,
|
|
"grad_norm": 10.968295097351074,
|
|
"learning_rate": 8.123957219251337e-06,
|
|
"loss": 0.2655,
|
|
"step": 35600
|
|
},
|
|
{
|
|
"epoch": 0.1904,
|
|
"grad_norm": 7.786266326904297,
|
|
"learning_rate": 8.11860962566845e-06,
|
|
"loss": 0.2553,
|
|
"step": 35700
|
|
},
|
|
{
|
|
"epoch": 0.19093333333333334,
|
|
"grad_norm": 10.690455436706543,
|
|
"learning_rate": 8.113262032085562e-06,
|
|
"loss": 0.2688,
|
|
"step": 35800
|
|
},
|
|
{
|
|
"epoch": 0.19146666666666667,
|
|
"grad_norm": 5.9381303787231445,
|
|
"learning_rate": 8.107914438502674e-06,
|
|
"loss": 0.2506,
|
|
"step": 35900
|
|
},
|
|
{
|
|
"epoch": 0.192,
|
|
"grad_norm": 7.713047027587891,
|
|
"learning_rate": 8.102566844919788e-06,
|
|
"loss": 0.2627,
|
|
"step": 36000
|
|
},
|
|
{
|
|
"epoch": 0.192,
|
|
"eval_test1_cer": 0.06722869519755023,
|
|
"eval_test1_cer_norm": 0.048579729632386486,
|
|
"eval_test1_loss": 0.21224865317344666,
|
|
"eval_test1_runtime": 3451.8535,
|
|
"eval_test1_samples_per_second": 0.724,
|
|
"eval_test1_steps_per_second": 0.181,
|
|
"eval_test1_wer": 0.18181288084200706,
|
|
"eval_test1_wer_norm": 0.12060551155790643,
|
|
"step": 36000
|
|
},
|
|
{
|
|
"epoch": 0.192,
|
|
"eval_test2_cer": 0.11298391010564826,
|
|
"eval_test2_cer_norm": 0.08924697861791138,
|
|
"eval_test2_loss": 0.3581894040107727,
|
|
"eval_test2_runtime": 2533.4413,
|
|
"eval_test2_samples_per_second": 0.987,
|
|
"eval_test2_steps_per_second": 0.247,
|
|
"eval_test2_wer": 0.2504005493247883,
|
|
"eval_test2_wer_norm": 0.18121132248452898,
|
|
"step": 36000
|
|
},
|
|
{
|
|
"epoch": 0.19253333333333333,
|
|
"grad_norm": 8.989605903625488,
|
|
"learning_rate": 8.097326203208556e-06,
|
|
"loss": 0.2684,
|
|
"step": 36100
|
|
},
|
|
{
|
|
"epoch": 0.19306666666666666,
|
|
"grad_norm": 6.126492500305176,
|
|
"learning_rate": 8.09197860962567e-06,
|
|
"loss": 0.2525,
|
|
"step": 36200
|
|
},
|
|
{
|
|
"epoch": 0.1936,
|
|
"grad_norm": 7.977939605712891,
|
|
"learning_rate": 8.086631016042782e-06,
|
|
"loss": 0.2571,
|
|
"step": 36300
|
|
},
|
|
{
|
|
"epoch": 0.19413333333333332,
|
|
"grad_norm": 7.411888599395752,
|
|
"learning_rate": 8.081283422459893e-06,
|
|
"loss": 0.2794,
|
|
"step": 36400
|
|
},
|
|
{
|
|
"epoch": 0.19466666666666665,
|
|
"grad_norm": 5.520147323608398,
|
|
"learning_rate": 8.075935828877007e-06,
|
|
"loss": 0.2784,
|
|
"step": 36500
|
|
},
|
|
{
|
|
"epoch": 0.1952,
|
|
"grad_norm": 12.398720741271973,
|
|
"learning_rate": 8.070588235294117e-06,
|
|
"loss": 0.2725,
|
|
"step": 36600
|
|
},
|
|
{
|
|
"epoch": 0.19573333333333334,
|
|
"grad_norm": 8.083142280578613,
|
|
"learning_rate": 8.06524064171123e-06,
|
|
"loss": 0.2697,
|
|
"step": 36700
|
|
},
|
|
{
|
|
"epoch": 0.19626666666666667,
|
|
"grad_norm": 8.488286018371582,
|
|
"learning_rate": 8.059893048128344e-06,
|
|
"loss": 0.2637,
|
|
"step": 36800
|
|
},
|
|
{
|
|
"epoch": 0.1968,
|
|
"grad_norm": 5.34746789932251,
|
|
"learning_rate": 8.054545454545454e-06,
|
|
"loss": 0.2303,
|
|
"step": 36900
|
|
},
|
|
{
|
|
"epoch": 0.19733333333333333,
|
|
"grad_norm": 10.905135154724121,
|
|
"learning_rate": 8.049197860962568e-06,
|
|
"loss": 0.2808,
|
|
"step": 37000
|
|
},
|
|
{
|
|
"epoch": 0.19786666666666666,
|
|
"grad_norm": 37.82217788696289,
|
|
"learning_rate": 8.043850267379681e-06,
|
|
"loss": 0.2689,
|
|
"step": 37100
|
|
},
|
|
{
|
|
"epoch": 0.1984,
|
|
"grad_norm": 5.379877090454102,
|
|
"learning_rate": 8.038502673796791e-06,
|
|
"loss": 0.2736,
|
|
"step": 37200
|
|
},
|
|
{
|
|
"epoch": 0.19893333333333332,
|
|
"grad_norm": 9.249605178833008,
|
|
"learning_rate": 8.033155080213905e-06,
|
|
"loss": 0.2983,
|
|
"step": 37300
|
|
},
|
|
{
|
|
"epoch": 0.19946666666666665,
|
|
"grad_norm": 6.685795307159424,
|
|
"learning_rate": 8.027807486631017e-06,
|
|
"loss": 0.2679,
|
|
"step": 37400
|
|
},
|
|
{
|
|
"epoch": 0.2,
|
|
"grad_norm": 12.158673286437988,
|
|
"learning_rate": 8.022459893048128e-06,
|
|
"loss": 0.2548,
|
|
"step": 37500
|
|
},
|
|
{
|
|
"epoch": 0.20053333333333334,
|
|
"grad_norm": 4.999497890472412,
|
|
"learning_rate": 8.017112299465242e-06,
|
|
"loss": 0.2855,
|
|
"step": 37600
|
|
},
|
|
{
|
|
"epoch": 0.20106666666666667,
|
|
"grad_norm": 4.816391944885254,
|
|
"learning_rate": 8.011764705882354e-06,
|
|
"loss": 0.2618,
|
|
"step": 37700
|
|
},
|
|
{
|
|
"epoch": 0.2016,
|
|
"grad_norm": 5.326049327850342,
|
|
"learning_rate": 8.006417112299465e-06,
|
|
"loss": 0.2499,
|
|
"step": 37800
|
|
},
|
|
{
|
|
"epoch": 0.20213333333333333,
|
|
"grad_norm": 5.829368591308594,
|
|
"learning_rate": 8.001069518716577e-06,
|
|
"loss": 0.2591,
|
|
"step": 37900
|
|
},
|
|
{
|
|
"epoch": 0.20266666666666666,
|
|
"grad_norm": 4.144918441772461,
|
|
"learning_rate": 7.99572192513369e-06,
|
|
"loss": 0.2849,
|
|
"step": 38000
|
|
},
|
|
{
|
|
"epoch": 0.2032,
|
|
"grad_norm": 7.482222557067871,
|
|
"learning_rate": 7.990427807486632e-06,
|
|
"loss": 0.2746,
|
|
"step": 38100
|
|
},
|
|
{
|
|
"epoch": 0.20373333333333332,
|
|
"grad_norm": 9.600530624389648,
|
|
"learning_rate": 7.985080213903744e-06,
|
|
"loss": 0.2601,
|
|
"step": 38200
|
|
},
|
|
{
|
|
"epoch": 0.20426666666666668,
|
|
"grad_norm": 13.560813903808594,
|
|
"learning_rate": 7.979732620320855e-06,
|
|
"loss": 0.2648,
|
|
"step": 38300
|
|
},
|
|
{
|
|
"epoch": 0.2048,
|
|
"grad_norm": 5.258291244506836,
|
|
"learning_rate": 7.974385026737969e-06,
|
|
"loss": 0.2659,
|
|
"step": 38400
|
|
},
|
|
{
|
|
"epoch": 0.20533333333333334,
|
|
"grad_norm": 11.634020805358887,
|
|
"learning_rate": 7.96903743315508e-06,
|
|
"loss": 0.2756,
|
|
"step": 38500
|
|
},
|
|
{
|
|
"epoch": 0.20586666666666667,
|
|
"grad_norm": 8.456674575805664,
|
|
"learning_rate": 7.963689839572193e-06,
|
|
"loss": 0.2656,
|
|
"step": 38600
|
|
},
|
|
{
|
|
"epoch": 0.2064,
|
|
"grad_norm": 6.592522144317627,
|
|
"learning_rate": 7.958342245989306e-06,
|
|
"loss": 0.2794,
|
|
"step": 38700
|
|
},
|
|
{
|
|
"epoch": 0.20693333333333333,
|
|
"grad_norm": 7.008397579193115,
|
|
"learning_rate": 7.952994652406418e-06,
|
|
"loss": 0.2704,
|
|
"step": 38800
|
|
},
|
|
{
|
|
"epoch": 0.20746666666666666,
|
|
"grad_norm": 10.186330795288086,
|
|
"learning_rate": 7.94764705882353e-06,
|
|
"loss": 0.2594,
|
|
"step": 38900
|
|
},
|
|
{
|
|
"epoch": 0.208,
|
|
"grad_norm": 4.801316738128662,
|
|
"learning_rate": 7.942299465240643e-06,
|
|
"loss": 0.2805,
|
|
"step": 39000
|
|
},
|
|
{
|
|
"epoch": 0.20853333333333332,
|
|
"grad_norm": 10.436062812805176,
|
|
"learning_rate": 7.937005347593584e-06,
|
|
"loss": 0.25,
|
|
"step": 39100
|
|
},
|
|
{
|
|
"epoch": 0.20906666666666668,
|
|
"grad_norm": 8.204721450805664,
|
|
"learning_rate": 7.931657754010696e-06,
|
|
"loss": 0.2602,
|
|
"step": 39200
|
|
},
|
|
{
|
|
"epoch": 0.2096,
|
|
"grad_norm": 3.6361401081085205,
|
|
"learning_rate": 7.926310160427808e-06,
|
|
"loss": 0.2784,
|
|
"step": 39300
|
|
},
|
|
{
|
|
"epoch": 0.21013333333333334,
|
|
"grad_norm": 11.787166595458984,
|
|
"learning_rate": 7.920962566844921e-06,
|
|
"loss": 0.2349,
|
|
"step": 39400
|
|
},
|
|
{
|
|
"epoch": 0.21066666666666667,
|
|
"grad_norm": 7.302659034729004,
|
|
"learning_rate": 7.915614973262033e-06,
|
|
"loss": 0.2693,
|
|
"step": 39500
|
|
},
|
|
{
|
|
"epoch": 0.2112,
|
|
"grad_norm": 5.914216995239258,
|
|
"learning_rate": 7.910267379679145e-06,
|
|
"loss": 0.262,
|
|
"step": 39600
|
|
},
|
|
{
|
|
"epoch": 0.21173333333333333,
|
|
"grad_norm": 6.580228805541992,
|
|
"learning_rate": 7.904919786096258e-06,
|
|
"loss": 0.2625,
|
|
"step": 39700
|
|
},
|
|
{
|
|
"epoch": 0.21226666666666666,
|
|
"grad_norm": 5.3296895027160645,
|
|
"learning_rate": 7.89957219251337e-06,
|
|
"loss": 0.3096,
|
|
"step": 39800
|
|
},
|
|
{
|
|
"epoch": 0.2128,
|
|
"grad_norm": 5.3993611335754395,
|
|
"learning_rate": 7.894224598930482e-06,
|
|
"loss": 0.2748,
|
|
"step": 39900
|
|
},
|
|
{
|
|
"epoch": 0.21333333333333335,
|
|
"grad_norm": 7.423980712890625,
|
|
"learning_rate": 7.888877005347594e-06,
|
|
"loss": 0.2645,
|
|
"step": 40000
|
|
},
|
|
{
|
|
"epoch": 0.21386666666666668,
|
|
"grad_norm": 6.928915500640869,
|
|
"learning_rate": 7.883529411764707e-06,
|
|
"loss": 0.2645,
|
|
"step": 40100
|
|
},
|
|
{
|
|
"epoch": 0.2144,
|
|
"grad_norm": 5.3842926025390625,
|
|
"learning_rate": 7.878181818181819e-06,
|
|
"loss": 0.2756,
|
|
"step": 40200
|
|
},
|
|
{
|
|
"epoch": 0.21493333333333334,
|
|
"grad_norm": 8.132807731628418,
|
|
"learning_rate": 7.872834224598931e-06,
|
|
"loss": 0.2909,
|
|
"step": 40300
|
|
},
|
|
{
|
|
"epoch": 0.21546666666666667,
|
|
"grad_norm": 6.687395095825195,
|
|
"learning_rate": 7.867486631016043e-06,
|
|
"loss": 0.2496,
|
|
"step": 40400
|
|
},
|
|
{
|
|
"epoch": 0.216,
|
|
"grad_norm": 7.171559810638428,
|
|
"learning_rate": 7.862139037433155e-06,
|
|
"loss": 0.2699,
|
|
"step": 40500
|
|
},
|
|
{
|
|
"epoch": 0.21653333333333333,
|
|
"grad_norm": 6.284967422485352,
|
|
"learning_rate": 7.856791443850268e-06,
|
|
"loss": 0.2927,
|
|
"step": 40600
|
|
},
|
|
{
|
|
"epoch": 0.21706666666666666,
|
|
"grad_norm": 11.112295150756836,
|
|
"learning_rate": 7.85144385026738e-06,
|
|
"loss": 0.259,
|
|
"step": 40700
|
|
},
|
|
{
|
|
"epoch": 0.2176,
|
|
"grad_norm": 4.101443767547607,
|
|
"learning_rate": 7.846096256684492e-06,
|
|
"loss": 0.2513,
|
|
"step": 40800
|
|
},
|
|
{
|
|
"epoch": 0.21813333333333335,
|
|
"grad_norm": 4.001233100891113,
|
|
"learning_rate": 7.840748663101605e-06,
|
|
"loss": 0.239,
|
|
"step": 40900
|
|
},
|
|
{
|
|
"epoch": 0.21866666666666668,
|
|
"grad_norm": 6.338074684143066,
|
|
"learning_rate": 7.835401069518717e-06,
|
|
"loss": 0.268,
|
|
"step": 41000
|
|
},
|
|
{
|
|
"epoch": 0.2192,
|
|
"grad_norm": 10.399909019470215,
|
|
"learning_rate": 7.830053475935829e-06,
|
|
"loss": 0.2728,
|
|
"step": 41100
|
|
},
|
|
{
|
|
"epoch": 0.21973333333333334,
|
|
"grad_norm": 7.166001319885254,
|
|
"learning_rate": 7.824705882352942e-06,
|
|
"loss": 0.2638,
|
|
"step": 41200
|
|
},
|
|
{
|
|
"epoch": 0.22026666666666667,
|
|
"grad_norm": 10.088705062866211,
|
|
"learning_rate": 7.819358288770054e-06,
|
|
"loss": 0.2718,
|
|
"step": 41300
|
|
},
|
|
{
|
|
"epoch": 0.2208,
|
|
"grad_norm": 7.588458061218262,
|
|
"learning_rate": 7.814010695187166e-06,
|
|
"loss": 0.2637,
|
|
"step": 41400
|
|
},
|
|
{
|
|
"epoch": 0.22133333333333333,
|
|
"grad_norm": 4.587561130523682,
|
|
"learning_rate": 7.80866310160428e-06,
|
|
"loss": 0.2531,
|
|
"step": 41500
|
|
},
|
|
{
|
|
"epoch": 0.22186666666666666,
|
|
"grad_norm": 8.545364379882812,
|
|
"learning_rate": 7.803315508021391e-06,
|
|
"loss": 0.2621,
|
|
"step": 41600
|
|
},
|
|
{
|
|
"epoch": 0.2224,
|
|
"grad_norm": 11.028148651123047,
|
|
"learning_rate": 7.797967914438503e-06,
|
|
"loss": 0.2478,
|
|
"step": 41700
|
|
},
|
|
{
|
|
"epoch": 0.22293333333333334,
|
|
"grad_norm": 8.601099014282227,
|
|
"learning_rate": 7.792620320855617e-06,
|
|
"loss": 0.2509,
|
|
"step": 41800
|
|
},
|
|
{
|
|
"epoch": 0.22346666666666667,
|
|
"grad_norm": 11.704299926757812,
|
|
"learning_rate": 7.787272727272728e-06,
|
|
"loss": 0.266,
|
|
"step": 41900
|
|
},
|
|
{
|
|
"epoch": 0.224,
|
|
"grad_norm": 5.130448818206787,
|
|
"learning_rate": 7.78192513368984e-06,
|
|
"loss": 0.239,
|
|
"step": 42000
|
|
},
|
|
{
|
|
"epoch": 0.22453333333333333,
|
|
"grad_norm": 13.525137901306152,
|
|
"learning_rate": 7.776577540106952e-06,
|
|
"loss": 0.2577,
|
|
"step": 42100
|
|
},
|
|
{
|
|
"epoch": 0.22506666666666666,
|
|
"grad_norm": 4.291294097900391,
|
|
"learning_rate": 7.771229946524065e-06,
|
|
"loss": 0.2621,
|
|
"step": 42200
|
|
},
|
|
{
|
|
"epoch": 0.2256,
|
|
"grad_norm": 8.920354843139648,
|
|
"learning_rate": 7.765882352941177e-06,
|
|
"loss": 0.2734,
|
|
"step": 42300
|
|
},
|
|
{
|
|
"epoch": 0.22613333333333333,
|
|
"grad_norm": 7.21345329284668,
|
|
"learning_rate": 7.760534759358289e-06,
|
|
"loss": 0.2455,
|
|
"step": 42400
|
|
},
|
|
{
|
|
"epoch": 0.22666666666666666,
|
|
"grad_norm": 5.777073860168457,
|
|
"learning_rate": 7.755187165775403e-06,
|
|
"loss": 0.2431,
|
|
"step": 42500
|
|
},
|
|
{
|
|
"epoch": 0.2272,
|
|
"grad_norm": 3.1440110206604004,
|
|
"learning_rate": 7.749839572192513e-06,
|
|
"loss": 0.289,
|
|
"step": 42600
|
|
},
|
|
{
|
|
"epoch": 0.22773333333333334,
|
|
"grad_norm": 8.806645393371582,
|
|
"learning_rate": 7.744491978609626e-06,
|
|
"loss": 0.2611,
|
|
"step": 42700
|
|
},
|
|
{
|
|
"epoch": 0.22826666666666667,
|
|
"grad_norm": 6.029832363128662,
|
|
"learning_rate": 7.73914438502674e-06,
|
|
"loss": 0.2395,
|
|
"step": 42800
|
|
},
|
|
{
|
|
"epoch": 0.2288,
|
|
"grad_norm": 4.202763080596924,
|
|
"learning_rate": 7.73379679144385e-06,
|
|
"loss": 0.2827,
|
|
"step": 42900
|
|
},
|
|
{
|
|
"epoch": 0.22933333333333333,
|
|
"grad_norm": 4.311319828033447,
|
|
"learning_rate": 7.728449197860963e-06,
|
|
"loss": 0.2626,
|
|
"step": 43000
|
|
},
|
|
{
|
|
"epoch": 0.22986666666666666,
|
|
"grad_norm": 6.745094299316406,
|
|
"learning_rate": 7.723155080213904e-06,
|
|
"loss": 0.2647,
|
|
"step": 43100
|
|
},
|
|
{
|
|
"epoch": 0.2304,
|
|
"grad_norm": 5.881346702575684,
|
|
"learning_rate": 7.717807486631018e-06,
|
|
"loss": 0.2589,
|
|
"step": 43200
|
|
},
|
|
{
|
|
"epoch": 0.23093333333333332,
|
|
"grad_norm": 10.707880020141602,
|
|
"learning_rate": 7.712459893048128e-06,
|
|
"loss": 0.2731,
|
|
"step": 43300
|
|
},
|
|
{
|
|
"epoch": 0.23146666666666665,
|
|
"grad_norm": 9.339863777160645,
|
|
"learning_rate": 7.707112299465241e-06,
|
|
"loss": 0.2621,
|
|
"step": 43400
|
|
},
|
|
{
|
|
"epoch": 0.232,
|
|
"grad_norm": 6.621342182159424,
|
|
"learning_rate": 7.701764705882353e-06,
|
|
"loss": 0.2576,
|
|
"step": 43500
|
|
},
|
|
{
|
|
"epoch": 0.23253333333333334,
|
|
"grad_norm": 8.916592597961426,
|
|
"learning_rate": 7.696417112299465e-06,
|
|
"loss": 0.2634,
|
|
"step": 43600
|
|
},
|
|
{
|
|
"epoch": 0.23306666666666667,
|
|
"grad_norm": 8.767768859863281,
|
|
"learning_rate": 7.691122994652406e-06,
|
|
"loss": 0.2491,
|
|
"step": 43700
|
|
},
|
|
{
|
|
"epoch": 0.2336,
|
|
"grad_norm": 6.982480049133301,
|
|
"learning_rate": 7.68577540106952e-06,
|
|
"loss": 0.2484,
|
|
"step": 43800
|
|
},
|
|
{
|
|
"epoch": 0.23413333333333333,
|
|
"grad_norm": 4.885166645050049,
|
|
"learning_rate": 7.680427807486631e-06,
|
|
"loss": 0.2526,
|
|
"step": 43900
|
|
},
|
|
{
|
|
"epoch": 0.23466666666666666,
|
|
"grad_norm": 5.634835720062256,
|
|
"learning_rate": 7.675080213903743e-06,
|
|
"loss": 0.2609,
|
|
"step": 44000
|
|
},
|
|
{
|
|
"epoch": 0.2352,
|
|
"grad_norm": 7.136926651000977,
|
|
"learning_rate": 7.669732620320857e-06,
|
|
"loss": 0.2624,
|
|
"step": 44100
|
|
},
|
|
{
|
|
"epoch": 0.23573333333333332,
|
|
"grad_norm": 9.312456130981445,
|
|
"learning_rate": 7.664385026737969e-06,
|
|
"loss": 0.2499,
|
|
"step": 44200
|
|
},
|
|
{
|
|
"epoch": 0.23626666666666668,
|
|
"grad_norm": 4.304506301879883,
|
|
"learning_rate": 7.65903743315508e-06,
|
|
"loss": 0.2753,
|
|
"step": 44300
|
|
},
|
|
{
|
|
"epoch": 0.2368,
|
|
"grad_norm": 8.639429092407227,
|
|
"learning_rate": 7.653689839572194e-06,
|
|
"loss": 0.2337,
|
|
"step": 44400
|
|
},
|
|
{
|
|
"epoch": 0.23733333333333334,
|
|
"grad_norm": 4.497452735900879,
|
|
"learning_rate": 7.648342245989306e-06,
|
|
"loss": 0.2637,
|
|
"step": 44500
|
|
},
|
|
{
|
|
"epoch": 0.23786666666666667,
|
|
"grad_norm": 6.968878746032715,
|
|
"learning_rate": 7.642994652406417e-06,
|
|
"loss": 0.2645,
|
|
"step": 44600
|
|
},
|
|
{
|
|
"epoch": 0.2384,
|
|
"grad_norm": 9.0714111328125,
|
|
"learning_rate": 7.63764705882353e-06,
|
|
"loss": 0.267,
|
|
"step": 44700
|
|
},
|
|
{
|
|
"epoch": 0.23893333333333333,
|
|
"grad_norm": 7.511080265045166,
|
|
"learning_rate": 7.632299465240643e-06,
|
|
"loss": 0.2824,
|
|
"step": 44800
|
|
},
|
|
{
|
|
"epoch": 0.23946666666666666,
|
|
"grad_norm": 12.698909759521484,
|
|
"learning_rate": 7.626951871657755e-06,
|
|
"loss": 0.2597,
|
|
"step": 44900
|
|
},
|
|
{
|
|
"epoch": 0.24,
|
|
"grad_norm": 4.6719231605529785,
|
|
"learning_rate": 7.621604278074866e-06,
|
|
"loss": 0.2567,
|
|
"step": 45000
|
|
},
|
|
{
|
|
"epoch": 0.24053333333333332,
|
|
"grad_norm": 10.959760665893555,
|
|
"learning_rate": 7.616256684491979e-06,
|
|
"loss": 0.2644,
|
|
"step": 45100
|
|
},
|
|
{
|
|
"epoch": 0.24106666666666668,
|
|
"grad_norm": 11.713591575622559,
|
|
"learning_rate": 7.610909090909091e-06,
|
|
"loss": 0.2699,
|
|
"step": 45200
|
|
},
|
|
{
|
|
"epoch": 0.2416,
|
|
"grad_norm": 9.173677444458008,
|
|
"learning_rate": 7.6055614973262035e-06,
|
|
"loss": 0.2638,
|
|
"step": 45300
|
|
},
|
|
{
|
|
"epoch": 0.24213333333333334,
|
|
"grad_norm": 3.990912437438965,
|
|
"learning_rate": 7.600213903743316e-06,
|
|
"loss": 0.2692,
|
|
"step": 45400
|
|
},
|
|
{
|
|
"epoch": 0.24266666666666667,
|
|
"grad_norm": 4.965495586395264,
|
|
"learning_rate": 7.594866310160428e-06,
|
|
"loss": 0.2733,
|
|
"step": 45500
|
|
},
|
|
{
|
|
"epoch": 0.2432,
|
|
"grad_norm": 6.309865474700928,
|
|
"learning_rate": 7.589518716577541e-06,
|
|
"loss": 0.2627,
|
|
"step": 45600
|
|
},
|
|
{
|
|
"epoch": 0.24373333333333333,
|
|
"grad_norm": 9.450363159179688,
|
|
"learning_rate": 7.584171122994653e-06,
|
|
"loss": 0.2411,
|
|
"step": 45700
|
|
},
|
|
{
|
|
"epoch": 0.24426666666666666,
|
|
"grad_norm": 7.514124870300293,
|
|
"learning_rate": 7.578823529411765e-06,
|
|
"loss": 0.2635,
|
|
"step": 45800
|
|
},
|
|
{
|
|
"epoch": 0.2448,
|
|
"grad_norm": 8.38068675994873,
|
|
"learning_rate": 7.573475935828878e-06,
|
|
"loss": 0.2546,
|
|
"step": 45900
|
|
},
|
|
{
|
|
"epoch": 0.24533333333333332,
|
|
"grad_norm": 6.333799839019775,
|
|
"learning_rate": 7.5681283422459895e-06,
|
|
"loss": 0.2621,
|
|
"step": 46000
|
|
},
|
|
{
|
|
"epoch": 0.24586666666666668,
|
|
"grad_norm": 4.770801067352295,
|
|
"learning_rate": 7.562780748663102e-06,
|
|
"loss": 0.2536,
|
|
"step": 46100
|
|
},
|
|
{
|
|
"epoch": 0.2464,
|
|
"grad_norm": 9.277158737182617,
|
|
"learning_rate": 7.557433155080215e-06,
|
|
"loss": 0.2488,
|
|
"step": 46200
|
|
},
|
|
{
|
|
"epoch": 0.24693333333333334,
|
|
"grad_norm": 6.849668025970459,
|
|
"learning_rate": 7.552085561497327e-06,
|
|
"loss": 0.2442,
|
|
"step": 46300
|
|
},
|
|
{
|
|
"epoch": 0.24746666666666667,
|
|
"grad_norm": 6.742866039276123,
|
|
"learning_rate": 7.546737967914439e-06,
|
|
"loss": 0.2532,
|
|
"step": 46400
|
|
},
|
|
{
|
|
"epoch": 0.248,
|
|
"grad_norm": 5.20062255859375,
|
|
"learning_rate": 7.541390374331552e-06,
|
|
"loss": 0.2324,
|
|
"step": 46500
|
|
},
|
|
{
|
|
"epoch": 0.24853333333333333,
|
|
"grad_norm": 7.082762241363525,
|
|
"learning_rate": 7.536042780748664e-06,
|
|
"loss": 0.2389,
|
|
"step": 46600
|
|
},
|
|
{
|
|
"epoch": 0.24906666666666666,
|
|
"grad_norm": 6.580595016479492,
|
|
"learning_rate": 7.530748663101605e-06,
|
|
"loss": 0.2404,
|
|
"step": 46700
|
|
},
|
|
{
|
|
"epoch": 0.2496,
|
|
"grad_norm": 6.02461576461792,
|
|
"learning_rate": 7.525401069518717e-06,
|
|
"loss": 0.2311,
|
|
"step": 46800
|
|
},
|
|
{
|
|
"epoch": 0.2501333333333333,
|
|
"grad_norm": 9.128799438476562,
|
|
"learning_rate": 7.520053475935829e-06,
|
|
"loss": 0.2671,
|
|
"step": 46900
|
|
},
|
|
{
|
|
"epoch": 0.25066666666666665,
|
|
"grad_norm": 7.6499176025390625,
|
|
"learning_rate": 7.514705882352942e-06,
|
|
"loss": 0.2827,
|
|
"step": 47000
|
|
},
|
|
{
|
|
"epoch": 0.2512,
|
|
"grad_norm": 5.189141750335693,
|
|
"learning_rate": 7.5093582887700545e-06,
|
|
"loss": 0.2772,
|
|
"step": 47100
|
|
},
|
|
{
|
|
"epoch": 0.2517333333333333,
|
|
"grad_norm": 2.921614646911621,
|
|
"learning_rate": 7.504010695187166e-06,
|
|
"loss": 0.2529,
|
|
"step": 47200
|
|
},
|
|
{
|
|
"epoch": 0.25226666666666664,
|
|
"grad_norm": 5.379766464233398,
|
|
"learning_rate": 7.498663101604279e-06,
|
|
"loss": 0.2686,
|
|
"step": 47300
|
|
},
|
|
{
|
|
"epoch": 0.2528,
|
|
"grad_norm": 8.935833930969238,
|
|
"learning_rate": 7.493315508021392e-06,
|
|
"loss": 0.2749,
|
|
"step": 47400
|
|
},
|
|
{
|
|
"epoch": 0.25333333333333335,
|
|
"grad_norm": 3.2737069129943848,
|
|
"learning_rate": 7.4879679144385035e-06,
|
|
"loss": 0.2568,
|
|
"step": 47500
|
|
},
|
|
{
|
|
"epoch": 0.2538666666666667,
|
|
"grad_norm": 5.399988174438477,
|
|
"learning_rate": 7.482620320855616e-06,
|
|
"loss": 0.2486,
|
|
"step": 47600
|
|
},
|
|
{
|
|
"epoch": 0.2544,
|
|
"grad_norm": 3.295328140258789,
|
|
"learning_rate": 7.477272727272727e-06,
|
|
"loss": 0.2491,
|
|
"step": 47700
|
|
},
|
|
{
|
|
"epoch": 0.25493333333333335,
|
|
"grad_norm": 7.704295635223389,
|
|
"learning_rate": 7.4719251336898406e-06,
|
|
"loss": 0.2614,
|
|
"step": 47800
|
|
},
|
|
{
|
|
"epoch": 0.2554666666666667,
|
|
"grad_norm": 8.313345909118652,
|
|
"learning_rate": 7.466577540106953e-06,
|
|
"loss": 0.2443,
|
|
"step": 47900
|
|
},
|
|
{
|
|
"epoch": 0.256,
|
|
"grad_norm": 10.263618469238281,
|
|
"learning_rate": 7.461229946524064e-06,
|
|
"loss": 0.2598,
|
|
"step": 48000
|
|
},
|
|
{
|
|
"epoch": 0.256,
|
|
"eval_test1_cer": 0.06406845171409366,
|
|
"eval_test1_cer_norm": 0.046389896030926595,
|
|
"eval_test1_loss": 0.20114459097385406,
|
|
"eval_test1_runtime": 1160.7245,
|
|
"eval_test1_samples_per_second": 2.154,
|
|
"eval_test1_steps_per_second": 0.538,
|
|
"eval_test1_wer": 0.1776145077115951,
|
|
"eval_test1_wer_norm": 0.11590052310120108,
|
|
"step": 48000
|
|
},
|
|
{
|
|
"epoch": 0.256,
|
|
"eval_test2_cer": 0.10878877813864934,
|
|
"eval_test2_cer_norm": 0.08511678803842579,
|
|
"eval_test2_loss": 0.3450477719306946,
|
|
"eval_test2_runtime": 1169.2086,
|
|
"eval_test2_samples_per_second": 2.138,
|
|
"eval_test2_steps_per_second": 0.535,
|
|
"eval_test2_wer": 0.24336232547493705,
|
|
"eval_test2_wer_norm": 0.17462181984872793,
|
|
"step": 48000
|
|
},
|
|
{
|
|
"epoch": 0.25653333333333334,
|
|
"grad_norm": 8.79861068725586,
|
|
"learning_rate": 7.455882352941177e-06,
|
|
"loss": 0.2572,
|
|
"step": 48100
|
|
},
|
|
{
|
|
"epoch": 0.25706666666666667,
|
|
"grad_norm": 6.643956661224365,
|
|
"learning_rate": 7.450534759358289e-06,
|
|
"loss": 0.2631,
|
|
"step": 48200
|
|
},
|
|
{
|
|
"epoch": 0.2576,
|
|
"grad_norm": 8.30817699432373,
|
|
"learning_rate": 7.445187165775401e-06,
|
|
"loss": 0.232,
|
|
"step": 48300
|
|
},
|
|
{
|
|
"epoch": 0.2581333333333333,
|
|
"grad_norm": 9.270723342895508,
|
|
"learning_rate": 7.439839572192514e-06,
|
|
"loss": 0.2518,
|
|
"step": 48400
|
|
},
|
|
{
|
|
"epoch": 0.25866666666666666,
|
|
"grad_norm": 6.706698894500732,
|
|
"learning_rate": 7.434491978609626e-06,
|
|
"loss": 0.2299,
|
|
"step": 48500
|
|
},
|
|
{
|
|
"epoch": 0.2592,
|
|
"grad_norm": 7.701857566833496,
|
|
"learning_rate": 7.429144385026738e-06,
|
|
"loss": 0.2723,
|
|
"step": 48600
|
|
},
|
|
{
|
|
"epoch": 0.2597333333333333,
|
|
"grad_norm": 6.604699611663818,
|
|
"learning_rate": 7.423796791443851e-06,
|
|
"loss": 0.2209,
|
|
"step": 48700
|
|
},
|
|
{
|
|
"epoch": 0.26026666666666665,
|
|
"grad_norm": 11.027405738830566,
|
|
"learning_rate": 7.418449197860963e-06,
|
|
"loss": 0.228,
|
|
"step": 48800
|
|
},
|
|
{
|
|
"epoch": 0.2608,
|
|
"grad_norm": 10.258379936218262,
|
|
"learning_rate": 7.4131016042780755e-06,
|
|
"loss": 0.2519,
|
|
"step": 48900
|
|
},
|
|
{
|
|
"epoch": 0.2613333333333333,
|
|
"grad_norm": 6.314127445220947,
|
|
"learning_rate": 7.407754010695187e-06,
|
|
"loss": 0.2724,
|
|
"step": 49000
|
|
},
|
|
{
|
|
"epoch": 0.2618666666666667,
|
|
"grad_norm": 6.4135823249816895,
|
|
"learning_rate": 7.4024064171123e-06,
|
|
"loss": 0.2556,
|
|
"step": 49100
|
|
},
|
|
{
|
|
"epoch": 0.2624,
|
|
"grad_norm": 6.787198543548584,
|
|
"learning_rate": 7.397058823529413e-06,
|
|
"loss": 0.2452,
|
|
"step": 49200
|
|
},
|
|
{
|
|
"epoch": 0.26293333333333335,
|
|
"grad_norm": 7.479311466217041,
|
|
"learning_rate": 7.3917112299465244e-06,
|
|
"loss": 0.2475,
|
|
"step": 49300
|
|
},
|
|
{
|
|
"epoch": 0.2634666666666667,
|
|
"grad_norm": 5.069461822509766,
|
|
"learning_rate": 7.386363636363637e-06,
|
|
"loss": 0.2495,
|
|
"step": 49400
|
|
},
|
|
{
|
|
"epoch": 0.264,
|
|
"grad_norm": 8.77762222290039,
|
|
"learning_rate": 7.38101604278075e-06,
|
|
"loss": 0.2497,
|
|
"step": 49500
|
|
},
|
|
{
|
|
"epoch": 0.26453333333333334,
|
|
"grad_norm": 10.837051391601562,
|
|
"learning_rate": 7.3756684491978616e-06,
|
|
"loss": 0.2545,
|
|
"step": 49600
|
|
},
|
|
{
|
|
"epoch": 0.2650666666666667,
|
|
"grad_norm": 7.840383052825928,
|
|
"learning_rate": 7.370320855614974e-06,
|
|
"loss": 0.2522,
|
|
"step": 49700
|
|
},
|
|
{
|
|
"epoch": 0.2656,
|
|
"grad_norm": 6.503177642822266,
|
|
"learning_rate": 7.364973262032086e-06,
|
|
"loss": 0.2401,
|
|
"step": 49800
|
|
},
|
|
{
|
|
"epoch": 0.26613333333333333,
|
|
"grad_norm": 7.438494682312012,
|
|
"learning_rate": 7.359625668449199e-06,
|
|
"loss": 0.257,
|
|
"step": 49900
|
|
},
|
|
{
|
|
"epoch": 0.26666666666666666,
|
|
"grad_norm": 4.887816905975342,
|
|
"learning_rate": 7.354278074866311e-06,
|
|
"loss": 0.2616,
|
|
"step": 50000
|
|
},
|
|
{
|
|
"epoch": 0.2672,
|
|
"grad_norm": 9.560140609741211,
|
|
"learning_rate": 7.348930481283423e-06,
|
|
"loss": 0.2309,
|
|
"step": 50100
|
|
},
|
|
{
|
|
"epoch": 0.2677333333333333,
|
|
"grad_norm": 9.565762519836426,
|
|
"learning_rate": 7.343582887700536e-06,
|
|
"loss": 0.2476,
|
|
"step": 50200
|
|
},
|
|
{
|
|
"epoch": 0.26826666666666665,
|
|
"grad_norm": 9.311938285827637,
|
|
"learning_rate": 7.338288770053477e-06,
|
|
"loss": 0.245,
|
|
"step": 50300
|
|
},
|
|
{
|
|
"epoch": 0.2688,
|
|
"grad_norm": 7.0116119384765625,
|
|
"learning_rate": 7.3329411764705895e-06,
|
|
"loss": 0.2708,
|
|
"step": 50400
|
|
},
|
|
{
|
|
"epoch": 0.2693333333333333,
|
|
"grad_norm": 2.5207176208496094,
|
|
"learning_rate": 7.327593582887701e-06,
|
|
"loss": 0.2557,
|
|
"step": 50500
|
|
},
|
|
{
|
|
"epoch": 0.26986666666666664,
|
|
"grad_norm": 9.331365585327148,
|
|
"learning_rate": 7.322245989304814e-06,
|
|
"loss": 0.2452,
|
|
"step": 50600
|
|
},
|
|
{
|
|
"epoch": 0.2704,
|
|
"grad_norm": 16.145307540893555,
|
|
"learning_rate": 7.316898395721925e-06,
|
|
"loss": 0.2487,
|
|
"step": 50700
|
|
},
|
|
{
|
|
"epoch": 0.27093333333333336,
|
|
"grad_norm": 6.651644229888916,
|
|
"learning_rate": 7.311550802139038e-06,
|
|
"loss": 0.2451,
|
|
"step": 50800
|
|
},
|
|
{
|
|
"epoch": 0.2714666666666667,
|
|
"grad_norm": 4.046923637390137,
|
|
"learning_rate": 7.306203208556151e-06,
|
|
"loss": 0.2547,
|
|
"step": 50900
|
|
},
|
|
{
|
|
"epoch": 0.272,
|
|
"grad_norm": 6.595029354095459,
|
|
"learning_rate": 7.300855614973262e-06,
|
|
"loss": 0.2605,
|
|
"step": 51000
|
|
},
|
|
{
|
|
"epoch": 0.27253333333333335,
|
|
"grad_norm": 9.400179862976074,
|
|
"learning_rate": 7.295508021390375e-06,
|
|
"loss": 0.226,
|
|
"step": 51100
|
|
},
|
|
{
|
|
"epoch": 0.2730666666666667,
|
|
"grad_norm": 8.574236869812012,
|
|
"learning_rate": 7.2901604278074865e-06,
|
|
"loss": 0.2544,
|
|
"step": 51200
|
|
},
|
|
{
|
|
"epoch": 0.2736,
|
|
"grad_norm": 11.143009185791016,
|
|
"learning_rate": 7.284812834224599e-06,
|
|
"loss": 0.2583,
|
|
"step": 51300
|
|
},
|
|
{
|
|
"epoch": 0.27413333333333334,
|
|
"grad_norm": 8.641215324401855,
|
|
"learning_rate": 7.279465240641712e-06,
|
|
"loss": 0.2349,
|
|
"step": 51400
|
|
},
|
|
{
|
|
"epoch": 0.27466666666666667,
|
|
"grad_norm": 5.847901821136475,
|
|
"learning_rate": 7.274117647058824e-06,
|
|
"loss": 0.2597,
|
|
"step": 51500
|
|
},
|
|
{
|
|
"epoch": 0.2752,
|
|
"grad_norm": 8.239785194396973,
|
|
"learning_rate": 7.268770053475936e-06,
|
|
"loss": 0.2544,
|
|
"step": 51600
|
|
},
|
|
{
|
|
"epoch": 0.27573333333333333,
|
|
"grad_norm": 6.208276748657227,
|
|
"learning_rate": 7.263422459893049e-06,
|
|
"loss": 0.2939,
|
|
"step": 51700
|
|
},
|
|
{
|
|
"epoch": 0.27626666666666666,
|
|
"grad_norm": 6.770753860473633,
|
|
"learning_rate": 7.258074866310161e-06,
|
|
"loss": 0.2718,
|
|
"step": 51800
|
|
},
|
|
{
|
|
"epoch": 0.2768,
|
|
"grad_norm": 6.003368854522705,
|
|
"learning_rate": 7.252727272727273e-06,
|
|
"loss": 0.2755,
|
|
"step": 51900
|
|
},
|
|
{
|
|
"epoch": 0.2773333333333333,
|
|
"grad_norm": 8.666582107543945,
|
|
"learning_rate": 7.247379679144385e-06,
|
|
"loss": 0.2386,
|
|
"step": 52000
|
|
},
|
|
{
|
|
"epoch": 0.27786666666666665,
|
|
"grad_norm": 12.490738868713379,
|
|
"learning_rate": 7.242032085561498e-06,
|
|
"loss": 0.2509,
|
|
"step": 52100
|
|
},
|
|
{
|
|
"epoch": 0.2784,
|
|
"grad_norm": 5.208159446716309,
|
|
"learning_rate": 7.2366844919786105e-06,
|
|
"loss": 0.2452,
|
|
"step": 52200
|
|
},
|
|
{
|
|
"epoch": 0.2789333333333333,
|
|
"grad_norm": 6.100143909454346,
|
|
"learning_rate": 7.231336898395722e-06,
|
|
"loss": 0.2617,
|
|
"step": 52300
|
|
},
|
|
{
|
|
"epoch": 0.27946666666666664,
|
|
"grad_norm": 6.9679951667785645,
|
|
"learning_rate": 7.225989304812835e-06,
|
|
"loss": 0.2573,
|
|
"step": 52400
|
|
},
|
|
{
|
|
"epoch": 0.28,
|
|
"grad_norm": 8.46786117553711,
|
|
"learning_rate": 7.220641711229948e-06,
|
|
"loss": 0.2663,
|
|
"step": 52500
|
|
},
|
|
{
|
|
"epoch": 0.28053333333333336,
|
|
"grad_norm": 7.7983927726745605,
|
|
"learning_rate": 7.215294117647059e-06,
|
|
"loss": 0.2531,
|
|
"step": 52600
|
|
},
|
|
{
|
|
"epoch": 0.2810666666666667,
|
|
"grad_norm": 10.462095260620117,
|
|
"learning_rate": 7.209946524064172e-06,
|
|
"loss": 0.2522,
|
|
"step": 52700
|
|
},
|
|
{
|
|
"epoch": 0.2816,
|
|
"grad_norm": 9.7152681350708,
|
|
"learning_rate": 7.204598930481284e-06,
|
|
"loss": 0.2628,
|
|
"step": 52800
|
|
},
|
|
{
|
|
"epoch": 0.28213333333333335,
|
|
"grad_norm": 9.503886222839355,
|
|
"learning_rate": 7.1992513368983965e-06,
|
|
"loss": 0.2434,
|
|
"step": 52900
|
|
},
|
|
{
|
|
"epoch": 0.2826666666666667,
|
|
"grad_norm": 13.274681091308594,
|
|
"learning_rate": 7.193903743315509e-06,
|
|
"loss": 0.2499,
|
|
"step": 53000
|
|
},
|
|
{
|
|
"epoch": 0.2832,
|
|
"grad_norm": 4.296961784362793,
|
|
"learning_rate": 7.188556149732621e-06,
|
|
"loss": 0.2292,
|
|
"step": 53100
|
|
},
|
|
{
|
|
"epoch": 0.28373333333333334,
|
|
"grad_norm": 10.433600425720215,
|
|
"learning_rate": 7.183208556149734e-06,
|
|
"loss": 0.2657,
|
|
"step": 53200
|
|
},
|
|
{
|
|
"epoch": 0.28426666666666667,
|
|
"grad_norm": 10.863750457763672,
|
|
"learning_rate": 7.177914438502675e-06,
|
|
"loss": 0.2367,
|
|
"step": 53300
|
|
},
|
|
{
|
|
"epoch": 0.2848,
|
|
"grad_norm": 6.769160747528076,
|
|
"learning_rate": 7.172566844919787e-06,
|
|
"loss": 0.2495,
|
|
"step": 53400
|
|
},
|
|
{
|
|
"epoch": 0.2853333333333333,
|
|
"grad_norm": 6.283715724945068,
|
|
"learning_rate": 7.167219251336899e-06,
|
|
"loss": 0.2363,
|
|
"step": 53500
|
|
},
|
|
{
|
|
"epoch": 0.28586666666666666,
|
|
"grad_norm": 7.838467121124268,
|
|
"learning_rate": 7.161871657754012e-06,
|
|
"loss": 0.2467,
|
|
"step": 53600
|
|
},
|
|
{
|
|
"epoch": 0.2864,
|
|
"grad_norm": 4.911136627197266,
|
|
"learning_rate": 7.156524064171123e-06,
|
|
"loss": 0.2169,
|
|
"step": 53700
|
|
},
|
|
{
|
|
"epoch": 0.2869333333333333,
|
|
"grad_norm": 7.034232139587402,
|
|
"learning_rate": 7.151176470588236e-06,
|
|
"loss": 0.2364,
|
|
"step": 53800
|
|
},
|
|
{
|
|
"epoch": 0.28746666666666665,
|
|
"grad_norm": 7.0632147789001465,
|
|
"learning_rate": 7.145828877005349e-06,
|
|
"loss": 0.2448,
|
|
"step": 53900
|
|
},
|
|
{
|
|
"epoch": 0.288,
|
|
"grad_norm": 6.306436061859131,
|
|
"learning_rate": 7.14048128342246e-06,
|
|
"loss": 0.2575,
|
|
"step": 54000
|
|
},
|
|
{
|
|
"epoch": 0.2885333333333333,
|
|
"grad_norm": 6.6800336837768555,
|
|
"learning_rate": 7.1351336898395725e-06,
|
|
"loss": 0.2445,
|
|
"step": 54100
|
|
},
|
|
{
|
|
"epoch": 0.2890666666666667,
|
|
"grad_norm": 7.888618469238281,
|
|
"learning_rate": 7.129786096256686e-06,
|
|
"loss": 0.2564,
|
|
"step": 54200
|
|
},
|
|
{
|
|
"epoch": 0.2896,
|
|
"grad_norm": 7.319005012512207,
|
|
"learning_rate": 7.124438502673797e-06,
|
|
"loss": 0.2677,
|
|
"step": 54300
|
|
},
|
|
{
|
|
"epoch": 0.29013333333333335,
|
|
"grad_norm": 5.805268287658691,
|
|
"learning_rate": 7.11909090909091e-06,
|
|
"loss": 0.2664,
|
|
"step": 54400
|
|
},
|
|
{
|
|
"epoch": 0.2906666666666667,
|
|
"grad_norm": 9.880657196044922,
|
|
"learning_rate": 7.1137433155080214e-06,
|
|
"loss": 0.2345,
|
|
"step": 54500
|
|
},
|
|
{
|
|
"epoch": 0.2912,
|
|
"grad_norm": 5.412465572357178,
|
|
"learning_rate": 7.108395721925134e-06,
|
|
"loss": 0.2684,
|
|
"step": 54600
|
|
},
|
|
{
|
|
"epoch": 0.29173333333333334,
|
|
"grad_norm": 12.703360557556152,
|
|
"learning_rate": 7.103048128342247e-06,
|
|
"loss": 0.3045,
|
|
"step": 54700
|
|
},
|
|
{
|
|
"epoch": 0.2922666666666667,
|
|
"grad_norm": 7.6480841636657715,
|
|
"learning_rate": 7.0977005347593585e-06,
|
|
"loss": 0.2593,
|
|
"step": 54800
|
|
},
|
|
{
|
|
"epoch": 0.2928,
|
|
"grad_norm": 7.836216449737549,
|
|
"learning_rate": 7.092352941176471e-06,
|
|
"loss": 0.2557,
|
|
"step": 54900
|
|
},
|
|
{
|
|
"epoch": 0.29333333333333333,
|
|
"grad_norm": 10.35806655883789,
|
|
"learning_rate": 7.087005347593583e-06,
|
|
"loss": 0.2728,
|
|
"step": 55000
|
|
},
|
|
{
|
|
"epoch": 0.29386666666666666,
|
|
"grad_norm": 14.247247695922852,
|
|
"learning_rate": 7.081657754010696e-06,
|
|
"loss": 0.246,
|
|
"step": 55100
|
|
},
|
|
{
|
|
"epoch": 0.2944,
|
|
"grad_norm": 10.058664321899414,
|
|
"learning_rate": 7.076310160427808e-06,
|
|
"loss": 0.2505,
|
|
"step": 55200
|
|
},
|
|
{
|
|
"epoch": 0.2949333333333333,
|
|
"grad_norm": 9.4829683303833,
|
|
"learning_rate": 7.07096256684492e-06,
|
|
"loss": 0.2541,
|
|
"step": 55300
|
|
},
|
|
{
|
|
"epoch": 0.29546666666666666,
|
|
"grad_norm": 7.295975685119629,
|
|
"learning_rate": 7.065614973262033e-06,
|
|
"loss": 0.2481,
|
|
"step": 55400
|
|
},
|
|
{
|
|
"epoch": 0.296,
|
|
"grad_norm": 5.038114547729492,
|
|
"learning_rate": 7.0602673796791454e-06,
|
|
"loss": 0.2438,
|
|
"step": 55500
|
|
},
|
|
{
|
|
"epoch": 0.2965333333333333,
|
|
"grad_norm": 9.174761772155762,
|
|
"learning_rate": 7.054919786096257e-06,
|
|
"loss": 0.2692,
|
|
"step": 55600
|
|
},
|
|
{
|
|
"epoch": 0.29706666666666665,
|
|
"grad_norm": 3.4096121788024902,
|
|
"learning_rate": 7.04957219251337e-06,
|
|
"loss": 0.244,
|
|
"step": 55700
|
|
},
|
|
{
|
|
"epoch": 0.2976,
|
|
"grad_norm": 8.78859806060791,
|
|
"learning_rate": 7.044224598930482e-06,
|
|
"loss": 0.224,
|
|
"step": 55800
|
|
},
|
|
{
|
|
"epoch": 0.2981333333333333,
|
|
"grad_norm": 12.2011137008667,
|
|
"learning_rate": 7.038877005347594e-06,
|
|
"loss": 0.2403,
|
|
"step": 55900
|
|
},
|
|
{
|
|
"epoch": 0.2986666666666667,
|
|
"grad_norm": 10.609244346618652,
|
|
"learning_rate": 7.033529411764707e-06,
|
|
"loss": 0.2464,
|
|
"step": 56000
|
|
},
|
|
{
|
|
"epoch": 0.2992,
|
|
"grad_norm": 12.020284652709961,
|
|
"learning_rate": 7.028181818181819e-06,
|
|
"loss": 0.2527,
|
|
"step": 56100
|
|
},
|
|
{
|
|
"epoch": 0.29973333333333335,
|
|
"grad_norm": 7.508892059326172,
|
|
"learning_rate": 7.0228342245989315e-06,
|
|
"loss": 0.2342,
|
|
"step": 56200
|
|
},
|
|
{
|
|
"epoch": 0.3002666666666667,
|
|
"grad_norm": 4.887277603149414,
|
|
"learning_rate": 7.017486631016044e-06,
|
|
"loss": 0.2361,
|
|
"step": 56300
|
|
},
|
|
{
|
|
"epoch": 0.3008,
|
|
"grad_norm": 10.341975212097168,
|
|
"learning_rate": 7.012139037433155e-06,
|
|
"loss": 0.2454,
|
|
"step": 56400
|
|
},
|
|
{
|
|
"epoch": 0.30133333333333334,
|
|
"grad_norm": 5.686004638671875,
|
|
"learning_rate": 7.006791443850269e-06,
|
|
"loss": 0.2393,
|
|
"step": 56500
|
|
},
|
|
{
|
|
"epoch": 0.30186666666666667,
|
|
"grad_norm": 11.266525268554688,
|
|
"learning_rate": 7.0014438502673795e-06,
|
|
"loss": 0.2569,
|
|
"step": 56600
|
|
},
|
|
{
|
|
"epoch": 0.3024,
|
|
"grad_norm": 12.224029541015625,
|
|
"learning_rate": 6.996096256684492e-06,
|
|
"loss": 0.2746,
|
|
"step": 56700
|
|
},
|
|
{
|
|
"epoch": 0.30293333333333333,
|
|
"grad_norm": 5.364162445068359,
|
|
"learning_rate": 6.990802139037434e-06,
|
|
"loss": 0.2399,
|
|
"step": 56800
|
|
},
|
|
{
|
|
"epoch": 0.30346666666666666,
|
|
"grad_norm": 5.059126853942871,
|
|
"learning_rate": 6.985454545454547e-06,
|
|
"loss": 0.2482,
|
|
"step": 56900
|
|
},
|
|
{
|
|
"epoch": 0.304,
|
|
"grad_norm": 6.582889080047607,
|
|
"learning_rate": 6.980106951871658e-06,
|
|
"loss": 0.2685,
|
|
"step": 57000
|
|
},
|
|
{
|
|
"epoch": 0.3045333333333333,
|
|
"grad_norm": 5.066258907318115,
|
|
"learning_rate": 6.97475935828877e-06,
|
|
"loss": 0.2198,
|
|
"step": 57100
|
|
},
|
|
{
|
|
"epoch": 0.30506666666666665,
|
|
"grad_norm": 2.832533597946167,
|
|
"learning_rate": 6.969411764705884e-06,
|
|
"loss": 0.2526,
|
|
"step": 57200
|
|
},
|
|
{
|
|
"epoch": 0.3056,
|
|
"grad_norm": 11.934916496276855,
|
|
"learning_rate": 6.964064171122995e-06,
|
|
"loss": 0.2365,
|
|
"step": 57300
|
|
},
|
|
{
|
|
"epoch": 0.3061333333333333,
|
|
"grad_norm": 7.094815254211426,
|
|
"learning_rate": 6.9587165775401075e-06,
|
|
"loss": 0.2477,
|
|
"step": 57400
|
|
},
|
|
{
|
|
"epoch": 0.30666666666666664,
|
|
"grad_norm": 4.003622055053711,
|
|
"learning_rate": 6.953368983957219e-06,
|
|
"loss": 0.2455,
|
|
"step": 57500
|
|
},
|
|
{
|
|
"epoch": 0.3072,
|
|
"grad_norm": 10.96635627746582,
|
|
"learning_rate": 6.948021390374332e-06,
|
|
"loss": 0.2655,
|
|
"step": 57600
|
|
},
|
|
{
|
|
"epoch": 0.30773333333333336,
|
|
"grad_norm": 9.02900218963623,
|
|
"learning_rate": 6.9426737967914446e-06,
|
|
"loss": 0.2497,
|
|
"step": 57700
|
|
},
|
|
{
|
|
"epoch": 0.3082666666666667,
|
|
"grad_norm": 6.688266754150391,
|
|
"learning_rate": 6.937326203208556e-06,
|
|
"loss": 0.2301,
|
|
"step": 57800
|
|
},
|
|
{
|
|
"epoch": 0.3088,
|
|
"grad_norm": 7.6436638832092285,
|
|
"learning_rate": 6.931978609625669e-06,
|
|
"loss": 0.2401,
|
|
"step": 57900
|
|
},
|
|
{
|
|
"epoch": 0.30933333333333335,
|
|
"grad_norm": 7.076822757720947,
|
|
"learning_rate": 6.926631016042781e-06,
|
|
"loss": 0.2721,
|
|
"step": 58000
|
|
},
|
|
{
|
|
"epoch": 0.3098666666666667,
|
|
"grad_norm": 6.032080173492432,
|
|
"learning_rate": 6.9212834224598935e-06,
|
|
"loss": 0.2794,
|
|
"step": 58100
|
|
},
|
|
{
|
|
"epoch": 0.3104,
|
|
"grad_norm": 11.018205642700195,
|
|
"learning_rate": 6.915935828877006e-06,
|
|
"loss": 0.2545,
|
|
"step": 58200
|
|
},
|
|
{
|
|
"epoch": 0.31093333333333334,
|
|
"grad_norm": 4.746645927429199,
|
|
"learning_rate": 6.910588235294118e-06,
|
|
"loss": 0.2356,
|
|
"step": 58300
|
|
},
|
|
{
|
|
"epoch": 0.31146666666666667,
|
|
"grad_norm": 8.983436584472656,
|
|
"learning_rate": 6.905240641711231e-06,
|
|
"loss": 0.2351,
|
|
"step": 58400
|
|
},
|
|
{
|
|
"epoch": 0.312,
|
|
"grad_norm": 5.190935134887695,
|
|
"learning_rate": 6.899893048128343e-06,
|
|
"loss": 0.2661,
|
|
"step": 58500
|
|
},
|
|
{
|
|
"epoch": 0.31253333333333333,
|
|
"grad_norm": 5.2552008628845215,
|
|
"learning_rate": 6.894545454545455e-06,
|
|
"loss": 0.2579,
|
|
"step": 58600
|
|
},
|
|
{
|
|
"epoch": 0.31306666666666666,
|
|
"grad_norm": 2.627960443496704,
|
|
"learning_rate": 6.889251336898396e-06,
|
|
"loss": 0.2478,
|
|
"step": 58700
|
|
},
|
|
{
|
|
"epoch": 0.3136,
|
|
"grad_norm": 12.640631675720215,
|
|
"learning_rate": 6.883903743315509e-06,
|
|
"loss": 0.2348,
|
|
"step": 58800
|
|
},
|
|
{
|
|
"epoch": 0.3141333333333333,
|
|
"grad_norm": 6.499292373657227,
|
|
"learning_rate": 6.878556149732621e-06,
|
|
"loss": 0.2496,
|
|
"step": 58900
|
|
},
|
|
{
|
|
"epoch": 0.31466666666666665,
|
|
"grad_norm": 117.55598449707031,
|
|
"learning_rate": 6.873208556149733e-06,
|
|
"loss": 0.254,
|
|
"step": 59000
|
|
},
|
|
{
|
|
"epoch": 0.3152,
|
|
"grad_norm": 12.794759750366211,
|
|
"learning_rate": 6.867860962566846e-06,
|
|
"loss": 0.233,
|
|
"step": 59100
|
|
},
|
|
{
|
|
"epoch": 0.3157333333333333,
|
|
"grad_norm": 4.160928726196289,
|
|
"learning_rate": 6.862513368983958e-06,
|
|
"loss": 0.2401,
|
|
"step": 59200
|
|
},
|
|
{
|
|
"epoch": 0.31626666666666664,
|
|
"grad_norm": 6.997635364532471,
|
|
"learning_rate": 6.85716577540107e-06,
|
|
"loss": 0.2418,
|
|
"step": 59300
|
|
},
|
|
{
|
|
"epoch": 0.3168,
|
|
"grad_norm": 7.203141212463379,
|
|
"learning_rate": 6.851818181818183e-06,
|
|
"loss": 0.2624,
|
|
"step": 59400
|
|
},
|
|
{
|
|
"epoch": 0.31733333333333336,
|
|
"grad_norm": 5.288658618927002,
|
|
"learning_rate": 6.846470588235295e-06,
|
|
"loss": 0.2423,
|
|
"step": 59500
|
|
},
|
|
{
|
|
"epoch": 0.3178666666666667,
|
|
"grad_norm": 6.444352626800537,
|
|
"learning_rate": 6.8411229946524074e-06,
|
|
"loss": 0.2612,
|
|
"step": 59600
|
|
},
|
|
{
|
|
"epoch": 0.3184,
|
|
"grad_norm": 6.58238410949707,
|
|
"learning_rate": 6.835775401069518e-06,
|
|
"loss": 0.259,
|
|
"step": 59700
|
|
},
|
|
{
|
|
"epoch": 0.31893333333333335,
|
|
"grad_norm": 10.595877647399902,
|
|
"learning_rate": 6.830427807486632e-06,
|
|
"loss": 0.2389,
|
|
"step": 59800
|
|
},
|
|
{
|
|
"epoch": 0.3194666666666667,
|
|
"grad_norm": 5.130499362945557,
|
|
"learning_rate": 6.8250802139037446e-06,
|
|
"loss": 0.2214,
|
|
"step": 59900
|
|
},
|
|
{
|
|
"epoch": 0.32,
|
|
"grad_norm": 8.522345542907715,
|
|
"learning_rate": 6.8197326203208555e-06,
|
|
"loss": 0.2546,
|
|
"step": 60000
|
|
},
|
|
{
|
|
"epoch": 0.32,
|
|
"eval_test1_cer": 0.04629733363208604,
|
|
"eval_test1_cer_norm": 0.031694960021129974,
|
|
"eval_test1_loss": 0.19169434905052185,
|
|
"eval_test1_runtime": 1141.3432,
|
|
"eval_test1_samples_per_second": 2.19,
|
|
"eval_test1_steps_per_second": 0.548,
|
|
"eval_test1_wer": 0.14420245488206654,
|
|
"eval_test1_wer_norm": 0.08664776878342441,
|
|
"step": 60000
|
|
},
|
|
{
|
|
"epoch": 0.32,
|
|
"eval_test2_cer": 0.11031003845148767,
|
|
"eval_test2_cer_norm": 0.08745545398202666,
|
|
"eval_test2_loss": 0.3317379653453827,
|
|
"eval_test2_runtime": 1151.6102,
|
|
"eval_test2_samples_per_second": 2.171,
|
|
"eval_test2_steps_per_second": 0.543,
|
|
"eval_test2_wer": 0.23806935225452047,
|
|
"eval_test2_wer_norm": 0.17422071968828787,
|
|
"step": 60000
|
|
},
|
|
{
|
|
"epoch": 0.32053333333333334,
|
|
"grad_norm": 1.469024658203125,
|
|
"learning_rate": 6.814491978609627e-06,
|
|
"loss": 0.245,
|
|
"step": 60100
|
|
},
|
|
{
|
|
"epoch": 0.32106666666666667,
|
|
"grad_norm": 5.9161224365234375,
|
|
"learning_rate": 6.809144385026738e-06,
|
|
"loss": 0.227,
|
|
"step": 60200
|
|
},
|
|
{
|
|
"epoch": 0.3216,
|
|
"grad_norm": 5.523306846618652,
|
|
"learning_rate": 6.803796791443851e-06,
|
|
"loss": 0.2415,
|
|
"step": 60300
|
|
},
|
|
{
|
|
"epoch": 0.3221333333333333,
|
|
"grad_norm": 11.091049194335938,
|
|
"learning_rate": 6.798449197860964e-06,
|
|
"loss": 0.2628,
|
|
"step": 60400
|
|
},
|
|
{
|
|
"epoch": 0.32266666666666666,
|
|
"grad_norm": 9.78979206085205,
|
|
"learning_rate": 6.793101604278075e-06,
|
|
"loss": 0.2347,
|
|
"step": 60500
|
|
},
|
|
{
|
|
"epoch": 0.3232,
|
|
"grad_norm": 7.720283031463623,
|
|
"learning_rate": 6.787754010695188e-06,
|
|
"loss": 0.2293,
|
|
"step": 60600
|
|
},
|
|
{
|
|
"epoch": 0.3237333333333333,
|
|
"grad_norm": 7.49715518951416,
|
|
"learning_rate": 6.782406417112301e-06,
|
|
"loss": 0.2373,
|
|
"step": 60700
|
|
},
|
|
{
|
|
"epoch": 0.32426666666666665,
|
|
"grad_norm": 6.097120761871338,
|
|
"learning_rate": 6.777058823529412e-06,
|
|
"loss": 0.2661,
|
|
"step": 60800
|
|
},
|
|
{
|
|
"epoch": 0.3248,
|
|
"grad_norm": 12.36463737487793,
|
|
"learning_rate": 6.7717112299465245e-06,
|
|
"loss": 0.2537,
|
|
"step": 60900
|
|
},
|
|
{
|
|
"epoch": 0.3253333333333333,
|
|
"grad_norm": 7.395144939422607,
|
|
"learning_rate": 6.766363636363636e-06,
|
|
"loss": 0.2336,
|
|
"step": 61000
|
|
},
|
|
{
|
|
"epoch": 0.3258666666666667,
|
|
"grad_norm": 4.125186920166016,
|
|
"learning_rate": 6.761069518716577e-06,
|
|
"loss": 0.2496,
|
|
"step": 61100
|
|
},
|
|
{
|
|
"epoch": 0.3264,
|
|
"grad_norm": 12.303833961486816,
|
|
"learning_rate": 6.75572192513369e-06,
|
|
"loss": 0.234,
|
|
"step": 61200
|
|
},
|
|
{
|
|
"epoch": 0.32693333333333335,
|
|
"grad_norm": 8.502795219421387,
|
|
"learning_rate": 6.750374331550803e-06,
|
|
"loss": 0.2601,
|
|
"step": 61300
|
|
},
|
|
{
|
|
"epoch": 0.3274666666666667,
|
|
"grad_norm": 7.169192314147949,
|
|
"learning_rate": 6.745026737967914e-06,
|
|
"loss": 0.2442,
|
|
"step": 61400
|
|
},
|
|
{
|
|
"epoch": 0.328,
|
|
"grad_norm": 4.478709697723389,
|
|
"learning_rate": 6.739679144385027e-06,
|
|
"loss": 0.2383,
|
|
"step": 61500
|
|
},
|
|
{
|
|
"epoch": 0.32853333333333334,
|
|
"grad_norm": 4.977025032043457,
|
|
"learning_rate": 6.73433155080214e-06,
|
|
"loss": 0.2191,
|
|
"step": 61600
|
|
},
|
|
{
|
|
"epoch": 0.3290666666666667,
|
|
"grad_norm": 11.403064727783203,
|
|
"learning_rate": 6.7289839572192515e-06,
|
|
"loss": 0.2473,
|
|
"step": 61700
|
|
},
|
|
{
|
|
"epoch": 0.3296,
|
|
"grad_norm": 7.222422122955322,
|
|
"learning_rate": 6.723636363636364e-06,
|
|
"loss": 0.2379,
|
|
"step": 61800
|
|
},
|
|
{
|
|
"epoch": 1.000464,
|
|
"grad_norm": 4.08281135559082,
|
|
"learning_rate": 6.718288770053476e-06,
|
|
"loss": 0.2207,
|
|
"step": 61900
|
|
},
|
|
{
|
|
"epoch": 1.0009973333333333,
|
|
"grad_norm": 12.52001953125,
|
|
"learning_rate": 6.712941176470589e-06,
|
|
"loss": 0.2172,
|
|
"step": 62000
|
|
},
|
|
{
|
|
"epoch": 1.0015306666666666,
|
|
"grad_norm": 4.108199119567871,
|
|
"learning_rate": 6.707593582887701e-06,
|
|
"loss": 0.2133,
|
|
"step": 62100
|
|
},
|
|
{
|
|
"epoch": 1.002064,
|
|
"grad_norm": 7.380706310272217,
|
|
"learning_rate": 6.702245989304813e-06,
|
|
"loss": 0.189,
|
|
"step": 62200
|
|
},
|
|
{
|
|
"epoch": 1.0025973333333333,
|
|
"grad_norm": 7.367397785186768,
|
|
"learning_rate": 6.696898395721926e-06,
|
|
"loss": 0.1948,
|
|
"step": 62300
|
|
},
|
|
{
|
|
"epoch": 1.0031306666666666,
|
|
"grad_norm": 6.267475605010986,
|
|
"learning_rate": 6.691550802139038e-06,
|
|
"loss": 0.2065,
|
|
"step": 62400
|
|
},
|
|
{
|
|
"epoch": 1.003664,
|
|
"grad_norm": 6.7060041427612305,
|
|
"learning_rate": 6.68620320855615e-06,
|
|
"loss": 0.1804,
|
|
"step": 62500
|
|
},
|
|
{
|
|
"epoch": 1.0041973333333334,
|
|
"grad_norm": 6.581772327423096,
|
|
"learning_rate": 6.680855614973263e-06,
|
|
"loss": 0.1921,
|
|
"step": 62600
|
|
},
|
|
{
|
|
"epoch": 1.0047306666666667,
|
|
"grad_norm": 6.239491939544678,
|
|
"learning_rate": 6.675508021390375e-06,
|
|
"loss": 0.2145,
|
|
"step": 62700
|
|
},
|
|
{
|
|
"epoch": 1.005264,
|
|
"grad_norm": 3.3783535957336426,
|
|
"learning_rate": 6.670160427807487e-06,
|
|
"loss": 0.1981,
|
|
"step": 62800
|
|
},
|
|
{
|
|
"epoch": 1.0057973333333334,
|
|
"grad_norm": 6.713562965393066,
|
|
"learning_rate": 6.6648128342246e-06,
|
|
"loss": 0.1916,
|
|
"step": 62900
|
|
},
|
|
{
|
|
"epoch": 1.0063306666666667,
|
|
"grad_norm": 5.058563709259033,
|
|
"learning_rate": 6.659465240641712e-06,
|
|
"loss": 0.1794,
|
|
"step": 63000
|
|
},
|
|
{
|
|
"epoch": 1.006864,
|
|
"grad_norm": 5.847950458526611,
|
|
"learning_rate": 6.6541176470588244e-06,
|
|
"loss": 0.1825,
|
|
"step": 63100
|
|
},
|
|
{
|
|
"epoch": 1.0073973333333333,
|
|
"grad_norm": 5.4399333000183105,
|
|
"learning_rate": 6.648770053475936e-06,
|
|
"loss": 0.1748,
|
|
"step": 63200
|
|
},
|
|
{
|
|
"epoch": 1.0079306666666668,
|
|
"grad_norm": 9.016236305236816,
|
|
"learning_rate": 6.643422459893049e-06,
|
|
"loss": 0.1742,
|
|
"step": 63300
|
|
},
|
|
{
|
|
"epoch": 1.008464,
|
|
"grad_norm": 5.033236980438232,
|
|
"learning_rate": 6.6380748663101616e-06,
|
|
"loss": 0.1679,
|
|
"step": 63400
|
|
},
|
|
{
|
|
"epoch": 1.0089973333333333,
|
|
"grad_norm": 11.004158020019531,
|
|
"learning_rate": 6.6327272727272725e-06,
|
|
"loss": 0.1929,
|
|
"step": 63500
|
|
},
|
|
{
|
|
"epoch": 1.0095306666666666,
|
|
"grad_norm": 5.353547096252441,
|
|
"learning_rate": 6.627379679144386e-06,
|
|
"loss": 0.1836,
|
|
"step": 63600
|
|
},
|
|
{
|
|
"epoch": 1.010064,
|
|
"grad_norm": 2.581364631652832,
|
|
"learning_rate": 6.622032085561499e-06,
|
|
"loss": 0.1924,
|
|
"step": 63700
|
|
},
|
|
{
|
|
"epoch": 1.0105973333333333,
|
|
"grad_norm": 4.691516399383545,
|
|
"learning_rate": 6.61668449197861e-06,
|
|
"loss": 0.1842,
|
|
"step": 63800
|
|
},
|
|
{
|
|
"epoch": 1.0111306666666666,
|
|
"grad_norm": 6.421941757202148,
|
|
"learning_rate": 6.611336898395722e-06,
|
|
"loss": 0.2009,
|
|
"step": 63900
|
|
},
|
|
{
|
|
"epoch": 1.011664,
|
|
"grad_norm": 4.9533915519714355,
|
|
"learning_rate": 6.605989304812834e-06,
|
|
"loss": 0.1757,
|
|
"step": 64000
|
|
},
|
|
{
|
|
"epoch": 1.0121973333333334,
|
|
"grad_norm": 7.035982131958008,
|
|
"learning_rate": 6.600641711229947e-06,
|
|
"loss": 0.1766,
|
|
"step": 64100
|
|
},
|
|
{
|
|
"epoch": 1.0127306666666667,
|
|
"grad_norm": 5.154856204986572,
|
|
"learning_rate": 6.595294117647059e-06,
|
|
"loss": 0.171,
|
|
"step": 64200
|
|
},
|
|
{
|
|
"epoch": 1.013264,
|
|
"grad_norm": 3.7718982696533203,
|
|
"learning_rate": 6.589946524064171e-06,
|
|
"loss": 0.1804,
|
|
"step": 64300
|
|
},
|
|
{
|
|
"epoch": 1.0137973333333334,
|
|
"grad_norm": 6.664084434509277,
|
|
"learning_rate": 6.584598930481284e-06,
|
|
"loss": 0.1823,
|
|
"step": 64400
|
|
},
|
|
{
|
|
"epoch": 1.0143306666666667,
|
|
"grad_norm": 11.87662124633789,
|
|
"learning_rate": 6.5792513368983965e-06,
|
|
"loss": 0.1789,
|
|
"step": 64500
|
|
},
|
|
{
|
|
"epoch": 1.014864,
|
|
"grad_norm": 7.553431987762451,
|
|
"learning_rate": 6.573903743315508e-06,
|
|
"loss": 0.1736,
|
|
"step": 64600
|
|
},
|
|
{
|
|
"epoch": 1.0153973333333333,
|
|
"grad_norm": 6.404135704040527,
|
|
"learning_rate": 6.568556149732621e-06,
|
|
"loss": 0.1712,
|
|
"step": 64700
|
|
},
|
|
{
|
|
"epoch": 1.0159306666666668,
|
|
"grad_norm": 8.307944297790527,
|
|
"learning_rate": 6.563208556149733e-06,
|
|
"loss": 0.1852,
|
|
"step": 64800
|
|
},
|
|
{
|
|
"epoch": 1.016464,
|
|
"grad_norm": 7.255639553070068,
|
|
"learning_rate": 6.5578609625668454e-06,
|
|
"loss": 0.1703,
|
|
"step": 64900
|
|
},
|
|
{
|
|
"epoch": 1.0169973333333333,
|
|
"grad_norm": 5.942869186401367,
|
|
"learning_rate": 6.552513368983958e-06,
|
|
"loss": 0.1667,
|
|
"step": 65000
|
|
},
|
|
{
|
|
"epoch": 1.0175306666666666,
|
|
"grad_norm": 8.815537452697754,
|
|
"learning_rate": 6.547219251336899e-06,
|
|
"loss": 0.1759,
|
|
"step": 65100
|
|
},
|
|
{
|
|
"epoch": 1.018064,
|
|
"grad_norm": 6.1545257568359375,
|
|
"learning_rate": 6.541871657754011e-06,
|
|
"loss": 0.1889,
|
|
"step": 65200
|
|
},
|
|
{
|
|
"epoch": 1.0185973333333334,
|
|
"grad_norm": 6.4734063148498535,
|
|
"learning_rate": 6.536524064171124e-06,
|
|
"loss": 0.1754,
|
|
"step": 65300
|
|
},
|
|
{
|
|
"epoch": 1.0191306666666666,
|
|
"grad_norm": 2.381598472595215,
|
|
"learning_rate": 6.531176470588236e-06,
|
|
"loss": 0.1696,
|
|
"step": 65400
|
|
},
|
|
{
|
|
"epoch": 1.019664,
|
|
"grad_norm": 5.761627197265625,
|
|
"learning_rate": 6.525828877005348e-06,
|
|
"loss": 0.1754,
|
|
"step": 65500
|
|
},
|
|
{
|
|
"epoch": 1.0201973333333334,
|
|
"grad_norm": 9.871030807495117,
|
|
"learning_rate": 6.520481283422461e-06,
|
|
"loss": 0.1649,
|
|
"step": 65600
|
|
},
|
|
{
|
|
"epoch": 1.0207306666666667,
|
|
"grad_norm": 3.50299072265625,
|
|
"learning_rate": 6.5151336898395725e-06,
|
|
"loss": 0.1828,
|
|
"step": 65700
|
|
},
|
|
{
|
|
"epoch": 1.021264,
|
|
"grad_norm": 5.632349014282227,
|
|
"learning_rate": 6.509786096256685e-06,
|
|
"loss": 0.1857,
|
|
"step": 65800
|
|
},
|
|
{
|
|
"epoch": 1.0217973333333332,
|
|
"grad_norm": 9.746537208557129,
|
|
"learning_rate": 6.504438502673798e-06,
|
|
"loss": 0.1739,
|
|
"step": 65900
|
|
},
|
|
{
|
|
"epoch": 1.0223306666666667,
|
|
"grad_norm": 10.220690727233887,
|
|
"learning_rate": 6.49909090909091e-06,
|
|
"loss": 0.1914,
|
|
"step": 66000
|
|
},
|
|
{
|
|
"epoch": 1.022864,
|
|
"grad_norm": 6.883199214935303,
|
|
"learning_rate": 6.493743315508022e-06,
|
|
"loss": 0.1922,
|
|
"step": 66100
|
|
},
|
|
{
|
|
"epoch": 1.0233973333333333,
|
|
"grad_norm": 16.8372859954834,
|
|
"learning_rate": 6.488395721925134e-06,
|
|
"loss": 0.1817,
|
|
"step": 66200
|
|
},
|
|
{
|
|
"epoch": 1.0239306666666668,
|
|
"grad_norm": 4.768618583679199,
|
|
"learning_rate": 6.483048128342247e-06,
|
|
"loss": 0.1738,
|
|
"step": 66300
|
|
},
|
|
{
|
|
"epoch": 1.024464,
|
|
"grad_norm": 8.322490692138672,
|
|
"learning_rate": 6.477700534759359e-06,
|
|
"loss": 0.1865,
|
|
"step": 66400
|
|
},
|
|
{
|
|
"epoch": 1.0249973333333333,
|
|
"grad_norm": 5.923746109008789,
|
|
"learning_rate": 6.47235294117647e-06,
|
|
"loss": 0.1992,
|
|
"step": 66500
|
|
},
|
|
{
|
|
"epoch": 1.0255306666666666,
|
|
"grad_norm": 7.384121894836426,
|
|
"learning_rate": 6.467005347593584e-06,
|
|
"loss": 0.1801,
|
|
"step": 66600
|
|
},
|
|
{
|
|
"epoch": 1.026064,
|
|
"grad_norm": 5.392059326171875,
|
|
"learning_rate": 6.4616577540106965e-06,
|
|
"loss": 0.167,
|
|
"step": 66700
|
|
},
|
|
{
|
|
"epoch": 1.0265973333333334,
|
|
"grad_norm": 4.482821941375732,
|
|
"learning_rate": 6.4563101604278075e-06,
|
|
"loss": 0.1827,
|
|
"step": 66800
|
|
},
|
|
{
|
|
"epoch": 1.0271306666666666,
|
|
"grad_norm": 7.086289405822754,
|
|
"learning_rate": 6.45096256684492e-06,
|
|
"loss": 0.2001,
|
|
"step": 66900
|
|
},
|
|
{
|
|
"epoch": 1.027664,
|
|
"grad_norm": 6.783627033233643,
|
|
"learning_rate": 6.445614973262032e-06,
|
|
"loss": 0.1766,
|
|
"step": 67000
|
|
},
|
|
{
|
|
"epoch": 1.0281973333333334,
|
|
"grad_norm": 6.994729995727539,
|
|
"learning_rate": 6.440267379679145e-06,
|
|
"loss": 0.1692,
|
|
"step": 67100
|
|
},
|
|
{
|
|
"epoch": 1.0287306666666667,
|
|
"grad_norm": 3.28629469871521,
|
|
"learning_rate": 6.434973262032086e-06,
|
|
"loss": 0.1762,
|
|
"step": 67200
|
|
},
|
|
{
|
|
"epoch": 1.029264,
|
|
"grad_norm": 5.687538146972656,
|
|
"learning_rate": 6.429679144385027e-06,
|
|
"loss": 0.1703,
|
|
"step": 67300
|
|
},
|
|
{
|
|
"epoch": 1.0297973333333332,
|
|
"grad_norm": 6.609568119049072,
|
|
"learning_rate": 6.42433155080214e-06,
|
|
"loss": 0.1804,
|
|
"step": 67400
|
|
},
|
|
{
|
|
"epoch": 1.0303306666666667,
|
|
"grad_norm": 3.4827024936676025,
|
|
"learning_rate": 6.418983957219251e-06,
|
|
"loss": 0.1778,
|
|
"step": 67500
|
|
},
|
|
{
|
|
"epoch": 1.030864,
|
|
"grad_norm": 7.567587852478027,
|
|
"learning_rate": 6.413636363636364e-06,
|
|
"loss": 0.1829,
|
|
"step": 67600
|
|
},
|
|
{
|
|
"epoch": 1.0313973333333333,
|
|
"grad_norm": 10.528592109680176,
|
|
"learning_rate": 6.408288770053476e-06,
|
|
"loss": 0.1707,
|
|
"step": 67700
|
|
},
|
|
{
|
|
"epoch": 1.0319306666666668,
|
|
"grad_norm": 11.17098331451416,
|
|
"learning_rate": 6.402941176470588e-06,
|
|
"loss": 0.1765,
|
|
"step": 67800
|
|
},
|
|
{
|
|
"epoch": 1.032464,
|
|
"grad_norm": 3.866119861602783,
|
|
"learning_rate": 6.397593582887701e-06,
|
|
"loss": 0.1774,
|
|
"step": 67900
|
|
},
|
|
{
|
|
"epoch": 1.0329973333333333,
|
|
"grad_norm": 4.920225143432617,
|
|
"learning_rate": 6.3922459893048135e-06,
|
|
"loss": 0.166,
|
|
"step": 68000
|
|
},
|
|
{
|
|
"epoch": 1.0335306666666666,
|
|
"grad_norm": 5.048612117767334,
|
|
"learning_rate": 6.386898395721925e-06,
|
|
"loss": 0.1622,
|
|
"step": 68100
|
|
},
|
|
{
|
|
"epoch": 1.034064,
|
|
"grad_norm": 7.091610908508301,
|
|
"learning_rate": 6.381550802139038e-06,
|
|
"loss": 0.1779,
|
|
"step": 68200
|
|
},
|
|
{
|
|
"epoch": 1.0345973333333334,
|
|
"grad_norm": 11.285551071166992,
|
|
"learning_rate": 6.37620320855615e-06,
|
|
"loss": 0.177,
|
|
"step": 68300
|
|
},
|
|
{
|
|
"epoch": 1.0351306666666666,
|
|
"grad_norm": 3.6785097122192383,
|
|
"learning_rate": 6.3708556149732624e-06,
|
|
"loss": 0.1905,
|
|
"step": 68400
|
|
},
|
|
{
|
|
"epoch": 1.035664,
|
|
"grad_norm": 8.192794799804688,
|
|
"learning_rate": 6.365508021390375e-06,
|
|
"loss": 0.1655,
|
|
"step": 68500
|
|
},
|
|
{
|
|
"epoch": 1.0361973333333334,
|
|
"grad_norm": 6.420079231262207,
|
|
"learning_rate": 6.360160427807487e-06,
|
|
"loss": 0.1915,
|
|
"step": 68600
|
|
},
|
|
{
|
|
"epoch": 1.0367306666666667,
|
|
"grad_norm": 6.224587440490723,
|
|
"learning_rate": 6.3548128342245996e-06,
|
|
"loss": 0.1533,
|
|
"step": 68700
|
|
},
|
|
{
|
|
"epoch": 1.037264,
|
|
"grad_norm": 6.207516193389893,
|
|
"learning_rate": 6.349465240641711e-06,
|
|
"loss": 0.1611,
|
|
"step": 68800
|
|
},
|
|
{
|
|
"epoch": 1.0377973333333332,
|
|
"grad_norm": 2.9005069732666016,
|
|
"learning_rate": 6.344117647058824e-06,
|
|
"loss": 0.1876,
|
|
"step": 68900
|
|
},
|
|
{
|
|
"epoch": 1.0383306666666667,
|
|
"grad_norm": 4.304932117462158,
|
|
"learning_rate": 6.338770053475937e-06,
|
|
"loss": 0.1818,
|
|
"step": 69000
|
|
},
|
|
{
|
|
"epoch": 1.038864,
|
|
"grad_norm": 2.9166297912597656,
|
|
"learning_rate": 6.3334224598930485e-06,
|
|
"loss": 0.1596,
|
|
"step": 69100
|
|
},
|
|
{
|
|
"epoch": 1.0393973333333333,
|
|
"grad_norm": 5.795602321624756,
|
|
"learning_rate": 6.328074866310161e-06,
|
|
"loss": 0.1742,
|
|
"step": 69200
|
|
},
|
|
{
|
|
"epoch": 1.0399306666666668,
|
|
"grad_norm": 5.272345542907715,
|
|
"learning_rate": 6.322727272727274e-06,
|
|
"loss": 0.1685,
|
|
"step": 69300
|
|
},
|
|
{
|
|
"epoch": 1.040464,
|
|
"grad_norm": 10.112629890441895,
|
|
"learning_rate": 6.317379679144386e-06,
|
|
"loss": 0.1837,
|
|
"step": 69400
|
|
},
|
|
{
|
|
"epoch": 1.0409973333333333,
|
|
"grad_norm": 8.132367134094238,
|
|
"learning_rate": 6.312032085561498e-06,
|
|
"loss": 0.1704,
|
|
"step": 69500
|
|
},
|
|
{
|
|
"epoch": 1.0415306666666666,
|
|
"grad_norm": 6.09276819229126,
|
|
"learning_rate": 6.30668449197861e-06,
|
|
"loss": 0.1579,
|
|
"step": 69600
|
|
},
|
|
{
|
|
"epoch": 1.042064,
|
|
"grad_norm": 7.052643299102783,
|
|
"learning_rate": 6.301336898395723e-06,
|
|
"loss": 0.1686,
|
|
"step": 69700
|
|
},
|
|
{
|
|
"epoch": 1.0425973333333334,
|
|
"grad_norm": 5.686822891235352,
|
|
"learning_rate": 6.295989304812835e-06,
|
|
"loss": 0.1732,
|
|
"step": 69800
|
|
},
|
|
{
|
|
"epoch": 1.0431306666666667,
|
|
"grad_norm": 6.859396457672119,
|
|
"learning_rate": 6.290641711229946e-06,
|
|
"loss": 0.1792,
|
|
"step": 69900
|
|
},
|
|
{
|
|
"epoch": 1.043664,
|
|
"grad_norm": 12.517112731933594,
|
|
"learning_rate": 6.285347593582888e-06,
|
|
"loss": 0.1659,
|
|
"step": 70000
|
|
},
|
|
{
|
|
"epoch": 1.0441973333333334,
|
|
"grad_norm": 4.30474853515625,
|
|
"learning_rate": 6.280000000000001e-06,
|
|
"loss": 0.1685,
|
|
"step": 70100
|
|
},
|
|
{
|
|
"epoch": 1.0447306666666667,
|
|
"grad_norm": 4.921939849853516,
|
|
"learning_rate": 6.2746524064171135e-06,
|
|
"loss": 0.173,
|
|
"step": 70200
|
|
},
|
|
{
|
|
"epoch": 1.045264,
|
|
"grad_norm": 4.9057936668396,
|
|
"learning_rate": 6.2693048128342245e-06,
|
|
"loss": 0.181,
|
|
"step": 70300
|
|
},
|
|
{
|
|
"epoch": 1.0457973333333332,
|
|
"grad_norm": 4.876357555389404,
|
|
"learning_rate": 6.263957219251338e-06,
|
|
"loss": 0.1491,
|
|
"step": 70400
|
|
},
|
|
{
|
|
"epoch": 1.0463306666666667,
|
|
"grad_norm": 0.7171691656112671,
|
|
"learning_rate": 6.258609625668449e-06,
|
|
"loss": 0.1656,
|
|
"step": 70500
|
|
},
|
|
{
|
|
"epoch": 1.046864,
|
|
"grad_norm": 8.597054481506348,
|
|
"learning_rate": 6.253262032085562e-06,
|
|
"loss": 0.1877,
|
|
"step": 70600
|
|
},
|
|
{
|
|
"epoch": 1.0473973333333333,
|
|
"grad_norm": 5.971155643463135,
|
|
"learning_rate": 6.247914438502674e-06,
|
|
"loss": 0.1608,
|
|
"step": 70700
|
|
},
|
|
{
|
|
"epoch": 1.0479306666666666,
|
|
"grad_norm": 13.862071990966797,
|
|
"learning_rate": 6.242566844919786e-06,
|
|
"loss": 0.1685,
|
|
"step": 70800
|
|
},
|
|
{
|
|
"epoch": 1.048464,
|
|
"grad_norm": 15.772274017333984,
|
|
"learning_rate": 6.237219251336899e-06,
|
|
"loss": 0.167,
|
|
"step": 70900
|
|
},
|
|
{
|
|
"epoch": 1.0489973333333333,
|
|
"grad_norm": 6.1462016105651855,
|
|
"learning_rate": 6.231871657754011e-06,
|
|
"loss": 0.1749,
|
|
"step": 71000
|
|
},
|
|
{
|
|
"epoch": 1.0495306666666666,
|
|
"grad_norm": 4.6446075439453125,
|
|
"learning_rate": 6.226524064171123e-06,
|
|
"loss": 0.1782,
|
|
"step": 71100
|
|
},
|
|
{
|
|
"epoch": 1.0500639999999999,
|
|
"grad_norm": 5.1733198165893555,
|
|
"learning_rate": 6.221176470588236e-06,
|
|
"loss": 0.1685,
|
|
"step": 71200
|
|
},
|
|
{
|
|
"epoch": 1.0505973333333334,
|
|
"grad_norm": 11.278282165527344,
|
|
"learning_rate": 6.215828877005348e-06,
|
|
"loss": 0.1729,
|
|
"step": 71300
|
|
},
|
|
{
|
|
"epoch": 1.0511306666666667,
|
|
"grad_norm": 4.501044273376465,
|
|
"learning_rate": 6.21048128342246e-06,
|
|
"loss": 0.1704,
|
|
"step": 71400
|
|
},
|
|
{
|
|
"epoch": 1.051664,
|
|
"grad_norm": 6.578692436218262,
|
|
"learning_rate": 6.205133689839573e-06,
|
|
"loss": 0.1692,
|
|
"step": 71500
|
|
},
|
|
{
|
|
"epoch": 1.0521973333333334,
|
|
"grad_norm": 13.557869911193848,
|
|
"learning_rate": 6.199786096256685e-06,
|
|
"loss": 0.1761,
|
|
"step": 71600
|
|
},
|
|
{
|
|
"epoch": 1.0527306666666667,
|
|
"grad_norm": 3.7196428775787354,
|
|
"learning_rate": 6.194438502673797e-06,
|
|
"loss": 0.1797,
|
|
"step": 71700
|
|
},
|
|
{
|
|
"epoch": 1.053264,
|
|
"grad_norm": 3.521423816680908,
|
|
"learning_rate": 6.18909090909091e-06,
|
|
"loss": 0.1605,
|
|
"step": 71800
|
|
},
|
|
{
|
|
"epoch": 1.0537973333333333,
|
|
"grad_norm": 9.50042724609375,
|
|
"learning_rate": 6.183743315508022e-06,
|
|
"loss": 0.1667,
|
|
"step": 71900
|
|
},
|
|
{
|
|
"epoch": 1.0543306666666667,
|
|
"grad_norm": 6.853938579559326,
|
|
"learning_rate": 6.1783957219251345e-06,
|
|
"loss": 0.1905,
|
|
"step": 72000
|
|
},
|
|
{
|
|
"epoch": 1.0543306666666667,
|
|
"eval_test1_cer": 0.05506385839121667,
|
|
"eval_test1_cer_norm": 0.03751050495834034,
|
|
"eval_test1_loss": 0.19665080308914185,
|
|
"eval_test1_runtime": 1913.1254,
|
|
"eval_test1_samples_per_second": 1.307,
|
|
"eval_test1_steps_per_second": 0.327,
|
|
"eval_test1_wer": 0.155835447097583,
|
|
"eval_test1_wer_norm": 0.09503492211929045,
|
|
"step": 72000
|
|
},
|
|
{
|
|
"epoch": 1.0543306666666667,
|
|
"eval_test2_cer": 0.11136932093926158,
|
|
"eval_test2_cer_norm": 0.08492310969941122,
|
|
"eval_test2_loss": 0.33756396174430847,
|
|
"eval_test2_runtime": 1974.1509,
|
|
"eval_test2_samples_per_second": 1.266,
|
|
"eval_test2_steps_per_second": 0.317,
|
|
"eval_test2_wer": 0.23434996566720073,
|
|
"eval_test2_wer_norm": 0.16671441668576667,
|
|
"step": 72000
|
|
},
|
|
{
|
|
"epoch": 1.054864,
|
|
"grad_norm": 18.085174560546875,
|
|
"learning_rate": 6.173048128342246e-06,
|
|
"loss": 0.1689,
|
|
"step": 72100
|
|
},
|
|
{
|
|
"epoch": 1.0553973333333333,
|
|
"grad_norm": 7.237306594848633,
|
|
"learning_rate": 6.167700534759359e-06,
|
|
"loss": 0.1581,
|
|
"step": 72200
|
|
},
|
|
{
|
|
"epoch": 1.0559306666666666,
|
|
"grad_norm": 7.642820835113525,
|
|
"learning_rate": 6.162352941176472e-06,
|
|
"loss": 0.1787,
|
|
"step": 72300
|
|
},
|
|
{
|
|
"epoch": 1.056464,
|
|
"grad_norm": 7.688032150268555,
|
|
"learning_rate": 6.1570053475935834e-06,
|
|
"loss": 0.143,
|
|
"step": 72400
|
|
},
|
|
{
|
|
"epoch": 1.0569973333333333,
|
|
"grad_norm": 3.176499366760254,
|
|
"learning_rate": 6.151657754010696e-06,
|
|
"loss": 0.1741,
|
|
"step": 72500
|
|
},
|
|
{
|
|
"epoch": 1.0575306666666666,
|
|
"grad_norm": 5.119462013244629,
|
|
"learning_rate": 6.146310160427808e-06,
|
|
"loss": 0.1696,
|
|
"step": 72600
|
|
},
|
|
{
|
|
"epoch": 1.058064,
|
|
"grad_norm": 2.0155978202819824,
|
|
"learning_rate": 6.14101604278075e-06,
|
|
"loss": 0.1723,
|
|
"step": 72700
|
|
},
|
|
{
|
|
"epoch": 1.0585973333333334,
|
|
"grad_norm": 5.0914130210876465,
|
|
"learning_rate": 6.135668449197862e-06,
|
|
"loss": 0.1703,
|
|
"step": 72800
|
|
},
|
|
{
|
|
"epoch": 1.0591306666666667,
|
|
"grad_norm": 4.7342753410339355,
|
|
"learning_rate": 6.130320855614974e-06,
|
|
"loss": 0.1632,
|
|
"step": 72900
|
|
},
|
|
{
|
|
"epoch": 1.059664,
|
|
"grad_norm": 4.886206150054932,
|
|
"learning_rate": 6.124973262032086e-06,
|
|
"loss": 0.1703,
|
|
"step": 73000
|
|
},
|
|
{
|
|
"epoch": 1.0601973333333334,
|
|
"grad_norm": 5.850493431091309,
|
|
"learning_rate": 6.119625668449199e-06,
|
|
"loss": 0.1765,
|
|
"step": 73100
|
|
},
|
|
{
|
|
"epoch": 1.0607306666666667,
|
|
"grad_norm": 2.968691825866699,
|
|
"learning_rate": 6.114278074866311e-06,
|
|
"loss": 0.1684,
|
|
"step": 73200
|
|
},
|
|
{
|
|
"epoch": 1.061264,
|
|
"grad_norm": 5.920744895935059,
|
|
"learning_rate": 6.108930481283422e-06,
|
|
"loss": 0.1657,
|
|
"step": 73300
|
|
},
|
|
{
|
|
"epoch": 1.0617973333333333,
|
|
"grad_norm": 4.3772873878479,
|
|
"learning_rate": 6.103582887700536e-06,
|
|
"loss": 0.1638,
|
|
"step": 73400
|
|
},
|
|
{
|
|
"epoch": 1.0623306666666668,
|
|
"grad_norm": 4.621192455291748,
|
|
"learning_rate": 6.098235294117647e-06,
|
|
"loss": 0.1567,
|
|
"step": 73500
|
|
},
|
|
{
|
|
"epoch": 1.062864,
|
|
"grad_norm": 3.081610918045044,
|
|
"learning_rate": 6.092887700534759e-06,
|
|
"loss": 0.1481,
|
|
"step": 73600
|
|
},
|
|
{
|
|
"epoch": 1.0633973333333333,
|
|
"grad_norm": 7.522069454193115,
|
|
"learning_rate": 6.087540106951872e-06,
|
|
"loss": 0.1709,
|
|
"step": 73700
|
|
},
|
|
{
|
|
"epoch": 1.0639306666666666,
|
|
"grad_norm": 10.748175621032715,
|
|
"learning_rate": 6.082192513368984e-06,
|
|
"loss": 0.1613,
|
|
"step": 73800
|
|
},
|
|
{
|
|
"epoch": 1.064464,
|
|
"grad_norm": 1.0733730792999268,
|
|
"learning_rate": 6.0768449197860965e-06,
|
|
"loss": 0.1659,
|
|
"step": 73900
|
|
},
|
|
{
|
|
"epoch": 1.0649973333333334,
|
|
"grad_norm": 16.084978103637695,
|
|
"learning_rate": 6.071497326203209e-06,
|
|
"loss": 0.1578,
|
|
"step": 74000
|
|
},
|
|
{
|
|
"epoch": 1.0655306666666666,
|
|
"grad_norm": 6.435259819030762,
|
|
"learning_rate": 6.066149732620321e-06,
|
|
"loss": 0.158,
|
|
"step": 74100
|
|
},
|
|
{
|
|
"epoch": 1.066064,
|
|
"grad_norm": 7.779673099517822,
|
|
"learning_rate": 6.060802139037434e-06,
|
|
"loss": 0.1695,
|
|
"step": 74200
|
|
},
|
|
{
|
|
"epoch": 1.0665973333333334,
|
|
"grad_norm": 5.419847011566162,
|
|
"learning_rate": 6.0554545454545455e-06,
|
|
"loss": 0.1509,
|
|
"step": 74300
|
|
},
|
|
{
|
|
"epoch": 1.0671306666666667,
|
|
"grad_norm": 6.55660343170166,
|
|
"learning_rate": 6.050106951871658e-06,
|
|
"loss": 0.1634,
|
|
"step": 74400
|
|
},
|
|
{
|
|
"epoch": 1.067664,
|
|
"grad_norm": 6.30554723739624,
|
|
"learning_rate": 6.044759358288771e-06,
|
|
"loss": 0.1649,
|
|
"step": 74500
|
|
},
|
|
{
|
|
"epoch": 1.0681973333333334,
|
|
"grad_norm": 4.373483657836914,
|
|
"learning_rate": 6.0394117647058826e-06,
|
|
"loss": 0.1726,
|
|
"step": 74600
|
|
},
|
|
{
|
|
"epoch": 1.0687306666666667,
|
|
"grad_norm": 4.948339462280273,
|
|
"learning_rate": 6.034064171122995e-06,
|
|
"loss": 0.1643,
|
|
"step": 74700
|
|
},
|
|
{
|
|
"epoch": 1.069264,
|
|
"grad_norm": 4.757360458374023,
|
|
"learning_rate": 6.028716577540108e-06,
|
|
"loss": 0.1619,
|
|
"step": 74800
|
|
},
|
|
{
|
|
"epoch": 1.0697973333333333,
|
|
"grad_norm": 6.871695518493652,
|
|
"learning_rate": 6.02336898395722e-06,
|
|
"loss": 0.1627,
|
|
"step": 74900
|
|
},
|
|
{
|
|
"epoch": 1.0703306666666668,
|
|
"grad_norm": 6.932568073272705,
|
|
"learning_rate": 6.018021390374332e-06,
|
|
"loss": 0.1844,
|
|
"step": 75000
|
|
},
|
|
{
|
|
"epoch": 1.070864,
|
|
"grad_norm": 9.405072212219238,
|
|
"learning_rate": 6.012727272727273e-06,
|
|
"loss": 0.1568,
|
|
"step": 75100
|
|
},
|
|
{
|
|
"epoch": 1.0713973333333333,
|
|
"grad_norm": 4.448215961456299,
|
|
"learning_rate": 6.007379679144385e-06,
|
|
"loss": 0.1691,
|
|
"step": 75200
|
|
},
|
|
{
|
|
"epoch": 1.0719306666666666,
|
|
"grad_norm": 8.613408088684082,
|
|
"learning_rate": 6.002032085561498e-06,
|
|
"loss": 0.1648,
|
|
"step": 75300
|
|
},
|
|
{
|
|
"epoch": 1.072464,
|
|
"grad_norm": 2.5020225048065186,
|
|
"learning_rate": 5.9966844919786105e-06,
|
|
"loss": 0.1619,
|
|
"step": 75400
|
|
},
|
|
{
|
|
"epoch": 1.0729973333333334,
|
|
"grad_norm": 3.2884554862976074,
|
|
"learning_rate": 5.991336898395722e-06,
|
|
"loss": 0.1697,
|
|
"step": 75500
|
|
},
|
|
{
|
|
"epoch": 1.0735306666666666,
|
|
"grad_norm": 12.251060485839844,
|
|
"learning_rate": 5.985989304812835e-06,
|
|
"loss": 0.1442,
|
|
"step": 75600
|
|
},
|
|
{
|
|
"epoch": 1.074064,
|
|
"grad_norm": 4.120378494262695,
|
|
"learning_rate": 5.980641711229948e-06,
|
|
"loss": 0.1537,
|
|
"step": 75700
|
|
},
|
|
{
|
|
"epoch": 1.0745973333333334,
|
|
"grad_norm": 4.801280498504639,
|
|
"learning_rate": 5.975294117647059e-06,
|
|
"loss": 0.1782,
|
|
"step": 75800
|
|
},
|
|
{
|
|
"epoch": 1.0751306666666667,
|
|
"grad_norm": 10.266385078430176,
|
|
"learning_rate": 5.969946524064172e-06,
|
|
"loss": 0.1684,
|
|
"step": 75900
|
|
},
|
|
{
|
|
"epoch": 1.075664,
|
|
"grad_norm": 3.69321346282959,
|
|
"learning_rate": 5.964598930481284e-06,
|
|
"loss": 0.1675,
|
|
"step": 76000
|
|
},
|
|
{
|
|
"epoch": 1.0761973333333335,
|
|
"grad_norm": 4.796375274658203,
|
|
"learning_rate": 5.9592513368983965e-06,
|
|
"loss": 0.139,
|
|
"step": 76100
|
|
},
|
|
{
|
|
"epoch": 1.0767306666666667,
|
|
"grad_norm": 4.809170246124268,
|
|
"learning_rate": 5.953903743315509e-06,
|
|
"loss": 0.1731,
|
|
"step": 76200
|
|
},
|
|
{
|
|
"epoch": 1.077264,
|
|
"grad_norm": 13.710062980651855,
|
|
"learning_rate": 5.94855614973262e-06,
|
|
"loss": 0.1736,
|
|
"step": 76300
|
|
},
|
|
{
|
|
"epoch": 1.0777973333333333,
|
|
"grad_norm": 2.9642364978790283,
|
|
"learning_rate": 5.943208556149734e-06,
|
|
"loss": 0.1726,
|
|
"step": 76400
|
|
},
|
|
{
|
|
"epoch": 1.0783306666666668,
|
|
"grad_norm": 3.6394166946411133,
|
|
"learning_rate": 5.937860962566845e-06,
|
|
"loss": 0.1661,
|
|
"step": 76500
|
|
},
|
|
{
|
|
"epoch": 1.078864,
|
|
"grad_norm": 3.411573648452759,
|
|
"learning_rate": 5.932513368983957e-06,
|
|
"loss": 0.1423,
|
|
"step": 76600
|
|
},
|
|
{
|
|
"epoch": 1.0793973333333333,
|
|
"grad_norm": 3.2618765830993652,
|
|
"learning_rate": 5.92716577540107e-06,
|
|
"loss": 0.1668,
|
|
"step": 76700
|
|
},
|
|
{
|
|
"epoch": 1.0799306666666666,
|
|
"grad_norm": 5.8128342628479,
|
|
"learning_rate": 5.921818181818182e-06,
|
|
"loss": 0.1615,
|
|
"step": 76800
|
|
},
|
|
{
|
|
"epoch": 1.080464,
|
|
"grad_norm": 5.543856143951416,
|
|
"learning_rate": 5.916470588235294e-06,
|
|
"loss": 0.147,
|
|
"step": 76900
|
|
},
|
|
{
|
|
"epoch": 1.0809973333333334,
|
|
"grad_norm": 1.566781759262085,
|
|
"learning_rate": 5.911122994652407e-06,
|
|
"loss": 0.1431,
|
|
"step": 77000
|
|
},
|
|
{
|
|
"epoch": 1.0815306666666666,
|
|
"grad_norm": 10.594528198242188,
|
|
"learning_rate": 5.905775401069519e-06,
|
|
"loss": 0.1791,
|
|
"step": 77100
|
|
},
|
|
{
|
|
"epoch": 1.082064,
|
|
"grad_norm": 5.833106517791748,
|
|
"learning_rate": 5.9004278074866315e-06,
|
|
"loss": 0.1615,
|
|
"step": 77200
|
|
},
|
|
{
|
|
"epoch": 1.0825973333333334,
|
|
"grad_norm": 1.5213392972946167,
|
|
"learning_rate": 5.895080213903743e-06,
|
|
"loss": 0.1774,
|
|
"step": 77300
|
|
},
|
|
{
|
|
"epoch": 1.0831306666666667,
|
|
"grad_norm": 14.895548820495605,
|
|
"learning_rate": 5.889732620320856e-06,
|
|
"loss": 0.1502,
|
|
"step": 77400
|
|
},
|
|
{
|
|
"epoch": 1.083664,
|
|
"grad_norm": 4.457591533660889,
|
|
"learning_rate": 5.884385026737969e-06,
|
|
"loss": 0.156,
|
|
"step": 77500
|
|
},
|
|
{
|
|
"epoch": 1.0841973333333332,
|
|
"grad_norm": 4.563498020172119,
|
|
"learning_rate": 5.87903743315508e-06,
|
|
"loss": 0.1555,
|
|
"step": 77600
|
|
},
|
|
{
|
|
"epoch": 1.0847306666666667,
|
|
"grad_norm": 4.014594554901123,
|
|
"learning_rate": 5.873689839572193e-06,
|
|
"loss": 0.1459,
|
|
"step": 77700
|
|
},
|
|
{
|
|
"epoch": 1.085264,
|
|
"grad_norm": 11.847341537475586,
|
|
"learning_rate": 5.868342245989306e-06,
|
|
"loss": 0.1493,
|
|
"step": 77800
|
|
},
|
|
{
|
|
"epoch": 1.0857973333333333,
|
|
"grad_norm": 7.746066093444824,
|
|
"learning_rate": 5.8629946524064175e-06,
|
|
"loss": 0.1491,
|
|
"step": 77900
|
|
},
|
|
{
|
|
"epoch": 1.0863306666666666,
|
|
"grad_norm": 3.1629085540771484,
|
|
"learning_rate": 5.85764705882353e-06,
|
|
"loss": 0.1557,
|
|
"step": 78000
|
|
},
|
|
{
|
|
"epoch": 1.086864,
|
|
"grad_norm": 5.428091049194336,
|
|
"learning_rate": 5.852299465240642e-06,
|
|
"loss": 0.1586,
|
|
"step": 78100
|
|
},
|
|
{
|
|
"epoch": 1.0873973333333333,
|
|
"grad_norm": 4.486416339874268,
|
|
"learning_rate": 5.846951871657755e-06,
|
|
"loss": 0.1601,
|
|
"step": 78200
|
|
},
|
|
{
|
|
"epoch": 1.0879306666666666,
|
|
"grad_norm": 8.020925521850586,
|
|
"learning_rate": 5.841604278074867e-06,
|
|
"loss": 0.1741,
|
|
"step": 78300
|
|
},
|
|
{
|
|
"epoch": 1.088464,
|
|
"grad_norm": 5.805937767028809,
|
|
"learning_rate": 5.836256684491979e-06,
|
|
"loss": 0.1553,
|
|
"step": 78400
|
|
},
|
|
{
|
|
"epoch": 1.0889973333333334,
|
|
"grad_norm": 5.283725261688232,
|
|
"learning_rate": 5.830909090909092e-06,
|
|
"loss": 0.1617,
|
|
"step": 78500
|
|
},
|
|
{
|
|
"epoch": 1.0895306666666666,
|
|
"grad_norm": 4.392330169677734,
|
|
"learning_rate": 5.825561497326203e-06,
|
|
"loss": 0.153,
|
|
"step": 78600
|
|
},
|
|
{
|
|
"epoch": 1.090064,
|
|
"grad_norm": 2.2509894371032715,
|
|
"learning_rate": 5.820213903743316e-06,
|
|
"loss": 0.1506,
|
|
"step": 78700
|
|
},
|
|
{
|
|
"epoch": 1.0905973333333334,
|
|
"grad_norm": 4.042706489562988,
|
|
"learning_rate": 5.814866310160429e-06,
|
|
"loss": 0.1624,
|
|
"step": 78800
|
|
},
|
|
{
|
|
"epoch": 1.0911306666666667,
|
|
"grad_norm": 9.516753196716309,
|
|
"learning_rate": 5.80951871657754e-06,
|
|
"loss": 0.1529,
|
|
"step": 78900
|
|
},
|
|
{
|
|
"epoch": 1.091664,
|
|
"grad_norm": 2.703686475753784,
|
|
"learning_rate": 5.8041711229946525e-06,
|
|
"loss": 0.1634,
|
|
"step": 79000
|
|
},
|
|
{
|
|
"epoch": 1.0921973333333332,
|
|
"grad_norm": 5.896278381347656,
|
|
"learning_rate": 5.798823529411766e-06,
|
|
"loss": 0.173,
|
|
"step": 79100
|
|
},
|
|
{
|
|
"epoch": 1.0927306666666667,
|
|
"grad_norm": 5.982407093048096,
|
|
"learning_rate": 5.793475935828877e-06,
|
|
"loss": 0.1511,
|
|
"step": 79200
|
|
},
|
|
{
|
|
"epoch": 1.093264,
|
|
"grad_norm": 3.1643097400665283,
|
|
"learning_rate": 5.788181818181818e-06,
|
|
"loss": 0.1558,
|
|
"step": 79300
|
|
},
|
|
{
|
|
"epoch": 1.0937973333333333,
|
|
"grad_norm": 10.075718879699707,
|
|
"learning_rate": 5.7828342245989315e-06,
|
|
"loss": 0.1679,
|
|
"step": 79400
|
|
},
|
|
{
|
|
"epoch": 1.0943306666666666,
|
|
"grad_norm": 3.450530767440796,
|
|
"learning_rate": 5.777486631016044e-06,
|
|
"loss": 0.1529,
|
|
"step": 79500
|
|
},
|
|
{
|
|
"epoch": 1.094864,
|
|
"grad_norm": 4.166381359100342,
|
|
"learning_rate": 5.772139037433155e-06,
|
|
"loss": 0.1554,
|
|
"step": 79600
|
|
},
|
|
{
|
|
"epoch": 1.0953973333333333,
|
|
"grad_norm": 7.432328701019287,
|
|
"learning_rate": 5.766791443850268e-06,
|
|
"loss": 0.1741,
|
|
"step": 79700
|
|
},
|
|
{
|
|
"epoch": 1.0959306666666666,
|
|
"grad_norm": 6.161530017852783,
|
|
"learning_rate": 5.7614438502673796e-06,
|
|
"loss": 0.1675,
|
|
"step": 79800
|
|
},
|
|
{
|
|
"epoch": 1.096464,
|
|
"grad_norm": 15.867928504943848,
|
|
"learning_rate": 5.756096256684492e-06,
|
|
"loss": 0.151,
|
|
"step": 79900
|
|
},
|
|
{
|
|
"epoch": 1.0969973333333334,
|
|
"grad_norm": 5.0718770027160645,
|
|
"learning_rate": 5.750748663101605e-06,
|
|
"loss": 0.1451,
|
|
"step": 80000
|
|
},
|
|
{
|
|
"epoch": 1.0975306666666667,
|
|
"grad_norm": 5.595295429229736,
|
|
"learning_rate": 5.745401069518717e-06,
|
|
"loss": 0.1392,
|
|
"step": 80100
|
|
},
|
|
{
|
|
"epoch": 1.098064,
|
|
"grad_norm": 5.558518409729004,
|
|
"learning_rate": 5.740106951871658e-06,
|
|
"loss": 0.1413,
|
|
"step": 80200
|
|
},
|
|
{
|
|
"epoch": 1.0985973333333334,
|
|
"grad_norm": 6.6420392990112305,
|
|
"learning_rate": 5.73475935828877e-06,
|
|
"loss": 0.165,
|
|
"step": 80300
|
|
},
|
|
{
|
|
"epoch": 1.0991306666666667,
|
|
"grad_norm": 3.0524938106536865,
|
|
"learning_rate": 5.729411764705883e-06,
|
|
"loss": 0.1645,
|
|
"step": 80400
|
|
},
|
|
{
|
|
"epoch": 1.099664,
|
|
"grad_norm": 4.812023639678955,
|
|
"learning_rate": 5.724064171122995e-06,
|
|
"loss": 0.1496,
|
|
"step": 80500
|
|
},
|
|
{
|
|
"epoch": 1.1001973333333332,
|
|
"grad_norm": 2.8649067878723145,
|
|
"learning_rate": 5.7187165775401075e-06,
|
|
"loss": 0.1416,
|
|
"step": 80600
|
|
},
|
|
{
|
|
"epoch": 1.1007306666666667,
|
|
"grad_norm": 5.3140130043029785,
|
|
"learning_rate": 5.713368983957219e-06,
|
|
"loss": 0.1501,
|
|
"step": 80700
|
|
},
|
|
{
|
|
"epoch": 1.101264,
|
|
"grad_norm": 7.904541492462158,
|
|
"learning_rate": 5.708021390374332e-06,
|
|
"loss": 0.146,
|
|
"step": 80800
|
|
},
|
|
{
|
|
"epoch": 1.1017973333333333,
|
|
"grad_norm": 4.964197158813477,
|
|
"learning_rate": 5.702673796791445e-06,
|
|
"loss": 0.1573,
|
|
"step": 80900
|
|
},
|
|
{
|
|
"epoch": 1.1023306666666666,
|
|
"grad_norm": 6.015676498413086,
|
|
"learning_rate": 5.697326203208556e-06,
|
|
"loss": 0.1418,
|
|
"step": 81000
|
|
},
|
|
{
|
|
"epoch": 1.102864,
|
|
"grad_norm": 5.729245185852051,
|
|
"learning_rate": 5.691978609625669e-06,
|
|
"loss": 0.1635,
|
|
"step": 81100
|
|
},
|
|
{
|
|
"epoch": 1.1033973333333333,
|
|
"grad_norm": 4.860830783843994,
|
|
"learning_rate": 5.686631016042781e-06,
|
|
"loss": 0.1568,
|
|
"step": 81200
|
|
},
|
|
{
|
|
"epoch": 1.1039306666666666,
|
|
"grad_norm": 4.703693866729736,
|
|
"learning_rate": 5.6812834224598935e-06,
|
|
"loss": 0.1541,
|
|
"step": 81300
|
|
},
|
|
{
|
|
"epoch": 1.1044640000000001,
|
|
"grad_norm": 6.809398174285889,
|
|
"learning_rate": 5.675935828877006e-06,
|
|
"loss": 0.1594,
|
|
"step": 81400
|
|
},
|
|
{
|
|
"epoch": 1.1049973333333334,
|
|
"grad_norm": 4.561946392059326,
|
|
"learning_rate": 5.670588235294118e-06,
|
|
"loss": 0.1584,
|
|
"step": 81500
|
|
},
|
|
{
|
|
"epoch": 1.1055306666666667,
|
|
"grad_norm": 2.569387197494507,
|
|
"learning_rate": 5.665240641711231e-06,
|
|
"loss": 0.1505,
|
|
"step": 81600
|
|
},
|
|
{
|
|
"epoch": 1.106064,
|
|
"grad_norm": 6.170706272125244,
|
|
"learning_rate": 5.659893048128343e-06,
|
|
"loss": 0.1533,
|
|
"step": 81700
|
|
},
|
|
{
|
|
"epoch": 1.1065973333333334,
|
|
"grad_norm": 5.539713382720947,
|
|
"learning_rate": 5.654545454545455e-06,
|
|
"loss": 0.1582,
|
|
"step": 81800
|
|
},
|
|
{
|
|
"epoch": 1.1071306666666667,
|
|
"grad_norm": 7.629022598266602,
|
|
"learning_rate": 5.649197860962568e-06,
|
|
"loss": 0.1573,
|
|
"step": 81900
|
|
},
|
|
{
|
|
"epoch": 1.107664,
|
|
"grad_norm": 9.117705345153809,
|
|
"learning_rate": 5.643850267379679e-06,
|
|
"loss": 0.1523,
|
|
"step": 82000
|
|
},
|
|
{
|
|
"epoch": 1.1081973333333333,
|
|
"grad_norm": 6.6390461921691895,
|
|
"learning_rate": 5.638502673796792e-06,
|
|
"loss": 0.161,
|
|
"step": 82100
|
|
},
|
|
{
|
|
"epoch": 1.1087306666666668,
|
|
"grad_norm": 4.19552755355835,
|
|
"learning_rate": 5.633155080213905e-06,
|
|
"loss": 0.1535,
|
|
"step": 82200
|
|
},
|
|
{
|
|
"epoch": 1.109264,
|
|
"grad_norm": 2.929837465286255,
|
|
"learning_rate": 5.627807486631016e-06,
|
|
"loss": 0.1554,
|
|
"step": 82300
|
|
},
|
|
{
|
|
"epoch": 1.1097973333333333,
|
|
"grad_norm": 3.6588587760925293,
|
|
"learning_rate": 5.622459893048129e-06,
|
|
"loss": 0.1473,
|
|
"step": 82400
|
|
},
|
|
{
|
|
"epoch": 1.1103306666666666,
|
|
"grad_norm": 8.284588813781738,
|
|
"learning_rate": 5.617112299465242e-06,
|
|
"loss": 0.1538,
|
|
"step": 82500
|
|
},
|
|
{
|
|
"epoch": 1.110864,
|
|
"grad_norm": 7.380801677703857,
|
|
"learning_rate": 5.611764705882353e-06,
|
|
"loss": 0.1619,
|
|
"step": 82600
|
|
},
|
|
{
|
|
"epoch": 1.1113973333333333,
|
|
"grad_norm": 3.2879726886749268,
|
|
"learning_rate": 5.606417112299466e-06,
|
|
"loss": 0.1322,
|
|
"step": 82700
|
|
},
|
|
{
|
|
"epoch": 1.1119306666666666,
|
|
"grad_norm": 5.414794921875,
|
|
"learning_rate": 5.601069518716577e-06,
|
|
"loss": 0.1707,
|
|
"step": 82800
|
|
},
|
|
{
|
|
"epoch": 1.112464,
|
|
"grad_norm": 6.273069381713867,
|
|
"learning_rate": 5.59572192513369e-06,
|
|
"loss": 0.141,
|
|
"step": 82900
|
|
},
|
|
{
|
|
"epoch": 1.1129973333333334,
|
|
"grad_norm": 7.463016033172607,
|
|
"learning_rate": 5.590374331550803e-06,
|
|
"loss": 0.1612,
|
|
"step": 83000
|
|
},
|
|
{
|
|
"epoch": 1.1135306666666667,
|
|
"grad_norm": 7.93972110748291,
|
|
"learning_rate": 5.5850267379679145e-06,
|
|
"loss": 0.161,
|
|
"step": 83100
|
|
},
|
|
{
|
|
"epoch": 1.114064,
|
|
"grad_norm": 6.828721523284912,
|
|
"learning_rate": 5.579679144385027e-06,
|
|
"loss": 0.1572,
|
|
"step": 83200
|
|
},
|
|
{
|
|
"epoch": 1.1145973333333332,
|
|
"grad_norm": 6.53476619720459,
|
|
"learning_rate": 5.574331550802139e-06,
|
|
"loss": 0.159,
|
|
"step": 83300
|
|
},
|
|
{
|
|
"epoch": 1.1151306666666667,
|
|
"grad_norm": 6.319201946258545,
|
|
"learning_rate": 5.568983957219252e-06,
|
|
"loss": 0.149,
|
|
"step": 83400
|
|
},
|
|
{
|
|
"epoch": 1.115664,
|
|
"grad_norm": 5.9614176750183105,
|
|
"learning_rate": 5.563636363636364e-06,
|
|
"loss": 0.1532,
|
|
"step": 83500
|
|
},
|
|
{
|
|
"epoch": 1.1161973333333333,
|
|
"grad_norm": 4.077332019805908,
|
|
"learning_rate": 5.558288770053476e-06,
|
|
"loss": 0.1417,
|
|
"step": 83600
|
|
},
|
|
{
|
|
"epoch": 1.1167306666666668,
|
|
"grad_norm": 2.315136432647705,
|
|
"learning_rate": 5.552941176470589e-06,
|
|
"loss": 0.1607,
|
|
"step": 83700
|
|
},
|
|
{
|
|
"epoch": 1.117264,
|
|
"grad_norm": 5.843647003173828,
|
|
"learning_rate": 5.547593582887701e-06,
|
|
"loss": 0.137,
|
|
"step": 83800
|
|
},
|
|
{
|
|
"epoch": 1.1177973333333333,
|
|
"grad_norm": 5.98655366897583,
|
|
"learning_rate": 5.542245989304813e-06,
|
|
"loss": 0.163,
|
|
"step": 83900
|
|
},
|
|
{
|
|
"epoch": 1.1183306666666666,
|
|
"grad_norm": 3.8818185329437256,
|
|
"learning_rate": 5.536898395721926e-06,
|
|
"loss": 0.1249,
|
|
"step": 84000
|
|
},
|
|
{
|
|
"epoch": 1.1183306666666666,
|
|
"eval_test1_cer": 0.048444618716857124,
|
|
"eval_test1_cer_norm": 0.033116430955410954,
|
|
"eval_test1_loss": 0.1987341046333313,
|
|
"eval_test1_runtime": 2124.9461,
|
|
"eval_test1_samples_per_second": 1.177,
|
|
"eval_test1_steps_per_second": 0.294,
|
|
"eval_test1_wer": 0.14729292399195312,
|
|
"eval_test1_wer_norm": 0.08699845115286829,
|
|
"step": 84000
|
|
},
|
|
{
|
|
"epoch": 1.1183306666666666,
|
|
"eval_test2_cer": 0.09303020121700825,
|
|
"eval_test2_cer_norm": 0.07234370158041524,
|
|
"eval_test2_loss": 0.3435490131378174,
|
|
"eval_test2_runtime": 2145.6131,
|
|
"eval_test2_samples_per_second": 1.165,
|
|
"eval_test2_steps_per_second": 0.291,
|
|
"eval_test2_wer": 0.212949187457084,
|
|
"eval_test2_wer_norm": 0.14697455878982352,
|
|
"step": 84000
|
|
},
|
|
{
|
|
"epoch": 1.118864,
|
|
"grad_norm": 40.67521667480469,
|
|
"learning_rate": 5.531550802139038e-06,
|
|
"loss": 0.1651,
|
|
"step": 84100
|
|
},
|
|
{
|
|
"epoch": 1.1193973333333334,
|
|
"grad_norm": 5.205287456512451,
|
|
"learning_rate": 5.52620320855615e-06,
|
|
"loss": 0.1524,
|
|
"step": 84200
|
|
},
|
|
{
|
|
"epoch": 1.1199306666666666,
|
|
"grad_norm": 6.6449103355407715,
|
|
"learning_rate": 5.520909090909091e-06,
|
|
"loss": 0.1564,
|
|
"step": 84300
|
|
},
|
|
{
|
|
"epoch": 1.120464,
|
|
"grad_norm": 9.717949867248535,
|
|
"learning_rate": 5.515561497326204e-06,
|
|
"loss": 0.1533,
|
|
"step": 84400
|
|
},
|
|
{
|
|
"epoch": 1.1209973333333334,
|
|
"grad_norm": 3.964747428894043,
|
|
"learning_rate": 5.510213903743316e-06,
|
|
"loss": 0.143,
|
|
"step": 84500
|
|
},
|
|
{
|
|
"epoch": 1.1215306666666667,
|
|
"grad_norm": 3.801544427871704,
|
|
"learning_rate": 5.5048663101604285e-06,
|
|
"loss": 0.1587,
|
|
"step": 84600
|
|
},
|
|
{
|
|
"epoch": 1.122064,
|
|
"grad_norm": 4.241644859313965,
|
|
"learning_rate": 5.499518716577541e-06,
|
|
"loss": 0.1569,
|
|
"step": 84700
|
|
},
|
|
{
|
|
"epoch": 1.1225973333333332,
|
|
"grad_norm": 4.932116985321045,
|
|
"learning_rate": 5.494171122994653e-06,
|
|
"loss": 0.1434,
|
|
"step": 84800
|
|
},
|
|
{
|
|
"epoch": 1.1231306666666667,
|
|
"grad_norm": 10.861743927001953,
|
|
"learning_rate": 5.4888235294117656e-06,
|
|
"loss": 0.1504,
|
|
"step": 84900
|
|
},
|
|
{
|
|
"epoch": 1.123664,
|
|
"grad_norm": 5.011098861694336,
|
|
"learning_rate": 5.4834759358288765e-06,
|
|
"loss": 0.1676,
|
|
"step": 85000
|
|
},
|
|
{
|
|
"epoch": 1.1241973333333333,
|
|
"grad_norm": 3.0942485332489014,
|
|
"learning_rate": 5.47812834224599e-06,
|
|
"loss": 0.1473,
|
|
"step": 85100
|
|
},
|
|
{
|
|
"epoch": 1.1247306666666668,
|
|
"grad_norm": 5.231477737426758,
|
|
"learning_rate": 5.472780748663103e-06,
|
|
"loss": 0.1483,
|
|
"step": 85200
|
|
},
|
|
{
|
|
"epoch": 1.125264,
|
|
"grad_norm": 4.106387138366699,
|
|
"learning_rate": 5.467433155080214e-06,
|
|
"loss": 0.1334,
|
|
"step": 85300
|
|
},
|
|
{
|
|
"epoch": 1.1257973333333333,
|
|
"grad_norm": 4.477576732635498,
|
|
"learning_rate": 5.462085561497326e-06,
|
|
"loss": 0.1467,
|
|
"step": 85400
|
|
},
|
|
{
|
|
"epoch": 1.1263306666666666,
|
|
"grad_norm": 5.523581027984619,
|
|
"learning_rate": 5.45673796791444e-06,
|
|
"loss": 0.1383,
|
|
"step": 85500
|
|
},
|
|
{
|
|
"epoch": 1.126864,
|
|
"grad_norm": 5.863260746002197,
|
|
"learning_rate": 5.451390374331551e-06,
|
|
"loss": 0.1697,
|
|
"step": 85600
|
|
},
|
|
{
|
|
"epoch": 1.1273973333333334,
|
|
"grad_norm": 9.997591972351074,
|
|
"learning_rate": 5.446042780748663e-06,
|
|
"loss": 0.1481,
|
|
"step": 85700
|
|
},
|
|
{
|
|
"epoch": 1.1279306666666666,
|
|
"grad_norm": 3.379844903945923,
|
|
"learning_rate": 5.440695187165775e-06,
|
|
"loss": 0.1637,
|
|
"step": 85800
|
|
},
|
|
{
|
|
"epoch": 1.128464,
|
|
"grad_norm": 9.490504264831543,
|
|
"learning_rate": 5.435347593582888e-06,
|
|
"loss": 0.1529,
|
|
"step": 85900
|
|
},
|
|
{
|
|
"epoch": 1.1289973333333334,
|
|
"grad_norm": 4.500365734100342,
|
|
"learning_rate": 5.4300000000000005e-06,
|
|
"loss": 0.1552,
|
|
"step": 86000
|
|
},
|
|
{
|
|
"epoch": 1.1295306666666667,
|
|
"grad_norm": 3.6494979858398438,
|
|
"learning_rate": 5.424652406417112e-06,
|
|
"loss": 0.1405,
|
|
"step": 86100
|
|
},
|
|
{
|
|
"epoch": 1.130064,
|
|
"grad_norm": 2.615013837814331,
|
|
"learning_rate": 5.419304812834225e-06,
|
|
"loss": 0.1467,
|
|
"step": 86200
|
|
},
|
|
{
|
|
"epoch": 1.1305973333333332,
|
|
"grad_norm": 5.893428325653076,
|
|
"learning_rate": 5.413957219251338e-06,
|
|
"loss": 0.1409,
|
|
"step": 86300
|
|
},
|
|
{
|
|
"epoch": 1.1311306666666667,
|
|
"grad_norm": 4.639662742614746,
|
|
"learning_rate": 5.4086096256684494e-06,
|
|
"loss": 0.149,
|
|
"step": 86400
|
|
},
|
|
{
|
|
"epoch": 1.131664,
|
|
"grad_norm": 10.171916007995605,
|
|
"learning_rate": 5.403262032085562e-06,
|
|
"loss": 0.1539,
|
|
"step": 86500
|
|
},
|
|
{
|
|
"epoch": 1.1321973333333333,
|
|
"grad_norm": 3.7675387859344482,
|
|
"learning_rate": 5.397914438502674e-06,
|
|
"loss": 0.1539,
|
|
"step": 86600
|
|
},
|
|
{
|
|
"epoch": 1.1327306666666668,
|
|
"grad_norm": 2.8298020362854004,
|
|
"learning_rate": 5.3925668449197866e-06,
|
|
"loss": 0.1484,
|
|
"step": 86700
|
|
},
|
|
{
|
|
"epoch": 1.133264,
|
|
"grad_norm": 7.889842987060547,
|
|
"learning_rate": 5.387272727272728e-06,
|
|
"loss": 0.1477,
|
|
"step": 86800
|
|
},
|
|
{
|
|
"epoch": 1.1337973333333333,
|
|
"grad_norm": 5.947166442871094,
|
|
"learning_rate": 5.38192513368984e-06,
|
|
"loss": 0.1524,
|
|
"step": 86900
|
|
},
|
|
{
|
|
"epoch": 1.1343306666666666,
|
|
"grad_norm": 5.8902692794799805,
|
|
"learning_rate": 5.376577540106952e-06,
|
|
"loss": 0.1516,
|
|
"step": 87000
|
|
},
|
|
{
|
|
"epoch": 1.134864,
|
|
"grad_norm": 2.210515022277832,
|
|
"learning_rate": 5.371229946524065e-06,
|
|
"loss": 0.1514,
|
|
"step": 87100
|
|
},
|
|
{
|
|
"epoch": 1.1353973333333334,
|
|
"grad_norm": 4.232455253601074,
|
|
"learning_rate": 5.365882352941177e-06,
|
|
"loss": 0.1485,
|
|
"step": 87200
|
|
},
|
|
{
|
|
"epoch": 1.1359306666666666,
|
|
"grad_norm": 4.455716133117676,
|
|
"learning_rate": 5.360534759358289e-06,
|
|
"loss": 0.1406,
|
|
"step": 87300
|
|
},
|
|
{
|
|
"epoch": 1.136464,
|
|
"grad_norm": 4.463954925537109,
|
|
"learning_rate": 5.355187165775402e-06,
|
|
"loss": 0.1447,
|
|
"step": 87400
|
|
},
|
|
{
|
|
"epoch": 1.1369973333333334,
|
|
"grad_norm": 4.620913028717041,
|
|
"learning_rate": 5.349839572192514e-06,
|
|
"loss": 0.1766,
|
|
"step": 87500
|
|
},
|
|
{
|
|
"epoch": 1.1375306666666667,
|
|
"grad_norm": 3.975593328475952,
|
|
"learning_rate": 5.344491978609626e-06,
|
|
"loss": 0.1479,
|
|
"step": 87600
|
|
},
|
|
{
|
|
"epoch": 1.138064,
|
|
"grad_norm": 4.236740589141846,
|
|
"learning_rate": 5.339144385026739e-06,
|
|
"loss": 0.1607,
|
|
"step": 87700
|
|
},
|
|
{
|
|
"epoch": 1.1385973333333332,
|
|
"grad_norm": 10.003177642822266,
|
|
"learning_rate": 5.333796791443851e-06,
|
|
"loss": 0.1449,
|
|
"step": 87800
|
|
},
|
|
{
|
|
"epoch": 1.1391306666666667,
|
|
"grad_norm": 5.598151683807373,
|
|
"learning_rate": 5.328449197860963e-06,
|
|
"loss": 0.1525,
|
|
"step": 87900
|
|
},
|
|
{
|
|
"epoch": 1.139664,
|
|
"grad_norm": 11.532898902893066,
|
|
"learning_rate": 5.323101604278074e-06,
|
|
"loss": 0.1622,
|
|
"step": 88000
|
|
},
|
|
{
|
|
"epoch": 1.1401973333333333,
|
|
"grad_norm": 7.378108978271484,
|
|
"learning_rate": 5.317754010695188e-06,
|
|
"loss": 0.1746,
|
|
"step": 88100
|
|
},
|
|
{
|
|
"epoch": 1.1407306666666668,
|
|
"grad_norm": 4.173070430755615,
|
|
"learning_rate": 5.3124064171123005e-06,
|
|
"loss": 0.1358,
|
|
"step": 88200
|
|
},
|
|
{
|
|
"epoch": 1.141264,
|
|
"grad_norm": 5.982913494110107,
|
|
"learning_rate": 5.3070588235294115e-06,
|
|
"loss": 0.1418,
|
|
"step": 88300
|
|
},
|
|
{
|
|
"epoch": 1.1417973333333333,
|
|
"grad_norm": 3.658906936645508,
|
|
"learning_rate": 5.301711229946524e-06,
|
|
"loss": 0.166,
|
|
"step": 88400
|
|
},
|
|
{
|
|
"epoch": 1.1423306666666666,
|
|
"grad_norm": 5.014578819274902,
|
|
"learning_rate": 5.296363636363638e-06,
|
|
"loss": 0.1525,
|
|
"step": 88500
|
|
},
|
|
{
|
|
"epoch": 1.1428639999999999,
|
|
"grad_norm": 3.264373779296875,
|
|
"learning_rate": 5.291016042780749e-06,
|
|
"loss": 0.1549,
|
|
"step": 88600
|
|
},
|
|
{
|
|
"epoch": 1.1433973333333334,
|
|
"grad_norm": 4.393270492553711,
|
|
"learning_rate": 5.285668449197861e-06,
|
|
"loss": 0.157,
|
|
"step": 88700
|
|
},
|
|
{
|
|
"epoch": 1.1439306666666667,
|
|
"grad_norm": 5.189852237701416,
|
|
"learning_rate": 5.280374331550803e-06,
|
|
"loss": 0.1466,
|
|
"step": 88800
|
|
},
|
|
{
|
|
"epoch": 1.144464,
|
|
"grad_norm": 5.295141696929932,
|
|
"learning_rate": 5.275026737967916e-06,
|
|
"loss": 0.146,
|
|
"step": 88900
|
|
},
|
|
{
|
|
"epoch": 1.1449973333333334,
|
|
"grad_norm": 6.3149237632751465,
|
|
"learning_rate": 5.269679144385027e-06,
|
|
"loss": 0.1541,
|
|
"step": 89000
|
|
},
|
|
{
|
|
"epoch": 1.1455306666666667,
|
|
"grad_norm": 4.621565818786621,
|
|
"learning_rate": 5.264331550802139e-06,
|
|
"loss": 0.1509,
|
|
"step": 89100
|
|
},
|
|
{
|
|
"epoch": 1.146064,
|
|
"grad_norm": 6.199880123138428,
|
|
"learning_rate": 5.258983957219251e-06,
|
|
"loss": 0.1453,
|
|
"step": 89200
|
|
},
|
|
{
|
|
"epoch": 1.1465973333333332,
|
|
"grad_norm": 5.544088840484619,
|
|
"learning_rate": 5.253636363636364e-06,
|
|
"loss": 0.1548,
|
|
"step": 89300
|
|
},
|
|
{
|
|
"epoch": 1.1471306666666667,
|
|
"grad_norm": 2.598500967025757,
|
|
"learning_rate": 5.2482887700534765e-06,
|
|
"loss": 0.1427,
|
|
"step": 89400
|
|
},
|
|
{
|
|
"epoch": 1.147664,
|
|
"grad_norm": 5.825984954833984,
|
|
"learning_rate": 5.242941176470588e-06,
|
|
"loss": 0.1465,
|
|
"step": 89500
|
|
},
|
|
{
|
|
"epoch": 1.1481973333333333,
|
|
"grad_norm": 8.207324028015137,
|
|
"learning_rate": 5.237593582887701e-06,
|
|
"loss": 0.1377,
|
|
"step": 89600
|
|
},
|
|
{
|
|
"epoch": 1.1487306666666668,
|
|
"grad_norm": 5.7945780754089355,
|
|
"learning_rate": 5.232245989304813e-06,
|
|
"loss": 0.1393,
|
|
"step": 89700
|
|
},
|
|
{
|
|
"epoch": 1.149264,
|
|
"grad_norm": 4.425704479217529,
|
|
"learning_rate": 5.2268983957219254e-06,
|
|
"loss": 0.1319,
|
|
"step": 89800
|
|
},
|
|
{
|
|
"epoch": 1.1497973333333333,
|
|
"grad_norm": 5.2009735107421875,
|
|
"learning_rate": 5.221550802139038e-06,
|
|
"loss": 0.1473,
|
|
"step": 89900
|
|
},
|
|
{
|
|
"epoch": 1.1503306666666666,
|
|
"grad_norm": 4.980434417724609,
|
|
"learning_rate": 5.21620320855615e-06,
|
|
"loss": 0.1655,
|
|
"step": 90000
|
|
},
|
|
{
|
|
"epoch": 1.1508639999999999,
|
|
"grad_norm": 6.4824628829956055,
|
|
"learning_rate": 5.2108556149732625e-06,
|
|
"loss": 0.144,
|
|
"step": 90100
|
|
},
|
|
{
|
|
"epoch": 1.1513973333333334,
|
|
"grad_norm": 9.230437278747559,
|
|
"learning_rate": 5.205508021390375e-06,
|
|
"loss": 0.1763,
|
|
"step": 90200
|
|
},
|
|
{
|
|
"epoch": 1.1519306666666667,
|
|
"grad_norm": 5.614940166473389,
|
|
"learning_rate": 5.200160427807487e-06,
|
|
"loss": 0.1369,
|
|
"step": 90300
|
|
},
|
|
{
|
|
"epoch": 1.152464,
|
|
"grad_norm": 6.480221748352051,
|
|
"learning_rate": 5.1948128342246e-06,
|
|
"loss": 0.1432,
|
|
"step": 90400
|
|
},
|
|
{
|
|
"epoch": 1.1529973333333334,
|
|
"grad_norm": 9.40231990814209,
|
|
"learning_rate": 5.1894652406417115e-06,
|
|
"loss": 0.1387,
|
|
"step": 90500
|
|
},
|
|
{
|
|
"epoch": 1.1535306666666667,
|
|
"grad_norm": 4.913603782653809,
|
|
"learning_rate": 5.184117647058824e-06,
|
|
"loss": 0.1449,
|
|
"step": 90600
|
|
},
|
|
{
|
|
"epoch": 1.154064,
|
|
"grad_norm": 3.3521041870117188,
|
|
"learning_rate": 5.178770053475937e-06,
|
|
"loss": 0.1317,
|
|
"step": 90700
|
|
},
|
|
{
|
|
"epoch": 1.1545973333333333,
|
|
"grad_norm": 6.823641300201416,
|
|
"learning_rate": 5.173422459893049e-06,
|
|
"loss": 0.138,
|
|
"step": 90800
|
|
},
|
|
{
|
|
"epoch": 1.1551306666666667,
|
|
"grad_norm": 5.608401298522949,
|
|
"learning_rate": 5.168074866310161e-06,
|
|
"loss": 0.1393,
|
|
"step": 90900
|
|
},
|
|
{
|
|
"epoch": 1.155664,
|
|
"grad_norm": 6.811581134796143,
|
|
"learning_rate": 5.162727272727274e-06,
|
|
"loss": 0.1333,
|
|
"step": 91000
|
|
},
|
|
{
|
|
"epoch": 1.1561973333333333,
|
|
"grad_norm": 10.15778636932373,
|
|
"learning_rate": 5.157433155080215e-06,
|
|
"loss": 0.1476,
|
|
"step": 91100
|
|
},
|
|
{
|
|
"epoch": 1.1567306666666666,
|
|
"grad_norm": 8.289910316467285,
|
|
"learning_rate": 5.152085561497327e-06,
|
|
"loss": 0.1477,
|
|
"step": 91200
|
|
},
|
|
{
|
|
"epoch": 1.157264,
|
|
"grad_norm": 6.290119171142578,
|
|
"learning_rate": 5.146737967914439e-06,
|
|
"loss": 0.1349,
|
|
"step": 91300
|
|
},
|
|
{
|
|
"epoch": 1.1577973333333333,
|
|
"grad_norm": 1.6220190525054932,
|
|
"learning_rate": 5.14139037433155e-06,
|
|
"loss": 0.1486,
|
|
"step": 91400
|
|
},
|
|
{
|
|
"epoch": 1.1583306666666666,
|
|
"grad_norm": 6.113744735717773,
|
|
"learning_rate": 5.136042780748664e-06,
|
|
"loss": 0.1548,
|
|
"step": 91500
|
|
},
|
|
{
|
|
"epoch": 1.158864,
|
|
"grad_norm": 10.585214614868164,
|
|
"learning_rate": 5.1306951871657765e-06,
|
|
"loss": 0.1449,
|
|
"step": 91600
|
|
},
|
|
{
|
|
"epoch": 1.1593973333333334,
|
|
"grad_norm": 2.5166122913360596,
|
|
"learning_rate": 5.1253475935828875e-06,
|
|
"loss": 0.1444,
|
|
"step": 91700
|
|
},
|
|
{
|
|
"epoch": 1.1599306666666667,
|
|
"grad_norm": 9.606341361999512,
|
|
"learning_rate": 5.12e-06,
|
|
"loss": 0.1424,
|
|
"step": 91800
|
|
},
|
|
{
|
|
"epoch": 1.160464,
|
|
"grad_norm": 4.247699737548828,
|
|
"learning_rate": 5.114652406417114e-06,
|
|
"loss": 0.1403,
|
|
"step": 91900
|
|
},
|
|
{
|
|
"epoch": 1.1609973333333334,
|
|
"grad_norm": 8.157188415527344,
|
|
"learning_rate": 5.1093048128342246e-06,
|
|
"loss": 0.1537,
|
|
"step": 92000
|
|
},
|
|
{
|
|
"epoch": 1.1615306666666667,
|
|
"grad_norm": 5.707554817199707,
|
|
"learning_rate": 5.103957219251337e-06,
|
|
"loss": 0.1403,
|
|
"step": 92100
|
|
},
|
|
{
|
|
"epoch": 1.162064,
|
|
"grad_norm": 4.530880928039551,
|
|
"learning_rate": 5.098609625668449e-06,
|
|
"loss": 0.1539,
|
|
"step": 92200
|
|
},
|
|
{
|
|
"epoch": 1.1625973333333333,
|
|
"grad_norm": 6.606838226318359,
|
|
"learning_rate": 5.093262032085562e-06,
|
|
"loss": 0.159,
|
|
"step": 92300
|
|
},
|
|
{
|
|
"epoch": 1.1631306666666668,
|
|
"grad_norm": 4.760306358337402,
|
|
"learning_rate": 5.087914438502674e-06,
|
|
"loss": 0.1444,
|
|
"step": 92400
|
|
},
|
|
{
|
|
"epoch": 1.163664,
|
|
"grad_norm": 4.329047679901123,
|
|
"learning_rate": 5.082566844919786e-06,
|
|
"loss": 0.153,
|
|
"step": 92500
|
|
},
|
|
{
|
|
"epoch": 1.1641973333333333,
|
|
"grad_norm": 6.385410785675049,
|
|
"learning_rate": 5.077219251336899e-06,
|
|
"loss": 0.1355,
|
|
"step": 92600
|
|
},
|
|
{
|
|
"epoch": 1.1647306666666666,
|
|
"grad_norm": 5.001590251922607,
|
|
"learning_rate": 5.071871657754011e-06,
|
|
"loss": 0.129,
|
|
"step": 92700
|
|
},
|
|
{
|
|
"epoch": 1.165264,
|
|
"grad_norm": 7.542405605316162,
|
|
"learning_rate": 5.066524064171123e-06,
|
|
"loss": 0.1422,
|
|
"step": 92800
|
|
},
|
|
{
|
|
"epoch": 1.1657973333333334,
|
|
"grad_norm": 4.104416847229004,
|
|
"learning_rate": 5.061176470588236e-06,
|
|
"loss": 0.1399,
|
|
"step": 92900
|
|
},
|
|
{
|
|
"epoch": 1.1663306666666666,
|
|
"grad_norm": 11.559596061706543,
|
|
"learning_rate": 5.055828877005348e-06,
|
|
"loss": 0.162,
|
|
"step": 93000
|
|
},
|
|
{
|
|
"epoch": 1.166864,
|
|
"grad_norm": 5.248695373535156,
|
|
"learning_rate": 5.05048128342246e-06,
|
|
"loss": 0.1446,
|
|
"step": 93100
|
|
},
|
|
{
|
|
"epoch": 1.1673973333333334,
|
|
"grad_norm": 3.1657233238220215,
|
|
"learning_rate": 5.045187165775401e-06,
|
|
"loss": 0.1364,
|
|
"step": 93200
|
|
},
|
|
{
|
|
"epoch": 1.1679306666666667,
|
|
"grad_norm": 5.518548011779785,
|
|
"learning_rate": 5.039839572192514e-06,
|
|
"loss": 0.1438,
|
|
"step": 93300
|
|
},
|
|
{
|
|
"epoch": 1.168464,
|
|
"grad_norm": 5.633777618408203,
|
|
"learning_rate": 5.034491978609626e-06,
|
|
"loss": 0.1445,
|
|
"step": 93400
|
|
},
|
|
{
|
|
"epoch": 1.1689973333333334,
|
|
"grad_norm": 2.13727068901062,
|
|
"learning_rate": 5.0291443850267385e-06,
|
|
"loss": 0.1372,
|
|
"step": 93500
|
|
},
|
|
{
|
|
"epoch": 1.1695306666666667,
|
|
"grad_norm": 5.25443696975708,
|
|
"learning_rate": 5.02379679144385e-06,
|
|
"loss": 0.1469,
|
|
"step": 93600
|
|
},
|
|
{
|
|
"epoch": 1.170064,
|
|
"grad_norm": 4.035547733306885,
|
|
"learning_rate": 5.018449197860963e-06,
|
|
"loss": 0.144,
|
|
"step": 93700
|
|
},
|
|
{
|
|
"epoch": 1.1705973333333333,
|
|
"grad_norm": 6.450521469116211,
|
|
"learning_rate": 5.013101604278076e-06,
|
|
"loss": 0.1328,
|
|
"step": 93800
|
|
},
|
|
{
|
|
"epoch": 1.1711306666666665,
|
|
"grad_norm": 8.927046775817871,
|
|
"learning_rate": 5.0077540106951874e-06,
|
|
"loss": 0.151,
|
|
"step": 93900
|
|
},
|
|
{
|
|
"epoch": 1.171664,
|
|
"grad_norm": 2.8760769367218018,
|
|
"learning_rate": 5.0024064171123e-06,
|
|
"loss": 0.1391,
|
|
"step": 94000
|
|
},
|
|
{
|
|
"epoch": 1.1721973333333333,
|
|
"grad_norm": 2.482056140899658,
|
|
"learning_rate": 4.997058823529412e-06,
|
|
"loss": 0.1595,
|
|
"step": 94100
|
|
},
|
|
{
|
|
"epoch": 1.1727306666666666,
|
|
"grad_norm": 4.498416900634766,
|
|
"learning_rate": 4.9917112299465246e-06,
|
|
"loss": 0.1453,
|
|
"step": 94200
|
|
},
|
|
{
|
|
"epoch": 1.173264,
|
|
"grad_norm": 2.8342511653900146,
|
|
"learning_rate": 4.986363636363637e-06,
|
|
"loss": 0.1338,
|
|
"step": 94300
|
|
},
|
|
{
|
|
"epoch": 1.1737973333333334,
|
|
"grad_norm": 17.421430587768555,
|
|
"learning_rate": 4.981016042780749e-06,
|
|
"loss": 0.1416,
|
|
"step": 94400
|
|
},
|
|
{
|
|
"epoch": 1.1743306666666666,
|
|
"grad_norm": 2.549630880355835,
|
|
"learning_rate": 4.975668449197862e-06,
|
|
"loss": 0.1534,
|
|
"step": 94500
|
|
},
|
|
{
|
|
"epoch": 1.174864,
|
|
"grad_norm": 6.585552215576172,
|
|
"learning_rate": 4.9703208556149735e-06,
|
|
"loss": 0.1569,
|
|
"step": 94600
|
|
},
|
|
{
|
|
"epoch": 1.1753973333333334,
|
|
"grad_norm": 4.437183856964111,
|
|
"learning_rate": 4.964973262032086e-06,
|
|
"loss": 0.1569,
|
|
"step": 94700
|
|
},
|
|
{
|
|
"epoch": 1.1759306666666667,
|
|
"grad_norm": 9.079911231994629,
|
|
"learning_rate": 4.959625668449198e-06,
|
|
"loss": 0.1539,
|
|
"step": 94800
|
|
},
|
|
{
|
|
"epoch": 1.176464,
|
|
"grad_norm": 6.08033561706543,
|
|
"learning_rate": 4.954278074866311e-06,
|
|
"loss": 0.1488,
|
|
"step": 94900
|
|
},
|
|
{
|
|
"epoch": 1.1769973333333335,
|
|
"grad_norm": 6.012932300567627,
|
|
"learning_rate": 4.948930481283422e-06,
|
|
"loss": 0.1415,
|
|
"step": 95000
|
|
},
|
|
{
|
|
"epoch": 1.1775306666666667,
|
|
"grad_norm": 5.424774646759033,
|
|
"learning_rate": 4.943582887700535e-06,
|
|
"loss": 0.144,
|
|
"step": 95100
|
|
},
|
|
{
|
|
"epoch": 1.178064,
|
|
"grad_norm": 3.0930702686309814,
|
|
"learning_rate": 4.938235294117648e-06,
|
|
"loss": 0.1661,
|
|
"step": 95200
|
|
},
|
|
{
|
|
"epoch": 1.1785973333333333,
|
|
"grad_norm": 3.7023885250091553,
|
|
"learning_rate": 4.9328877005347595e-06,
|
|
"loss": 0.1328,
|
|
"step": 95300
|
|
},
|
|
{
|
|
"epoch": 1.1791306666666665,
|
|
"grad_norm": 5.709500789642334,
|
|
"learning_rate": 4.927540106951872e-06,
|
|
"loss": 0.1456,
|
|
"step": 95400
|
|
},
|
|
{
|
|
"epoch": 1.179664,
|
|
"grad_norm": 20.10743522644043,
|
|
"learning_rate": 4.922192513368985e-06,
|
|
"loss": 0.1652,
|
|
"step": 95500
|
|
},
|
|
{
|
|
"epoch": 1.1801973333333333,
|
|
"grad_norm": 10.560723304748535,
|
|
"learning_rate": 4.916898395721926e-06,
|
|
"loss": 0.1902,
|
|
"step": 95600
|
|
},
|
|
{
|
|
"epoch": 1.1807306666666666,
|
|
"grad_norm": 2.6477322578430176,
|
|
"learning_rate": 4.911550802139038e-06,
|
|
"loss": 0.1733,
|
|
"step": 95700
|
|
},
|
|
{
|
|
"epoch": 1.181264,
|
|
"grad_norm": 8.090988159179688,
|
|
"learning_rate": 4.90620320855615e-06,
|
|
"loss": 0.1387,
|
|
"step": 95800
|
|
},
|
|
{
|
|
"epoch": 1.1817973333333334,
|
|
"grad_norm": 4.8703813552856445,
|
|
"learning_rate": 4.900855614973262e-06,
|
|
"loss": 0.1165,
|
|
"step": 95900
|
|
},
|
|
{
|
|
"epoch": 1.1823306666666666,
|
|
"grad_norm": 2.08231258392334,
|
|
"learning_rate": 4.895508021390375e-06,
|
|
"loss": 0.1467,
|
|
"step": 96000
|
|
},
|
|
{
|
|
"epoch": 1.1823306666666666,
|
|
"eval_test1_cer": 0.04731029203077153,
|
|
"eval_test1_cer_norm": 0.032967560688645044,
|
|
"eval_test1_loss": 0.19079577922821045,
|
|
"eval_test1_runtime": 2142.3109,
|
|
"eval_test1_samples_per_second": 1.167,
|
|
"eval_test1_steps_per_second": 0.292,
|
|
"eval_test1_wer": 0.14461063004752325,
|
|
"eval_test1_wer_norm": 0.0858295099213887,
|
|
"step": 96000
|
|
},
|
|
{
|
|
"epoch": 1.1823306666666666,
|
|
"eval_test2_cer": 0.09162093552842797,
|
|
"eval_test2_cer_norm": 0.07124941896498295,
|
|
"eval_test2_loss": 0.3367946147918701,
|
|
"eval_test2_runtime": 2151.5621,
|
|
"eval_test2_samples_per_second": 1.162,
|
|
"eval_test2_steps_per_second": 0.29,
|
|
"eval_test2_wer": 0.2130064087891966,
|
|
"eval_test2_wer_norm": 0.14648750859500345,
|
|
"step": 96000
|
|
},
|
|
{
|
|
"epoch": 1.182864,
|
|
"grad_norm": 5.135793209075928,
|
|
"learning_rate": 4.8901604278074874e-06,
|
|
"loss": 0.164,
|
|
"step": 96100
|
|
},
|
|
{
|
|
"epoch": 1.1833973333333334,
|
|
"grad_norm": 4.244722366333008,
|
|
"learning_rate": 4.884812834224599e-06,
|
|
"loss": 0.1524,
|
|
"step": 96200
|
|
},
|
|
{
|
|
"epoch": 1.1839306666666667,
|
|
"grad_norm": 4.589010715484619,
|
|
"learning_rate": 4.879465240641711e-06,
|
|
"loss": 0.125,
|
|
"step": 96300
|
|
},
|
|
{
|
|
"epoch": 1.184464,
|
|
"grad_norm": 8.201160430908203,
|
|
"learning_rate": 4.8741176470588245e-06,
|
|
"loss": 0.1489,
|
|
"step": 96400
|
|
},
|
|
{
|
|
"epoch": 1.1849973333333335,
|
|
"grad_norm": 6.3101420402526855,
|
|
"learning_rate": 4.868770053475936e-06,
|
|
"loss": 0.1442,
|
|
"step": 96500
|
|
},
|
|
{
|
|
"epoch": 1.1855306666666667,
|
|
"grad_norm": 6.8027472496032715,
|
|
"learning_rate": 4.863422459893048e-06,
|
|
"loss": 0.1405,
|
|
"step": 96600
|
|
},
|
|
{
|
|
"epoch": 1.186064,
|
|
"grad_norm": 3.6359167098999023,
|
|
"learning_rate": 4.858074866310161e-06,
|
|
"loss": 0.1314,
|
|
"step": 96700
|
|
},
|
|
{
|
|
"epoch": 1.1865973333333333,
|
|
"grad_norm": 10.224267959594727,
|
|
"learning_rate": 4.8527272727272735e-06,
|
|
"loss": 0.1672,
|
|
"step": 96800
|
|
},
|
|
{
|
|
"epoch": 1.1871306666666666,
|
|
"grad_norm": 8.587698936462402,
|
|
"learning_rate": 4.847379679144385e-06,
|
|
"loss": 0.1493,
|
|
"step": 96900
|
|
},
|
|
{
|
|
"epoch": 1.187664,
|
|
"grad_norm": 2.6412084102630615,
|
|
"learning_rate": 4.842032085561498e-06,
|
|
"loss": 0.135,
|
|
"step": 97000
|
|
},
|
|
{
|
|
"epoch": 1.1881973333333333,
|
|
"grad_norm": 3.8747661113739014,
|
|
"learning_rate": 4.83668449197861e-06,
|
|
"loss": 0.1489,
|
|
"step": 97100
|
|
},
|
|
{
|
|
"epoch": 1.1887306666666666,
|
|
"grad_norm": 10.398863792419434,
|
|
"learning_rate": 4.831336898395722e-06,
|
|
"loss": 0.1534,
|
|
"step": 97200
|
|
},
|
|
{
|
|
"epoch": 1.189264,
|
|
"grad_norm": 5.210137367248535,
|
|
"learning_rate": 4.825989304812835e-06,
|
|
"loss": 0.1388,
|
|
"step": 97300
|
|
},
|
|
{
|
|
"epoch": 1.1897973333333334,
|
|
"grad_norm": 5.457757949829102,
|
|
"learning_rate": 4.820641711229947e-06,
|
|
"loss": 0.1365,
|
|
"step": 97400
|
|
},
|
|
{
|
|
"epoch": 1.1903306666666666,
|
|
"grad_norm": 6.749108791351318,
|
|
"learning_rate": 4.8152941176470595e-06,
|
|
"loss": 0.1304,
|
|
"step": 97500
|
|
},
|
|
{
|
|
"epoch": 1.190864,
|
|
"grad_norm": 4.512848854064941,
|
|
"learning_rate": 4.809946524064171e-06,
|
|
"loss": 0.1432,
|
|
"step": 97600
|
|
},
|
|
{
|
|
"epoch": 1.1913973333333334,
|
|
"grad_norm": 5.969982624053955,
|
|
"learning_rate": 4.804652406417113e-06,
|
|
"loss": 0.1257,
|
|
"step": 97700
|
|
},
|
|
{
|
|
"epoch": 1.1919306666666667,
|
|
"grad_norm": 7.111292362213135,
|
|
"learning_rate": 4.799304812834225e-06,
|
|
"loss": 0.1303,
|
|
"step": 97800
|
|
},
|
|
{
|
|
"epoch": 1.192464,
|
|
"grad_norm": 8.217161178588867,
|
|
"learning_rate": 4.793957219251338e-06,
|
|
"loss": 0.1536,
|
|
"step": 97900
|
|
},
|
|
{
|
|
"epoch": 1.1929973333333332,
|
|
"grad_norm": 8.835061073303223,
|
|
"learning_rate": 4.7886096256684495e-06,
|
|
"loss": 0.1265,
|
|
"step": 98000
|
|
},
|
|
{
|
|
"epoch": 1.1935306666666667,
|
|
"grad_norm": 3.51847243309021,
|
|
"learning_rate": 4.783262032085561e-06,
|
|
"loss": 0.1317,
|
|
"step": 98100
|
|
},
|
|
{
|
|
"epoch": 1.194064,
|
|
"grad_norm": 8.751964569091797,
|
|
"learning_rate": 4.777914438502674e-06,
|
|
"loss": 0.1531,
|
|
"step": 98200
|
|
},
|
|
{
|
|
"epoch": 1.1945973333333333,
|
|
"grad_norm": 6.674391269683838,
|
|
"learning_rate": 4.7725668449197866e-06,
|
|
"loss": 0.1539,
|
|
"step": 98300
|
|
},
|
|
{
|
|
"epoch": 1.1951306666666666,
|
|
"grad_norm": 5.250070095062256,
|
|
"learning_rate": 4.767219251336898e-06,
|
|
"loss": 0.1319,
|
|
"step": 98400
|
|
},
|
|
{
|
|
"epoch": 1.195664,
|
|
"grad_norm": 4.121079921722412,
|
|
"learning_rate": 4.761871657754011e-06,
|
|
"loss": 0.1491,
|
|
"step": 98500
|
|
},
|
|
{
|
|
"epoch": 1.1961973333333333,
|
|
"grad_norm": 2.42029070854187,
|
|
"learning_rate": 4.756524064171124e-06,
|
|
"loss": 0.1444,
|
|
"step": 98600
|
|
},
|
|
{
|
|
"epoch": 1.1967306666666666,
|
|
"grad_norm": 6.06485652923584,
|
|
"learning_rate": 4.7511764705882355e-06,
|
|
"loss": 0.1195,
|
|
"step": 98700
|
|
},
|
|
{
|
|
"epoch": 1.197264,
|
|
"grad_norm": 5.080596446990967,
|
|
"learning_rate": 4.745828877005348e-06,
|
|
"loss": 0.1373,
|
|
"step": 98800
|
|
},
|
|
{
|
|
"epoch": 1.1977973333333334,
|
|
"grad_norm": 8.494025230407715,
|
|
"learning_rate": 4.74048128342246e-06,
|
|
"loss": 0.1324,
|
|
"step": 98900
|
|
},
|
|
{
|
|
"epoch": 1.1983306666666667,
|
|
"grad_norm": 3.6615583896636963,
|
|
"learning_rate": 4.735133689839573e-06,
|
|
"loss": 0.1504,
|
|
"step": 99000
|
|
},
|
|
{
|
|
"epoch": 1.198864,
|
|
"grad_norm": 6.227556228637695,
|
|
"learning_rate": 4.729786096256685e-06,
|
|
"loss": 0.1638,
|
|
"step": 99100
|
|
},
|
|
{
|
|
"epoch": 1.1993973333333334,
|
|
"grad_norm": 5.369767189025879,
|
|
"learning_rate": 4.724438502673797e-06,
|
|
"loss": 0.1408,
|
|
"step": 99200
|
|
},
|
|
{
|
|
"epoch": 1.1999306666666667,
|
|
"grad_norm": 4.8275957107543945,
|
|
"learning_rate": 4.719090909090909e-06,
|
|
"loss": 0.1376,
|
|
"step": 99300
|
|
},
|
|
{
|
|
"epoch": 1.200464,
|
|
"grad_norm": 7.644768238067627,
|
|
"learning_rate": 4.713743315508022e-06,
|
|
"loss": 0.1503,
|
|
"step": 99400
|
|
},
|
|
{
|
|
"epoch": 1.2009973333333333,
|
|
"grad_norm": 4.966317176818848,
|
|
"learning_rate": 4.708395721925134e-06,
|
|
"loss": 0.1372,
|
|
"step": 99500
|
|
},
|
|
{
|
|
"epoch": 1.2015306666666667,
|
|
"grad_norm": 5.881084442138672,
|
|
"learning_rate": 4.703048128342246e-06,
|
|
"loss": 0.1371,
|
|
"step": 99600
|
|
},
|
|
{
|
|
"epoch": 1.202064,
|
|
"grad_norm": 4.857972621917725,
|
|
"learning_rate": 4.697700534759359e-06,
|
|
"loss": 0.1395,
|
|
"step": 99700
|
|
},
|
|
{
|
|
"epoch": 1.2025973333333333,
|
|
"grad_norm": 6.1291961669921875,
|
|
"learning_rate": 4.6924064171123e-06,
|
|
"loss": 0.1534,
|
|
"step": 99800
|
|
},
|
|
{
|
|
"epoch": 1.2031306666666666,
|
|
"grad_norm": 5.6414923667907715,
|
|
"learning_rate": 4.687058823529412e-06,
|
|
"loss": 0.1455,
|
|
"step": 99900
|
|
},
|
|
{
|
|
"epoch": 1.203664,
|
|
"grad_norm": 3.112164258956909,
|
|
"learning_rate": 4.681711229946524e-06,
|
|
"loss": 0.134,
|
|
"step": 100000
|
|
},
|
|
{
|
|
"epoch": 1.2041973333333333,
|
|
"grad_norm": 8.959375381469727,
|
|
"learning_rate": 4.676363636363637e-06,
|
|
"loss": 0.1443,
|
|
"step": 100100
|
|
},
|
|
{
|
|
"epoch": 1.2047306666666666,
|
|
"grad_norm": 12.206531524658203,
|
|
"learning_rate": 4.671016042780749e-06,
|
|
"loss": 0.1375,
|
|
"step": 100200
|
|
},
|
|
{
|
|
"epoch": 1.2052640000000001,
|
|
"grad_norm": 4.698019027709961,
|
|
"learning_rate": 4.665668449197861e-06,
|
|
"loss": 0.1441,
|
|
"step": 100300
|
|
},
|
|
{
|
|
"epoch": 1.2057973333333334,
|
|
"grad_norm": 6.094674110412598,
|
|
"learning_rate": 4.660320855614974e-06,
|
|
"loss": 0.1485,
|
|
"step": 100400
|
|
},
|
|
{
|
|
"epoch": 1.2063306666666667,
|
|
"grad_norm": 2.648688316345215,
|
|
"learning_rate": 4.654973262032086e-06,
|
|
"loss": 0.147,
|
|
"step": 100500
|
|
},
|
|
{
|
|
"epoch": 1.206864,
|
|
"grad_norm": 6.178513050079346,
|
|
"learning_rate": 4.649625668449198e-06,
|
|
"loss": 0.1442,
|
|
"step": 100600
|
|
},
|
|
{
|
|
"epoch": 1.2073973333333332,
|
|
"grad_norm": 4.106546401977539,
|
|
"learning_rate": 4.644278074866311e-06,
|
|
"loss": 0.1366,
|
|
"step": 100700
|
|
},
|
|
{
|
|
"epoch": 1.2079306666666667,
|
|
"grad_norm": 8.09306812286377,
|
|
"learning_rate": 4.638930481283423e-06,
|
|
"loss": 0.1474,
|
|
"step": 100800
|
|
},
|
|
{
|
|
"epoch": 1.208464,
|
|
"grad_norm": 6.716427803039551,
|
|
"learning_rate": 4.633636363636364e-06,
|
|
"loss": 0.1281,
|
|
"step": 100900
|
|
},
|
|
{
|
|
"epoch": 1.2089973333333333,
|
|
"grad_norm": 1.818036437034607,
|
|
"learning_rate": 4.6282887700534765e-06,
|
|
"loss": 0.1393,
|
|
"step": 101000
|
|
},
|
|
{
|
|
"epoch": 1.2095306666666668,
|
|
"grad_norm": 2.1341774463653564,
|
|
"learning_rate": 4.622941176470588e-06,
|
|
"loss": 0.1422,
|
|
"step": 101100
|
|
},
|
|
{
|
|
"epoch": 1.210064,
|
|
"grad_norm": 5.999019622802734,
|
|
"learning_rate": 4.617593582887701e-06,
|
|
"loss": 0.1151,
|
|
"step": 101200
|
|
},
|
|
{
|
|
"epoch": 1.2105973333333333,
|
|
"grad_norm": 8.68145751953125,
|
|
"learning_rate": 4.612245989304814e-06,
|
|
"loss": 0.1397,
|
|
"step": 101300
|
|
},
|
|
{
|
|
"epoch": 1.2111306666666666,
|
|
"grad_norm": 4.503642559051514,
|
|
"learning_rate": 4.6068983957219254e-06,
|
|
"loss": 0.1394,
|
|
"step": 101400
|
|
},
|
|
{
|
|
"epoch": 1.211664,
|
|
"grad_norm": 4.624106407165527,
|
|
"learning_rate": 4.601550802139037e-06,
|
|
"loss": 0.1271,
|
|
"step": 101500
|
|
},
|
|
{
|
|
"epoch": 1.2121973333333333,
|
|
"grad_norm": 8.10131549835205,
|
|
"learning_rate": 4.596203208556151e-06,
|
|
"loss": 0.1761,
|
|
"step": 101600
|
|
},
|
|
{
|
|
"epoch": 1.2127306666666666,
|
|
"grad_norm": 1.4735500812530518,
|
|
"learning_rate": 4.5908556149732625e-06,
|
|
"loss": 0.1447,
|
|
"step": 101700
|
|
},
|
|
{
|
|
"epoch": 1.2132640000000001,
|
|
"grad_norm": 5.942348480224609,
|
|
"learning_rate": 4.585508021390374e-06,
|
|
"loss": 0.1381,
|
|
"step": 101800
|
|
},
|
|
{
|
|
"epoch": 1.2137973333333334,
|
|
"grad_norm": 6.857357978820801,
|
|
"learning_rate": 4.580160427807487e-06,
|
|
"loss": 0.145,
|
|
"step": 101900
|
|
},
|
|
{
|
|
"epoch": 1.2143306666666667,
|
|
"grad_norm": 7.160444259643555,
|
|
"learning_rate": 4.5748128342246e-06,
|
|
"loss": 0.1535,
|
|
"step": 102000
|
|
},
|
|
{
|
|
"epoch": 1.214864,
|
|
"grad_norm": 5.929485321044922,
|
|
"learning_rate": 4.5694652406417115e-06,
|
|
"loss": 0.149,
|
|
"step": 102100
|
|
},
|
|
{
|
|
"epoch": 1.2153973333333332,
|
|
"grad_norm": 4.391348361968994,
|
|
"learning_rate": 4.564117647058824e-06,
|
|
"loss": 0.14,
|
|
"step": 102200
|
|
},
|
|
{
|
|
"epoch": 1.2159306666666667,
|
|
"grad_norm": 0.8175415992736816,
|
|
"learning_rate": 4.558770053475936e-06,
|
|
"loss": 0.1329,
|
|
"step": 102300
|
|
},
|
|
{
|
|
"epoch": 1.216464,
|
|
"grad_norm": 7.916337013244629,
|
|
"learning_rate": 4.553422459893049e-06,
|
|
"loss": 0.1553,
|
|
"step": 102400
|
|
},
|
|
{
|
|
"epoch": 1.2169973333333333,
|
|
"grad_norm": 4.7575836181640625,
|
|
"learning_rate": 4.548074866310161e-06,
|
|
"loss": 0.137,
|
|
"step": 102500
|
|
},
|
|
{
|
|
"epoch": 1.2175306666666668,
|
|
"grad_norm": 6.931032657623291,
|
|
"learning_rate": 4.542727272727273e-06,
|
|
"loss": 0.1342,
|
|
"step": 102600
|
|
},
|
|
{
|
|
"epoch": 1.218064,
|
|
"grad_norm": 5.136956214904785,
|
|
"learning_rate": 4.537379679144385e-06,
|
|
"loss": 0.1311,
|
|
"step": 102700
|
|
},
|
|
{
|
|
"epoch": 1.2185973333333333,
|
|
"grad_norm": 6.551979064941406,
|
|
"learning_rate": 4.5320320855614975e-06,
|
|
"loss": 0.1382,
|
|
"step": 102800
|
|
},
|
|
{
|
|
"epoch": 1.2191306666666666,
|
|
"grad_norm": 3.974525213241577,
|
|
"learning_rate": 4.52668449197861e-06,
|
|
"loss": 0.1475,
|
|
"step": 102900
|
|
},
|
|
{
|
|
"epoch": 1.219664,
|
|
"grad_norm": 5.757751941680908,
|
|
"learning_rate": 4.521336898395722e-06,
|
|
"loss": 0.1436,
|
|
"step": 103000
|
|
},
|
|
{
|
|
"epoch": 1.2201973333333334,
|
|
"grad_norm": 5.243391036987305,
|
|
"learning_rate": 4.515989304812835e-06,
|
|
"loss": 0.1242,
|
|
"step": 103100
|
|
},
|
|
{
|
|
"epoch": 1.2207306666666666,
|
|
"grad_norm": 5.355340957641602,
|
|
"learning_rate": 4.5106417112299464e-06,
|
|
"loss": 0.1451,
|
|
"step": 103200
|
|
},
|
|
{
|
|
"epoch": 1.221264,
|
|
"grad_norm": 6.3384222984313965,
|
|
"learning_rate": 4.505294117647059e-06,
|
|
"loss": 0.1361,
|
|
"step": 103300
|
|
},
|
|
{
|
|
"epoch": 1.2217973333333334,
|
|
"grad_norm": 7.357839107513428,
|
|
"learning_rate": 4.499946524064172e-06,
|
|
"loss": 0.137,
|
|
"step": 103400
|
|
},
|
|
{
|
|
"epoch": 1.2223306666666667,
|
|
"grad_norm": 7.657467842102051,
|
|
"learning_rate": 4.4945989304812835e-06,
|
|
"loss": 0.1349,
|
|
"step": 103500
|
|
},
|
|
{
|
|
"epoch": 1.222864,
|
|
"grad_norm": 5.005768775939941,
|
|
"learning_rate": 4.489251336898396e-06,
|
|
"loss": 0.1296,
|
|
"step": 103600
|
|
},
|
|
{
|
|
"epoch": 1.2233973333333332,
|
|
"grad_norm": 8.394399642944336,
|
|
"learning_rate": 4.483903743315509e-06,
|
|
"loss": 0.14,
|
|
"step": 103700
|
|
},
|
|
{
|
|
"epoch": 1.2239306666666667,
|
|
"grad_norm": 7.510332107543945,
|
|
"learning_rate": 4.478556149732621e-06,
|
|
"loss": 0.1288,
|
|
"step": 103800
|
|
},
|
|
{
|
|
"epoch": 1.224464,
|
|
"grad_norm": 7.382374286651611,
|
|
"learning_rate": 4.473208556149733e-06,
|
|
"loss": 0.1319,
|
|
"step": 103900
|
|
},
|
|
{
|
|
"epoch": 1.2249973333333333,
|
|
"grad_norm": 1.9202516078948975,
|
|
"learning_rate": 4.467860962566845e-06,
|
|
"loss": 0.1307,
|
|
"step": 104000
|
|
},
|
|
{
|
|
"epoch": 1.2255306666666668,
|
|
"grad_norm": 5.342925548553467,
|
|
"learning_rate": 4.462513368983958e-06,
|
|
"loss": 0.1451,
|
|
"step": 104100
|
|
},
|
|
{
|
|
"epoch": 1.226064,
|
|
"grad_norm": 3.894153118133545,
|
|
"learning_rate": 4.45716577540107e-06,
|
|
"loss": 0.1309,
|
|
"step": 104200
|
|
},
|
|
{
|
|
"epoch": 1.2265973333333333,
|
|
"grad_norm": 2.822234869003296,
|
|
"learning_rate": 4.451818181818182e-06,
|
|
"loss": 0.1255,
|
|
"step": 104300
|
|
},
|
|
{
|
|
"epoch": 1.2271306666666666,
|
|
"grad_norm": 6.261260986328125,
|
|
"learning_rate": 4.446470588235294e-06,
|
|
"loss": 0.1547,
|
|
"step": 104400
|
|
},
|
|
{
|
|
"epoch": 1.227664,
|
|
"grad_norm": 7.672061443328857,
|
|
"learning_rate": 4.441122994652407e-06,
|
|
"loss": 0.1433,
|
|
"step": 104500
|
|
},
|
|
{
|
|
"epoch": 1.2281973333333334,
|
|
"grad_norm": 4.56577730178833,
|
|
"learning_rate": 4.435775401069519e-06,
|
|
"loss": 0.1254,
|
|
"step": 104600
|
|
},
|
|
{
|
|
"epoch": 1.2287306666666666,
|
|
"grad_norm": 6.631402492523193,
|
|
"learning_rate": 4.430427807486631e-06,
|
|
"loss": 0.1492,
|
|
"step": 104700
|
|
},
|
|
{
|
|
"epoch": 1.229264,
|
|
"grad_norm": 5.153712272644043,
|
|
"learning_rate": 4.425080213903744e-06,
|
|
"loss": 0.1403,
|
|
"step": 104800
|
|
},
|
|
{
|
|
"epoch": 1.2297973333333334,
|
|
"grad_norm": 5.3576178550720215,
|
|
"learning_rate": 4.419786096256685e-06,
|
|
"loss": 0.1494,
|
|
"step": 104900
|
|
},
|
|
{
|
|
"epoch": 1.2303306666666667,
|
|
"grad_norm": 2.1277267932891846,
|
|
"learning_rate": 4.4144385026737975e-06,
|
|
"loss": 0.1368,
|
|
"step": 105000
|
|
},
|
|
{
|
|
"epoch": 1.230864,
|
|
"grad_norm": 6.326502799987793,
|
|
"learning_rate": 4.409090909090909e-06,
|
|
"loss": 0.143,
|
|
"step": 105100
|
|
},
|
|
{
|
|
"epoch": 1.2313973333333332,
|
|
"grad_norm": 10.990684509277344,
|
|
"learning_rate": 4.403743315508022e-06,
|
|
"loss": 0.1507,
|
|
"step": 105200
|
|
},
|
|
{
|
|
"epoch": 1.2319306666666667,
|
|
"grad_norm": 4.10306453704834,
|
|
"learning_rate": 4.398395721925134e-06,
|
|
"loss": 0.1377,
|
|
"step": 105300
|
|
},
|
|
{
|
|
"epoch": 1.232464,
|
|
"grad_norm": 9.385236740112305,
|
|
"learning_rate": 4.393048128342246e-06,
|
|
"loss": 0.1363,
|
|
"step": 105400
|
|
},
|
|
{
|
|
"epoch": 1.2329973333333333,
|
|
"grad_norm": 1.1995395421981812,
|
|
"learning_rate": 4.387700534759359e-06,
|
|
"loss": 0.1333,
|
|
"step": 105500
|
|
},
|
|
{
|
|
"epoch": 1.2335306666666668,
|
|
"grad_norm": 12.861162185668945,
|
|
"learning_rate": 4.382352941176471e-06,
|
|
"loss": 0.1285,
|
|
"step": 105600
|
|
},
|
|
{
|
|
"epoch": 1.234064,
|
|
"grad_norm": 3.6938436031341553,
|
|
"learning_rate": 4.377005347593583e-06,
|
|
"loss": 0.1353,
|
|
"step": 105700
|
|
},
|
|
{
|
|
"epoch": 1.2345973333333333,
|
|
"grad_norm": 4.026907444000244,
|
|
"learning_rate": 4.371657754010696e-06,
|
|
"loss": 0.1442,
|
|
"step": 105800
|
|
},
|
|
{
|
|
"epoch": 1.2351306666666666,
|
|
"grad_norm": 2.208775043487549,
|
|
"learning_rate": 4.366310160427808e-06,
|
|
"loss": 0.1385,
|
|
"step": 105900
|
|
},
|
|
{
|
|
"epoch": 1.235664,
|
|
"grad_norm": 5.015665054321289,
|
|
"learning_rate": 4.36096256684492e-06,
|
|
"loss": 0.1329,
|
|
"step": 106000
|
|
},
|
|
{
|
|
"epoch": 1.2361973333333334,
|
|
"grad_norm": 3.1480512619018555,
|
|
"learning_rate": 4.3556149732620325e-06,
|
|
"loss": 0.153,
|
|
"step": 106100
|
|
},
|
|
{
|
|
"epoch": 1.2367306666666666,
|
|
"grad_norm": 3.1722629070281982,
|
|
"learning_rate": 4.350267379679144e-06,
|
|
"loss": 0.1173,
|
|
"step": 106200
|
|
},
|
|
{
|
|
"epoch": 1.237264,
|
|
"grad_norm": 4.148550033569336,
|
|
"learning_rate": 4.344919786096257e-06,
|
|
"loss": 0.14,
|
|
"step": 106300
|
|
},
|
|
{
|
|
"epoch": 1.2377973333333334,
|
|
"grad_norm": 3.0238513946533203,
|
|
"learning_rate": 4.3395721925133696e-06,
|
|
"loss": 0.13,
|
|
"step": 106400
|
|
},
|
|
{
|
|
"epoch": 1.2383306666666667,
|
|
"grad_norm": 7.950381278991699,
|
|
"learning_rate": 4.334224598930481e-06,
|
|
"loss": 0.1426,
|
|
"step": 106500
|
|
},
|
|
{
|
|
"epoch": 1.238864,
|
|
"grad_norm": 3.2357594966888428,
|
|
"learning_rate": 4.328877005347594e-06,
|
|
"loss": 0.1484,
|
|
"step": 106600
|
|
},
|
|
{
|
|
"epoch": 1.2393973333333332,
|
|
"grad_norm": 9.556913375854492,
|
|
"learning_rate": 4.323529411764707e-06,
|
|
"loss": 0.1403,
|
|
"step": 106700
|
|
},
|
|
{
|
|
"epoch": 1.2399306666666667,
|
|
"grad_norm": 4.141242027282715,
|
|
"learning_rate": 4.3181818181818185e-06,
|
|
"loss": 0.1407,
|
|
"step": 106800
|
|
},
|
|
{
|
|
"epoch": 1.240464,
|
|
"grad_norm": 3.695250988006592,
|
|
"learning_rate": 4.312834224598931e-06,
|
|
"loss": 0.1354,
|
|
"step": 106900
|
|
},
|
|
{
|
|
"epoch": 1.2409973333333333,
|
|
"grad_norm": 6.783448696136475,
|
|
"learning_rate": 4.307486631016043e-06,
|
|
"loss": 0.149,
|
|
"step": 107000
|
|
},
|
|
{
|
|
"epoch": 1.2415306666666668,
|
|
"grad_norm": 7.09694766998291,
|
|
"learning_rate": 4.302139037433156e-06,
|
|
"loss": 0.1411,
|
|
"step": 107100
|
|
},
|
|
{
|
|
"epoch": 1.242064,
|
|
"grad_norm": 2.6681997776031494,
|
|
"learning_rate": 4.296791443850267e-06,
|
|
"loss": 0.1415,
|
|
"step": 107200
|
|
},
|
|
{
|
|
"epoch": 1.2425973333333333,
|
|
"grad_norm": 3.970362424850464,
|
|
"learning_rate": 4.291497326203209e-06,
|
|
"loss": 0.1377,
|
|
"step": 107300
|
|
},
|
|
{
|
|
"epoch": 1.2431306666666666,
|
|
"grad_norm": 4.157347679138184,
|
|
"learning_rate": 4.286149732620321e-06,
|
|
"loss": 0.1391,
|
|
"step": 107400
|
|
},
|
|
{
|
|
"epoch": 1.2436639999999999,
|
|
"grad_norm": 4.654667377471924,
|
|
"learning_rate": 4.280802139037433e-06,
|
|
"loss": 0.1286,
|
|
"step": 107500
|
|
},
|
|
{
|
|
"epoch": 1.2441973333333334,
|
|
"grad_norm": 6.353745460510254,
|
|
"learning_rate": 4.2754545454545456e-06,
|
|
"loss": 0.1412,
|
|
"step": 107600
|
|
},
|
|
{
|
|
"epoch": 1.2447306666666667,
|
|
"grad_norm": 5.653110504150391,
|
|
"learning_rate": 4.270106951871658e-06,
|
|
"loss": 0.1414,
|
|
"step": 107700
|
|
},
|
|
{
|
|
"epoch": 1.245264,
|
|
"grad_norm": 6.330296993255615,
|
|
"learning_rate": 4.26475935828877e-06,
|
|
"loss": 0.1481,
|
|
"step": 107800
|
|
},
|
|
{
|
|
"epoch": 1.2457973333333334,
|
|
"grad_norm": 5.6205549240112305,
|
|
"learning_rate": 4.259411764705883e-06,
|
|
"loss": 0.1331,
|
|
"step": 107900
|
|
},
|
|
{
|
|
"epoch": 1.2463306666666667,
|
|
"grad_norm": 8.861085891723633,
|
|
"learning_rate": 4.254064171122995e-06,
|
|
"loss": 0.1224,
|
|
"step": 108000
|
|
},
|
|
{
|
|
"epoch": 1.2463306666666667,
|
|
"eval_test1_cer": 0.041624654567182014,
|
|
"eval_test1_cer_norm": 0.027478569884985714,
|
|
"eval_test1_loss": 0.19036027789115906,
|
|
"eval_test1_runtime": 2029.4341,
|
|
"eval_test1_samples_per_second": 1.232,
|
|
"eval_test1_steps_per_second": 0.308,
|
|
"eval_test1_wer": 0.13504766902825155,
|
|
"eval_test1_wer_norm": 0.0753674858996464,
|
|
"step": 108000
|
|
},
|
|
{
|
|
"epoch": 1.2463306666666667,
|
|
"eval_test2_cer": 0.08976835778549297,
|
|
"eval_test2_cer_norm": 0.07038270839789278,
|
|
"eval_test2_loss": 0.3368709087371826,
|
|
"eval_test2_runtime": 2084.3352,
|
|
"eval_test2_samples_per_second": 1.199,
|
|
"eval_test2_steps_per_second": 0.3,
|
|
"eval_test2_wer": 0.20591096360723277,
|
|
"eval_test2_wer_norm": 0.13918175567270227,
|
|
"step": 108000
|
|
}
|
|
],
|
|
"logging_steps": 100,
|
|
"max_steps": 187500,
|
|
"num_input_tokens_seen": 0,
|
|
"num_train_epochs": 9223372036854775807,
|
|
"save_steps": 12000,
|
|
"stateful_callbacks": {
|
|
"TrainerControl": {
|
|
"args": {
|
|
"should_epoch_stop": false,
|
|
"should_evaluate": false,
|
|
"should_log": false,
|
|
"should_save": true,
|
|
"should_training_stop": false
|
|
},
|
|
"attributes": {}
|
|
}
|
|
},
|
|
"total_flos": 4.4089825823391744e+20,
|
|
"train_batch_size": 4,
|
|
"trial_name": null,
|
|
"trial_params": null
|
|
}
|
|
|