Added new model

Browse files

Files changed (8) hide show

config.json +3 -3
model.safetensors +2 -2
optimizer.pt +2 -2
rng_state.pth +1 -1
runs/Jan26_18-56-17_18c35eb46719/events.out.tfevents.1706295378.18c35eb46719.4079.0 +0 -3
scheduler.pt +1 -1
trainer_state.json +421 -61
training_args.bin +1 -1

config.json CHANGED Viewed

@@ -20,7 +20,7 @@
   "ctc_zero_infinity": true,
   "diversity_loss_weight": 0.1,
   "eos_token_id": 2,
-  "feat_proj_dropout": 0.0,
   "feat_quantizer_dropout": 0.0,
   "feature_projection_input_dim": 160,
   "final_dropout": 0.1,
@@ -30,14 +30,14 @@
   "initializer_range": 0.02,
   "intermediate_size": 4096,
   "layer_norm_eps": 1e-05,
-  "layerdrop": 0.0,
   "left_max_position_embeddings": 64,
   "mask_feature_length": 10,
   "mask_feature_min_masks": 0,
   "mask_feature_prob": 0.0,
   "mask_time_length": 10,
   "mask_time_min_masks": 2,
-  "mask_time_prob": 0.0,
   "max_source_positions": 5000,
   "model_type": "wav2vec2-bert",
   "num_adapter_layers": 1,

   "ctc_zero_infinity": true,
   "diversity_loss_weight": 0.1,
   "eos_token_id": 2,
+  "feat_proj_dropout": 0.1,
   "feat_quantizer_dropout": 0.0,
   "feature_projection_input_dim": 160,
   "final_dropout": 0.1,
   "initializer_range": 0.02,
   "intermediate_size": 4096,
   "layer_norm_eps": 1e-05,
+  "layerdrop": 0.1,
   "left_max_position_embeddings": 64,
   "mask_feature_length": 10,
   "mask_feature_min_masks": 0,
   "mask_feature_prob": 0.0,
   "mask_time_length": 10,
   "mask_time_min_masks": 2,
+  "mask_time_prob": 0.1,
   "max_source_positions": 5000,
   "model_type": "wav2vec2-bert",
   "num_adapter_layers": 1,

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:51ae7f6fabf39cfa3fe1eac86982beef0c2680843bea9980722328bca1584e04
-size 1474560000

 version https://git-lfs.github.com/spec/v1
+oid sha256:2e70f697a1dc0b68ac5aae2a4005b2d13b00a7c87f296f5dd65c9c5757bbcefa
+size 2216165376

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ee1dad2d0ef61fbb44f5e7d2ffa4c63aed3ebcfa30984aaf5e43ad06dd8d870f
-size 1482948608

 version https://git-lfs.github.com/spec/v1
+oid sha256:ebdee21825782bb7083220355f85c380c5e72ac2ae86dac2b8bfbc52e82e3c09
+size 2268332032

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca21d0ee0b847bef6f94dc79b48cc77221aec4d522263edad9f60ef93361bb1c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a5ef7d7cab190261ce34c81580dbcbbd7bf22bc26086f9d99ad5d88f185483d0
 size 14244

runs/Jan26_18-56-17_18c35eb46719/events.out.tfevents.1706295378.18c35eb46719.4079.0 DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:f9d86d9b9e5f22f62a603b89d5acae12a9a4b5399f3fc736e7338dd63672896f
-size 9411

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c007b769b1d4621f09a01df6014495eaa14d38d5303d8207ac51729ce97aa45
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:65d54da4132a617bfa22d92a5cae04b1e7aa2058d7d8d482e011eb5eed4d79d2
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,140 +1,500 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.9200410630774494,
   "eval_steps": 300,
-  "global_step": 2400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.37,
-      "learning_rate": 2.97e-05,
-      "loss": 11.4962,
       "step": 300
     },
     {
       "epoch": 0.37,
-      "eval_cer": 0.7285700557370748,
-      "eval_loss": 3.9011037349700928,
-      "eval_runtime": 45.9839,
-      "eval_samples_per_second": 48.3,
-      "eval_steps_per_second": 6.046,
       "step": 300
     },
     {
       "epoch": 0.73,
-      "learning_rate": 4.752929190015283e-05,
-      "loss": 1.9358,
       "step": 600
     },
     {
       "epoch": 0.73,
-      "eval_cer": 0.3138093407649433,
-      "eval_loss": 1.294021487236023,
-      "eval_runtime": 39.5216,
-      "eval_samples_per_second": 56.197,
-      "eval_steps_per_second": 7.034,
       "step": 600
     },
     {
       "epoch": 1.1,
-      "learning_rate": 3.9938869077941925e-05,
-      "loss": 1.1506,
       "step": 900
     },
     {
       "epoch": 1.1,
-      "eval_cer": 0.33158754564674225,
-      "eval_loss": 1.1284617185592651,
-      "eval_runtime": 39.8848,
-      "eval_samples_per_second": 55.685,
-      "eval_steps_per_second": 6.97,
       "step": 900
     },
     {
       "epoch": 1.46,
-      "learning_rate": 3.234844625573103e-05,
-      "loss": 0.9373,
       "step": 1200
     },
     {
       "epoch": 1.46,
-      "eval_cer": 0.27407265039400347,
-      "eval_loss": 0.9184823632240295,
-      "eval_runtime": 39.7128,
-      "eval_samples_per_second": 55.927,
-      "eval_steps_per_second": 7.0,
       "step": 1200
     },
     {
       "epoch": 1.83,
-      "learning_rate": 2.470708099847173e-05,
-      "loss": 0.8532,
       "step": 1500
     },
     {
       "epoch": 1.83,
-      "eval_cer": 0.28651739381126273,
-      "eval_loss": 0.8993165493011475,
-      "eval_runtime": 39.7812,
-      "eval_samples_per_second": 55.83,
-      "eval_steps_per_second": 6.988,
       "step": 1500
     },
     {
       "epoch": 2.19,
-      "learning_rate": 1.7065715741212433e-05,
-      "loss": 0.7554,
       "step": 1800
     },
     {
       "epoch": 2.19,
-      "eval_cer": 0.2535075917739765,
-      "eval_loss": 0.8039466738700867,
-      "eval_runtime": 39.8849,
-      "eval_samples_per_second": 55.685,
-      "eval_steps_per_second": 6.97,
       "step": 1800
     },
     {
       "epoch": 2.56,
-      "learning_rate": 9.424350483953132e-06,
-      "loss": 0.6747,
       "step": 2100
     },
     {
       "epoch": 2.56,
-      "eval_cer": 0.24255237363059773,
-      "eval_loss": 0.7663877606391907,
-      "eval_runtime": 39.7233,
-      "eval_samples_per_second": 55.912,
-      "eval_steps_per_second": 6.998,
       "step": 2100
     },
     {
       "epoch": 2.92,
-      "learning_rate": 1.7829852266938361e-06,
-      "loss": 0.6314,
       "step": 2400
     },
     {
       "epoch": 2.92,
-      "eval_cer": 0.24130309436863348,
-      "eval_loss": 0.7546484470367432,
-      "eval_runtime": 39.7215,
-      "eval_samples_per_second": 55.914,
-      "eval_steps_per_second": 6.999,
       "step": 2400
     }
   ],
   "logging_steps": 300,
-  "max_steps": 2463,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
   "save_steps": 600,
-  "total_flos": 3.771491125288823e+19,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 11.680164252309797,
   "eval_steps": 300,
+  "global_step": 9600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.37,
+      "learning_rate": 5.96e-05,
+      "loss": 14.3929,
       "step": 300
     },
     {
       "epoch": 0.37,
+      "eval_cer": 0.9869306169517587,
+      "eval_loss": 7.0630784034729,
+      "eval_runtime": 45.4918,
+      "eval_samples_per_second": 48.822,
+      "eval_steps_per_second": 6.111,
       "step": 300
     },
     {
       "epoch": 0.73,
+      "learning_rate": 9.895209580838324e-05,
+      "loss": 8.6544,
       "step": 600
     },
     {
       "epoch": 0.73,
+      "eval_cer": 0.8301460695752451,
+      "eval_loss": 5.885794639587402,
+      "eval_runtime": 39.1068,
+      "eval_samples_per_second": 56.793,
+      "eval_steps_per_second": 7.109,
       "step": 600
     },
     {
       "epoch": 1.1,
+      "learning_rate": 9.575491873396066e-05,
+      "loss": 4.2963,
       "step": 900
     },
     {
       "epoch": 1.1,
+      "eval_cer": 0.5212857966557756,
+      "eval_loss": 2.0850701332092285,
+      "eval_runtime": 39.3849,
+      "eval_samples_per_second": 56.392,
+      "eval_steps_per_second": 7.059,
       "step": 900
     },
     {
       "epoch": 1.46,
+      "learning_rate": 9.256843455945254e-05,
+      "loss": 2.416,
       "step": 1200
     },
     {
       "epoch": 1.46,
+      "eval_cer": 0.42461080146069574,
+      "eval_loss": 1.6146297454833984,
+      "eval_runtime": 39.2918,
+      "eval_samples_per_second": 56.526,
+      "eval_steps_per_second": 7.075,
       "step": 1200
     },
     {
       "epoch": 1.83,
+      "learning_rate": 8.936056458511549e-05,
+      "loss": 2.0879,
       "step": 1500
     },
     {
       "epoch": 1.83,
+      "eval_cer": 0.38155871612531234,
+      "eval_loss": 1.3970342874526978,
+      "eval_runtime": 39.3238,
+      "eval_samples_per_second": 56.48,
+      "eval_steps_per_second": 7.07,
       "step": 1500
     },
     {
       "epoch": 2.19,
+      "learning_rate": 8.615269461077845e-05,
+      "loss": 1.8739,
       "step": 1800
     },
     {
       "epoch": 2.19,
+      "eval_cer": 0.3361522198731501,
+      "eval_loss": 1.259849190711975,
+      "eval_runtime": 39.8822,
+      "eval_samples_per_second": 55.689,
+      "eval_steps_per_second": 6.971,
       "step": 1800
     },
     {
       "epoch": 2.56,
+      "learning_rate": 8.29448246364414e-05,
+      "loss": 1.7464,
       "step": 2100
     },
     {
       "epoch": 2.56,
+      "eval_cer": 0.3469632904093792,
+      "eval_loss": 1.1771619319915771,
+      "eval_runtime": 39.4164,
+      "eval_samples_per_second": 56.347,
+      "eval_steps_per_second": 7.053,
       "step": 2100
     },
     {
       "epoch": 2.92,
+      "learning_rate": 7.973695466210437e-05,
+      "loss": 1.7025,
       "step": 2400
     },
     {
       "epoch": 2.92,
+      "eval_cer": 0.31635594849125503,
+      "eval_loss": 1.1029127836227417,
+      "eval_runtime": 39.436,
+      "eval_samples_per_second": 56.319,
+      "eval_steps_per_second": 7.049,
       "step": 2400
+    },
+    {
+      "epoch": 3.29,
+      "learning_rate": 7.652908468776732e-05,
+      "loss": 1.5982,
+      "step": 2700
+    },
+    {
+      "epoch": 3.29,
+      "eval_cer": 0.3095329617528349,
+      "eval_loss": 1.049662709236145,
+      "eval_runtime": 39.3386,
+      "eval_samples_per_second": 56.459,
+      "eval_steps_per_second": 7.067,
+      "step": 2700
+    },
+    {
+      "epoch": 3.65,
+      "learning_rate": 7.332121471343029e-05,
+      "loss": 1.5632,
+      "step": 3000
+    },
+    {
+      "epoch": 3.65,
+      "eval_cer": 0.30030751489525276,
+      "eval_loss": 1.013907790184021,
+      "eval_runtime": 39.4665,
+      "eval_samples_per_second": 56.276,
+      "eval_steps_per_second": 7.044,
+      "step": 3000
+    },
+    {
+      "epoch": 4.02,
+      "learning_rate": 7.011334473909324e-05,
+      "loss": 1.5063,
+      "step": 3300
+    },
+    {
+      "epoch": 4.02,
+      "eval_cer": 0.28858350951374206,
+      "eval_loss": 0.9488086104393005,
+      "eval_runtime": 39.4805,
+      "eval_samples_per_second": 56.256,
+      "eval_steps_per_second": 7.041,
+      "step": 3300
+    },
+    {
+      "epoch": 4.38,
+      "learning_rate": 6.69054747647562e-05,
+      "loss": 1.4507,
+      "step": 3600
+    },
+    {
+      "epoch": 4.38,
+      "eval_cer": 0.272583125120123,
+      "eval_loss": 0.9192214012145996,
+      "eval_runtime": 39.3363,
+      "eval_samples_per_second": 56.462,
+      "eval_steps_per_second": 7.067,
+      "step": 3600
+    },
+    {
+      "epoch": 4.75,
+      "learning_rate": 6.369760479041916e-05,
+      "loss": 1.4029,
+      "step": 3900
+    },
+    {
+      "epoch": 4.75,
+      "eval_cer": 0.2764751105131655,
+      "eval_loss": 0.9218717217445374,
+      "eval_runtime": 39.3534,
+      "eval_samples_per_second": 56.437,
+      "eval_steps_per_second": 7.064,
+      "step": 3900
+    },
+    {
+      "epoch": 5.11,
+      "learning_rate": 6.050042771599658e-05,
+      "loss": 1.3126,
+      "step": 4200
+    },
+    {
+      "epoch": 5.11,
+      "eval_cer": 0.27450509321545263,
+      "eval_loss": 0.9048557281494141,
+      "eval_runtime": 39.4768,
+      "eval_samples_per_second": 56.261,
+      "eval_steps_per_second": 7.042,
+      "step": 4200
+    },
+    {
+      "epoch": 5.48,
+      "learning_rate": 5.729255774165954e-05,
+      "loss": 1.3053,
+      "step": 4500
+    },
+    {
+      "epoch": 5.48,
+      "eval_cer": 0.2652315971554872,
+      "eval_loss": 0.8531870245933533,
+      "eval_runtime": 39.4442,
+      "eval_samples_per_second": 56.307,
+      "eval_steps_per_second": 7.048,
+      "step": 4500
+    },
+    {
+      "epoch": 5.84,
+      "learning_rate": 5.40846877673225e-05,
+      "loss": 1.2989,
+      "step": 4800
+    },
+    {
+      "epoch": 5.84,
+      "eval_cer": 0.24903901595233519,
+      "eval_loss": 0.8212350010871887,
+      "eval_runtime": 39.4345,
+      "eval_samples_per_second": 56.321,
+      "eval_steps_per_second": 7.05,
+      "step": 4800
+    },
+    {
+      "epoch": 6.21,
+      "learning_rate": 5.087681779298546e-05,
+      "loss": 1.2403,
+      "step": 5100
+    },
+    {
+      "epoch": 6.21,
+      "eval_cer": 0.26124351335767826,
+      "eval_loss": 0.8196715116500854,
+      "eval_runtime": 39.3565,
+      "eval_samples_per_second": 56.433,
+      "eval_steps_per_second": 7.064,
+      "step": 5100
+    },
+    {
+      "epoch": 6.57,
+      "learning_rate": 4.766894781864842e-05,
+      "loss": 1.1903,
+      "step": 5400
+    },
+    {
+      "epoch": 6.57,
+      "eval_cer": 0.2607630213338459,
+      "eval_loss": 0.8173399567604065,
+      "eval_runtime": 39.5209,
+      "eval_samples_per_second": 56.198,
+      "eval_steps_per_second": 7.034,
+      "step": 5400
+    },
+    {
+      "epoch": 6.94,
+      "learning_rate": 4.446107784431138e-05,
+      "loss": 1.2313,
+      "step": 5700
+    },
+    {
+      "epoch": 6.94,
+      "eval_cer": 0.24995195079761676,
+      "eval_loss": 0.8241677284240723,
+      "eval_runtime": 39.4127,
+      "eval_samples_per_second": 56.352,
+      "eval_steps_per_second": 7.054,
+      "step": 5700
+    },
+    {
+      "epoch": 7.3,
+      "learning_rate": 4.125320786997434e-05,
+      "loss": 1.1554,
+      "step": 6000
+    },
+    {
+      "epoch": 7.3,
+      "eval_cer": 0.24529117816644244,
+      "eval_loss": 0.7795117497444153,
+      "eval_runtime": 39.3516,
+      "eval_samples_per_second": 56.44,
+      "eval_steps_per_second": 7.065,
+      "step": 6000
+    },
+    {
+      "epoch": 7.67,
+      "learning_rate": 3.80453378956373e-05,
+      "loss": 1.1243,
+      "step": 6300
+    },
+    {
+      "epoch": 7.67,
+      "eval_cer": 0.2526427061310782,
+      "eval_loss": 0.782616913318634,
+      "eval_runtime": 39.456,
+      "eval_samples_per_second": 56.291,
+      "eval_steps_per_second": 7.046,
+      "step": 6300
+    },
+    {
+      "epoch": 8.03,
+      "learning_rate": 3.483746792130026e-05,
+      "loss": 1.099,
+      "step": 6600
+    },
+    {
+      "epoch": 8.03,
+      "eval_cer": 0.23010763021333847,
+      "eval_loss": 0.7462431192398071,
+      "eval_runtime": 39.3849,
+      "eval_samples_per_second": 56.392,
+      "eval_steps_per_second": 7.059,
+      "step": 6600
+    },
+    {
+      "epoch": 8.4,
+      "learning_rate": 3.1629597946963216e-05,
+      "loss": 1.0777,
+      "step": 6900
+    },
+    {
+      "epoch": 8.4,
+      "eval_cer": 0.22544685758216412,
+      "eval_loss": 0.7633857131004333,
+      "eval_runtime": 39.2653,
+      "eval_samples_per_second": 56.564,
+      "eval_steps_per_second": 7.08,
+      "step": 6900
+    },
+    {
+      "epoch": 8.76,
+      "learning_rate": 2.8421727972626178e-05,
+      "loss": 1.0901,
+      "step": 7200
+    },
+    {
+      "epoch": 8.76,
+      "eval_cer": 0.23880453584470498,
+      "eval_loss": 0.7462579607963562,
+      "eval_runtime": 39.2693,
+      "eval_samples_per_second": 56.558,
+      "eval_steps_per_second": 7.079,
+      "step": 7200
+    },
+    {
+      "epoch": 9.13,
+      "learning_rate": 2.5224550898203592e-05,
+      "loss": 1.0049,
+      "step": 7500
+    },
+    {
+      "epoch": 9.13,
+      "eval_cer": 0.22155487218912165,
+      "eval_loss": 0.7342504858970642,
+      "eval_runtime": 39.3738,
+      "eval_samples_per_second": 56.408,
+      "eval_steps_per_second": 7.061,
+      "step": 7500
+    },
+    {
+      "epoch": 9.49,
+      "learning_rate": 2.2016680923866555e-05,
+      "loss": 1.0011,
+      "step": 7800
+    },
+    {
+      "epoch": 9.49,
+      "eval_cer": 0.22674418604651161,
+      "eval_loss": 0.7101256251335144,
+      "eval_runtime": 39.3531,
+      "eval_samples_per_second": 56.438,
+      "eval_steps_per_second": 7.064,
+      "step": 7800
+    },
+    {
+      "epoch": 9.86,
+      "learning_rate": 1.8808810949529513e-05,
+      "loss": 1.0084,
+      "step": 8100
+    },
+    {
+      "epoch": 9.86,
+      "eval_cer": 0.22189121660580435,
+      "eval_loss": 0.698137640953064,
+      "eval_runtime": 39.3187,
+      "eval_samples_per_second": 56.487,
+      "eval_steps_per_second": 7.07,
+      "step": 8100
+    },
+    {
+      "epoch": 10.22,
+      "learning_rate": 1.5600940975192476e-05,
+      "loss": 0.9547,
+      "step": 8400
+    },
+    {
+      "epoch": 10.22,
+      "eval_cer": 0.22222756102248703,
+      "eval_loss": 0.7049764394760132,
+      "eval_runtime": 39.2625,
+      "eval_samples_per_second": 56.568,
+      "eval_steps_per_second": 7.081,
+      "step": 8400
+    },
+    {
+      "epoch": 10.59,
+      "learning_rate": 1.2393071000855433e-05,
+      "loss": 0.9304,
+      "step": 8700
+    },
+    {
+      "epoch": 10.59,
+      "eval_cer": 0.2266961368441284,
+      "eval_loss": 0.6863571405410767,
+      "eval_runtime": 39.4555,
+      "eval_samples_per_second": 56.291,
+      "eval_steps_per_second": 7.046,
+      "step": 8700
+    },
+    {
+      "epoch": 10.95,
+      "learning_rate": 9.185201026518392e-06,
+      "loss": 0.9044,
+      "step": 9000
+    },
+    {
+      "epoch": 10.95,
+      "eval_cer": 0.2206419373438401,
+      "eval_loss": 0.6961002945899963,
+      "eval_runtime": 39.4203,
+      "eval_samples_per_second": 56.341,
+      "eval_steps_per_second": 7.052,
+      "step": 9000
+    },
+    {
+      "epoch": 11.32,
+      "learning_rate": 5.977331052181352e-06,
+      "loss": 0.9054,
+      "step": 9300
+    },
+    {
+      "epoch": 11.32,
+      "eval_cer": 0.21146453968864118,
+      "eval_loss": 0.6892764568328857,
+      "eval_runtime": 39.4357,
+      "eval_samples_per_second": 56.32,
+      "eval_steps_per_second": 7.049,
+      "step": 9300
+    },
+    {
+      "epoch": 11.68,
+      "learning_rate": 2.7694610778443115e-06,
+      "loss": 0.9067,
+      "step": 9600
+    },
+    {
+      "epoch": 11.68,
+      "eval_cer": 0.21718239477224677,
+      "eval_loss": 0.682004451751709,
+      "eval_runtime": 39.4317,
+      "eval_samples_per_second": 56.325,
+      "eval_steps_per_second": 7.05,
+      "step": 9600
     }
   ],
   "logging_steps": 300,
+  "max_steps": 9852,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 12,
   "save_steps": 600,
+  "total_flos": 1.5092741663533305e+20,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d21e22c8e12912abbc958057ead57a442298a5529aa3c4095360b661c1355422
 size 4664

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b776f2bd0d7f5772735369f9baf92b4b5776a2e075f0b57ff591c191b5c0666
 size 4664