End of training

Browse files

Files changed (7) hide show

README.md +6 -3
adapter.bem.safetensors +3 -0
all_results.json +15 -0
eval_results.json +9 -0
runs/Feb09_10-57-50_srvrocgpu011.uct.ac.za/events.out.tfevents.1739097140.srvrocgpu011.uct.ac.za +3 -0
train_results.json +9 -0
trainer_state.json +627 -0

README.md CHANGED Viewed

@@ -3,6 +3,9 @@ library_name: transformers
 license: cc-by-nc-4.0
 base_model: facebook/mms-1b-all
 tags:
 - generated_from_trainer
 metrics:
 - wer
@@ -16,10 +19,10 @@ should probably proofread and complete it, then remove this comment. -->
 # mms-1b-bigcgen-baseline-model
-This model is a fine-tuned version of [facebook/mms-1b-all](https://huggingface.co/facebook/mms-1b-all) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.5130
-- Wer: 0.4597
 ## Model description

 license: cc-by-nc-4.0
 base_model: facebook/mms-1b-all
 tags:
+- automatic-speech-recognition
+- bigcgen
+- mms
 - generated_from_trainer
 metrics:
 - wer
 # mms-1b-bigcgen-baseline-model
+This model is a fine-tuned version of [facebook/mms-1b-all](https://huggingface.co/facebook/mms-1b-all) on the BIGCGEN - BEM dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.5089
+- Wer: 0.4580
 ## Model description

adapter.bem.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:84acbeac47beef7a996135af07853f6dfc92b10798b8de2a43222d56aa67fb63
+size 8788284

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 11.009174311926605,
+    "eval_loss": 0.5089433789253235,
+    "eval_runtime": 31.5655,
+    "eval_samples": 456,
+    "eval_samples_per_second": 14.446,
+    "eval_steps_per_second": 3.612,
+    "eval_wer": 0.45802790257744147,
+    "total_flos": 1.8690129169621533e+19,
+    "train_loss": 1.669767551422119,
+    "train_runtime": 5274.2639,
+    "train_samples": 2615,
+    "train_samples_per_second": 14.874,
+    "train_steps_per_second": 1.86
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 11.009174311926605,
+    "eval_loss": 0.5089433789253235,
+    "eval_runtime": 31.5655,
+    "eval_samples": 456,
+    "eval_samples_per_second": 14.446,
+    "eval_steps_per_second": 3.612,
+    "eval_wer": 0.45802790257744147
+}

runs/Feb09_10-57-50_srvrocgpu011.uct.ac.za/events.out.tfevents.1739097140.srvrocgpu011.uct.ac.za ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0319773aeae5d8969754e8019374f86b3c2653b50d4c8c7def076ca29f5df4b6
+size 40

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 11.009174311926605,
+    "total_flos": 1.8690129169621533e+19,
+    "train_loss": 1.669767551422119,
+    "train_runtime": 5274.2639,
+    "train_samples": 2615,
+    "train_samples_per_second": 14.874,
+    "train_steps_per_second": 1.86
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,627 @@

+{
+  "best_metric": 0.508959949016571,
+  "best_model_checkpoint": "/scratch/skscla001/speech/results/mms-1b-bigcgen-baseline-model/checkpoint-3200",
+  "epoch": 11.009174311926605,
+  "eval_steps": 100,
+  "global_step": 3600,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.3058103975535168,
+      "grad_norm": 6.544164657592773,
+      "learning_rate": 0.000285,
+      "loss": 12.3367,
+      "step": 100
+    },
+    {
+      "epoch": 0.3058103975535168,
+      "eval_loss": 1.3241018056869507,
+      "eval_runtime": 33.411,
+      "eval_samples_per_second": 13.648,
+      "eval_steps_per_second": 3.412,
+      "eval_wer": 0.8893355403168598,
+      "step": 100
+    },
+    {
+      "epoch": 0.6116207951070336,
+      "grad_norm": 25.74690818786621,
+      "learning_rate": 0.00029706488156539646,
+      "loss": 1.8764,
+      "step": 200
+    },
+    {
+      "epoch": 0.6116207951070336,
+      "eval_loss": 0.689376950263977,
+      "eval_runtime": 31.5961,
+      "eval_samples_per_second": 14.432,
+      "eval_steps_per_second": 3.608,
+      "eval_wer": 0.5814613383778671,
+      "step": 200
+    },
+    {
+      "epoch": 0.9174311926605505,
+      "grad_norm": 6.327740669250488,
+      "learning_rate": 0.00029397528321318227,
+      "loss": 1.6712,
+      "step": 300
+    },
+    {
+      "epoch": 0.9174311926605505,
+      "eval_loss": 0.6389656662940979,
+      "eval_runtime": 31.4047,
+      "eval_samples_per_second": 14.52,
+      "eval_steps_per_second": 3.63,
+      "eval_wer": 0.5514305982501774,
+      "step": 300
+    },
+    {
+      "epoch": 1.2232415902140672,
+      "grad_norm": 1.2617219686508179,
+      "learning_rate": 0.00029088568486096807,
+      "loss": 1.5044,
+      "step": 400
+    },
+    {
+      "epoch": 1.2232415902140672,
+      "eval_loss": 0.6300708651542664,
+      "eval_runtime": 31.4218,
+      "eval_samples_per_second": 14.512,
+      "eval_steps_per_second": 3.628,
+      "eval_wer": 0.5351146843225348,
+      "step": 400
+    },
+    {
+      "epoch": 1.529051987767584,
+      "grad_norm": 2.4596145153045654,
+      "learning_rate": 0.0002877960865087538,
+      "loss": 1.6648,
+      "step": 500
+    },
+    {
+      "epoch": 1.529051987767584,
+      "eval_loss": 0.6076481342315674,
+      "eval_runtime": 31.6805,
+      "eval_samples_per_second": 14.394,
+      "eval_steps_per_second": 3.598,
+      "eval_wer": 0.5282572712225112,
+      "step": 500
+    },
+    {
+      "epoch": 1.834862385321101,
+      "grad_norm": 3.1689512729644775,
+      "learning_rate": 0.0002847064881565396,
+      "loss": 1.6411,
+      "step": 600
+    },
+    {
+      "epoch": 1.834862385321101,
+      "eval_loss": 0.6073117256164551,
+      "eval_runtime": 31.4984,
+      "eval_samples_per_second": 14.477,
+      "eval_steps_per_second": 3.619,
+      "eval_wer": 0.5282572712225112,
+      "step": 600
+    },
+    {
+      "epoch": 2.140672782874618,
+      "grad_norm": 3.601820468902588,
+      "learning_rate": 0.00028161688980432543,
+      "loss": 1.4016,
+      "step": 700
+    },
+    {
+      "epoch": 2.140672782874618,
+      "eval_loss": 0.5994192361831665,
+      "eval_runtime": 31.3579,
+      "eval_samples_per_second": 14.542,
+      "eval_steps_per_second": 3.635,
+      "eval_wer": 0.5124142823362497,
+      "step": 700
+    },
+    {
+      "epoch": 2.4464831804281344,
+      "grad_norm": 1.8951566219329834,
+      "learning_rate": 0.0002785272914521112,
+      "loss": 1.5703,
+      "step": 800
+    },
+    {
+      "epoch": 2.4464831804281344,
+      "eval_loss": 0.5996993184089661,
+      "eval_runtime": 31.3279,
+      "eval_samples_per_second": 14.556,
+      "eval_steps_per_second": 3.639,
+      "eval_wer": 0.5161976826672973,
+      "step": 800
+    },
+    {
+      "epoch": 2.7522935779816513,
+      "grad_norm": 2.722160577774048,
+      "learning_rate": 0.00027546858908341916,
+      "loss": 1.4165,
+      "step": 900
+    },
+    {
+      "epoch": 2.7522935779816513,
+      "eval_loss": 0.5849923491477966,
+      "eval_runtime": 31.6108,
+      "eval_samples_per_second": 14.425,
+      "eval_steps_per_second": 3.606,
+      "eval_wer": 0.5083944194845117,
+      "step": 900
+    },
+    {
+      "epoch": 3.058103975535168,
+      "grad_norm": 6.126498699188232,
+      "learning_rate": 0.0002723789907312049,
+      "loss": 1.4703,
+      "step": 1000
+    },
+    {
+      "epoch": 3.058103975535168,
+      "eval_loss": 0.5912389755249023,
+      "eval_runtime": 31.5441,
+      "eval_samples_per_second": 14.456,
+      "eval_steps_per_second": 3.614,
+      "eval_wer": 0.5126507448569402,
+      "step": 1000
+    },
+    {
+      "epoch": 3.363914373088685,
+      "grad_norm": 2.3694710731506348,
+      "learning_rate": 0.0002692893923789907,
+      "loss": 1.48,
+      "step": 1100
+    },
+    {
+      "epoch": 3.363914373088685,
+      "eval_loss": 0.570675253868103,
+      "eval_runtime": 31.3265,
+      "eval_samples_per_second": 14.556,
+      "eval_steps_per_second": 3.639,
+      "eval_wer": 0.4998817687396548,
+      "step": 1100
+    },
+    {
+      "epoch": 3.669724770642202,
+      "grad_norm": 2.2272789478302,
+      "learning_rate": 0.0002661997940267765,
+      "loss": 1.4769,
+      "step": 1200
+    },
+    {
+      "epoch": 3.669724770642202,
+      "eval_loss": 0.5674562454223633,
+      "eval_runtime": 31.4068,
+      "eval_samples_per_second": 14.519,
+      "eval_steps_per_second": 3.63,
+      "eval_wer": 0.4949160558051549,
+      "step": 1200
+    },
+    {
+      "epoch": 3.9755351681957185,
+      "grad_norm": 1.9602124691009521,
+      "learning_rate": 0.0002631101956745623,
+      "loss": 1.312,
+      "step": 1300
+    },
+    {
+      "epoch": 3.9755351681957185,
+      "eval_loss": 0.585631787776947,
+      "eval_runtime": 31.7069,
+      "eval_samples_per_second": 14.382,
+      "eval_steps_per_second": 3.595,
+      "eval_wer": 0.497990068574131,
+      "step": 1300
+    },
+    {
+      "epoch": 4.281345565749236,
+      "grad_norm": 2.401339054107666,
+      "learning_rate": 0.00026002059732234807,
+      "loss": 1.3821,
+      "step": 1400
+    },
+    {
+      "epoch": 4.281345565749236,
+      "eval_loss": 0.5641556978225708,
+      "eval_runtime": 31.5622,
+      "eval_samples_per_second": 14.448,
+      "eval_steps_per_second": 3.612,
+      "eval_wer": 0.49917238117758334,
+      "step": 1400
+    },
+    {
+      "epoch": 4.587155963302752,
+      "grad_norm": 3.3140265941619873,
+      "learning_rate": 0.0002569309989701339,
+      "loss": 1.457,
+      "step": 1500
+    },
+    {
+      "epoch": 4.587155963302752,
+      "eval_loss": 0.558822751045227,
+      "eval_runtime": 31.4842,
+      "eval_samples_per_second": 14.483,
+      "eval_steps_per_second": 3.621,
+      "eval_wer": 0.5053204067155356,
+      "step": 1500
+    },
+    {
+      "epoch": 4.892966360856269,
+      "grad_norm": 1.205606460571289,
+      "learning_rate": 0.00025384140061791963,
+      "loss": 1.3606,
+      "step": 1600
+    },
+    {
+      "epoch": 4.892966360856269,
+      "eval_loss": 0.5637312531471252,
+      "eval_runtime": 31.5743,
+      "eval_samples_per_second": 14.442,
+      "eval_steps_per_second": 3.611,
+      "eval_wer": 0.48663986758098843,
+      "step": 1600
+    },
+    {
+      "epoch": 5.198776758409786,
+      "grad_norm": 5.104424953460693,
+      "learning_rate": 0.00025075180226570543,
+      "loss": 1.3986,
+      "step": 1700
+    },
+    {
+      "epoch": 5.198776758409786,
+      "eval_loss": 0.5511406064033508,
+      "eval_runtime": 31.6463,
+      "eval_samples_per_second": 14.409,
+      "eval_steps_per_second": 3.602,
+      "eval_wer": 0.48663986758098843,
+      "step": 1700
+    },
+    {
+      "epoch": 5.504587155963303,
+      "grad_norm": 2.85310435295105,
+      "learning_rate": 0.00024766220391349124,
+      "loss": 1.421,
+      "step": 1800
+    },
+    {
+      "epoch": 5.504587155963303,
+      "eval_loss": 0.5845613479614258,
+      "eval_runtime": 31.614,
+      "eval_samples_per_second": 14.424,
+      "eval_steps_per_second": 3.606,
+      "eval_wer": 0.534641759281154,
+      "step": 1800
+    },
+    {
+      "epoch": 5.81039755351682,
+      "grad_norm": 1.2034293413162231,
+      "learning_rate": 0.00024457260556127704,
+      "loss": 1.3004,
+      "step": 1900
+    },
+    {
+      "epoch": 5.81039755351682,
+      "eval_loss": 0.5440376400947571,
+      "eval_runtime": 31.6052,
+      "eval_samples_per_second": 14.428,
+      "eval_steps_per_second": 3.607,
+      "eval_wer": 0.47363442894301255,
+      "step": 1900
+    },
+    {
+      "epoch": 6.116207951070336,
+      "grad_norm": 5.384260654449463,
+      "learning_rate": 0.0002414830072090628,
+      "loss": 1.3319,
+      "step": 2000
+    },
+    {
+      "epoch": 6.116207951070336,
+      "eval_loss": 0.531833291053772,
+      "eval_runtime": 31.4837,
+      "eval_samples_per_second": 14.484,
+      "eval_steps_per_second": 3.621,
+      "eval_wer": 0.47860014187751243,
+      "step": 2000
+    },
+    {
+      "epoch": 6.422018348623853,
+      "grad_norm": 1.9580897092819214,
+      "learning_rate": 0.0002383934088568486,
+      "loss": 1.2665,
+      "step": 2100
+    },
+    {
+      "epoch": 6.422018348623853,
+      "eval_loss": 0.5487645268440247,
+      "eval_runtime": 31.7917,
+      "eval_samples_per_second": 14.343,
+      "eval_steps_per_second": 3.586,
+      "eval_wer": 0.5065027193189879,
+      "step": 2100
+    },
+    {
+      "epoch": 6.72782874617737,
+      "grad_norm": 2.0100314617156982,
+      "learning_rate": 0.00023530381050463438,
+      "loss": 1.3703,
+      "step": 2200
+    },
+    {
+      "epoch": 6.72782874617737,
+      "eval_loss": 0.53043133020401,
+      "eval_runtime": 31.6267,
+      "eval_samples_per_second": 14.418,
+      "eval_steps_per_second": 3.605,
+      "eval_wer": 0.4878221801844408,
+      "step": 2200
+    },
+    {
+      "epoch": 7.033639143730887,
+      "grad_norm": 2.1251752376556396,
+      "learning_rate": 0.00023221421215242018,
+      "loss": 1.1954,
+      "step": 2300
+    },
+    {
+      "epoch": 7.033639143730887,
+      "eval_loss": 0.5297590494155884,
+      "eval_runtime": 31.5678,
+      "eval_samples_per_second": 14.445,
+      "eval_steps_per_second": 3.611,
+      "eval_wer": 0.48072830456372667,
+      "step": 2300
+    },
+    {
+      "epoch": 7.339449541284404,
+      "grad_norm": 3.3306617736816406,
+      "learning_rate": 0.00022912461380020596,
+      "loss": 1.2973,
+      "step": 2400
+    },
+    {
+      "epoch": 7.339449541284404,
+      "eval_loss": 0.5258393883705139,
+      "eval_runtime": 31.6969,
+      "eval_samples_per_second": 14.386,
+      "eval_steps_per_second": 3.597,
+      "eval_wer": 0.47056041617403643,
+      "step": 2400
+    },
+    {
+      "epoch": 7.6452599388379205,
+      "grad_norm": 1.3215351104736328,
+      "learning_rate": 0.00022603501544799176,
+      "loss": 1.2086,
+      "step": 2500
+    },
+    {
+      "epoch": 7.6452599388379205,
+      "eval_loss": 0.5230885744094849,
+      "eval_runtime": 31.7287,
+      "eval_samples_per_second": 14.372,
+      "eval_steps_per_second": 3.593,
+      "eval_wer": 0.48072830456372667,
+      "step": 2500
+    },
+    {
+      "epoch": 7.951070336391437,
+      "grad_norm": 7.100344181060791,
+      "learning_rate": 0.0002229454170957775,
+      "loss": 1.2796,
+      "step": 2600
+    },
+    {
+      "epoch": 7.951070336391437,
+      "eval_loss": 0.5403640866279602,
+      "eval_runtime": 31.7077,
+      "eval_samples_per_second": 14.381,
+      "eval_steps_per_second": 3.595,
+      "eval_wer": 0.473870891463703,
+      "step": 2600
+    },
+    {
+      "epoch": 8.256880733944953,
+      "grad_norm": 2.845608949661255,
+      "learning_rate": 0.00021985581874356332,
+      "loss": 1.1428,
+      "step": 2700
+    },
+    {
+      "epoch": 8.256880733944953,
+      "eval_loss": 0.5328220725059509,
+      "eval_runtime": 31.486,
+      "eval_samples_per_second": 14.483,
+      "eval_steps_per_second": 3.621,
+      "eval_wer": 0.48309292977063134,
+      "step": 2700
+    },
+    {
+      "epoch": 8.562691131498472,
+      "grad_norm": 2.0753355026245117,
+      "learning_rate": 0.0002167662203913491,
+      "loss": 1.3118,
+      "step": 2800
+    },
+    {
+      "epoch": 8.562691131498472,
+      "eval_loss": 0.5198370814323425,
+      "eval_runtime": 31.5982,
+      "eval_samples_per_second": 14.431,
+      "eval_steps_per_second": 3.608,
+      "eval_wer": 0.4769449042326791,
+      "step": 2800
+    },
+    {
+      "epoch": 8.868501529051988,
+      "grad_norm": 1.6540861129760742,
+      "learning_rate": 0.0002136766220391349,
+      "loss": 1.2569,
+      "step": 2900
+    },
+    {
+      "epoch": 8.868501529051988,
+      "eval_loss": 0.530635416507721,
+      "eval_runtime": 31.7976,
+      "eval_samples_per_second": 14.341,
+      "eval_steps_per_second": 3.585,
+      "eval_wer": 0.48474816741546467,
+      "step": 2900
+    },
+    {
+      "epoch": 9.174311926605505,
+      "grad_norm": 3.073190450668335,
+      "learning_rate": 0.00021058702368692068,
+      "loss": 1.1718,
+      "step": 3000
+    },
+    {
+      "epoch": 9.174311926605505,
+      "eval_loss": 0.5160026550292969,
+      "eval_runtime": 31.7143,
+      "eval_samples_per_second": 14.378,
+      "eval_steps_per_second": 3.595,
+      "eval_wer": 0.4648853156774651,
+      "step": 3000
+    },
+    {
+      "epoch": 9.480122324159021,
+      "grad_norm": 5.7398881912231445,
+      "learning_rate": 0.00020749742533470648,
+      "loss": 1.1354,
+      "step": 3100
+    },
+    {
+      "epoch": 9.480122324159021,
+      "eval_loss": 0.5265021920204163,
+      "eval_runtime": 31.5861,
+      "eval_samples_per_second": 14.437,
+      "eval_steps_per_second": 3.609,
+      "eval_wer": 0.47765429179475055,
+      "step": 3100
+    },
+    {
+      "epoch": 9.785932721712538,
+      "grad_norm": 7.869950294494629,
+      "learning_rate": 0.00020440782698249226,
+      "loss": 1.2795,
+      "step": 3200
+    },
+    {
+      "epoch": 9.785932721712538,
+      "eval_loss": 0.508959949016571,
+      "eval_runtime": 31.4657,
+      "eval_samples_per_second": 14.492,
+      "eval_steps_per_second": 3.623,
+      "eval_wer": 0.45897375266020335,
+      "step": 3200
+    },
+    {
+      "epoch": 10.091743119266056,
+      "grad_norm": 2.3973193168640137,
+      "learning_rate": 0.00020131822863027807,
+      "loss": 1.1793,
+      "step": 3300
+    },
+    {
+      "epoch": 10.091743119266056,
+      "eval_loss": 0.5265406370162964,
+      "eval_runtime": 31.7563,
+      "eval_samples_per_second": 14.359,
+      "eval_steps_per_second": 3.59,
+      "eval_wer": 0.4684322534878222,
+      "step": 3300
+    },
+    {
+      "epoch": 10.397553516819572,
+      "grad_norm": 2.35862398147583,
+      "learning_rate": 0.00019822863027806382,
+      "loss": 1.1647,
+      "step": 3400
+    },
+    {
+      "epoch": 10.397553516819572,
+      "eval_loss": 0.538512110710144,
+      "eval_runtime": 31.6591,
+      "eval_samples_per_second": 14.403,
+      "eval_steps_per_second": 3.601,
+      "eval_wer": 0.4762355166706077,
+      "step": 3400
+    },
+    {
+      "epoch": 10.703363914373089,
+      "grad_norm": 1.5017459392547607,
+      "learning_rate": 0.00019513903192584962,
+      "loss": 1.1978,
+      "step": 3500
+    },
+    {
+      "epoch": 10.703363914373089,
+      "eval_loss": 0.5132156610488892,
+      "eval_runtime": 31.4578,
+      "eval_samples_per_second": 14.496,
+      "eval_steps_per_second": 3.624,
+      "eval_wer": 0.4715062662567983,
+      "step": 3500
+    },
+    {
+      "epoch": 11.009174311926605,
+      "grad_norm": 8.986639022827148,
+      "learning_rate": 0.0001920494335736354,
+      "loss": 1.1802,
+      "step": 3600
+    },
+    {
+      "epoch": 11.009174311926605,
+      "eval_loss": 0.5129914283752441,
+      "eval_runtime": 31.4287,
+      "eval_samples_per_second": 14.509,
+      "eval_steps_per_second": 3.627,
+      "eval_wer": 0.45968314022227474,
+      "step": 3600
+    },
+    {
+      "epoch": 11.009174311926605,
+      "step": 3600,
+      "total_flos": 1.8690129169621533e+19,
+      "train_loss": 1.669767551422119,
+      "train_runtime": 5274.2639,
+      "train_samples_per_second": 14.874,
+      "train_steps_per_second": 1.86
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 9810,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 30,
+  "save_steps": 400,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 4,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 4
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.8690129169621533e+19,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}