marinone94 commited on Feb 2, 2022

Commit

fcf680c

1 Parent(s): 0062eb5

interrupted training

Browse files

Files changed (27) hide show

checkpoint-1000/rng_state.pth +0 -3
checkpoint-1000/scaler.pt +0 -3
{checkpoint-1000 → checkpoint-1300}/config.json +0 -0
{checkpoint-1000 → checkpoint-1300}/optimizer.pt +1 -1
{checkpoint-1000 → checkpoint-1300}/preprocessor_config.json +0 -0
{checkpoint-800 → checkpoint-1300}/pytorch_model.bin +1 -1
{checkpoint-900 → checkpoint-1300}/rng_state.pth +2 -2
{checkpoint-900 → checkpoint-1300}/scaler.pt +1 -1
{checkpoint-1000 → checkpoint-1300}/scheduler.pt +1 -1
{checkpoint-1000 → checkpoint-1300}/trainer_state.json +210 -3
{checkpoint-1000 → checkpoint-1300}/training_args.bin +0 -0
{checkpoint-800 → checkpoint-1400}/config.json +0 -0
{checkpoint-800 → checkpoint-1400}/optimizer.pt +1 -1
{checkpoint-800 → checkpoint-1400}/preprocessor_config.json +0 -0
{checkpoint-1000 → checkpoint-1400}/pytorch_model.bin +1 -1
{checkpoint-800 → checkpoint-1400}/rng_state.pth +2 -2
{checkpoint-800 → checkpoint-1400}/scaler.pt +1 -1
{checkpoint-900 → checkpoint-1400}/scheduler.pt +1 -1
{checkpoint-900 → checkpoint-1400}/trainer_state.json +348 -3
{checkpoint-800 → checkpoint-1400}/training_args.bin +0 -0
checkpoint-800/scheduler.pt +0 -3
checkpoint-800/trainer_state.json +0 -568
checkpoint-900/config.json +0 -115
checkpoint-900/optimizer.pt +0 -3
checkpoint-900/preprocessor_config.json +0 -9
checkpoint-900/pytorch_model.bin +0 -3
checkpoint-900/training_args.bin +0 -3

checkpoint-1000/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:5a99d24035e5ff3cbd9dc315b818c70efc6bc64689f3aea3ad3aeea51446c2e6
-size 14567

checkpoint-1000/scaler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:9b5445ebb608f848fc4858bff0aee1c5e183c4aaa9123cfc6cd096717ff96db5
-size 559

{checkpoint-1000 → checkpoint-1300}/config.json RENAMED Viewed

File without changes

{checkpoint-1000 → checkpoint-1300}/optimizer.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7366ea0f0c13b52774f5b65c9237727cabcae8df11565fda3d45477aa2f04998
 size 2490346001

 version https://git-lfs.github.com/spec/v1
+oid sha256:70a0426eafac8c8c10770a691cef248c0353c8e0baebb4d1fbff4405dee6588e
 size 2490346001

{checkpoint-1000 → checkpoint-1300}/preprocessor_config.json RENAMED Viewed

File without changes

{checkpoint-800 → checkpoint-1300}/pytorch_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aa43bdbed16b5fc10ebee537908dcf5e5f5e67381037463baf9a181a9926057d
 size 1262067185

 version https://git-lfs.github.com/spec/v1
+oid sha256:867a3e8ea149aef5534af0482651a760ce0a8ef4d951771a2062ef9577af71ba
 size 1262067185

{checkpoint-900 → checkpoint-1300}/rng_state.pth RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5a4585f922a033758d0a6a0b0f1a5d69a1e6835c8ebb3ce639c007579d1be7d
-size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:2c2ca62187d439b1a773f86b848a8bff5f904cb9be08d2f543dbaa0c0ae448dd
+size 14503

{checkpoint-900 → checkpoint-1300}/scaler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2805e3eccf2e46b8f5518fa8d1844fcdcd45d4b27e76ca4417c27b06af79b8d5
 size 559

 version https://git-lfs.github.com/spec/v1
+oid sha256:75aa75aef6a6df8858db3632a05089bae91d31a1383275f1f509886761f7664b
 size 559

{checkpoint-1000 → checkpoint-1300}/scheduler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:51077c0775f8e63b91513c5020d22be0afef1f97e1846c4b1d969f7f83bbe0d8
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:0aa6415cc7ddb4768cf326482ccb8c4f63c1bd37335e303f338e749a12dacfa3
 size 623

{checkpoint-1000 → checkpoint-1300}/trainer_state.json RENAMED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.461361014994233,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -696,11 +696,218 @@
       "eval_steps_per_second": 1.124,
       "eval_wer": 1.0,
       "step": 1000
     }
   ],
   "max_steps": 6501,
   "num_train_epochs": 3,
-  "total_flos": 1.8908999903639437e+19,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.5997693194925029,
+  "global_step": 1300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 1.124,
       "eval_wer": 1.0,
       "step": 1000
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 6.490973312401883e-05,
+      "loss": 2.9439,
+      "step": 1010
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 6.479199372056514e-05,
+      "loss": 2.9291,
+      "step": 1020
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 6.467425431711145e-05,
+      "loss": 2.9709,
+      "step": 1030
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 6.455651491365777e-05,
+      "loss": 3.3363,
+      "step": 1040
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 6.443877551020408e-05,
+      "loss": 3.4812,
+      "step": 1050
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 6.432103610675038e-05,
+      "loss": 2.9394,
+      "step": 1060
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 6.420329670329669e-05,
+      "loss": 2.9355,
+      "step": 1070
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 6.4085557299843e-05,
+      "loss": 2.9679,
+      "step": 1080
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 6.396781789638932e-05,
+      "loss": 3.3439,
+      "step": 1090
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 6.3861852433281e-05,
+      "loss": 3.7295,
+      "step": 1100
+    },
+    {
+      "epoch": 0.51,
+      "eval_loss": 2.965841054916382,
+      "eval_runtime": 129.5437,
+      "eval_samples_per_second": 35.664,
+      "eval_steps_per_second": 1.119,
+      "eval_wer": 1.0,
+      "step": 1100
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 6.374411302982731e-05,
+      "loss": 2.9341,
+      "step": 1110
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 6.362637362637362e-05,
+      "loss": 2.923,
+      "step": 1120
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 6.350863422291993e-05,
+      "loss": 2.9708,
+      "step": 1130
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 6.339089481946623e-05,
+      "loss": 3.3851,
+      "step": 1140
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 6.328492935635793e-05,
+      "loss": 3.7979,
+      "step": 1150
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 6.316718995290424e-05,
+      "loss": 2.9171,
+      "step": 1160
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 6.304945054945054e-05,
+      "loss": 2.9222,
+      "step": 1170
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 6.293171114599685e-05,
+      "loss": 2.9591,
+      "step": 1180
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 6.281397174254316e-05,
+      "loss": 3.3446,
+      "step": 1190
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 6.269623233908948e-05,
+      "loss": 3.5604,
+      "step": 1200
+    },
+    {
+      "epoch": 0.55,
+      "eval_loss": 2.9375498294830322,
+      "eval_runtime": 129.4086,
+      "eval_samples_per_second": 35.701,
+      "eval_steps_per_second": 1.12,
+      "eval_wer": 1.0,
+      "step": 1200
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 6.257849293563579e-05,
+      "loss": 2.9104,
+      "step": 1210
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 6.24607535321821e-05,
+      "loss": 2.9168,
+      "step": 1220
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 6.23430141287284e-05,
+      "loss": 2.952,
+      "step": 1230
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 6.222527472527472e-05,
+      "loss": 3.3335,
+      "step": 1240
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 6.21193092621664e-05,
+      "loss": 3.7665,
+      "step": 1250
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 6.200156985871271e-05,
+      "loss": 2.9118,
+      "step": 1260
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 6.188383045525902e-05,
+      "loss": 2.918,
+      "step": 1270
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 6.176609105180533e-05,
+      "loss": 2.9364,
+      "step": 1280
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 6.164835164835164e-05,
+      "loss": 3.219,
+      "step": 1290
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 6.154238618524333e-05,
+      "loss": 3.5977,
+      "step": 1300
+    },
+    {
+      "epoch": 0.6,
+      "eval_loss": 2.94680118560791,
+      "eval_runtime": 130.4848,
+      "eval_samples_per_second": 35.406,
+      "eval_steps_per_second": 1.111,
+      "eval_wer": 0.9999694058618369,
+      "step": 1300
     }
   ],
   "max_steps": 6501,
   "num_train_epochs": 3,
+  "total_flos": 2.4578610069100462e+19,
   "trial_name": null,
   "trial_params": null
 }

{checkpoint-1000 → checkpoint-1300}/training_args.bin RENAMED Viewed

File without changes

{checkpoint-800 → checkpoint-1400}/config.json RENAMED Viewed

File without changes

{checkpoint-800 → checkpoint-1400}/optimizer.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad7ea02ec7c343ab141220559f7cfc2e88de82783306133f00b7a0f427c9391a
 size 2490346001

 version https://git-lfs.github.com/spec/v1
+oid sha256:4d15b555a6871902378f0d9328ad18ea7afd0b4aaf876080cfa1ad04de562339
 size 2490346001

{checkpoint-800 → checkpoint-1400}/preprocessor_config.json RENAMED Viewed

File without changes

{checkpoint-1000 → checkpoint-1400}/pytorch_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:215e82f2b95ddb6481797f61b17faad7070953e16644208286be9592449527ca
 size 1262067185

 version https://git-lfs.github.com/spec/v1
+oid sha256:51e875a355a099fda14d65f09891dcaf841f19d4d1ce5e05bf629743dcb319bb
 size 1262067185

{checkpoint-800 → checkpoint-1400}/rng_state.pth RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b18fc220a6ff2583766eb993c583889da7a20bad4aad048832b1c72e10236be1
-size 14631

 version https://git-lfs.github.com/spec/v1
+oid sha256:852221673a25053ad2825c2c8693e0225855ee845a2d4afc38c7b06337abef60
+size 14503

{checkpoint-800 → checkpoint-1400}/scaler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bea98ff9335db6568bd2c2133c9e5febb1265494530eb77d55ae8ee8b21d5e4e
 size 559

 version https://git-lfs.github.com/spec/v1
+oid sha256:b4e981ac3953a2b70137bf1ee91ab564ffd88c49c96c4afe11b0cb3e54b3cfbc
 size 559

{checkpoint-900 → checkpoint-1400}/scheduler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d83fa4807715cddf3058690a0c6a411df0e3d3bd6db8670f4c3379a7e7bfd95
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ff4afedaab846d6396a9f500ff85c71aae3a453a6babb35dc2b70a2457ca70e
 size 623

{checkpoint-900 → checkpoint-1400}/trainer_state.json RENAMED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.41522491349480967,
-  "global_step": 900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -627,11 +627,356 @@
       "eval_steps_per_second": 1.123,
       "eval_wer": 1.0,
       "step": 900
     }
   ],
   "max_steps": 6501,
   "num_train_epochs": 3,
-  "total_flos": 1.7007095739442115e+19,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.6459054209919262,
+  "global_step": 1400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 1.123,
       "eval_wer": 1.0,
       "step": 900
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 6.606357927786498e-05,
+      "loss": 2.9729,
+      "step": 910
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 6.594583987441129e-05,
+      "loss": 2.9444,
+      "step": 920
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 6.582810047095761e-05,
+      "loss": 2.9441,
+      "step": 930
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 6.571036106750392e-05,
+      "loss": 3.2629,
+      "step": 940
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 6.56043956043956e-05,
+      "loss": 3.6467,
+      "step": 950
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 6.548665620094191e-05,
+      "loss": 2.9472,
+      "step": 960
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 6.536891679748822e-05,
+      "loss": 2.9301,
+      "step": 970
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 6.525117739403452e-05,
+      "loss": 2.9555,
+      "step": 980
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 6.513343799058084e-05,
+      "loss": 3.2888,
+      "step": 990
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 6.502747252747253e-05,
+      "loss": 3.6354,
+      "step": 1000
+    },
+    {
+      "epoch": 0.46,
+      "eval_loss": 2.9995181560516357,
+      "eval_runtime": 128.998,
+      "eval_samples_per_second": 35.815,
+      "eval_steps_per_second": 1.124,
+      "eval_wer": 1.0,
+      "step": 1000
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 6.490973312401883e-05,
+      "loss": 2.9439,
+      "step": 1010
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 6.479199372056514e-05,
+      "loss": 2.9291,
+      "step": 1020
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 6.467425431711145e-05,
+      "loss": 2.9709,
+      "step": 1030
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 6.455651491365777e-05,
+      "loss": 3.3363,
+      "step": 1040
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 6.443877551020408e-05,
+      "loss": 3.4812,
+      "step": 1050
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 6.432103610675038e-05,
+      "loss": 2.9394,
+      "step": 1060
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 6.420329670329669e-05,
+      "loss": 2.9355,
+      "step": 1070
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 6.4085557299843e-05,
+      "loss": 2.9679,
+      "step": 1080
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 6.396781789638932e-05,
+      "loss": 3.3439,
+      "step": 1090
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 6.3861852433281e-05,
+      "loss": 3.7295,
+      "step": 1100
+    },
+    {
+      "epoch": 0.51,
+      "eval_loss": 2.965841054916382,
+      "eval_runtime": 129.5437,
+      "eval_samples_per_second": 35.664,
+      "eval_steps_per_second": 1.119,
+      "eval_wer": 1.0,
+      "step": 1100
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 6.374411302982731e-05,
+      "loss": 2.9341,
+      "step": 1110
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 6.362637362637362e-05,
+      "loss": 2.923,
+      "step": 1120
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 6.350863422291993e-05,
+      "loss": 2.9708,
+      "step": 1130
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 6.339089481946623e-05,
+      "loss": 3.3851,
+      "step": 1140
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 6.328492935635793e-05,
+      "loss": 3.7979,
+      "step": 1150
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 6.316718995290424e-05,
+      "loss": 2.9171,
+      "step": 1160
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 6.304945054945054e-05,
+      "loss": 2.9222,
+      "step": 1170
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 6.293171114599685e-05,
+      "loss": 2.9591,
+      "step": 1180
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 6.281397174254316e-05,
+      "loss": 3.3446,
+      "step": 1190
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 6.269623233908948e-05,
+      "loss": 3.5604,
+      "step": 1200
+    },
+    {
+      "epoch": 0.55,
+      "eval_loss": 2.9375498294830322,
+      "eval_runtime": 129.4086,
+      "eval_samples_per_second": 35.701,
+      "eval_steps_per_second": 1.12,
+      "eval_wer": 1.0,
+      "step": 1200
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 6.257849293563579e-05,
+      "loss": 2.9104,
+      "step": 1210
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 6.24607535321821e-05,
+      "loss": 2.9168,
+      "step": 1220
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 6.23430141287284e-05,
+      "loss": 2.952,
+      "step": 1230
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 6.222527472527472e-05,
+      "loss": 3.3335,
+      "step": 1240
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 6.21193092621664e-05,
+      "loss": 3.7665,
+      "step": 1250
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 6.200156985871271e-05,
+      "loss": 2.9118,
+      "step": 1260
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 6.188383045525902e-05,
+      "loss": 2.918,
+      "step": 1270
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 6.176609105180533e-05,
+      "loss": 2.9364,
+      "step": 1280
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 6.164835164835164e-05,
+      "loss": 3.219,
+      "step": 1290
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 6.154238618524333e-05,
+      "loss": 3.5977,
+      "step": 1300
+    },
+    {
+      "epoch": 0.6,
+      "eval_loss": 2.94680118560791,
+      "eval_runtime": 130.4848,
+      "eval_samples_per_second": 35.406,
+      "eval_steps_per_second": 1.111,
+      "eval_wer": 0.9999694058618369,
+      "step": 1300
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 6.142464678178964e-05,
+      "loss": 2.9167,
+      "step": 1310
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 6.130690737833595e-05,
+      "loss": 2.9305,
+      "step": 1320
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 6.118916797488225e-05,
+      "loss": 2.9303,
+      "step": 1330
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 6.107142857142856e-05,
+      "loss": 3.1689,
+      "step": 1340
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 6.0965463108320243e-05,
+      "loss": 3.4788,
+      "step": 1350
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 6.084772370486656e-05,
+      "loss": 2.9461,
+      "step": 1360
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 6.072998430141287e-05,
+      "loss": 2.9556,
+      "step": 1370
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 6.061224489795918e-05,
+      "loss": 2.965,
+      "step": 1380
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 6.0494505494505494e-05,
+      "loss": 3.1035,
+      "step": 1390
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 6.038854003139717e-05,
+      "loss": 3.3783,
+      "step": 1400
+    },
+    {
+      "epoch": 0.65,
+      "eval_loss": 3.044978141784668,
+      "eval_runtime": 129.9307,
+      "eval_samples_per_second": 35.557,
+      "eval_steps_per_second": 1.116,
+      "eval_wer": 1.0,
+      "step": 1400
     }
   ],
   "max_steps": 6501,
   "num_train_epochs": 3,
+  "total_flos": 2.64683689964352e+19,
   "trial_name": null,
   "trial_params": null
 }

{checkpoint-800 → checkpoint-1400}/training_args.bin RENAMED Viewed

File without changes

checkpoint-800/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:66bd4c9006c0fa0d3e816d59ca98b89719c7ee4d17d76fad0d1502cc27f1f6a6
-size 623

checkpoint-800/trainer_state.json DELETED Viewed

@@ -1,568 +0,0 @@
-{
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 0.3690888119953864,
-  "global_step": 800,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.0,
-      "learning_rate": 5.725190839694656e-06,
-      "loss": 12.7187,
-      "step": 10
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 1.1450381679389312e-05,
-      "loss": 13.2124,
-      "step": 20
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 1.6603053435114505e-05,
-      "loss": 14.1489,
-      "step": 30
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 2.1755725190839692e-05,
-      "loss": 25.9008,
-      "step": 40
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 2.6908396946564882e-05,
-      "loss": 31.3861,
-      "step": 50
-    },
-    {
-      "epoch": 0.03,
-      "learning_rate": 3.263358778625954e-05,
-      "loss": 8.9557,
-      "step": 60
-    },
-    {
-      "epoch": 0.03,
-      "learning_rate": 3.835877862595419e-05,
-      "loss": 5.8443,
-      "step": 70
-    },
-    {
-      "epoch": 0.04,
-      "learning_rate": 4.408396946564885e-05,
-      "loss": 4.3173,
-      "step": 80
-    },
-    {
-      "epoch": 0.04,
-      "learning_rate": 4.980916030534351e-05,
-      "loss": 4.7444,
-      "step": 90
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 5.49618320610687e-05,
-      "loss": 4.542,
-      "step": 100
-    },
-    {
-      "epoch": 0.05,
-      "eval_loss": 3.579599618911743,
-      "eval_runtime": 132.6751,
-      "eval_samples_per_second": 34.822,
-      "eval_steps_per_second": 1.093,
-      "eval_wer": 1.0,
-      "step": 100
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 6.0687022900763354e-05,
-      "loss": 3.3873,
-      "step": 110
-    },
-    {
-      "epoch": 0.06,
-      "learning_rate": 6.641221374045802e-05,
-      "loss": 3.1783,
-      "step": 120
-    },
-    {
-      "epoch": 0.06,
-      "learning_rate": 7.213740458015267e-05,
-      "loss": 3.1672,
-      "step": 130
-    },
-    {
-      "epoch": 0.06,
-      "learning_rate": 7.494113029827315e-05,
-      "loss": 3.4915,
-      "step": 140
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 7.483516483516483e-05,
-      "loss": 3.7276,
-      "step": 150
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 7.471742543171114e-05,
-      "loss": 3.2435,
-      "step": 160
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 7.459968602825744e-05,
-      "loss": 3.0634,
-      "step": 170
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 7.448194662480377e-05,
-      "loss": 3.0859,
-      "step": 180
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 7.436420722135007e-05,
-      "loss": 3.3592,
-      "step": 190
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 7.425824175824176e-05,
-      "loss": 3.6018,
-      "step": 200
-    },
-    {
-      "epoch": 0.09,
-      "eval_loss": 3.3504831790924072,
-      "eval_runtime": 130.1255,
-      "eval_samples_per_second": 35.504,
-      "eval_steps_per_second": 1.114,
-      "eval_wer": 1.0,
-      "step": 200
-    },
-    {
-      "epoch": 0.1,
-      "learning_rate": 7.414050235478806e-05,
-      "loss": 3.1612,
-      "step": 210
-    },
-    {
-      "epoch": 0.1,
-      "learning_rate": 7.402276295133437e-05,
-      "loss": 3.0375,
-      "step": 220
-    },
-    {
-      "epoch": 0.11,
-      "learning_rate": 7.390502354788069e-05,
-      "loss": 3.08,
-      "step": 230
-    },
-    {
-      "epoch": 0.11,
-      "learning_rate": 7.3787284144427e-05,
-      "loss": 3.2809,
-      "step": 240
-    },
-    {
-      "epoch": 0.12,
-      "learning_rate": 7.368131868131867e-05,
-      "loss": 3.5351,
-      "step": 250
-    },
-    {
-      "epoch": 0.12,
-      "learning_rate": 7.356357927786499e-05,
-      "loss": 3.01,
-      "step": 260
-    },
-    {
-      "epoch": 0.12,
-      "learning_rate": 7.34458398744113e-05,
-      "loss": 3.0006,
-      "step": 270
-    },
-    {
-      "epoch": 0.13,
-      "learning_rate": 7.33281004709576e-05,
-      "loss": 3.0397,
-      "step": 280
-    },
-    {
-      "epoch": 0.13,
-      "learning_rate": 7.321036106750392e-05,
-      "loss": 3.1733,
-      "step": 290
-    },
-    {
-      "epoch": 0.14,
-      "learning_rate": 7.310439560439559e-05,
-      "loss": 3.5007,
-      "step": 300
-    },
-    {
-      "epoch": 0.14,
-      "eval_loss": 3.068483591079712,
-      "eval_runtime": 129.9806,
-      "eval_samples_per_second": 35.544,
-      "eval_steps_per_second": 1.116,
-      "eval_wer": 1.0,
-      "step": 300
-    },
-    {
-      "epoch": 0.14,
-      "learning_rate": 7.29866562009419e-05,
-      "loss": 2.9984,
-      "step": 310
-    },
-    {
-      "epoch": 0.15,
-      "learning_rate": 7.286891679748822e-05,
-      "loss": 3.0006,
-      "step": 320
-    },
-    {
-      "epoch": 0.15,
-      "learning_rate": 7.275117739403453e-05,
-      "loss": 3.029,
-      "step": 330
-    },
-    {
-      "epoch": 0.16,
-      "learning_rate": 7.263343799058085e-05,
-      "loss": 3.158,
-      "step": 340
-    },
-    {
-      "epoch": 0.16,
-      "learning_rate": 7.252747252747252e-05,
-      "loss": 3.4909,
-      "step": 350
-    },
-    {
-      "epoch": 0.17,
-      "learning_rate": 7.240973312401883e-05,
-      "loss": 3.001,
-      "step": 360
-    },
-    {
-      "epoch": 0.17,
-      "learning_rate": 7.229199372056515e-05,
-      "loss": 2.9925,
-      "step": 370
-    },
-    {
-      "epoch": 0.18,
-      "learning_rate": 7.217425431711145e-05,
-      "loss": 3.0009,
-      "step": 380
-    },
-    {
-      "epoch": 0.18,
-      "learning_rate": 7.205651491365776e-05,
-      "loss": 3.1263,
-      "step": 390
-    },
-    {
-      "epoch": 0.18,
-      "learning_rate": 7.195054945054944e-05,
-      "loss": 3.421,
-      "step": 400
-    },
-    {
-      "epoch": 0.18,
-      "eval_loss": 3.0357792377471924,
-      "eval_runtime": 130.0328,
-      "eval_samples_per_second": 35.529,
-      "eval_steps_per_second": 1.115,
-      "eval_wer": 1.0,
-      "step": 400
-    },
-    {
-      "epoch": 0.19,
-      "learning_rate": 7.183281004709575e-05,
-      "loss": 3.0018,
-      "step": 410
-    },
-    {
-      "epoch": 0.19,
-      "learning_rate": 7.171507064364207e-05,
-      "loss": 2.9947,
-      "step": 420
-    },
-    {
-      "epoch": 0.2,
-      "learning_rate": 7.159733124018838e-05,
-      "loss": 2.9935,
-      "step": 430
-    },
-    {
-      "epoch": 0.2,
-      "learning_rate": 7.147959183673469e-05,
-      "loss": 3.0818,
-      "step": 440
-    },
-    {
-      "epoch": 0.21,
-      "learning_rate": 7.137362637362637e-05,
-      "loss": 3.3386,
-      "step": 450
-    },
-    {
-      "epoch": 0.21,
-      "learning_rate": 7.125588697017268e-05,
-      "loss": 3.0803,
-      "step": 460
-    },
-    {
-      "epoch": 0.22,
-      "learning_rate": 7.1138147566719e-05,
-      "loss": 3.1655,
-      "step": 470
-    },
-    {
-      "epoch": 0.22,
-      "learning_rate": 7.10204081632653e-05,
-      "loss": 3.0899,
-      "step": 480
-    },
-    {
-      "epoch": 0.23,
-      "learning_rate": 7.090266875981161e-05,
-      "loss": 3.1638,
-      "step": 490
-    },
-    {
-      "epoch": 0.23,
-      "learning_rate": 7.079670329670328e-05,
-      "loss": 3.3518,
-      "step": 500
-    },
-    {
-      "epoch": 0.23,
-      "eval_loss": 2.9412434101104736,
-      "eval_runtime": 130.1575,
-      "eval_samples_per_second": 35.495,
-      "eval_steps_per_second": 1.114,
-      "eval_wer": 1.0,
-      "step": 500
-    },
-    {
-      "epoch": 0.24,
-      "learning_rate": 7.06789638932496e-05,
-      "loss": 2.9352,
-      "step": 510
-    },
-    {
-      "epoch": 0.24,
-      "learning_rate": 7.056122448979591e-05,
-      "loss": 2.9405,
-      "step": 520
-    },
-    {
-      "epoch": 0.24,
-      "learning_rate": 7.044348508634222e-05,
-      "loss": 2.9125,
-      "step": 530
-    },
-    {
-      "epoch": 0.25,
-      "learning_rate": 7.032574568288854e-05,
-      "loss": 2.9401,
-      "step": 540
-    },
-    {
-      "epoch": 0.25,
-      "learning_rate": 7.021978021978021e-05,
-      "loss": 3.1443,
-      "step": 550
-    },
-    {
-      "epoch": 0.26,
-      "learning_rate": 7.010204081632653e-05,
-      "loss": 2.7692,
-      "step": 560
-    },
-    {
-      "epoch": 0.26,
-      "learning_rate": 6.998430141287284e-05,
-      "loss": 2.7574,
-      "step": 570
-    },
-    {
-      "epoch": 0.27,
-      "learning_rate": 6.986656200941914e-05,
-      "loss": 2.706,
-      "step": 580
-    },
-    {
-      "epoch": 0.27,
-      "learning_rate": 6.974882260596545e-05,
-      "loss": 2.7155,
-      "step": 590
-    },
-    {
-      "epoch": 0.28,
-      "learning_rate": 6.964285714285713e-05,
-      "loss": 2.8747,
-      "step": 600
-    },
-    {
-      "epoch": 0.28,
-      "eval_loss": 2.5006003379821777,
-      "eval_runtime": 129.3111,
-      "eval_samples_per_second": 35.728,
-      "eval_steps_per_second": 1.121,
-      "eval_wer": 1.0,
-      "step": 600
-    },
-    {
-      "epoch": 0.28,
-      "learning_rate": 6.952511773940345e-05,
-      "loss": 2.5368,
-      "step": 610
-    },
-    {
-      "epoch": 0.29,
-      "learning_rate": 6.940737833594976e-05,
-      "loss": 2.5942,
-      "step": 620
-    },
-    {
-      "epoch": 0.29,
-      "learning_rate": 6.928963893249607e-05,
-      "loss": 2.4907,
-      "step": 630
-    },
-    {
-      "epoch": 0.3,
-      "learning_rate": 6.917189952904238e-05,
-      "loss": 2.472,
-      "step": 640
-    },
-    {
-      "epoch": 0.3,
-      "learning_rate": 6.907770800627943e-05,
-      "loss": 2.6826,
-      "step": 650
-    },
-    {
-      "epoch": 0.3,
-      "learning_rate": 6.895996860282574e-05,
-      "loss": 2.3167,
-      "step": 660
-    },
-    {
-      "epoch": 0.31,
-      "learning_rate": 6.884222919937205e-05,
-      "loss": 2.3457,
-      "step": 670
-    },
-    {
-      "epoch": 0.31,
-      "learning_rate": 6.872448979591836e-05,
-      "loss": 2.3532,
-      "step": 680
-    },
-    {
-      "epoch": 0.32,
-      "learning_rate": 6.860675039246468e-05,
-      "loss": 2.4822,
-      "step": 690
-    },
-    {
-      "epoch": 0.32,
-      "learning_rate": 6.850078492935636e-05,
-      "loss": 3.1002,
-      "step": 700
-    },
-    {
-      "epoch": 0.32,
-      "eval_loss": 2.819200277328491,
-      "eval_runtime": 129.5044,
-      "eval_samples_per_second": 35.674,
-      "eval_steps_per_second": 1.12,
-      "eval_wer": 0.9999694058618369,
-      "step": 700
-    },
-    {
-      "epoch": 0.33,
-      "learning_rate": 6.838304552590267e-05,
-      "loss": 2.9139,
-      "step": 710
-    },
-    {
-      "epoch": 0.33,
-      "learning_rate": 6.826530612244897e-05,
-      "loss": 2.9957,
-      "step": 720
-    },
-    {
-      "epoch": 0.34,
-      "learning_rate": 6.814756671899528e-05,
-      "loss": 2.9842,
-      "step": 730
-    },
-    {
-      "epoch": 0.34,
-      "learning_rate": 6.802982731554159e-05,
-      "loss": 3.2804,
-      "step": 740
-    },
-    {
-      "epoch": 0.35,
-      "learning_rate": 6.792386185243327e-05,
-      "loss": 3.4944,
-      "step": 750
-    },
-    {
-      "epoch": 0.35,
-      "learning_rate": 6.780612244897958e-05,
-      "loss": 2.9905,
-      "step": 760
-    },
-    {
-      "epoch": 0.36,
-      "learning_rate": 6.768838304552589e-05,
-      "loss": 2.9692,
-      "step": 770
-    },
-    {
-      "epoch": 0.36,
-      "learning_rate": 6.757064364207221e-05,
-      "loss": 2.9747,
-      "step": 780
-    },
-    {
-      "epoch": 0.36,
-      "learning_rate": 6.745290423861852e-05,
-      "loss": 3.294,
-      "step": 790
-    },
-    {
-      "epoch": 0.37,
-      "learning_rate": 6.73469387755102e-05,
-      "loss": 3.5998,
-      "step": 800
-    },
-    {
-      "epoch": 0.37,
-      "eval_loss": 3.059178590774536,
-      "eval_runtime": 129.2337,
-      "eval_samples_per_second": 35.749,
-      "eval_steps_per_second": 1.122,
-      "eval_wer": 1.0,
-      "step": 800
-    }
-  ],
-  "max_steps": 6501,
-  "num_train_epochs": 3,
-  "total_flos": 1.5122477119825152e+19,
-  "trial_name": null,
-  "trial_params": null
-}

checkpoint-900/config.json DELETED Viewed

@@ -1,115 +0,0 @@
-{
-  "_name_or_path": "KBLab/wav2vec2-large-voxrex",
-  "activation_dropout": 0.1,
-  "adapter_kernel_size": 3,
-  "adapter_stride": 2,
-  "add_adapter": false,
-  "apply_spec_augment": true,
-  "architectures": [
-    "Wav2Vec2ForCTC"
-  ],
-  "attention_dropout": 0.0,
-  "bos_token_id": 1,
-  "classifier_proj_size": 256,
-  "codevector_dim": 768,
-  "contrastive_logits_temperature": 0.1,
-  "conv_bias": true,
-  "conv_dim": [
-    512,
-    512,
-    512,
-    512,
-    512,
-    512,
-    512
-  ],
-  "conv_kernel": [
-    10,
-    3,
-    3,
-    3,
-    3,
-    2,
-    2
-  ],
-  "conv_stride": [
-    5,
-    2,
-    2,
-    2,
-    2,
-    2,
-    2
-  ],
-  "ctc_loss_reduction": "mean",
-  "ctc_zero_infinity": false,
-  "diversity_loss_weight": 0.1,
-  "do_stable_layer_norm": true,
-  "eos_token_id": 2,
-  "feat_extract_activation": "gelu",
-  "feat_extract_dropout": 0.0,
-  "feat_extract_norm": "layer",
-  "feat_proj_dropout": 0.0,
-  "feat_quantizer_dropout": 0.0,
-  "final_dropout": 0.0,
-  "hidden_act": "gelu",
-  "hidden_dropout": 0.0,
-  "hidden_size": 1024,
-  "initializer_range": 0.02,
-  "intermediate_size": 4096,
-  "layer_norm_eps": 1e-05,
-  "layerdrop": 0.0,
-  "mask_channel_length": 10,
-  "mask_channel_min_space": 1,
-  "mask_channel_other": 0.0,
-  "mask_channel_prob": 0.0,
-  "mask_channel_selection": "static",
-  "mask_feature_length": 64,
-  "mask_feature_min_masks": 0,
-  "mask_feature_prob": 0.25,
-  "mask_time_length": 10,
-  "mask_time_min_masks": 2,
-  "mask_time_min_space": 1,
-  "mask_time_other": 0.0,
-  "mask_time_prob": 0.75,
-  "mask_time_selection": "static",
-  "model_type": "wav2vec2",
-  "num_adapter_layers": 3,
-  "num_attention_heads": 16,
-  "num_codevector_groups": 2,
-  "num_codevectors_per_group": 320,
-  "num_conv_pos_embedding_groups": 16,
-  "num_conv_pos_embeddings": 128,
-  "num_feat_extract_layers": 7,
-  "num_hidden_layers": 24,
-  "num_negatives": 100,
-  "output_hidden_size": 1024,
-  "pad_token_id": 32,
-  "proj_codevector_dim": 768,
-  "tdnn_dilation": [
-    1,
-    2,
-    3,
-    1,
-    1
-  ],
-  "tdnn_dim": [
-    512,
-    512,
-    512,
-    512,
-    1500
-  ],
-  "tdnn_kernel": [
-    5,
-    3,
-    3,
-    1,
-    1
-  ],
-  "torch_dtype": "float32",
-  "transformers_version": "4.17.0.dev0",
-  "use_weighted_layer_sum": false,
-  "vocab_size": 35,
-  "xvector_output_dim": 512
-}

checkpoint-900/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:59f0b148f8bd2bd87664562f6b57aed69fada1df7fac25bf851efef79073d650
-size 2490346001

checkpoint-900/preprocessor_config.json DELETED Viewed

@@ -1,9 +0,0 @@
-{
-  "do_normalize": true,
-  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
-  "feature_size": 1,
-  "padding_side": "right",
-  "padding_value": 0,
-  "return_attention_mask": true,
-  "sampling_rate": 16000
-}

checkpoint-900/pytorch_model.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:03c4ad43954ff5d68a16a7e40b86626a429d98e2fdeccfd745f3e2d0f37d6ea5
-size 1262067185

checkpoint-900/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:8ad7027bd45ccf9ba552f2894d3dfeae2d3fba8149a74b860da051c61576c8de
-size 3055