Training in progress, step 3900

Browse files

Files changed (18) hide show

{checkpoint-3200 → checkpoint-3800}/config.json +0 -0
{checkpoint-3200 → checkpoint-3800}/optimizer.pt +1 -1
{checkpoint-3200 → checkpoint-3800}/preprocessor_config.json +0 -0
{checkpoint-3300 → checkpoint-3800}/pytorch_model.bin +1 -1
{checkpoint-3300 → checkpoint-3800}/rng_state.pth +2 -2
{checkpoint-3300 → checkpoint-3800}/scaler.pt +1 -1
{checkpoint-3200 → checkpoint-3800}/scheduler.pt +1 -1
{checkpoint-3300 → checkpoint-3800}/trainer_state.json +198 -3
{checkpoint-3200 → checkpoint-3800}/training_args.bin +0 -0
{checkpoint-3300 → checkpoint-3900}/config.json +0 -0
{checkpoint-3300 → checkpoint-3900}/optimizer.pt +1 -1
{checkpoint-3300 → checkpoint-3900}/preprocessor_config.json +0 -0
{checkpoint-3200 → checkpoint-3900}/pytorch_model.bin +1 -1
{checkpoint-3200 → checkpoint-3900}/rng_state.pth +2 -2
{checkpoint-3200 → checkpoint-3900}/scaler.pt +1 -1
{checkpoint-3300 → checkpoint-3900}/scheduler.pt +1 -1
{checkpoint-3200 → checkpoint-3900}/trainer_state.json +276 -3
{checkpoint-3300 → checkpoint-3900}/training_args.bin +0 -0

{checkpoint-3200 → checkpoint-3800}/config.json RENAMED Viewed

File without changes

{checkpoint-3200 → checkpoint-3800}/optimizer.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d0ef9d1762f7ffe1cc3a0e4748e6ebb583dea4f49da96382216e78f5647702c
 size 2490337809

 version https://git-lfs.github.com/spec/v1
+oid sha256:3916c502476103f3ffc7a1308222895c30676a37dc692fc61cb70066e716d9ac
 size 2490337809

{checkpoint-3200 → checkpoint-3800}/preprocessor_config.json RENAMED Viewed

File without changes

{checkpoint-3300 → checkpoint-3800}/pytorch_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a0e5ce31e623a5f978a7686e5b6636e0db65bea23a7d3b791715106209b73f8c
 size 1262063089

 version https://git-lfs.github.com/spec/v1
+oid sha256:f0b145b6b59bd869ef8bc9342a6f9c151b7c459935f0fd7b3877c9afe90a49de
 size 1262063089

{checkpoint-3300 → checkpoint-3800}/rng_state.pth RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a716b25bdaec66a312a035315a78027e767ae161c16b37a11eeba450f275b66e
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd0c1e59d01355dc7800f78e2a8c707b3bf501a6ea7d92076b4d2400614623cf
+size 14567

{checkpoint-3300 → checkpoint-3800}/scaler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:011849dafd5feecbd9c7cd405b92e51d3198c6a38da3d9f70b7ac2eb65d83b8f
 size 559

 version https://git-lfs.github.com/spec/v1
+oid sha256:29eb923c97bb88614ccb0255ae678634f872dd8aa03ae16319e241eb7a1e8c90
 size 559

{checkpoint-3200 → checkpoint-3800}/scheduler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d6d7554ac67cd9c5c482a68804a21e6ce04d359c4a6dab9309204dc50f02e7d
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:108cf3add24d85591d96de728715165debaf66f2fb85e7a11bb55ca6e478dd61
 size 623

{checkpoint-3300 → checkpoint-3800}/trainer_state.json RENAMED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 36.26229508196721,
-  "global_step": 3300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1293,11 +1293,206 @@
       "eval_steps_per_second": 0.791,
       "eval_wer": 0.1408458699971615,
       "step": 3300
     }
   ],
   "max_steps": 4550,
   "num_train_epochs": 50,
-  "total_flos": 5.103177199568347e+19,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 41.75409836065574,
+  "global_step": 3800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.791,
       "eval_wer": 0.1408458699971615,
       "step": 3300
+    },
+    {
+      "epoch": 36.48,
+      "learning_rate": 0.00012078431372549021,
+      "loss": 0.772,
+      "step": 3320
+    },
+    {
+      "epoch": 36.7,
+      "learning_rate": 0.00011882352941176471,
+      "loss": 0.7818,
+      "step": 3340
+    },
+    {
+      "epoch": 36.92,
+      "learning_rate": 0.00011696078431372549,
+      "loss": 0.8016,
+      "step": 3360
+    },
+    {
+      "epoch": 37.14,
+      "learning_rate": 0.000115,
+      "loss": 0.8061,
+      "step": 3380
+    },
+    {
+      "epoch": 37.36,
+      "learning_rate": 0.0001130392156862745,
+      "loss": 0.7703,
+      "step": 3400
+    },
+    {
+      "epoch": 37.36,
+      "eval_loss": 0.16011376678943634,
+      "eval_runtime": 187.5367,
+      "eval_samples_per_second": 25.824,
+      "eval_steps_per_second": 0.811,
+      "eval_wer": 0.13692875390292364,
+      "step": 3400
+    },
+    {
+      "epoch": 37.58,
+      "learning_rate": 0.00011107843137254903,
+      "loss": 0.7713,
+      "step": 3420
+    },
+    {
+      "epoch": 37.8,
+      "learning_rate": 0.00010911764705882353,
+      "loss": 0.7712,
+      "step": 3440
+    },
+    {
+      "epoch": 38.02,
+      "learning_rate": 0.00010715686274509805,
+      "loss": 0.8149,
+      "step": 3460
+    },
+    {
+      "epoch": 38.24,
+      "learning_rate": 0.00010519607843137255,
+      "loss": 0.7885,
+      "step": 3480
+    },
+    {
+      "epoch": 38.46,
+      "learning_rate": 0.00010323529411764706,
+      "loss": 0.7474,
+      "step": 3500
+    },
+    {
+      "epoch": 38.46,
+      "eval_loss": 0.1514146625995636,
+      "eval_runtime": 190.8228,
+      "eval_samples_per_second": 25.38,
+      "eval_steps_per_second": 0.797,
+      "eval_wer": 0.1342321884757309,
+      "step": 3500
+    },
+    {
+      "epoch": 38.68,
+      "learning_rate": 0.00010127450980392156,
+      "loss": 0.785,
+      "step": 3520
+    },
+    {
+      "epoch": 38.9,
+      "learning_rate": 9.931372549019609e-05,
+      "loss": 0.7677,
+      "step": 3540
+    },
+    {
+      "epoch": 39.12,
+      "learning_rate": 9.73529411764706e-05,
+      "loss": 0.7849,
+      "step": 3560
+    },
+    {
+      "epoch": 39.34,
+      "learning_rate": 9.539215686274511e-05,
+      "loss": 0.7637,
+      "step": 3580
+    },
+    {
+      "epoch": 39.56,
+      "learning_rate": 9.343137254901961e-05,
+      "loss": 0.7719,
+      "step": 3600
+    },
+    {
+      "epoch": 39.56,
+      "eval_loss": 0.15932896733283997,
+      "eval_runtime": 189.6806,
+      "eval_samples_per_second": 25.532,
+      "eval_steps_per_second": 0.801,
+      "eval_wer": 0.1352540448481408,
+      "step": 3600
+    },
+    {
+      "epoch": 39.78,
+      "learning_rate": 9.147058823529412e-05,
+      "loss": 0.7591,
+      "step": 3620
+    },
+    {
+      "epoch": 39.99,
+      "learning_rate": 8.950980392156862e-05,
+      "loss": 0.7706,
+      "step": 3640
+    },
+    {
+      "epoch": 40.22,
+      "learning_rate": 8.754901960784314e-05,
+      "loss": 0.7805,
+      "step": 3660
+    },
+    {
+      "epoch": 40.44,
+      "learning_rate": 8.558823529411765e-05,
+      "loss": 0.7753,
+      "step": 3680
+    },
+    {
+      "epoch": 40.66,
+      "learning_rate": 8.362745098039217e-05,
+      "loss": 0.7638,
+      "step": 3700
+    },
+    {
+      "epoch": 40.66,
+      "eval_loss": 0.15362653136253357,
+      "eval_runtime": 192.1118,
+      "eval_samples_per_second": 25.209,
+      "eval_steps_per_second": 0.791,
+      "eval_wer": 0.13380641498722678,
+      "step": 3700
+    },
+    {
+      "epoch": 40.87,
+      "learning_rate": 8.166666666666667e-05,
+      "loss": 0.7791,
+      "step": 3720
+    },
+    {
+      "epoch": 41.1,
+      "learning_rate": 7.970588235294118e-05,
+      "loss": 0.7931,
+      "step": 3740
+    },
+    {
+      "epoch": 41.32,
+      "learning_rate": 7.774509803921568e-05,
+      "loss": 0.741,
+      "step": 3760
+    },
+    {
+      "epoch": 41.54,
+      "learning_rate": 7.57843137254902e-05,
+      "loss": 0.7434,
+      "step": 3780
+    },
+    {
+      "epoch": 41.75,
+      "learning_rate": 7.38235294117647e-05,
+      "loss": 0.771,
+      "step": 3800
+    },
+    {
+      "epoch": 41.75,
+      "eval_loss": 0.1530592143535614,
+      "eval_runtime": 186.414,
+      "eval_samples_per_second": 25.98,
+      "eval_steps_per_second": 0.815,
+      "eval_wer": 0.13170593244393983,
+      "step": 3800
     }
   ],
   "max_steps": 4550,
   "num_train_epochs": 50,
+  "total_flos": 5.876357873041098e+19,
   "trial_name": null,
   "trial_params": null
 }

{checkpoint-3200 → checkpoint-3800}/training_args.bin RENAMED Viewed

File without changes

{checkpoint-3300 → checkpoint-3900}/config.json RENAMED Viewed

File without changes

{checkpoint-3300 → checkpoint-3900}/optimizer.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:806c8e4e7fd28f0571714cc9f9a0055970d60ee26b8981016c52d353bb4430e3
 size 2490337809

 version https://git-lfs.github.com/spec/v1
+oid sha256:168e59323a9bf241005906b1870612b1b524768b8a27757437012f8cdf781fc3
 size 2490337809

{checkpoint-3300 → checkpoint-3900}/preprocessor_config.json RENAMED Viewed

File without changes

{checkpoint-3200 → checkpoint-3900}/pytorch_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ae84798d472963cd276f2962517c928f65dbe900552c2adf1ac952b2b09cb73
 size 1262063089

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b689bc4f48a4fe8515030b196fb5bd4de5819b77555cbfd8e1979aa0d04c367
 size 1262063089

{checkpoint-3200 → checkpoint-3900}/rng_state.pth RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2cdfe7c6a1cd08c22115fc108dd9766a68df8ce8189a197857ef6e07d3e9f573
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:266a5b6d767d7cc2ccd3807fca6c4cfb051cc7d3796a6836ef75e2cf3c6b3218
+size 14567

{checkpoint-3200 → checkpoint-3900}/scaler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:adc06e1a20206447d0abcf52e13d1dede8b4a0f2043d99c40e3b996eae19e163
 size 559

 version https://git-lfs.github.com/spec/v1
+oid sha256:26f1e0a22621c69063b9f7d6715acac2896bf4745746722f322c93153a0c85b5
 size 559

{checkpoint-3300 → checkpoint-3900}/scheduler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa9db20ef4c55522e29abf089521aed25de7e4d0ceb54efd10455bf35f8ac946
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:e1bc34f9b39344288eae3f0b593523acd1748174f4d473bee33a329e62da9e8a
 size 623

{checkpoint-3200 → checkpoint-3900}/trainer_state.json RENAMED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 35.16393442622951,
-  "global_step": 3200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1254,11 +1254,284 @@
       "eval_steps_per_second": 0.795,
       "eval_wer": 0.1379222253760999,
       "step": 3200
     }
   ],
   "max_steps": 4550,
   "num_train_epochs": 50,
-  "total_flos": 4.949777145440599e+19,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 42.85245901639344,
+  "global_step": 3900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.795,
       "eval_wer": 0.1379222253760999,
       "step": 3200
+    },
+    {
+      "epoch": 35.38,
+      "learning_rate": 0.00013058823529411764,
+      "loss": 0.7963,
+      "step": 3220
+    },
+    {
+      "epoch": 35.6,
+      "learning_rate": 0.00012862745098039216,
+      "loss": 0.7895,
+      "step": 3240
+    },
+    {
+      "epoch": 35.82,
+      "learning_rate": 0.0001266666666666667,
+      "loss": 0.7964,
+      "step": 3260
+    },
+    {
+      "epoch": 36.04,
+      "learning_rate": 0.0001247058823529412,
+      "loss": 0.7931,
+      "step": 3280
+    },
+    {
+      "epoch": 36.26,
+      "learning_rate": 0.0001227450980392157,
+      "loss": 0.7835,
+      "step": 3300
+    },
+    {
+      "epoch": 36.26,
+      "eval_loss": 0.16020993888378143,
+      "eval_runtime": 192.1405,
+      "eval_samples_per_second": 25.206,
+      "eval_steps_per_second": 0.791,
+      "eval_wer": 0.1408458699971615,
+      "step": 3300
+    },
+    {
+      "epoch": 36.48,
+      "learning_rate": 0.00012078431372549021,
+      "loss": 0.772,
+      "step": 3320
+    },
+    {
+      "epoch": 36.7,
+      "learning_rate": 0.00011882352941176471,
+      "loss": 0.7818,
+      "step": 3340
+    },
+    {
+      "epoch": 36.92,
+      "learning_rate": 0.00011696078431372549,
+      "loss": 0.8016,
+      "step": 3360
+    },
+    {
+      "epoch": 37.14,
+      "learning_rate": 0.000115,
+      "loss": 0.8061,
+      "step": 3380
+    },
+    {
+      "epoch": 37.36,
+      "learning_rate": 0.0001130392156862745,
+      "loss": 0.7703,
+      "step": 3400
+    },
+    {
+      "epoch": 37.36,
+      "eval_loss": 0.16011376678943634,
+      "eval_runtime": 187.5367,
+      "eval_samples_per_second": 25.824,
+      "eval_steps_per_second": 0.811,
+      "eval_wer": 0.13692875390292364,
+      "step": 3400
+    },
+    {
+      "epoch": 37.58,
+      "learning_rate": 0.00011107843137254903,
+      "loss": 0.7713,
+      "step": 3420
+    },
+    {
+      "epoch": 37.8,
+      "learning_rate": 0.00010911764705882353,
+      "loss": 0.7712,
+      "step": 3440
+    },
+    {
+      "epoch": 38.02,
+      "learning_rate": 0.00010715686274509805,
+      "loss": 0.8149,
+      "step": 3460
+    },
+    {
+      "epoch": 38.24,
+      "learning_rate": 0.00010519607843137255,
+      "loss": 0.7885,
+      "step": 3480
+    },
+    {
+      "epoch": 38.46,
+      "learning_rate": 0.00010323529411764706,
+      "loss": 0.7474,
+      "step": 3500
+    },
+    {
+      "epoch": 38.46,
+      "eval_loss": 0.1514146625995636,
+      "eval_runtime": 190.8228,
+      "eval_samples_per_second": 25.38,
+      "eval_steps_per_second": 0.797,
+      "eval_wer": 0.1342321884757309,
+      "step": 3500
+    },
+    {
+      "epoch": 38.68,
+      "learning_rate": 0.00010127450980392156,
+      "loss": 0.785,
+      "step": 3520
+    },
+    {
+      "epoch": 38.9,
+      "learning_rate": 9.931372549019609e-05,
+      "loss": 0.7677,
+      "step": 3540
+    },
+    {
+      "epoch": 39.12,
+      "learning_rate": 9.73529411764706e-05,
+      "loss": 0.7849,
+      "step": 3560
+    },
+    {
+      "epoch": 39.34,
+      "learning_rate": 9.539215686274511e-05,
+      "loss": 0.7637,
+      "step": 3580
+    },
+    {
+      "epoch": 39.56,
+      "learning_rate": 9.343137254901961e-05,
+      "loss": 0.7719,
+      "step": 3600
+    },
+    {
+      "epoch": 39.56,
+      "eval_loss": 0.15932896733283997,
+      "eval_runtime": 189.6806,
+      "eval_samples_per_second": 25.532,
+      "eval_steps_per_second": 0.801,
+      "eval_wer": 0.1352540448481408,
+      "step": 3600
+    },
+    {
+      "epoch": 39.78,
+      "learning_rate": 9.147058823529412e-05,
+      "loss": 0.7591,
+      "step": 3620
+    },
+    {
+      "epoch": 39.99,
+      "learning_rate": 8.950980392156862e-05,
+      "loss": 0.7706,
+      "step": 3640
+    },
+    {
+      "epoch": 40.22,
+      "learning_rate": 8.754901960784314e-05,
+      "loss": 0.7805,
+      "step": 3660
+    },
+    {
+      "epoch": 40.44,
+      "learning_rate": 8.558823529411765e-05,
+      "loss": 0.7753,
+      "step": 3680
+    },
+    {
+      "epoch": 40.66,
+      "learning_rate": 8.362745098039217e-05,
+      "loss": 0.7638,
+      "step": 3700
+    },
+    {
+      "epoch": 40.66,
+      "eval_loss": 0.15362653136253357,
+      "eval_runtime": 192.1118,
+      "eval_samples_per_second": 25.209,
+      "eval_steps_per_second": 0.791,
+      "eval_wer": 0.13380641498722678,
+      "step": 3700
+    },
+    {
+      "epoch": 40.87,
+      "learning_rate": 8.166666666666667e-05,
+      "loss": 0.7791,
+      "step": 3720
+    },
+    {
+      "epoch": 41.1,
+      "learning_rate": 7.970588235294118e-05,
+      "loss": 0.7931,
+      "step": 3740
+    },
+    {
+      "epoch": 41.32,
+      "learning_rate": 7.774509803921568e-05,
+      "loss": 0.741,
+      "step": 3760
+    },
+    {
+      "epoch": 41.54,
+      "learning_rate": 7.57843137254902e-05,
+      "loss": 0.7434,
+      "step": 3780
+    },
+    {
+      "epoch": 41.75,
+      "learning_rate": 7.38235294117647e-05,
+      "loss": 0.771,
+      "step": 3800
+    },
+    {
+      "epoch": 41.75,
+      "eval_loss": 0.1530592143535614,
+      "eval_runtime": 186.414,
+      "eval_samples_per_second": 25.98,
+      "eval_steps_per_second": 0.815,
+      "eval_wer": 0.13170593244393983,
+      "step": 3800
+    },
+    {
+      "epoch": 41.97,
+      "learning_rate": 7.186274509803923e-05,
+      "loss": 0.7765,
+      "step": 3820
+    },
+    {
+      "epoch": 42.2,
+      "learning_rate": 6.990196078431373e-05,
+      "loss": 0.7599,
+      "step": 3840
+    },
+    {
+      "epoch": 42.42,
+      "learning_rate": 6.794117647058824e-05,
+      "loss": 0.7782,
+      "step": 3860
+    },
+    {
+      "epoch": 42.63,
+      "learning_rate": 6.598039215686274e-05,
+      "loss": 0.7395,
+      "step": 3880
+    },
+    {
+      "epoch": 42.85,
+      "learning_rate": 6.401960784313726e-05,
+      "loss": 0.7594,
+      "step": 3900
+    },
+    {
+      "epoch": 42.85,
+      "eval_loss": 0.14983513951301575,
+      "eval_runtime": 190.4439,
+      "eval_samples_per_second": 25.43,
+      "eval_steps_per_second": 0.798,
+      "eval_wer": 0.12883905762134545,
+      "step": 3900
     }
   ],
   "max_steps": 4550,
   "num_train_epochs": 50,
+  "total_flos": 6.032084123274907e+19,
   "trial_name": null,
   "trial_params": null
 }

{checkpoint-3300 → checkpoint-3900}/training_args.bin RENAMED Viewed

File without changes