Training in progress, step 2700

Browse files

Files changed (18) hide show

{checkpoint-1500 → checkpoint-2600}/config.json +0 -0
{checkpoint-1500 → checkpoint-2600}/optimizer.pt +1 -1
{checkpoint-1500 → checkpoint-2600}/preprocessor_config.json +0 -0
{checkpoint-1600 → checkpoint-2600}/pytorch_model.bin +1 -1
{checkpoint-1600 → checkpoint-2600}/rng_state.pth +1 -1
{checkpoint-1600 → checkpoint-2600}/scaler.pt +1 -1
{checkpoint-1500 → checkpoint-2600}/scheduler.pt +1 -1
{checkpoint-1600 → checkpoint-2600}/trainer_state.json +393 -3
{checkpoint-1500 → checkpoint-2600}/training_args.bin +0 -0
{checkpoint-1600 → checkpoint-2700}/config.json +0 -0
{checkpoint-1600 → checkpoint-2700}/optimizer.pt +1 -1
{checkpoint-1600 → checkpoint-2700}/preprocessor_config.json +0 -0
{checkpoint-1500 → checkpoint-2700}/pytorch_model.bin +1 -1
{checkpoint-1500 → checkpoint-2700}/rng_state.pth +2 -2
{checkpoint-1500 → checkpoint-2700}/scaler.pt +1 -1
{checkpoint-1600 → checkpoint-2700}/scheduler.pt +1 -1
{checkpoint-1500 → checkpoint-2700}/trainer_state.json +471 -3
{checkpoint-1600 → checkpoint-2700}/training_args.bin +0 -0

{checkpoint-1500 → checkpoint-2600}/config.json RENAMED Viewed

File without changes

{checkpoint-1500 → checkpoint-2600}/optimizer.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:59d9e961a47ab1f00dd325d343d6b3a2c56a477a890edfff182fab52ad7d1961
 size 2490337809

 version https://git-lfs.github.com/spec/v1
+oid sha256:446a2b6be86378473522da6f8340e8995c1f93f317dbf12dd45b200fe2a7cc10
 size 2490337809

{checkpoint-1500 → checkpoint-2600}/preprocessor_config.json RENAMED Viewed

File without changes

{checkpoint-1600 → checkpoint-2600}/pytorch_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:577857a0d5063da507a1ec462e3b3478b15131b86a5760953cbe69453453fe49
 size 1262063089

 version https://git-lfs.github.com/spec/v1
+oid sha256:91a8acf504932720b905a27cdf2f6f7fe41c15519686ef918a30514dacbc0cee
 size 1262063089

{checkpoint-1600 → checkpoint-2600}/rng_state.pth RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:32079a7ecfdaedcafafe628415e8789ccbf50b12b21038d2ca0bc5ad993d93dd
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:c9452e603549f04f4903c5fb527b7bfc83e1fbaca4162bb7fdd612e22dd24235
 size 14567

{checkpoint-1600 → checkpoint-2600}/scaler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:45cc99d310862a4180e2b863b5866b132e05e88ff0bb7c56d68724e754f0549e
 size 559

 version https://git-lfs.github.com/spec/v1
+oid sha256:981227375b8c6d2439b9fd2664e9cd784500649faa2e607c97ed38e07fc17be3
 size 559

{checkpoint-1500 → checkpoint-2600}/scheduler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a6d0ac6fcb7f6a54e2016654eacc790bd572cb9149b97999e246f807a8519d7d
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e6505acc346b949554e5cbd939e1a9cf4a757843e611b8b1dc1e36690134723
 size 623

{checkpoint-1600 → checkpoint-2600}/trainer_state.json RENAMED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 17.579234972677597,
-  "global_step": 1600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -630,11 +630,401 @@
       "eval_steps_per_second": 0.795,
       "eval_wer": 0.17885325007096226,
       "step": 1600
     }
   ],
   "max_steps": 4550,
   "num_train_epochs": 50,
-  "total_flos": 2.4776551891108737e+19,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 28.56830601092896,
+  "global_step": 2600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.795,
       "eval_wer": 0.17885325007096226,
       "step": 1600
+    },
+    {
+      "epoch": 17.8,
+      "learning_rate": 0.00020250000000000002,
+      "loss": 1.0322,
+      "step": 1620
+    },
+    {
+      "epoch": 18.02,
+      "learning_rate": 0.000205,
+      "loss": 1.0176,
+      "step": 1640
+    },
+    {
+      "epoch": 18.24,
+      "learning_rate": 0.0002075,
+      "loss": 1.0272,
+      "step": 1660
+    },
+    {
+      "epoch": 18.46,
+      "learning_rate": 0.00021,
+      "loss": 0.9675,
+      "step": 1680
+    },
+    {
+      "epoch": 18.68,
+      "learning_rate": 0.0002125,
+      "loss": 0.9816,
+      "step": 1700
+    },
+    {
+      "epoch": 18.68,
+      "eval_loss": 0.19402356445789337,
+      "eval_runtime": 194.75,
+      "eval_samples_per_second": 24.868,
+      "eval_steps_per_second": 0.78,
+      "eval_wer": 0.18010218563724098,
+      "step": 1700
+    },
+    {
+      "epoch": 18.9,
+      "learning_rate": 0.000215,
+      "loss": 1.0023,
+      "step": 1720
+    },
+    {
+      "epoch": 19.12,
+      "learning_rate": 0.0002175,
+      "loss": 1.013,
+      "step": 1740
+    },
+    {
+      "epoch": 19.34,
+      "learning_rate": 0.00022,
+      "loss": 0.9664,
+      "step": 1760
+    },
+    {
+      "epoch": 19.56,
+      "learning_rate": 0.00022250000000000001,
+      "loss": 0.9736,
+      "step": 1780
+    },
+    {
+      "epoch": 19.78,
+      "learning_rate": 0.00022500000000000002,
+      "loss": 0.9814,
+      "step": 1800
+    },
+    {
+      "epoch": 19.78,
+      "eval_loss": 0.18596723675727844,
+      "eval_runtime": 188.4639,
+      "eval_samples_per_second": 25.697,
+      "eval_steps_per_second": 0.807,
+      "eval_wer": 0.16667612829974454,
+      "step": 1800
+    },
+    {
+      "epoch": 19.99,
+      "learning_rate": 0.0002275,
+      "loss": 1.0064,
+      "step": 1820
+    },
+    {
+      "epoch": 20.22,
+      "learning_rate": 0.00023,
+      "loss": 0.9583,
+      "step": 1840
+    },
+    {
+      "epoch": 20.44,
+      "learning_rate": 0.0002325,
+      "loss": 0.9646,
+      "step": 1860
+    },
+    {
+      "epoch": 20.66,
+      "learning_rate": 0.000235,
+      "loss": 0.9762,
+      "step": 1880
+    },
+    {
+      "epoch": 20.87,
+      "learning_rate": 0.0002375,
+      "loss": 0.9787,
+      "step": 1900
+    },
+    {
+      "epoch": 20.87,
+      "eval_loss": 0.18878202140331268,
+      "eval_runtime": 188.244,
+      "eval_samples_per_second": 25.727,
+      "eval_steps_per_second": 0.807,
+      "eval_wer": 0.16420664206642066,
+      "step": 1900
+    },
+    {
+      "epoch": 21.1,
+      "learning_rate": 0.00024,
+      "loss": 1.0218,
+      "step": 1920
+    },
+    {
+      "epoch": 21.32,
+      "learning_rate": 0.00024249999999999999,
+      "loss": 0.9505,
+      "step": 1940
+    },
+    {
+      "epoch": 21.54,
+      "learning_rate": 0.000245,
+      "loss": 0.9554,
+      "step": 1960
+    },
+    {
+      "epoch": 21.75,
+      "learning_rate": 0.0002475,
+      "loss": 0.9728,
+      "step": 1980
+    },
+    {
+      "epoch": 21.97,
+      "learning_rate": 0.00025,
+      "loss": 0.9699,
+      "step": 2000
+    },
+    {
+      "epoch": 21.97,
+      "eval_loss": 0.18748582899570465,
+      "eval_runtime": 190.7875,
+      "eval_samples_per_second": 25.384,
+      "eval_steps_per_second": 0.797,
+      "eval_wer": 0.17042293499858074,
+      "step": 2000
+    },
+    {
+      "epoch": 22.2,
+      "learning_rate": 0.00024803921568627453,
+      "loss": 0.9624,
+      "step": 2020
+    },
+    {
+      "epoch": 22.42,
+      "learning_rate": 0.000246078431372549,
+      "loss": 0.9419,
+      "step": 2040
+    },
+    {
+      "epoch": 22.63,
+      "learning_rate": 0.00024411764705882354,
+      "loss": 0.9563,
+      "step": 2060
+    },
+    {
+      "epoch": 22.85,
+      "learning_rate": 0.00024215686274509804,
+      "loss": 0.9643,
+      "step": 2080
+    },
+    {
+      "epoch": 23.08,
+      "learning_rate": 0.00024019607843137256,
+      "loss": 0.9616,
+      "step": 2100
+    },
+    {
+      "epoch": 23.08,
+      "eval_loss": 0.18017500638961792,
+      "eval_runtime": 191.3932,
+      "eval_samples_per_second": 25.304,
+      "eval_steps_per_second": 0.794,
+      "eval_wer": 0.16173715583309678,
+      "step": 2100
+    },
+    {
+      "epoch": 23.3,
+      "learning_rate": 0.00023823529411764704,
+      "loss": 0.917,
+      "step": 2120
+    },
+    {
+      "epoch": 23.51,
+      "learning_rate": 0.00023627450980392157,
+      "loss": 0.945,
+      "step": 2140
+    },
+    {
+      "epoch": 23.73,
+      "learning_rate": 0.0002343137254901961,
+      "loss": 0.9243,
+      "step": 2160
+    },
+    {
+      "epoch": 23.95,
+      "learning_rate": 0.0002323529411764706,
+      "loss": 0.9288,
+      "step": 2180
+    },
+    {
+      "epoch": 24.17,
+      "learning_rate": 0.0002303921568627451,
+      "loss": 0.9378,
+      "step": 2200
+    },
+    {
+      "epoch": 24.17,
+      "eval_loss": 0.17928896844387054,
+      "eval_runtime": 189.7619,
+      "eval_samples_per_second": 25.521,
+      "eval_steps_per_second": 0.801,
+      "eval_wer": 0.1577348850411581,
+      "step": 2200
+    },
+    {
+      "epoch": 24.39,
+      "learning_rate": 0.0002284313725490196,
+      "loss": 0.9071,
+      "step": 2220
+    },
+    {
+      "epoch": 24.61,
+      "learning_rate": 0.00022647058823529412,
+      "loss": 0.9054,
+      "step": 2240
+    },
+    {
+      "epoch": 24.83,
+      "learning_rate": 0.0002246078431372549,
+      "loss": 0.9303,
+      "step": 2260
+    },
+    {
+      "epoch": 25.05,
+      "learning_rate": 0.00022264705882352943,
+      "loss": 0.9376,
+      "step": 2280
+    },
+    {
+      "epoch": 25.27,
+      "learning_rate": 0.0002206862745098039,
+      "loss": 0.888,
+      "step": 2300
+    },
+    {
+      "epoch": 25.27,
+      "eval_loss": 0.17642559111118317,
+      "eval_runtime": 187.0437,
+      "eval_samples_per_second": 25.892,
+      "eval_steps_per_second": 0.813,
+      "eval_wer": 0.15452739142776042,
+      "step": 2300
+    },
+    {
+      "epoch": 25.49,
+      "learning_rate": 0.00021872549019607843,
+      "loss": 0.9135,
+      "step": 2320
+    },
+    {
+      "epoch": 25.71,
+      "learning_rate": 0.00021676470588235294,
+      "loss": 0.9094,
+      "step": 2340
+    },
+    {
+      "epoch": 25.93,
+      "learning_rate": 0.00021480392156862746,
+      "loss": 0.8879,
+      "step": 2360
+    },
+    {
+      "epoch": 26.15,
+      "learning_rate": 0.00021284313725490196,
+      "loss": 0.929,
+      "step": 2380
+    },
+    {
+      "epoch": 26.37,
+      "learning_rate": 0.00021088235294117647,
+      "loss": 0.8942,
+      "step": 2400
+    },
+    {
+      "epoch": 26.37,
+      "eval_loss": 0.16744859516620636,
+      "eval_runtime": 190.6796,
+      "eval_samples_per_second": 25.399,
+      "eval_steps_per_second": 0.797,
+      "eval_wer": 0.14916264547260857,
+      "step": 2400
+    },
+    {
+      "epoch": 26.59,
+      "learning_rate": 0.000208921568627451,
+      "loss": 0.8717,
+      "step": 2420
+    },
+    {
+      "epoch": 26.81,
+      "learning_rate": 0.0002069607843137255,
+      "loss": 0.8952,
+      "step": 2440
+    },
+    {
+      "epoch": 27.03,
+      "learning_rate": 0.000205,
+      "loss": 0.8849,
+      "step": 2460
+    },
+    {
+      "epoch": 27.25,
+      "learning_rate": 0.00020313725490196078,
+      "loss": 0.8781,
+      "step": 2480
+    },
+    {
+      "epoch": 27.47,
+      "learning_rate": 0.0002011764705882353,
+      "loss": 0.8701,
+      "step": 2500
+    },
+    {
+      "epoch": 27.47,
+      "eval_loss": 0.1738910973072052,
+      "eval_runtime": 187.7205,
+      "eval_samples_per_second": 25.799,
+      "eval_steps_per_second": 0.81,
+      "eval_wer": 0.1511779733181947,
+      "step": 2500
+    },
+    {
+      "epoch": 27.69,
+      "learning_rate": 0.0001992156862745098,
+      "loss": 0.8674,
+      "step": 2520
+    },
+    {
+      "epoch": 27.91,
+      "learning_rate": 0.00019725490196078433,
+      "loss": 0.8752,
+      "step": 2540
+    },
+    {
+      "epoch": 28.13,
+      "learning_rate": 0.0001952941176470588,
+      "loss": 0.91,
+      "step": 2560
+    },
+    {
+      "epoch": 28.35,
+      "learning_rate": 0.00019333333333333333,
+      "loss": 0.8693,
+      "step": 2580
+    },
+    {
+      "epoch": 28.57,
+      "learning_rate": 0.00019137254901960786,
+      "loss": 0.8555,
+      "step": 2600
+    },
+    {
+      "epoch": 28.57,
+      "eval_loss": 0.1689654141664505,
+      "eval_runtime": 196.2665,
+      "eval_samples_per_second": 24.676,
+      "eval_steps_per_second": 0.774,
+      "eval_wer": 0.14459267669599773,
+      "step": 2600
     }
   ],
   "max_steps": 4550,
   "num_train_epochs": 50,
+  "total_flos": 4.023333138533005e+19,
   "trial_name": null,
   "trial_params": null
 }

{checkpoint-1500 → checkpoint-2600}/training_args.bin RENAMED Viewed

File without changes

{checkpoint-1600 → checkpoint-2700}/config.json RENAMED Viewed

File without changes

{checkpoint-1600 → checkpoint-2700}/optimizer.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c01538eb4bd0c6517e58a239a0edad2ba490de930aaa3809478517bc233bd339
 size 2490337809

 version https://git-lfs.github.com/spec/v1
+oid sha256:865f44abdd5045a8acf626b3b992e8fdc983a2d4a3ba5dd6901b27ee83a91484
 size 2490337809

{checkpoint-1600 → checkpoint-2700}/preprocessor_config.json RENAMED Viewed

File without changes

{checkpoint-1500 → checkpoint-2700}/pytorch_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:22c881807ec99ef3592933c11ac25ff336dab472ee8669960c08f6bb055cb11c
 size 1262063089

 version https://git-lfs.github.com/spec/v1
+oid sha256:7dbbb4678046f14503aa95af2d02c0cc6a2fb7071e468967b463cf71594e2914
 size 1262063089

{checkpoint-1500 → checkpoint-2700}/rng_state.pth RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:26a16fb06bd95550585922193ec31f3a9a5878ee3e77efc87c1b8bdb4a21d142
-size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:9213f1eed5d75326eef26e352d35aa78d567c2885250ab304bce7d59c834157a
+size 14631

{checkpoint-1500 → checkpoint-2700}/scaler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18b77bf231929dcf1b0885a05986daead51666518206e8005c99cd124832d9f9
 size 559

 version https://git-lfs.github.com/spec/v1
+oid sha256:7970626d52baf6e9c965f8503c1a6318b3c55b1f5ba73fdd8b8209e28d5d529e
 size 559

{checkpoint-1600 → checkpoint-2700}/scheduler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a5627b7bd7a23e3bd273e778f370a9ce7118842c3616c776314b677675af7a5
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:89b50e7b743fe5caf734a580430810fca62d132f602e2a17e8e075ce20b82717
 size 623

{checkpoint-1500 → checkpoint-2700}/trainer_state.json RENAMED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 16.48087431693989,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -591,11 +591,479 @@
       "eval_steps_per_second": 0.804,
       "eval_wer": 0.18944081748509792,
       "step": 1500
     }
   ],
   "max_steps": 4550,
   "num_train_epochs": 50,
-  "total_flos": 2.31847014520748e+19,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 29.666666666666668,
+  "global_step": 2700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.804,
       "eval_wer": 0.18944081748509792,
       "step": 1500
+    },
+    {
+      "epoch": 16.7,
+      "learning_rate": 0.00019,
+      "loss": 1.0204,
+      "step": 1520
+    },
+    {
+      "epoch": 16.92,
+      "learning_rate": 0.00019250000000000002,
+      "loss": 1.0356,
+      "step": 1540
+    },
+    {
+      "epoch": 17.14,
+      "learning_rate": 0.00019500000000000002,
+      "loss": 1.0538,
+      "step": 1560
+    },
+    {
+      "epoch": 17.36,
+      "learning_rate": 0.0001975,
+      "loss": 1.0228,
+      "step": 1580
+    },
+    {
+      "epoch": 17.58,
+      "learning_rate": 0.0002,
+      "loss": 1.0193,
+      "step": 1600
+    },
+    {
+      "epoch": 17.58,
+      "eval_loss": 0.1991206556558609,
+      "eval_runtime": 191.1717,
+      "eval_samples_per_second": 25.333,
+      "eval_steps_per_second": 0.795,
+      "eval_wer": 0.17885325007096226,
+      "step": 1600
+    },
+    {
+      "epoch": 17.8,
+      "learning_rate": 0.00020250000000000002,
+      "loss": 1.0322,
+      "step": 1620
+    },
+    {
+      "epoch": 18.02,
+      "learning_rate": 0.000205,
+      "loss": 1.0176,
+      "step": 1640
+    },
+    {
+      "epoch": 18.24,
+      "learning_rate": 0.0002075,
+      "loss": 1.0272,
+      "step": 1660
+    },
+    {
+      "epoch": 18.46,
+      "learning_rate": 0.00021,
+      "loss": 0.9675,
+      "step": 1680
+    },
+    {
+      "epoch": 18.68,
+      "learning_rate": 0.0002125,
+      "loss": 0.9816,
+      "step": 1700
+    },
+    {
+      "epoch": 18.68,
+      "eval_loss": 0.19402356445789337,
+      "eval_runtime": 194.75,
+      "eval_samples_per_second": 24.868,
+      "eval_steps_per_second": 0.78,
+      "eval_wer": 0.18010218563724098,
+      "step": 1700
+    },
+    {
+      "epoch": 18.9,
+      "learning_rate": 0.000215,
+      "loss": 1.0023,
+      "step": 1720
+    },
+    {
+      "epoch": 19.12,
+      "learning_rate": 0.0002175,
+      "loss": 1.013,
+      "step": 1740
+    },
+    {
+      "epoch": 19.34,
+      "learning_rate": 0.00022,
+      "loss": 0.9664,
+      "step": 1760
+    },
+    {
+      "epoch": 19.56,
+      "learning_rate": 0.00022250000000000001,
+      "loss": 0.9736,
+      "step": 1780
+    },
+    {
+      "epoch": 19.78,
+      "learning_rate": 0.00022500000000000002,
+      "loss": 0.9814,
+      "step": 1800
+    },
+    {
+      "epoch": 19.78,
+      "eval_loss": 0.18596723675727844,
+      "eval_runtime": 188.4639,
+      "eval_samples_per_second": 25.697,
+      "eval_steps_per_second": 0.807,
+      "eval_wer": 0.16667612829974454,
+      "step": 1800
+    },
+    {
+      "epoch": 19.99,
+      "learning_rate": 0.0002275,
+      "loss": 1.0064,
+      "step": 1820
+    },
+    {
+      "epoch": 20.22,
+      "learning_rate": 0.00023,
+      "loss": 0.9583,
+      "step": 1840
+    },
+    {
+      "epoch": 20.44,
+      "learning_rate": 0.0002325,
+      "loss": 0.9646,
+      "step": 1860
+    },
+    {
+      "epoch": 20.66,
+      "learning_rate": 0.000235,
+      "loss": 0.9762,
+      "step": 1880
+    },
+    {
+      "epoch": 20.87,
+      "learning_rate": 0.0002375,
+      "loss": 0.9787,
+      "step": 1900
+    },
+    {
+      "epoch": 20.87,
+      "eval_loss": 0.18878202140331268,
+      "eval_runtime": 188.244,
+      "eval_samples_per_second": 25.727,
+      "eval_steps_per_second": 0.807,
+      "eval_wer": 0.16420664206642066,
+      "step": 1900
+    },
+    {
+      "epoch": 21.1,
+      "learning_rate": 0.00024,
+      "loss": 1.0218,
+      "step": 1920
+    },
+    {
+      "epoch": 21.32,
+      "learning_rate": 0.00024249999999999999,
+      "loss": 0.9505,
+      "step": 1940
+    },
+    {
+      "epoch": 21.54,
+      "learning_rate": 0.000245,
+      "loss": 0.9554,
+      "step": 1960
+    },
+    {
+      "epoch": 21.75,
+      "learning_rate": 0.0002475,
+      "loss": 0.9728,
+      "step": 1980
+    },
+    {
+      "epoch": 21.97,
+      "learning_rate": 0.00025,
+      "loss": 0.9699,
+      "step": 2000
+    },
+    {
+      "epoch": 21.97,
+      "eval_loss": 0.18748582899570465,
+      "eval_runtime": 190.7875,
+      "eval_samples_per_second": 25.384,
+      "eval_steps_per_second": 0.797,
+      "eval_wer": 0.17042293499858074,
+      "step": 2000
+    },
+    {
+      "epoch": 22.2,
+      "learning_rate": 0.00024803921568627453,
+      "loss": 0.9624,
+      "step": 2020
+    },
+    {
+      "epoch": 22.42,
+      "learning_rate": 0.000246078431372549,
+      "loss": 0.9419,
+      "step": 2040
+    },
+    {
+      "epoch": 22.63,
+      "learning_rate": 0.00024411764705882354,
+      "loss": 0.9563,
+      "step": 2060
+    },
+    {
+      "epoch": 22.85,
+      "learning_rate": 0.00024215686274509804,
+      "loss": 0.9643,
+      "step": 2080
+    },
+    {
+      "epoch": 23.08,
+      "learning_rate": 0.00024019607843137256,
+      "loss": 0.9616,
+      "step": 2100
+    },
+    {
+      "epoch": 23.08,
+      "eval_loss": 0.18017500638961792,
+      "eval_runtime": 191.3932,
+      "eval_samples_per_second": 25.304,
+      "eval_steps_per_second": 0.794,
+      "eval_wer": 0.16173715583309678,
+      "step": 2100
+    },
+    {
+      "epoch": 23.3,
+      "learning_rate": 0.00023823529411764704,
+      "loss": 0.917,
+      "step": 2120
+    },
+    {
+      "epoch": 23.51,
+      "learning_rate": 0.00023627450980392157,
+      "loss": 0.945,
+      "step": 2140
+    },
+    {
+      "epoch": 23.73,
+      "learning_rate": 0.0002343137254901961,
+      "loss": 0.9243,
+      "step": 2160
+    },
+    {
+      "epoch": 23.95,
+      "learning_rate": 0.0002323529411764706,
+      "loss": 0.9288,
+      "step": 2180
+    },
+    {
+      "epoch": 24.17,
+      "learning_rate": 0.0002303921568627451,
+      "loss": 0.9378,
+      "step": 2200
+    },
+    {
+      "epoch": 24.17,
+      "eval_loss": 0.17928896844387054,
+      "eval_runtime": 189.7619,
+      "eval_samples_per_second": 25.521,
+      "eval_steps_per_second": 0.801,
+      "eval_wer": 0.1577348850411581,
+      "step": 2200
+    },
+    {
+      "epoch": 24.39,
+      "learning_rate": 0.0002284313725490196,
+      "loss": 0.9071,
+      "step": 2220
+    },
+    {
+      "epoch": 24.61,
+      "learning_rate": 0.00022647058823529412,
+      "loss": 0.9054,
+      "step": 2240
+    },
+    {
+      "epoch": 24.83,
+      "learning_rate": 0.0002246078431372549,
+      "loss": 0.9303,
+      "step": 2260
+    },
+    {
+      "epoch": 25.05,
+      "learning_rate": 0.00022264705882352943,
+      "loss": 0.9376,
+      "step": 2280
+    },
+    {
+      "epoch": 25.27,
+      "learning_rate": 0.0002206862745098039,
+      "loss": 0.888,
+      "step": 2300
+    },
+    {
+      "epoch": 25.27,
+      "eval_loss": 0.17642559111118317,
+      "eval_runtime": 187.0437,
+      "eval_samples_per_second": 25.892,
+      "eval_steps_per_second": 0.813,
+      "eval_wer": 0.15452739142776042,
+      "step": 2300
+    },
+    {
+      "epoch": 25.49,
+      "learning_rate": 0.00021872549019607843,
+      "loss": 0.9135,
+      "step": 2320
+    },
+    {
+      "epoch": 25.71,
+      "learning_rate": 0.00021676470588235294,
+      "loss": 0.9094,
+      "step": 2340
+    },
+    {
+      "epoch": 25.93,
+      "learning_rate": 0.00021480392156862746,
+      "loss": 0.8879,
+      "step": 2360
+    },
+    {
+      "epoch": 26.15,
+      "learning_rate": 0.00021284313725490196,
+      "loss": 0.929,
+      "step": 2380
+    },
+    {
+      "epoch": 26.37,
+      "learning_rate": 0.00021088235294117647,
+      "loss": 0.8942,
+      "step": 2400
+    },
+    {
+      "epoch": 26.37,
+      "eval_loss": 0.16744859516620636,
+      "eval_runtime": 190.6796,
+      "eval_samples_per_second": 25.399,
+      "eval_steps_per_second": 0.797,
+      "eval_wer": 0.14916264547260857,
+      "step": 2400
+    },
+    {
+      "epoch": 26.59,
+      "learning_rate": 0.000208921568627451,
+      "loss": 0.8717,
+      "step": 2420
+    },
+    {
+      "epoch": 26.81,
+      "learning_rate": 0.0002069607843137255,
+      "loss": 0.8952,
+      "step": 2440
+    },
+    {
+      "epoch": 27.03,
+      "learning_rate": 0.000205,
+      "loss": 0.8849,
+      "step": 2460
+    },
+    {
+      "epoch": 27.25,
+      "learning_rate": 0.00020313725490196078,
+      "loss": 0.8781,
+      "step": 2480
+    },
+    {
+      "epoch": 27.47,
+      "learning_rate": 0.0002011764705882353,
+      "loss": 0.8701,
+      "step": 2500
+    },
+    {
+      "epoch": 27.47,
+      "eval_loss": 0.1738910973072052,
+      "eval_runtime": 187.7205,
+      "eval_samples_per_second": 25.799,
+      "eval_steps_per_second": 0.81,
+      "eval_wer": 0.1511779733181947,
+      "step": 2500
+    },
+    {
+      "epoch": 27.69,
+      "learning_rate": 0.0001992156862745098,
+      "loss": 0.8674,
+      "step": 2520
+    },
+    {
+      "epoch": 27.91,
+      "learning_rate": 0.00019725490196078433,
+      "loss": 0.8752,
+      "step": 2540
+    },
+    {
+      "epoch": 28.13,
+      "learning_rate": 0.0001952941176470588,
+      "loss": 0.91,
+      "step": 2560
+    },
+    {
+      "epoch": 28.35,
+      "learning_rate": 0.00019333333333333333,
+      "loss": 0.8693,
+      "step": 2580
+    },
+    {
+      "epoch": 28.57,
+      "learning_rate": 0.00019137254901960786,
+      "loss": 0.8555,
+      "step": 2600
+    },
+    {
+      "epoch": 28.57,
+      "eval_loss": 0.1689654141664505,
+      "eval_runtime": 196.2665,
+      "eval_samples_per_second": 24.676,
+      "eval_steps_per_second": 0.774,
+      "eval_wer": 0.14459267669599773,
+      "step": 2600
+    },
+    {
+      "epoch": 28.79,
+      "learning_rate": 0.00018941176470588236,
+      "loss": 0.8796,
+      "step": 2620
+    },
+    {
+      "epoch": 29.01,
+      "learning_rate": 0.00018745098039215686,
+      "loss": 0.9045,
+      "step": 2640
+    },
+    {
+      "epoch": 29.23,
+      "learning_rate": 0.00018549019607843137,
+      "loss": 0.8515,
+      "step": 2660
+    },
+    {
+      "epoch": 29.45,
+      "learning_rate": 0.0001835294117647059,
+      "loss": 0.861,
+      "step": 2680
+    },
+    {
+      "epoch": 29.67,
+      "learning_rate": 0.0001815686274509804,
+      "loss": 0.8513,
+      "step": 2700
+    },
+    {
+      "epoch": 29.67,
+      "eval_loss": 0.16488835215568542,
+      "eval_runtime": 189.1938,
+      "eval_samples_per_second": 25.598,
+      "eval_steps_per_second": 0.803,
+      "eval_wer": 0.14774340051092819,
+      "step": 2700
     }
   ],
   "max_steps": 4550,
   "num_train_epochs": 50,
+  "total_flos": 4.176183820424104e+19,
   "trial_name": null,
   "trial_params": null
 }

{checkpoint-1600 → checkpoint-2700}/training_args.bin RENAMED Viewed

File without changes