TenzinGayche commited on May 17, 2023

Commit

2f23d51

•

1 Parent(s): 0d45503

Training in progress, step 2700

Browse files

Files changed (19) hide show

{checkpoint-1500 → checkpoint-2600}/config.json +0 -0
{checkpoint-1500 → checkpoint-2600}/optimizer.pt +1 -1
{checkpoint-1500 → checkpoint-2600}/preprocessor_config.json +0 -0
{checkpoint-1600 → checkpoint-2600}/pytorch_model.bin +1 -1
{checkpoint-1600 → checkpoint-2600}/rng_state.pth +1 -1
{checkpoint-1600 → checkpoint-2600}/scaler.pt +1 -1
{checkpoint-1500 → checkpoint-2600}/scheduler.pt +1 -1
{checkpoint-1600 → checkpoint-2600}/trainer_state.json +213 -3
{checkpoint-1500 → checkpoint-2600}/training_args.bin +0 -0
{checkpoint-1600 → checkpoint-2700}/config.json +0 -0
{checkpoint-1600 → checkpoint-2700}/optimizer.pt +1 -1
{checkpoint-1600 → checkpoint-2700}/preprocessor_config.json +0 -0
{checkpoint-1500 → checkpoint-2700}/pytorch_model.bin +1 -1
{checkpoint-1500 → checkpoint-2700}/rng_state.pth +2 -2
{checkpoint-1500 → checkpoint-2700}/scaler.pt +1 -1
{checkpoint-1600 → checkpoint-2700}/scheduler.pt +1 -1
{checkpoint-1500 → checkpoint-2700}/trainer_state.json +255 -3
{checkpoint-1600 → checkpoint-2700}/training_args.bin +0 -0
pytorch_model.bin +1 -1

{checkpoint-1500 → checkpoint-2600}/config.json RENAMED Viewed

File without changes

{checkpoint-1500 → checkpoint-2600}/optimizer.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b1524d6204dd1d9571e106450aa78a0047caccd33264142d1b1d96598293949c
 size 2490946501

 version https://git-lfs.github.com/spec/v1
+oid sha256:206ea63887407ec8e34ca0976f176fba15fe66228df233f838fc0cfed90548e6
 size 2490946501

{checkpoint-1500 → checkpoint-2600}/preprocessor_config.json RENAMED Viewed

File without changes

{checkpoint-1600 → checkpoint-2600}/pytorch_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6ad6357a9e5c9dd5dd5741823e00aedddfec42d30f8ce46a6d034dcff4543a39
 size 1262344621

 version https://git-lfs.github.com/spec/v1
+oid sha256:20a5094bb42dbf2cd0fc5974c6f43818537a4fbd29c7708022c2289caa021655
 size 1262344621

{checkpoint-1600 → checkpoint-2600}/rng_state.pth RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5d10c6bd9d48134cf8eeac7d42482eafcf53211a5ac7f6981efd7e55707c3d0a
 size 14639

 version https://git-lfs.github.com/spec/v1
+oid sha256:e74e38f1a7bf8084691d64ac5100949d2f0fd9bd1ef1d5f1b8fad59bf6082a13
 size 14639

{checkpoint-1600 → checkpoint-2600}/scaler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3908abcd123f77ca1ba6f0cc89ccfb45a998a20677c58b28be69a032cbd2ff26
 size 557

 version https://git-lfs.github.com/spec/v1
+oid sha256:08c40f435b50444d345428e533971e24aa2c54e344b905b88782a34a910c8c42
 size 557

{checkpoint-1500 → checkpoint-2600}/scheduler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a0b099dabe4ed5cc0419fc6b3ed457d34c91b920fb1ebdcb44ad9cc504edc495
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:7307abb316278b32ba0ea0e5ef2e773c3508f659c0c03a41baa3412f33cf5d8a
 size 627

{checkpoint-1600 → checkpoint-2600}/trainer_state.json RENAMED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 10.884353741496598,
-  "global_step": 1600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -342,11 +342,221 @@
       "eval_samples_per_second": 23.982,
       "eval_steps_per_second": 3.018,
       "step": 1600
     }
   ],
   "max_steps": 3675,
   "num_train_epochs": 25,
-  "total_flos": 6.224068721891923e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 17.687074829931973,
+  "global_step": 2600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 23.982,
       "eval_steps_per_second": 3.018,
       "step": 1600
+    },
+    {
+      "epoch": 11.22,
+      "learning_rate": 0.00019162204724409448,
+      "loss": 0.3584,
+      "step": 1650
+    },
+    {
+      "epoch": 11.56,
+      "learning_rate": 0.0001868976377952756,
+      "loss": 0.3682,
+      "step": 1700
+    },
+    {
+      "epoch": 11.56,
+      "eval_cer": 0.15685635088863525,
+      "eval_loss": 0.36927542090415955,
+      "eval_runtime": 24.3751,
+      "eval_samples_per_second": 24.123,
+      "eval_steps_per_second": 3.036,
+      "step": 1700
+    },
+    {
+      "epoch": 11.9,
+      "learning_rate": 0.00018217322834645667,
+      "loss": 0.3455,
+      "step": 1750
+    },
+    {
+      "epoch": 12.24,
+      "learning_rate": 0.00017744881889763777,
+      "loss": 0.3245,
+      "step": 1800
+    },
+    {
+      "epoch": 12.24,
+      "eval_cer": 0.15816076960704387,
+      "eval_loss": 0.3740461468696594,
+      "eval_runtime": 24.7162,
+      "eval_samples_per_second": 23.79,
+      "eval_steps_per_second": 2.994,
+      "step": 1800
+    },
+    {
+      "epoch": 12.59,
+      "learning_rate": 0.0001727244094488189,
+      "loss": 0.3208,
+      "step": 1850
+    },
+    {
+      "epoch": 12.93,
+      "learning_rate": 0.000168,
+      "loss": 0.3063,
+      "step": 1900
+    },
+    {
+      "epoch": 12.93,
+      "eval_cer": 0.15904125224196966,
+      "eval_loss": 0.3622555434703827,
+      "eval_runtime": 24.4729,
+      "eval_samples_per_second": 24.027,
+      "eval_steps_per_second": 3.024,
+      "step": 1900
+    },
+    {
+      "epoch": 13.27,
+      "learning_rate": 0.0001632755905511811,
+      "loss": 0.3019,
+      "step": 1950
+    },
+    {
+      "epoch": 13.61,
+      "learning_rate": 0.00015855118110236219,
+      "loss": 0.2945,
+      "step": 2000
+    },
+    {
+      "epoch": 13.61,
+      "eval_cer": 0.16634599706505787,
+      "eval_loss": 0.3725011348724365,
+      "eval_runtime": 25.0023,
+      "eval_samples_per_second": 23.518,
+      "eval_steps_per_second": 2.96,
+      "step": 2000
+    },
+    {
+      "epoch": 13.95,
+      "learning_rate": 0.0001538267716535433,
+      "loss": 0.279,
+      "step": 2050
+    },
+    {
+      "epoch": 14.29,
+      "learning_rate": 0.0001491023622047244,
+      "loss": 0.2674,
+      "step": 2100
+    },
+    {
+      "epoch": 14.29,
+      "eval_cer": 0.15731289744007826,
+      "eval_loss": 0.3531067371368408,
+      "eval_runtime": 24.8381,
+      "eval_samples_per_second": 23.673,
+      "eval_steps_per_second": 2.979,
+      "step": 2100
+    },
+    {
+      "epoch": 14.63,
+      "learning_rate": 0.0001443779527559055,
+      "loss": 0.2584,
+      "step": 2150
+    },
+    {
+      "epoch": 14.97,
+      "learning_rate": 0.0001396535433070866,
+      "loss": 0.2796,
+      "step": 2200
+    },
+    {
+      "epoch": 14.97,
+      "eval_cer": 0.14808413500733736,
+      "eval_loss": 0.3606802523136139,
+      "eval_runtime": 24.8151,
+      "eval_samples_per_second": 23.695,
+      "eval_steps_per_second": 2.982,
+      "step": 2200
+    },
+    {
+      "epoch": 15.31,
+      "learning_rate": 0.0001349291338582677,
+      "loss": 0.2462,
+      "step": 2250
+    },
+    {
+      "epoch": 15.65,
+      "learning_rate": 0.0001302047244094488,
+      "loss": 0.256,
+      "step": 2300
+    },
+    {
+      "epoch": 15.65,
+      "eval_cer": 0.15819338007500408,
+      "eval_loss": 0.3580550253391266,
+      "eval_runtime": 24.5695,
+      "eval_samples_per_second": 23.932,
+      "eval_steps_per_second": 3.012,
+      "step": 2300
+    },
+    {
+      "epoch": 15.99,
+      "learning_rate": 0.00012548031496062992,
+      "loss": 0.2524,
+      "step": 2350
+    },
+    {
+      "epoch": 16.33,
+      "learning_rate": 0.00012075590551181102,
+      "loss": 0.2219,
+      "step": 2400
+    },
+    {
+      "epoch": 16.33,
+      "eval_cer": 0.14801891407141693,
+      "eval_loss": 0.35925593972206116,
+      "eval_runtime": 24.982,
+      "eval_samples_per_second": 23.537,
+      "eval_steps_per_second": 2.962,
+      "step": 2400
+    },
+    {
+      "epoch": 16.67,
+      "learning_rate": 0.0001160314960629921,
+      "loss": 0.2364,
+      "step": 2450
+    },
+    {
+      "epoch": 17.01,
+      "learning_rate": 0.00011130708661417321,
+      "loss": 0.2291,
+      "step": 2500
+    },
+    {
+      "epoch": 17.01,
+      "eval_cer": 0.1471058209685309,
+      "eval_loss": 0.35567909479141235,
+      "eval_runtime": 24.4749,
+      "eval_samples_per_second": 24.025,
+      "eval_steps_per_second": 3.024,
+      "step": 2500
+    },
+    {
+      "epoch": 17.35,
+      "learning_rate": 0.00010658267716535431,
+      "loss": 0.2045,
+      "step": 2550
+    },
+    {
+      "epoch": 17.69,
+      "learning_rate": 0.00010185826771653542,
+      "loss": 0.2172,
+      "step": 2600
+    },
+    {
+      "epoch": 17.69,
+      "eval_cer": 0.14792108266753629,
+      "eval_loss": 0.3606509566307068,
+      "eval_runtime": 25.1105,
+      "eval_samples_per_second": 23.416,
+      "eval_steps_per_second": 2.947,
+      "step": 2600
     }
   ],
   "max_steps": 3675,
   "num_train_epochs": 25,
+  "total_flos": 1.009919824454501e+19,
   "trial_name": null,
   "trial_params": null
 }

{checkpoint-1500 → checkpoint-2600}/training_args.bin RENAMED Viewed

File without changes

{checkpoint-1600 → checkpoint-2700}/config.json RENAMED Viewed

File without changes

{checkpoint-1600 → checkpoint-2700}/optimizer.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9c09c17d29e4fc326c42244511bcaa78618ea3678b475aeb30bae0cec3cdde19
 size 2490946501

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f92a5dc51136ef95412fd140ff1588b4bd021fae2e4e1d0c3ff1d627fb549e7
 size 2490946501

{checkpoint-1600 → checkpoint-2700}/preprocessor_config.json RENAMED Viewed

File without changes

{checkpoint-1500 → checkpoint-2700}/pytorch_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:15cc6fb216f3da35028c9798afff67e0a5388271f5aaac6060d15e7551569f26
 size 1262344621

 version https://git-lfs.github.com/spec/v1
+oid sha256:4bba14f51afadd438f5716f846b339431901a15de8cc5ac24dc52e61e72244c4
 size 1262344621

{checkpoint-1500 → checkpoint-2700}/rng_state.pth RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a25122640aee963f4ee6e1769a451ca48fbe76be99ac9653e1a79eca2e58761c
-size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:431a3896c72aed8c52c291336a3ad85d896044a4bbceea1bc54f8c6c2977c933
+size 14639

{checkpoint-1500 → checkpoint-2700}/scaler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe96bf231849321ba4efb19c6b36f95dd54d4afaab7ccaedf38fefc92983569e
 size 557

 version https://git-lfs.github.com/spec/v1
+oid sha256:1739fe3b23e1ecf0ff622a8248f947392f9a7d39eeb86ebb549697db7a136562
 size 557

{checkpoint-1600 → checkpoint-2700}/scheduler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c8de202cb6256f9113a1b311d18ed82c476ea245c321354355f79fe2b8918b62
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:76fb0d2abf88d73ac50a41ede59c29dd01e496baa78a6a932c6cb64f4d7c0fd7
 size 627

{checkpoint-1500 → checkpoint-2700}/trainer_state.json RENAMED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 10.204081632653061,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -321,11 +321,263 @@
       "eval_samples_per_second": 24.044,
       "eval_steps_per_second": 3.026,
       "step": 1500
     }
   ],
   "max_steps": 3675,
   "num_train_epochs": 25,
-  "total_flos": 5.82944974613242e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 18.367346938775512,
+  "global_step": 2700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 24.044,
       "eval_steps_per_second": 3.026,
       "step": 1500
+    },
+    {
+      "epoch": 10.54,
+      "learning_rate": 0.00020107086614173225,
+      "loss": 0.3959,
+      "step": 1550
+    },
+    {
+      "epoch": 10.88,
+      "learning_rate": 0.00019634645669291338,
+      "loss": 0.4074,
+      "step": 1600
+    },
+    {
+      "epoch": 10.88,
+      "eval_cer": 0.16301972933311593,
+      "eval_loss": 0.3626195192337036,
+      "eval_runtime": 24.5184,
+      "eval_samples_per_second": 23.982,
+      "eval_steps_per_second": 3.018,
+      "step": 1600
+    },
+    {
+      "epoch": 11.22,
+      "learning_rate": 0.00019162204724409448,
+      "loss": 0.3584,
+      "step": 1650
+    },
+    {
+      "epoch": 11.56,
+      "learning_rate": 0.0001868976377952756,
+      "loss": 0.3682,
+      "step": 1700
+    },
+    {
+      "epoch": 11.56,
+      "eval_cer": 0.15685635088863525,
+      "eval_loss": 0.36927542090415955,
+      "eval_runtime": 24.3751,
+      "eval_samples_per_second": 24.123,
+      "eval_steps_per_second": 3.036,
+      "step": 1700
+    },
+    {
+      "epoch": 11.9,
+      "learning_rate": 0.00018217322834645667,
+      "loss": 0.3455,
+      "step": 1750
+    },
+    {
+      "epoch": 12.24,
+      "learning_rate": 0.00017744881889763777,
+      "loss": 0.3245,
+      "step": 1800
+    },
+    {
+      "epoch": 12.24,
+      "eval_cer": 0.15816076960704387,
+      "eval_loss": 0.3740461468696594,
+      "eval_runtime": 24.7162,
+      "eval_samples_per_second": 23.79,
+      "eval_steps_per_second": 2.994,
+      "step": 1800
+    },
+    {
+      "epoch": 12.59,
+      "learning_rate": 0.0001727244094488189,
+      "loss": 0.3208,
+      "step": 1850
+    },
+    {
+      "epoch": 12.93,
+      "learning_rate": 0.000168,
+      "loss": 0.3063,
+      "step": 1900
+    },
+    {
+      "epoch": 12.93,
+      "eval_cer": 0.15904125224196966,
+      "eval_loss": 0.3622555434703827,
+      "eval_runtime": 24.4729,
+      "eval_samples_per_second": 24.027,
+      "eval_steps_per_second": 3.024,
+      "step": 1900
+    },
+    {
+      "epoch": 13.27,
+      "learning_rate": 0.0001632755905511811,
+      "loss": 0.3019,
+      "step": 1950
+    },
+    {
+      "epoch": 13.61,
+      "learning_rate": 0.00015855118110236219,
+      "loss": 0.2945,
+      "step": 2000
+    },
+    {
+      "epoch": 13.61,
+      "eval_cer": 0.16634599706505787,
+      "eval_loss": 0.3725011348724365,
+      "eval_runtime": 25.0023,
+      "eval_samples_per_second": 23.518,
+      "eval_steps_per_second": 2.96,
+      "step": 2000
+    },
+    {
+      "epoch": 13.95,
+      "learning_rate": 0.0001538267716535433,
+      "loss": 0.279,
+      "step": 2050
+    },
+    {
+      "epoch": 14.29,
+      "learning_rate": 0.0001491023622047244,
+      "loss": 0.2674,
+      "step": 2100
+    },
+    {
+      "epoch": 14.29,
+      "eval_cer": 0.15731289744007826,
+      "eval_loss": 0.3531067371368408,
+      "eval_runtime": 24.8381,
+      "eval_samples_per_second": 23.673,
+      "eval_steps_per_second": 2.979,
+      "step": 2100
+    },
+    {
+      "epoch": 14.63,
+      "learning_rate": 0.0001443779527559055,
+      "loss": 0.2584,
+      "step": 2150
+    },
+    {
+      "epoch": 14.97,
+      "learning_rate": 0.0001396535433070866,
+      "loss": 0.2796,
+      "step": 2200
+    },
+    {
+      "epoch": 14.97,
+      "eval_cer": 0.14808413500733736,
+      "eval_loss": 0.3606802523136139,
+      "eval_runtime": 24.8151,
+      "eval_samples_per_second": 23.695,
+      "eval_steps_per_second": 2.982,
+      "step": 2200
+    },
+    {
+      "epoch": 15.31,
+      "learning_rate": 0.0001349291338582677,
+      "loss": 0.2462,
+      "step": 2250
+    },
+    {
+      "epoch": 15.65,
+      "learning_rate": 0.0001302047244094488,
+      "loss": 0.256,
+      "step": 2300
+    },
+    {
+      "epoch": 15.65,
+      "eval_cer": 0.15819338007500408,
+      "eval_loss": 0.3580550253391266,
+      "eval_runtime": 24.5695,
+      "eval_samples_per_second": 23.932,
+      "eval_steps_per_second": 3.012,
+      "step": 2300
+    },
+    {
+      "epoch": 15.99,
+      "learning_rate": 0.00012548031496062992,
+      "loss": 0.2524,
+      "step": 2350
+    },
+    {
+      "epoch": 16.33,
+      "learning_rate": 0.00012075590551181102,
+      "loss": 0.2219,
+      "step": 2400
+    },
+    {
+      "epoch": 16.33,
+      "eval_cer": 0.14801891407141693,
+      "eval_loss": 0.35925593972206116,
+      "eval_runtime": 24.982,
+      "eval_samples_per_second": 23.537,
+      "eval_steps_per_second": 2.962,
+      "step": 2400
+    },
+    {
+      "epoch": 16.67,
+      "learning_rate": 0.0001160314960629921,
+      "loss": 0.2364,
+      "step": 2450
+    },
+    {
+      "epoch": 17.01,
+      "learning_rate": 0.00011130708661417321,
+      "loss": 0.2291,
+      "step": 2500
+    },
+    {
+      "epoch": 17.01,
+      "eval_cer": 0.1471058209685309,
+      "eval_loss": 0.35567909479141235,
+      "eval_runtime": 24.4749,
+      "eval_samples_per_second": 24.025,
+      "eval_steps_per_second": 3.024,
+      "step": 2500
+    },
+    {
+      "epoch": 17.35,
+      "learning_rate": 0.00010658267716535431,
+      "loss": 0.2045,
+      "step": 2550
+    },
+    {
+      "epoch": 17.69,
+      "learning_rate": 0.00010185826771653542,
+      "loss": 0.2172,
+      "step": 2600
+    },
+    {
+      "epoch": 17.69,
+      "eval_cer": 0.14792108266753629,
+      "eval_loss": 0.3606509566307068,
+      "eval_runtime": 25.1105,
+      "eval_samples_per_second": 23.416,
+      "eval_steps_per_second": 2.947,
+      "step": 2600
+    },
+    {
+      "epoch": 18.03,
+      "learning_rate": 9.713385826771652e-05,
+      "loss": 0.2271,
+      "step": 2650
+    },
+    {
+      "epoch": 18.37,
+      "learning_rate": 9.240944881889763e-05,
+      "loss": 0.1858,
+      "step": 2700
+    },
+    {
+      "epoch": 18.37,
+      "eval_cer": 0.15144301320723952,
+      "eval_loss": 0.3589307963848114,
+      "eval_runtime": 24.5005,
+      "eval_samples_per_second": 24.0,
+      "eval_steps_per_second": 3.02,
+      "step": 2700
     }
   ],
   "max_steps": 3675,
   "num_train_epochs": 25,
+  "total_flos": 1.0494071921698755e+19,
   "trial_name": null,
   "trial_params": null
 }

{checkpoint-1600 → checkpoint-2700}/training_args.bin RENAMED Viewed

File without changes

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a368a48ff43ab4bc8e301dc5a41abb75b9de3b052aeffd6edcf4765b37523a8d
 size 1262344621

 version https://git-lfs.github.com/spec/v1
+oid sha256:4bba14f51afadd438f5716f846b339431901a15de8cc5ac24dc52e61e72244c4
 size 1262344621