Training in progress, step 400

Browse files

Files changed (11) hide show

checkpoint-100/trainer_state.json +0 -85
{checkpoint-100 → checkpoint-400}/config.json +0 -0
{checkpoint-100 → checkpoint-400}/optimizer.pt +2 -2
{checkpoint-100 → checkpoint-400}/preprocessor_config.json +0 -0
{checkpoint-100 → checkpoint-400}/pytorch_model.bin +1 -1
{checkpoint-100 → checkpoint-400}/rng_state.pth +1 -1
{checkpoint-100 → checkpoint-400}/scaler.pt +1 -1
{checkpoint-100 → checkpoint-400}/scheduler.pt +1 -1
checkpoint-400/trainer_state.json +292 -0
{checkpoint-100 → checkpoint-400}/training_args.bin +0 -0
pytorch_model.bin +1 -1

checkpoint-100/trainer_state.json DELETED Viewed

@@ -1,85 +0,0 @@
-{
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 0.0461361014994233,
-  "global_step": 100,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.0,
-      "learning_rate": 5.725190839694656e-06,
-      "loss": 12.7187,
-      "step": 10
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 1.1450381679389312e-05,
-      "loss": 13.2124,
-      "step": 20
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 1.6603053435114505e-05,
-      "loss": 14.1489,
-      "step": 30
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 2.1755725190839692e-05,
-      "loss": 25.9008,
-      "step": 40
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 2.6908396946564882e-05,
-      "loss": 31.3861,
-      "step": 50
-    },
-    {
-      "epoch": 0.03,
-      "learning_rate": 3.263358778625954e-05,
-      "loss": 8.9557,
-      "step": 60
-    },
-    {
-      "epoch": 0.03,
-      "learning_rate": 3.835877862595419e-05,
-      "loss": 5.8443,
-      "step": 70
-    },
-    {
-      "epoch": 0.04,
-      "learning_rate": 4.408396946564885e-05,
-      "loss": 4.3173,
-      "step": 80
-    },
-    {
-      "epoch": 0.04,
-      "learning_rate": 4.980916030534351e-05,
-      "loss": 4.7444,
-      "step": 90
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 5.49618320610687e-05,
-      "loss": 4.542,
-      "step": 100
-    },
-    {
-      "epoch": 0.05,
-      "eval_loss": 3.579599618911743,
-      "eval_runtime": 132.6751,
-      "eval_samples_per_second": 34.822,
-      "eval_steps_per_second": 1.093,
-      "eval_wer": 1.0,
-      "step": 100
-    }
-  ],
-  "max_steps": 6501,
-  "num_train_epochs": 3,
-  "total_flos": 1.8918949073894093e+18,
-  "trial_name": null,
-  "trial_params": null
-}

{checkpoint-100 → checkpoint-400}/config.json RENAMED Viewed

File without changes

{checkpoint-100 → checkpoint-400}/optimizer.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dcd75eb9eb15e101a584f317dd03ba70534ec3917631783edbfe726774455fa0
-size 2490345553

 version https://git-lfs.github.com/spec/v1
+oid sha256:bf161ebd936c8ad7c9d8aa09d6cfacea3c1f1b7830996289de6c09c5b17597b5
+size 2490346001

{checkpoint-100 → checkpoint-400}/preprocessor_config.json RENAMED Viewed

File without changes

{checkpoint-100 → checkpoint-400}/pytorch_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7064579c21ec23226d6f39bb5dee797da17fff6678fed3e6050628b85faacfc1
 size 1262067185

 version https://git-lfs.github.com/spec/v1
+oid sha256:3615598ae508e9ab81f60392073741effb41877fe43b3faf976c78e298f8b7ce
 size 1262067185

{checkpoint-100 → checkpoint-400}/rng_state.pth RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab5d5475fd943acda0bea55c6146b72c7f33d4c76c07876fc3b4cf2a3762fc1f
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:6539ac9bd8d5283f6052bfeb40b134408bae7309c4985eb1a92a55b39e90aa50
 size 14567

{checkpoint-100 → checkpoint-400}/scaler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d89c06e1fb26ac706fbc6cd0f8beccd21b43e2f86f6633c3ba8d7f577b3163c
 size 559

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c521307eec3705f40e440815e13caacabdaf54c21d0d7c9b9858aad14a054aa
 size 559

{checkpoint-100 → checkpoint-400}/scheduler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a848d1936439f30e0b3b837fa66ea8c1e665cb71cb88e983e96eb1832c725dd
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:46afeb3652f3b68ce369c52d170c5c98db425df4214d18b1edefe2376ca2a92e
 size 623

checkpoint-400/trainer_state.json ADDED Viewed

	@@ -0,0 +1,292 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.1845444059976932,
+  "global_step": 400,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 5.725190839694656e-06,
+      "loss": 12.7187,
+      "step": 10
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 1.1450381679389312e-05,
+      "loss": 13.2124,
+      "step": 20
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 1.6603053435114505e-05,
+      "loss": 14.1489,
+      "step": 30
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2.1755725190839692e-05,
+      "loss": 25.9008,
+      "step": 40
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2.6908396946564882e-05,
+      "loss": 31.3861,
+      "step": 50
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 3.263358778625954e-05,
+      "loss": 8.9557,
+      "step": 60
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 3.835877862595419e-05,
+      "loss": 5.8443,
+      "step": 70
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 4.408396946564885e-05,
+      "loss": 4.3173,
+      "step": 80
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 4.980916030534351e-05,
+      "loss": 4.7444,
+      "step": 90
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 5.49618320610687e-05,
+      "loss": 4.542,
+      "step": 100
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 3.579599618911743,
+      "eval_runtime": 132.6751,
+      "eval_samples_per_second": 34.822,
+      "eval_steps_per_second": 1.093,
+      "eval_wer": 1.0,
+      "step": 100
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 6.0687022900763354e-05,
+      "loss": 3.3873,
+      "step": 110
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 6.641221374045802e-05,
+      "loss": 3.1783,
+      "step": 120
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 7.213740458015267e-05,
+      "loss": 3.1672,
+      "step": 130
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 7.494113029827315e-05,
+      "loss": 3.4915,
+      "step": 140
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 7.483516483516483e-05,
+      "loss": 3.7276,
+      "step": 150
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 7.471742543171114e-05,
+      "loss": 3.2435,
+      "step": 160
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 7.459968602825744e-05,
+      "loss": 3.0634,
+      "step": 170
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 7.448194662480377e-05,
+      "loss": 3.0859,
+      "step": 180
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 7.436420722135007e-05,
+      "loss": 3.3592,
+      "step": 190
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 7.425824175824176e-05,
+      "loss": 3.6018,
+      "step": 200
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 3.3504831790924072,
+      "eval_runtime": 130.1255,
+      "eval_samples_per_second": 35.504,
+      "eval_steps_per_second": 1.114,
+      "eval_wer": 1.0,
+      "step": 200
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 7.414050235478806e-05,
+      "loss": 3.1612,
+      "step": 210
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 7.402276295133437e-05,
+      "loss": 3.0375,
+      "step": 220
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 7.390502354788069e-05,
+      "loss": 3.08,
+      "step": 230
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 7.3787284144427e-05,
+      "loss": 3.2809,
+      "step": 240
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 7.368131868131867e-05,
+      "loss": 3.5351,
+      "step": 250
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 7.356357927786499e-05,
+      "loss": 3.01,
+      "step": 260
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 7.34458398744113e-05,
+      "loss": 3.0006,
+      "step": 270
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 7.33281004709576e-05,
+      "loss": 3.0397,
+      "step": 280
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 7.321036106750392e-05,
+      "loss": 3.1733,
+      "step": 290
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 7.310439560439559e-05,
+      "loss": 3.5007,
+      "step": 300
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 3.068483591079712,
+      "eval_runtime": 129.9806,
+      "eval_samples_per_second": 35.544,
+      "eval_steps_per_second": 1.116,
+      "eval_wer": 1.0,
+      "step": 300
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 7.29866562009419e-05,
+      "loss": 2.9984,
+      "step": 310
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 7.286891679748822e-05,
+      "loss": 3.0006,
+      "step": 320
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 7.275117739403453e-05,
+      "loss": 3.029,
+      "step": 330
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 7.263343799058085e-05,
+      "loss": 3.158,
+      "step": 340
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 7.252747252747252e-05,
+      "loss": 3.4909,
+      "step": 350
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 7.240973312401883e-05,
+      "loss": 3.001,
+      "step": 360
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 7.229199372056515e-05,
+      "loss": 2.9925,
+      "step": 370
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 7.217425431711145e-05,
+      "loss": 3.0009,
+      "step": 380
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 7.205651491365776e-05,
+      "loss": 3.1263,
+      "step": 390
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 7.195054945054944e-05,
+      "loss": 3.421,
+      "step": 400
+    },
+    {
+      "epoch": 0.18,
+      "eval_loss": 3.0357792377471924,
+      "eval_runtime": 130.0328,
+      "eval_samples_per_second": 35.529,
+      "eval_steps_per_second": 1.115,
+      "eval_wer": 1.0,
+      "step": 400
+    }
+  ],
+  "max_steps": 6501,
+  "num_train_epochs": 3,
+  "total_flos": 7.566114292968407e+18,
+  "trial_name": null,
+  "trial_params": null
+}

{checkpoint-100 → checkpoint-400}/training_args.bin RENAMED Viewed

File without changes

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:68645628512b23e8cf87be35a11a95bbf653c484127f9db2e43ac576589c37b8
 size 1262067185

 version https://git-lfs.github.com/spec/v1
+oid sha256:3615598ae508e9ab81f60392073741effb41877fe43b3faf976c78e298f8b7ce
 size 1262067185