Training in progress, epoch 4, checkpoint

Browse files

Files changed (7) hide show

checkpoint-113/config.json +1 -1
checkpoint-113/model.safetensors +1 -1
checkpoint-113/optimizer.pt +1 -1
checkpoint-113/rng_state.pth +1 -1
checkpoint-113/scheduler.pt +1 -1
checkpoint-113/trainer_state.json +102 -84
checkpoint-113/training_args.bin +1 -1

checkpoint-113/config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "ntu-spml/distilhubert",
   "activation_dropout": 0.1,
   "apply_spec_augment": false,
   "architectures": [

 {
+  "_name_or_path": "arshsin/distilhubert-finetuned-gtzan",
   "activation_dropout": 0.1,
   "apply_spec_augment": false,
   "architectures": [

checkpoint-113/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7da48879ae32a57d058c40f99f0ec6d66a1d2299502f968b2aad22e695afb722
 size 94771728

 version https://git-lfs.github.com/spec/v1
+oid sha256:4f0ea082065ab774a500e7314069f873fa63c63703c54f52e526c928f18dc8f9
 size 94771728

checkpoint-113/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:821eeeb56915b005e8f0d8578d5cccd87f9d7909c6be28d85967c7afbf2a8fb0
 size 189575930

 version https://git-lfs.github.com/spec/v1
+oid sha256:4d31ca85d79f768ea2e15a677aeea131e1f0cb8d60709e61fe89b1426cbd4b03
 size 189575930

checkpoint-113/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2ec53eaa68c4c55193fc6d3f84ff83ddf726625d2b43eae85fb551c775a1de57
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ecf3c34ec64bdf74c8035890e258a6526f6c54269fb590d54c95ba6a2d2cb72e
 size 14244

checkpoint-113/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:40514161a6904658a662be2de2064561c7fb40de7fb9fcc01904de6d10eec553
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:02e9e4f379497c6689ada5a574308fc8915bbc29bf3d85c8f93439eeedc1ce16
 size 1064

checkpoint-113/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-  "best_metric": 0.61,
-  "best_model_checkpoint": "distilhubert-finetuned-gtzan/checkpoint-113",
-  "epoch": 2.0,
   "eval_steps": 500,
   "global_step": 113,
   "is_hyper_param_search": false,
@@ -9,161 +9,179 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.09,
-      "learning_rate": 4.464285714285714e-05,
-      "loss": 2.2976,
       "step": 5
     },
     {
-      "epoch": 0.18,
-      "learning_rate": 8.928571428571429e-05,
-      "loss": 2.2855,
       "step": 10
     },
     {
-      "epoch": 0.27,
-      "learning_rate": 0.00013392857142857144,
-      "loss": 2.2307,
       "step": 15
     },
     {
-      "epoch": 0.35,
-      "learning_rate": 0.00017857142857142857,
-      "loss": 2.1327,
       "step": 20
     },
     {
-      "epoch": 0.44,
-      "learning_rate": 0.00022321428571428573,
-      "loss": 2.0339,
       "step": 25
     },
     {
-      "epoch": 0.53,
-      "learning_rate": 0.00026785714285714287,
-      "loss": 1.9633,
       "step": 30
     },
     {
-      "epoch": 0.62,
-      "learning_rate": 0.0003125,
-      "loss": 1.8021,
       "step": 35
     },
     {
-      "epoch": 0.71,
-      "learning_rate": 0.00035714285714285714,
-      "loss": 1.6938,
       "step": 40
     },
     {
-      "epoch": 0.8,
-      "learning_rate": 0.00040178571428571433,
-      "loss": 1.5271,
       "step": 45
     },
     {
-      "epoch": 0.88,
-      "learning_rate": 0.00044642857142857147,
-      "loss": 1.4038,
       "step": 50
     },
     {
-      "epoch": 0.97,
-      "learning_rate": 0.0004910714285714286,
-      "loss": 1.496,
       "step": 55
     },
     {
-      "epoch": 0.99,
-      "eval_accuracy": 0.27,
-      "eval_loss": 1.8467493057250977,
-      "eval_runtime": 72.5718,
-      "eval_samples_per_second": 1.378,
-      "eval_steps_per_second": 0.179,
       "step": 56
     },
     {
-      "epoch": 1.06,
-      "learning_rate": 0.000496031746031746,
-      "loss": 1.3528,
       "step": 60
     },
     {
-      "epoch": 1.15,
-      "learning_rate": 0.0004910714285714286,
-      "loss": 1.507,
       "step": 65
     },
     {
-      "epoch": 1.24,
-      "learning_rate": 0.0004861111111111111,
-      "loss": 1.504,
       "step": 70
     },
     {
-      "epoch": 1.33,
-      "learning_rate": 0.0004811507936507937,
-      "loss": 1.3719,
       "step": 75
     },
     {
-      "epoch": 1.42,
-      "learning_rate": 0.0004761904761904762,
-      "loss": 1.2284,
       "step": 80
     },
     {
-      "epoch": 1.5,
-      "learning_rate": 0.00047123015873015874,
-      "loss": 1.2997,
       "step": 85
     },
     {
-      "epoch": 1.59,
-      "learning_rate": 0.0004662698412698413,
-      "loss": 1.2284,
       "step": 90
     },
     {
-      "epoch": 1.68,
-      "learning_rate": 0.00046130952380952383,
-      "loss": 1.3332,
       "step": 95
     },
     {
-      "epoch": 1.77,
-      "learning_rate": 0.0004563492063492063,
-      "loss": 1.1091,
       "step": 100
     },
     {
-      "epoch": 1.86,
-      "learning_rate": 0.0004513888888888889,
-      "loss": 1.1335,
       "step": 105
     },
     {
-      "epoch": 1.95,
-      "learning_rate": 0.00044642857142857147,
-      "loss": 1.1313,
       "step": 110
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy": 0.61,
-      "eval_loss": 1.175675868988037,
-      "eval_runtime": 71.9077,
-      "eval_samples_per_second": 1.391,
-      "eval_steps_per_second": 0.181,
       "step": 113
     }
   ],
   "logging_steps": 5,
-  "max_steps": 560,
-  "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 1.2267976549248e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.83,
+  "best_model_checkpoint": "distilhubert-finetuned-gtzan/checkpoint-56",
+  "epoch": 4.0,
   "eval_steps": 500,
   "global_step": 113,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.18,
+      "learning_rate": 3.5714285714285718e-06,
+      "loss": 0.0338,
       "step": 5
     },
     {
+      "epoch": 0.35,
+      "learning_rate": 7.1428571428571436e-06,
+      "loss": 0.0053,
       "step": 10
     },
     {
+      "epoch": 0.53,
+      "learning_rate": 9.920634920634922e-06,
+      "loss": 0.0056,
       "step": 15
     },
     {
+      "epoch": 0.71,
+      "learning_rate": 9.523809523809525e-06,
+      "loss": 0.0437,
       "step": 20
     },
     {
+      "epoch": 0.88,
+      "learning_rate": 9.126984126984127e-06,
+      "loss": 0.0017,
       "step": 25
     },
     {
+      "epoch": 0.99,
+      "eval_accuracy": 0.82,
+      "eval_loss": 1.0909959077835083,
+      "eval_runtime": 72.1207,
+      "eval_samples_per_second": 1.387,
+      "eval_steps_per_second": 0.18,
+      "step": 28
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 8.730158730158731e-06,
+      "loss": 0.0013,
       "step": 30
     },
     {
+      "epoch": 1.24,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 0.0373,
       "step": 35
     },
     {
+      "epoch": 1.42,
+      "learning_rate": 7.936507936507936e-06,
+      "loss": 0.0041,
       "step": 40
     },
     {
+      "epoch": 1.59,
+      "learning_rate": 7.53968253968254e-06,
+      "loss": 0.0012,
       "step": 45
     },
     {
+      "epoch": 1.77,
+      "learning_rate": 7.1428571428571436e-06,
+      "loss": 0.0338,
       "step": 50
     },
     {
+      "epoch": 1.95,
+      "learning_rate": 6.746031746031747e-06,
+      "loss": 0.0143,
       "step": 55
     },
     {
+      "epoch": 1.98,
+      "eval_accuracy": 0.83,
+      "eval_loss": 1.1379410028457642,
+      "eval_runtime": 71.5138,
+      "eval_samples_per_second": 1.398,
+      "eval_steps_per_second": 0.182,
       "step": 56
     },
     {
+      "epoch": 2.12,
+      "learning_rate": 6.349206349206349e-06,
+      "loss": 0.036,
       "step": 60
     },
     {
+      "epoch": 2.3,
+      "learning_rate": 5.9523809523809525e-06,
+      "loss": 0.001,
       "step": 65
     },
     {
+      "epoch": 2.48,
+      "learning_rate": 5.555555555555557e-06,
+      "loss": 0.0412,
       "step": 70
     },
     {
+      "epoch": 2.65,
+      "learning_rate": 5.15873015873016e-06,
+      "loss": 0.001,
       "step": 75
     },
     {
+      "epoch": 2.83,
+      "learning_rate": 4.761904761904762e-06,
+      "loss": 0.01,
       "step": 80
     },
     {
+      "epoch": 2.97,
+      "eval_accuracy": 0.82,
+      "eval_loss": 1.1369585990905762,
+      "eval_runtime": 71.7929,
+      "eval_samples_per_second": 1.393,
+      "eval_steps_per_second": 0.181,
+      "step": 84
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 4.365079365079366e-06,
+      "loss": 0.001,
       "step": 85
     },
     {
+      "epoch": 3.19,
+      "learning_rate": 3.968253968253968e-06,
+      "loss": 0.0476,
       "step": 90
     },
     {
+      "epoch": 3.36,
+      "learning_rate": 3.5714285714285718e-06,
+      "loss": 0.0009,
       "step": 95
     },
     {
+      "epoch": 3.54,
+      "learning_rate": 3.1746031746031746e-06,
+      "loss": 0.0009,
       "step": 100
     },
     {
+      "epoch": 3.72,
+      "learning_rate": 2.7777777777777783e-06,
+      "loss": 0.001,
       "step": 105
     },
     {
+      "epoch": 3.89,
+      "learning_rate": 2.380952380952381e-06,
+      "loss": 0.0377,
       "step": 110
     },
     {
+      "epoch": 4.0,
+      "eval_accuracy": 0.82,
+      "eval_loss": 1.142837643623352,
+      "eval_runtime": 71.2388,
+      "eval_samples_per_second": 1.404,
+      "eval_steps_per_second": 0.182,
       "step": 113
     }
   ],
   "logging_steps": 5,
+  "max_steps": 140,
+  "num_train_epochs": 5,
   "save_steps": 500,
+  "total_flos": 2.4535953098496e+17,
   "trial_name": null,
   "trial_params": null
 }

checkpoint-113/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cbef9bdfa53985d2dd1361cb595119941d5a4b9581e158c102613a779ed26711
 size 4600

 version https://git-lfs.github.com/spec/v1
+oid sha256:94c8327b62c2d89df2d87b86e12181649733dbdfae7f66da82435847a359e69a
 size 4600