Training in progress, step 500

Browse files

Files changed (12) hide show

last-checkpoint/mlm/adapter_config.json +4 -4
last-checkpoint/mlm/head_config.json +1 -1
last-checkpoint/mlm/pytorch_adapter.bin +2 -2
last-checkpoint/mlm/pytorch_model_head.bin +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +14 -314
last-checkpoint/training_args.bin +1 -1
runs/Mar10_16-33-29_9eaed4381315/1678466242.7558188/events.out.tfevents.1678466242.9eaed4381315.3748.1 +3 -0
runs/Mar10_16-33-29_9eaed4381315/events.out.tfevents.1678466242.9eaed4381315.3748.0 +3 -0
training_args.bin +1 -1

last-checkpoint/mlm/adapter_config.json CHANGED Viewed

@@ -6,8 +6,8 @@
     "factorized_phm_rule": false,
     "hypercomplex_nonlinearity": "glorot-uniform",
     "init_weights": "bert",
-    "inv_adapter": "nice",
-    "inv_adapter_reduction_factor": 2,
     "is_parallel": false,
     "learn_phm": true,
     "leave_out": [],
@@ -31,11 +31,11 @@
     "shared_phm_rule": true,
     "use_gating": false
   },
-  "config_id": "9ed5b5a29de19b71",
   "hidden_size": 768,
   "model_class": "XLMRobertaForMaskedLM",
   "model_name": "xlm-roberta-base",
   "model_type": "xlm-roberta",
   "name": "mlm",
-  "version": "3.2.0a0"
 }

     "factorized_phm_rule": false,
     "hypercomplex_nonlinearity": "glorot-uniform",
     "init_weights": "bert",
+    "inv_adapter": null,
+    "inv_adapter_reduction_factor": null,
     "is_parallel": false,
     "learn_phm": true,
     "leave_out": [],
     "shared_phm_rule": true,
     "use_gating": false
   },
+  "config_id": "9076f36a74755ac4",
   "hidden_size": 768,
   "model_class": "XLMRobertaForMaskedLM",
   "model_name": "xlm-roberta-base",
   "model_type": "xlm-roberta",
   "name": "mlm",
+  "version": "3.2.0"
 }

last-checkpoint/mlm/head_config.json CHANGED Viewed

@@ -10,5 +10,5 @@
   "model_type": "xlm-roberta",
   "name": null,
   "num_labels": 2,
-  "version": "3.2.0a0"
 }

   "model_type": "xlm-roberta",
   "name": null,
   "num_labels": 2,
+  "version": "3.2.0"
 }

last-checkpoint/mlm/pytorch_adapter.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab31d3c1e44d96d6aa7dc385bb2a374bb3650411b1f2bbf3a5632cf6d8a364dd
-size 4782029

 version https://git-lfs.github.com/spec/v1
+oid sha256:992a56d9cea8f923f3ae5835ae0ccb36e78cff465c9cac4eb543e13a4bc8cb54
+size 3595045

last-checkpoint/mlm/pytorch_model_head.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c5a68f21c96d1017414c75ab9cb39667b15070c234626b171849d4374c8815f2
 size 771377007

 version https://git-lfs.github.com/spec/v1
+oid sha256:78f3543c2b9f6c7d47b62337c5e0cfcbd52b25c634208cda9e8dc74c39b2ef1b
 size 771377007

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c879fb2ff43e64a5330a90d7721d2020e0ba4b2bfa608256284bd1443f844131
-size 16297733

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b99ed3e4deac97eb97d586252063d8831cadaf749bd0bd6a167055c47c2e279
+size 13924549

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b9699ad8a13d39e0088b256bc19bede304b6e109e99940bf7c075c82acfc186a
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:ef12f40a043f312c84af952a05fcc8c7e366ecdd0c0d9a6c44fad7c01b79ac67
 size 14575

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:13f27483992a93e2d0e00be6d9edd9ab2fa3162b3b09ab3826e3fa33ba45c5fe
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:0dd53c40ad142c1d4952384818db07da2a2df2a1a18ce830debd7791a2e791d2
 size 627

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,331 +1,31 @@
 {
-  "best_metric": 1.9753360748291016,
-  "best_model_checkpoint": "./test-mlm/checkpoint-10500",
-  "epoch": 7.766272189349112,
-  "global_step": 10500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.37,
-      "learning_rate": 9.6301775147929e-05,
-      "loss": 2.703,
       "step": 500
     },
     {
       "epoch": 0.37,
-      "eval_accuracy": 0.5554450522128295,
-      "eval_loss": 2.2368199825286865,
-      "eval_runtime": 81.9171,
-      "eval_samples_per_second": 10.608,
-      "eval_steps_per_second": 2.124,
       "step": 500
-    },
-    {
-      "epoch": 0.74,
-      "learning_rate": 9.260355029585799e-05,
-      "loss": 2.34,
-      "step": 1000
-    },
-    {
-      "epoch": 0.74,
-      "eval_accuracy": 0.5654470537208005,
-      "eval_loss": 2.155290126800537,
-      "eval_runtime": 81.9029,
-      "eval_samples_per_second": 10.61,
-      "eval_steps_per_second": 2.124,
-      "step": 1000
-    },
-    {
-      "epoch": 1.11,
-      "learning_rate": 8.8905325443787e-05,
-      "loss": 2.3064,
-      "step": 1500
-    },
-    {
-      "epoch": 1.11,
-      "eval_accuracy": 0.5682274716205484,
-      "eval_loss": 2.143535614013672,
-      "eval_runtime": 81.8866,
-      "eval_samples_per_second": 10.612,
-      "eval_steps_per_second": 2.125,
-      "step": 1500
-    },
-    {
-      "epoch": 1.48,
-      "learning_rate": 8.520710059171599e-05,
-      "loss": 2.2737,
-      "step": 2000
-    },
-    {
-      "epoch": 1.48,
-      "eval_accuracy": 0.5682253766925845,
-      "eval_loss": 2.127504825592041,
-      "eval_runtime": 81.8392,
-      "eval_samples_per_second": 10.618,
-      "eval_steps_per_second": 2.126,
-      "step": 2000
-    },
-    {
-      "epoch": 1.85,
-      "learning_rate": 8.150887573964498e-05,
-      "loss": 2.2323,
-      "step": 2500
-    },
-    {
-      "epoch": 1.85,
-      "eval_accuracy": 0.57444453106728,
-      "eval_loss": 2.0887880325317383,
-      "eval_runtime": 81.8536,
-      "eval_samples_per_second": 10.617,
-      "eval_steps_per_second": 2.126,
-      "step": 2500
-    },
-    {
-      "epoch": 2.22,
-      "learning_rate": 7.781065088757397e-05,
-      "loss": 2.2227,
-      "step": 3000
-    },
-    {
-      "epoch": 2.22,
-      "eval_accuracy": 0.577296072741943,
-      "eval_loss": 2.077665328979492,
-      "eval_runtime": 82.1231,
-      "eval_samples_per_second": 10.582,
-      "eval_steps_per_second": 2.119,
-      "step": 3000
-    },
-    {
-      "epoch": 2.59,
-      "learning_rate": 7.411242603550296e-05,
-      "loss": 2.1994,
-      "step": 3500
-    },
-    {
-      "epoch": 2.59,
-      "eval_accuracy": 0.5799091007802442,
-      "eval_loss": 2.0537660121917725,
-      "eval_runtime": 81.9221,
-      "eval_samples_per_second": 10.608,
-      "eval_steps_per_second": 2.124,
-      "step": 3500
-    },
-    {
-      "epoch": 2.96,
-      "learning_rate": 7.041420118343195e-05,
-      "loss": 2.1832,
-      "step": 4000
-    },
-    {
-      "epoch": 2.96,
-      "eval_accuracy": 0.5793303771456824,
-      "eval_loss": 2.0551059246063232,
-      "eval_runtime": 81.9029,
-      "eval_samples_per_second": 10.61,
-      "eval_steps_per_second": 2.124,
-      "step": 4000
-    },
-    {
-      "epoch": 3.33,
-      "learning_rate": 6.671597633136095e-05,
-      "loss": 2.179,
-      "step": 4500
-    },
-    {
-      "epoch": 3.33,
-      "eval_accuracy": 0.5803635456614598,
-      "eval_loss": 2.0518393516540527,
-      "eval_runtime": 81.8891,
-      "eval_samples_per_second": 10.612,
-      "eval_steps_per_second": 2.125,
-      "step": 4500
-    },
-    {
-      "epoch": 3.7,
-      "learning_rate": 6.301775147928994e-05,
-      "loss": 2.1749,
-      "step": 5000
-    },
-    {
-      "epoch": 3.7,
-      "eval_accuracy": 0.5847466866015668,
-      "eval_loss": 2.0224971771240234,
-      "eval_runtime": 81.4891,
-      "eval_samples_per_second": 10.664,
-      "eval_steps_per_second": 2.135,
-      "step": 5000
-    },
-    {
-      "epoch": 4.07,
-      "learning_rate": 5.931952662721894e-05,
-      "loss": 2.1485,
-      "step": 5500
-    },
-    {
-      "epoch": 4.07,
-      "eval_accuracy": 0.5841869298546032,
-      "eval_loss": 2.0166282653808594,
-      "eval_runtime": 81.9288,
-      "eval_samples_per_second": 10.607,
-      "eval_steps_per_second": 2.124,
-      "step": 5500
-    },
-    {
-      "epoch": 4.44,
-      "learning_rate": 5.562130177514793e-05,
-      "loss": 2.1386,
-      "step": 6000
-    },
-    {
-      "epoch": 4.44,
-      "eval_accuracy": 0.584889026370737,
-      "eval_loss": 2.0117151737213135,
-      "eval_runtime": 82.1419,
-      "eval_samples_per_second": 10.579,
-      "eval_steps_per_second": 2.118,
-      "step": 6000
-    },
-    {
-      "epoch": 4.81,
-      "learning_rate": 5.192307692307693e-05,
-      "loss": 2.1342,
-      "step": 6500
-    },
-    {
-      "epoch": 4.81,
-      "eval_accuracy": 0.5851434826804285,
-      "eval_loss": 2.019951343536377,
-      "eval_runtime": 81.9564,
-      "eval_samples_per_second": 10.603,
-      "eval_steps_per_second": 2.123,
-      "step": 6500
-    },
-    {
-      "epoch": 5.18,
-      "learning_rate": 4.822485207100592e-05,
-      "loss": 2.14,
-      "step": 7000
-    },
-    {
-      "epoch": 5.18,
-      "eval_accuracy": 0.5875654429927449,
-      "eval_loss": 1.9929033517837524,
-      "eval_runtime": 81.8893,
-      "eval_samples_per_second": 10.612,
-      "eval_steps_per_second": 2.125,
-      "step": 7000
-    },
-    {
-      "epoch": 5.55,
-      "learning_rate": 4.452662721893491e-05,
-      "loss": 2.1245,
-      "step": 7500
-    },
-    {
-      "epoch": 5.55,
-      "eval_accuracy": 0.5850476823443949,
-      "eval_loss": 2.0177462100982666,
-      "eval_runtime": 81.9426,
-      "eval_samples_per_second": 10.605,
-      "eval_steps_per_second": 2.123,
-      "step": 7500
-    },
-    {
-      "epoch": 5.92,
-      "learning_rate": 4.0828402366863904e-05,
-      "loss": 2.1144,
-      "step": 8000
-    },
-    {
-      "epoch": 5.92,
-      "eval_accuracy": 0.5845387459583223,
-      "eval_loss": 2.0020604133605957,
-      "eval_runtime": 81.8258,
-      "eval_samples_per_second": 10.62,
-      "eval_steps_per_second": 2.126,
-      "step": 8000
-    },
-    {
-      "epoch": 6.29,
-      "learning_rate": 3.71301775147929e-05,
-      "loss": 2.1204,
-      "step": 8500
-    },
-    {
-      "epoch": 6.29,
-      "eval_accuracy": 0.5902023229674035,
-      "eval_loss": 1.9979915618896484,
-      "eval_runtime": 82.1267,
-      "eval_samples_per_second": 10.581,
-      "eval_steps_per_second": 2.119,
-      "step": 8500
-    },
-    {
-      "epoch": 6.66,
-      "learning_rate": 3.3431952662721895e-05,
-      "loss": 2.1183,
-      "step": 9000
-    },
-    {
-      "epoch": 6.66,
-      "eval_accuracy": 0.5892121344051747,
-      "eval_loss": 1.978848934173584,
-      "eval_runtime": 81.8016,
-      "eval_samples_per_second": 10.623,
-      "eval_steps_per_second": 2.127,
-      "step": 9000
-    },
-    {
-      "epoch": 7.03,
-      "learning_rate": 2.973372781065089e-05,
-      "loss": 2.1074,
-      "step": 9500
-    },
-    {
-      "epoch": 7.03,
-      "eval_accuracy": 0.5906417360616661,
-      "eval_loss": 1.9904392957687378,
-      "eval_runtime": 81.9488,
-      "eval_samples_per_second": 10.604,
-      "eval_steps_per_second": 2.123,
-      "step": 9500
-    },
-    {
-      "epoch": 7.4,
-      "learning_rate": 2.6035502958579882e-05,
-      "loss": 2.1021,
-      "step": 10000
-    },
-    {
-      "epoch": 7.4,
-      "eval_accuracy": 0.5926501920654422,
-      "eval_loss": 1.9878432750701904,
-      "eval_runtime": 81.8234,
-      "eval_samples_per_second": 10.62,
-      "eval_steps_per_second": 2.127,
-      "step": 10000
-    },
-    {
-      "epoch": 7.77,
-      "learning_rate": 2.2337278106508877e-05,
-      "loss": 2.0887,
-      "step": 10500
-    },
-    {
-      "epoch": 7.77,
-      "eval_accuracy": 0.5924927994053703,
-      "eval_loss": 1.9753360748291016,
-      "eval_runtime": 81.7861,
-      "eval_samples_per_second": 10.625,
-      "eval_steps_per_second": 2.128,
-      "step": 10500
     }
   ],
-  "max_steps": 13520,
-  "num_train_epochs": 10,
-  "total_flos": 1.4038178060648448e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 2.2929649353027344,
+  "best_model_checkpoint": "./test-mlm/checkpoint-500",
+  "epoch": 0.3698224852071006,
+  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.37,
+      "learning_rate": 9.537721893491125e-05,
+      "loss": 3.2297,
       "step": 500
     },
     {
       "epoch": 0.37,
+      "eval_accuracy": 0.5468516907011437,
+      "eval_loss": 2.2929649353027344,
+      "eval_runtime": 82.9497,
+      "eval_samples_per_second": 10.476,
+      "eval_steps_per_second": 2.098,
       "step": 500
     }
   ],
+  "max_steps": 10816,
+  "num_train_epochs": 8,
+  "total_flos": 666567613440000.0,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1df2b6641708b0e7a1eb6d8e9bc7c8eb16223fbde2ebdc920843d9462399a795
 size 3515

 version https://git-lfs.github.com/spec/v1
+oid sha256:b8d50ec052e6f796bf886cada4bb73f925473feb40d57987148846389ad2c56a
 size 3515

runs/Mar10_16-33-29_9eaed4381315/1678466242.7558188/events.out.tfevents.1678466242.9eaed4381315.3748.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c931764ed73a625cc227c99f29888058d8f8b558252fc6504c4792f6e1ad3545
+size 5686

runs/Mar10_16-33-29_9eaed4381315/events.out.tfevents.1678466242.9eaed4381315.3748.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:340c4bc5ca082ce5ce4c5208eaafe235f70cc6cd65d29c38ae65e8e538bd0f58
+size 5495

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1df2b6641708b0e7a1eb6d8e9bc7c8eb16223fbde2ebdc920843d9462399a795
 size 3515

 version https://git-lfs.github.com/spec/v1
+oid sha256:b8d50ec052e6f796bf886cada4bb73f925473feb40d57987148846389ad2c56a
 size 3515