Upload folder using huggingface_hub

Browse files

Files changed (9) hide show

checkpoint-100/adapter_model.safetensors +1 -1
checkpoint-100/optimizer.pt +1 -1
checkpoint-100/rng_state_0.pth +1 -1
checkpoint-100/rng_state_1.pth +1 -1
checkpoint-100/rng_state_2.pth +1 -1
checkpoint-100/rng_state_3.pth +1 -1
checkpoint-100/scheduler.pt +1 -1
checkpoint-100/trainer_state.json +26 -98
checkpoint-100/training_args.bin +1 -1

checkpoint-100/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8307659fd0862cf0805b8206dbc2159ba622b3301d90d9634a43e58ab49be69d
 size 436242776

 version https://git-lfs.github.com/spec/v1
+oid sha256:5247567c89f17309d6bd1c4245c9652bc68a64773a779b6eae919705c139699d
 size 436242776

checkpoint-100/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f7ba7a8726d78998756dd55f553ecc0a377148f2698744401894deb794dff765
 size 872568314

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f828cdf072406ebfb292794d1d8b49d1b865ec53d67d323901101473f311659
 size 872568314

checkpoint-100/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:23673dcfe8f26201d1b64968cfb8e7aeafa0dd44591f91dcef9addc46b95c804
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ecafeb055d0737cc8a515833c5ec74971ae3eca7cbc82a612954adc47f89875
 size 15024

checkpoint-100/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6469a17730051cc187688ed7abb5fd4c8dde61701d8ada08c6a999a9463ac217
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:48e353e6e24755f3598843a9d6ddb81d056d2c2776de182a2e723161538e09e6
 size 15024

checkpoint-100/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:da42dc560ef4b9e87e63917c7f9bc28a7815a8897a1f139d152dd2da3d45ba02
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:229ba7afe8835f676d906302a3e89be6b08a56a2d4bc503b4d135b1ca8bf0d45
 size 15024

checkpoint-100/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:df3fbb2edb8d685d2994898809a96aa0f19695a5e60085f742316550a6914b28
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:7096f705e2e21ec95c103ce49a218bae8963605c3414dad81b891fb62b4032af
 size 15024

checkpoint-100/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad10f9bdd16d4aa7ed3e572ac6474b4271d2e92b701684b91f54abd90b8638ef
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:73c5e13806ff8a94431142a878d0fb96436e2e5061be80fcb3fe37c6be5acef0
 size 1000

checkpoint-100/trainer_state.json CHANGED Viewed

@@ -1,135 +1,63 @@
 {
-  "best_metric": 0.3796847462654114,
-  "best_model_checkpoint": "./mistral/01-03-24-Weni-ZeroShot-3.3.18-Mistral-7b-Multilanguage-3.2.0_Zeroshot-2_max_steps-100_batch_16_2024-03-01_ppid_7/checkpoint-100",
   "epoch": 0.9900990099009901,
-  "eval_steps": 10,
   "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
-    {
-      "epoch": 0.1,
-      "eval_loss": 0.6981944441795349,
-      "eval_runtime": 94.6462,
-      "eval_samples_per_second": 30.292,
-      "eval_steps_per_second": 0.951,
-      "step": 10
-    },
     {
       "epoch": 0.2,
-      "grad_norm": 0.2654201090335846,
-      "learning_rate": 0.0001961261695938319,
-      "loss": 1.0016,
       "step": 20
     },
-    {
-      "epoch": 0.2,
-      "eval_loss": 0.467332661151886,
-      "eval_runtime": 94.5373,
-      "eval_samples_per_second": 30.327,
-      "eval_steps_per_second": 0.952,
-      "step": 20
-    },
-    {
-      "epoch": 0.3,
-      "eval_loss": 0.434685617685318,
-      "eval_runtime": 94.5899,
-      "eval_samples_per_second": 30.31,
-      "eval_steps_per_second": 0.951,
-      "step": 30
-    },
-    {
-      "epoch": 0.4,
-      "grad_norm": 1.3763986825942993,
-      "learning_rate": 0.0001559192903470747,
-      "loss": 0.4357,
-      "step": 40
-    },
     {
       "epoch": 0.4,
-      "eval_loss": 0.4082697033882141,
-      "eval_runtime": 94.551,
-      "eval_samples_per_second": 30.322,
-      "eval_steps_per_second": 0.952,
       "step": 40
     },
-    {
-      "epoch": 0.5,
-      "eval_loss": 0.40642818808555603,
-      "eval_runtime": 94.5831,
-      "eval_samples_per_second": 30.312,
-      "eval_steps_per_second": 0.952,
-      "step": 50
-    },
     {
       "epoch": 0.59,
-      "grad_norm": 0.16300354897975922,
-      "learning_rate": 8.954715367323468e-05,
-      "loss": 0.4012,
       "step": 60
     },
-    {
-      "epoch": 0.59,
-      "eval_loss": 0.39164847135543823,
-      "eval_runtime": 94.6074,
-      "eval_samples_per_second": 30.304,
-      "eval_steps_per_second": 0.951,
-      "step": 60
-    },
-    {
-      "epoch": 0.69,
-      "eval_loss": 0.3856147527694702,
-      "eval_runtime": 94.5883,
-      "eval_samples_per_second": 30.31,
-      "eval_steps_per_second": 0.951,
-      "step": 70
-    },
     {
       "epoch": 0.79,
-      "grad_norm": 0.14875428378582,
-      "learning_rate": 2.8066019966134904e-05,
-      "loss": 0.3846,
       "step": 80
     },
-    {
-      "epoch": 0.79,
-      "eval_loss": 0.38140159845352173,
-      "eval_runtime": 94.5138,
-      "eval_samples_per_second": 30.334,
-      "eval_steps_per_second": 0.952,
-      "step": 80
-    },
-    {
-      "epoch": 0.89,
-      "eval_loss": 0.3798506557941437,
-      "eval_runtime": 94.6456,
-      "eval_samples_per_second": 30.292,
-      "eval_steps_per_second": 0.951,
-      "step": 90
-    },
     {
       "epoch": 0.99,
-      "grad_norm": 3.9488003253936768,
-      "learning_rate": 2.4359497401758024e-07,
-      "loss": 0.3775,
       "step": 100
     },
     {
       "epoch": 0.99,
-      "eval_loss": 0.3796847462654114,
-      "eval_runtime": 94.5333,
-      "eval_samples_per_second": 30.328,
-      "eval_steps_per_second": 0.952,
       "step": 100
     }
   ],
   "logging_steps": 20,
-  "max_steps": 100,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 1,
-  "save_steps": 10,
-  "total_flos": 9.048313688175411e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.7399550676345825,
+  "best_model_checkpoint": "./mistral/01-03-24-Weni-ZeroShot-3.3.18-Mistral-7b-Multilanguage-3.2.0_Zeroshot-2_max_steps-800_batch_256_2024-03-01_ppid_7/checkpoint-100",
   "epoch": 0.9900990099009901,
+  "eval_steps": 100,
   "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.2,
+      "grad_norm": 2.141737699508667,
+      "learning_rate": 4.5e-05,
+      "loss": 1.4271,
       "step": 20
     },
     {
       "epoch": 0.4,
+      "grad_norm": 0.741797924041748,
+      "learning_rate": 9.5e-05,
+      "loss": 0.5555,
       "step": 40
     },
     {
       "epoch": 0.59,
+      "grad_norm": 0.7615867853164673,
+      "learning_rate": 0.00014250000000000002,
+      "loss": 0.4788,
       "step": 60
     },
     {
       "epoch": 0.79,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001775,
+      "loss": 0.442,
       "step": 80
     },
     {
       "epoch": 0.99,
+      "grad_norm": 134.0851593017578,
+      "learning_rate": 0.0001999533590836713,
+      "loss": 1.6564,
       "step": 100
     },
     {
       "epoch": 0.99,
+      "eval_loss": 0.7399550676345825,
+      "eval_runtime": 93.2428,
+      "eval_samples_per_second": 30.748,
+      "eval_steps_per_second": 0.965,
       "step": 100
     }
   ],
   "logging_steps": 20,
+  "max_steps": 800,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 8,
+  "save_steps": 100,
+  "total_flos": 9.102576047295037e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

checkpoint-100/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:66ceb8ab0424702f162d3dcd459022d693533c009fa75ecbe9af10b7fcf8a54d
 size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:f6aa370c2182c787eeddfbdff14f25b598288760eb660145f75aa6cc21f88f4e
 size 5176