Upload 11 files

Browse files

Files changed (8) hide show

README.md +0 -4
adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
tokenizer.json +6 -1
trainer_state.json +66 -17
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -1,10 +1,6 @@
 ---
 library_name: peft
 base_model: meta-llama/Meta-Llama-3-8B-Instruct
-license: apache-2.0
-language:
-- en
-pipeline_tag: text-generation
 ---
 # Model Card for Model ID

 ---
 library_name: peft
 base_model: meta-llama/Meta-Llama-3-8B-Instruct
 ---
 # Model Card for Model ID

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd16f35fdb908a86733ece83af9d2f87342fa4b874c01da1f940bf93a38870f9
 size 109069176

 version https://git-lfs.github.com/spec/v1
+oid sha256:8186acc92c8049655bf1a8fa4aae3b74883729ba07d50b1649e4beeff71f80c9
 size 109069176

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5df8fe78b5a8c6fef8e217bd895aae8747f02b0f9ee135d1805f8c3e5297ae7a
 size 218182586

 version https://git-lfs.github.com/spec/v1
+oid sha256:2d823e6e13236821a82815a2e2d60c599bceedaaad68d1900551b8c3110fc71c
 size 218182586

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1375e58f1c2fdc473d6c70983ffa392358838d663f6fe1b5084d0b5de5fd1abb
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4fc18d85373c3ed78a72e873131c5ace7c62304ebb2e3b812ae5639c5dfafe6d
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b0a7343915c78125635d9ebba74d66cd6af1a76cc5481916839c6ed63f8cc757
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd2651dbbb234a1169de9db4c1691e20ebcc2a6f2cad7a0b6f3fb47aa10c248f
 size 1064

tokenizer.json CHANGED Viewed

@@ -1,6 +1,11 @@
 {
   "version": "1.0",
-  "truncation": null,
   "padding": null,
   "added_tokens": [
     {

 {
   "version": "1.0",
+  "truncation": {
+    "direction": "Right",
+    "max_length": 512,
+    "strategy": "LongestFirst",
+    "stride": 0
+  },
   "padding": null,
   "added_tokens": [
     {

trainer_state.json CHANGED Viewed

@@ -1,69 +1,118 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.938271604938271,
   "eval_steps": 500,
-  "global_step": 700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.7054673721340388,
-      "grad_norm": 0.16252084076404572,
       "learning_rate": 0.0002,
-      "loss": 1.6969,
       "step": 100
     },
     {
       "epoch": 1.4109347442680775,
-      "grad_norm": 0.16519103944301605,
       "learning_rate": 0.0002,
-      "loss": 1.4729,
       "step": 200
     },
     {
       "epoch": 2.1164021164021163,
-      "grad_norm": 0.19196180999279022,
       "learning_rate": 0.0002,
-      "loss": 1.4336,
       "step": 300
     },
     {
       "epoch": 2.821869488536155,
-      "grad_norm": 0.1939113885164261,
       "learning_rate": 0.0002,
       "loss": 1.3806,
       "step": 400
     },
     {
       "epoch": 3.527336860670194,
-      "grad_norm": 0.2203884869813919,
       "learning_rate": 0.0002,
-      "loss": 1.347,
       "step": 500
     },
     {
       "epoch": 4.232804232804233,
-      "grad_norm": 0.2938516139984131,
       "learning_rate": 0.0002,
       "loss": 1.3009,
       "step": 600
     },
     {
       "epoch": 4.938271604938271,
-      "grad_norm": 0.2624386250972748,
       "learning_rate": 0.0002,
-      "loss": 1.3224,
       "step": 700
     }
   ],
   "logging_steps": 100,
-  "max_steps": 705,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 5,
   "save_steps": 100,
-  "total_flos": 8.028866127259238e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 9.876543209876543,
   "eval_steps": 500,
+  "global_step": 1400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.7054673721340388,
+      "grad_norm": 0.16109323501586914,
       "learning_rate": 0.0002,
+      "loss": 1.6978,
       "step": 100
     },
     {
       "epoch": 1.4109347442680775,
+      "grad_norm": 0.1664305478334427,
       "learning_rate": 0.0002,
+      "loss": 1.4728,
       "step": 200
     },
     {
       "epoch": 2.1164021164021163,
+      "grad_norm": 0.19294697046279907,
       "learning_rate": 0.0002,
+      "loss": 1.4337,
       "step": 300
     },
     {
       "epoch": 2.821869488536155,
+      "grad_norm": 0.20536458492279053,
       "learning_rate": 0.0002,
       "loss": 1.3806,
       "step": 400
     },
     {
       "epoch": 3.527336860670194,
+      "grad_norm": 0.21814219653606415,
       "learning_rate": 0.0002,
+      "loss": 1.3472,
       "step": 500
     },
     {
       "epoch": 4.232804232804233,
+      "grad_norm": 0.2931879162788391,
       "learning_rate": 0.0002,
       "loss": 1.3009,
       "step": 600
     },
     {
       "epoch": 4.938271604938271,
+      "grad_norm": 0.2566097676753998,
       "learning_rate": 0.0002,
+      "loss": 1.3227,
       "step": 700
+    },
+    {
+      "epoch": 5.64373897707231,
+      "grad_norm": 0.3220715820789337,
+      "learning_rate": 0.0002,
+      "loss": 1.2369,
+      "step": 800
+    },
+    {
+      "epoch": 6.349206349206349,
+      "grad_norm": 0.3416915237903595,
+      "learning_rate": 0.0002,
+      "loss": 1.1785,
+      "step": 900
+    },
+    {
+      "epoch": 7.054673721340388,
+      "grad_norm": 0.3860929310321808,
+      "learning_rate": 0.0002,
+      "loss": 1.1151,
+      "step": 1000
+    },
+    {
+      "epoch": 7.760141093474427,
+      "grad_norm": 0.5656395554542542,
+      "learning_rate": 0.0002,
+      "loss": 1.033,
+      "step": 1100
+    },
+    {
+      "epoch": 8.465608465608465,
+      "grad_norm": 0.690337598323822,
+      "learning_rate": 0.0002,
+      "loss": 0.981,
+      "step": 1200
+    },
+    {
+      "epoch": 9.171075837742505,
+      "grad_norm": 0.8267166614532471,
+      "learning_rate": 0.0002,
+      "loss": 0.9868,
+      "step": 1300
+    },
+    {
+      "epoch": 9.876543209876543,
+      "grad_norm": 0.5811594128608704,
+      "learning_rate": 0.0002,
+      "loss": 0.9134,
+      "step": 1400
     }
   ],
   "logging_steps": 100,
+  "max_steps": 1410,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
   "save_steps": 100,
+  "total_flos": 1.604382181037015e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1fc734aad97df0883b151177054bb4776e37aa99406829dee7f493fef55eb451
 size 4984

 version https://git-lfs.github.com/spec/v1
+oid sha256:a7fbe230792309692b93a9f8226dc4049bb8f12efe6e8208885f2775e69fbbff
 size 4984