Upload checkpoint 180

Browse files

Files changed (7) hide show

config.json +1 -1
model-00001-of-00002.safetensors +1 -1
model-00002-of-00002.safetensors +1 -1
optimizer.pt +1 -1
scheduler.pt +1 -1
trainer_state.json +143 -3
training_args.bin +1 -1

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "qingy2024/Qwark-4B",
   "architectures": [
     "Qwen2ForCausalLM"
   ],

 {
+  "_name_or_path": "./checkpoint",
   "architectures": [
     "Qwen2ForCausalLM"
   ],

model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e4cc05f999e21289ed5e7e1944f9b825b650201d4b6e49efc4600c1de13ce97
 size 4957560304

 version https://git-lfs.github.com/spec/v1
+oid sha256:af37e95ecc0ecd4629ac364d7b97888000a52d9916d6991d8447b3b3fd7a54ae
 size 4957560304

model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9807d8aed988b93061377c25d688ea15054695319ec4186ac5e81721288c0c8c
 size 3989163248

 version https://git-lfs.github.com/spec/v1
+oid sha256:8d9966edb82684811ef31b9ac43b224ab6dfafa3e5dbeafadf4597657723661f
 size 3989163248

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:59665e5ce11955e76a7a3977561998693ce16b3501d05df3615652f01a071033
 size 17893865224

 version https://git-lfs.github.com/spec/v1
+oid sha256:c192c58b938c4dd2cbc5530ccbfd1a3a4117252427e1d93e0ae78e04c0e874bc
 size 17893865224

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e9ef06ee3c7cfc29655a12c0d2daf141b73e0c056780dd35aec1b5a285207c10
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8f1cd7659be8558e55e3a42a030452706b8961a2d1477b7bac223479e7473b2c
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.013789141051422005,
   "eval_steps": 500,
-  "global_step": 120,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -287,6 +287,146 @@
       "learning_rate": 0.00019992097609676073,
       "loss": 1.8332,
       "step": 120
     }
   ],
   "logging_steps": 3,
@@ -306,7 +446,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.9279066133561344e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.02068371157713301,
   "eval_steps": 500,
+  "global_step": 180,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.00019992097609676073,
       "loss": 1.8332,
       "step": 120
+    },
+    {
+      "epoch": 0.014133869577707556,
+      "grad_norm": 0.78125,
+      "learning_rate": 0.00019991660753128755,
+      "loss": 1.9227,
+      "step": 123
+    },
+    {
+      "epoch": 0.014478598103993105,
+      "grad_norm": 0.71484375,
+      "learning_rate": 0.00019991212149216597,
+      "loss": 1.8356,
+      "step": 126
+    },
+    {
+      "epoch": 0.014823326630278655,
+      "grad_norm": 0.64453125,
+      "learning_rate": 0.0001999075179846703,
+      "loss": 1.8882,
+      "step": 129
+    },
+    {
+      "epoch": 0.015168055156564206,
+      "grad_norm": 0.7578125,
+      "learning_rate": 0.00019990279701421294,
+      "loss": 1.7091,
+      "step": 132
+    },
+    {
+      "epoch": 0.015512783682849756,
+      "grad_norm": 0.69140625,
+      "learning_rate": 0.0001998979585863444,
+      "loss": 1.8811,
+      "step": 135
+    },
+    {
+      "epoch": 0.015857512209135307,
+      "grad_norm": 0.7265625,
+      "learning_rate": 0.00019989300270675334,
+      "loss": 1.8558,
+      "step": 138
+    },
+    {
+      "epoch": 0.016202240735420856,
+      "grad_norm": 0.6015625,
+      "learning_rate": 0.0001998879293812664,
+      "loss": 1.8161,
+      "step": 141
+    },
+    {
+      "epoch": 0.016546969261706405,
+      "grad_norm": 0.87890625,
+      "learning_rate": 0.0001998827386158485,
+      "loss": 1.8826,
+      "step": 144
+    },
+    {
+      "epoch": 0.016891697787991957,
+      "grad_norm": 0.8125,
+      "learning_rate": 0.0001998774304166024,
+      "loss": 1.8912,
+      "step": 147
+    },
+    {
+      "epoch": 0.017236426314277506,
+      "grad_norm": 1.0859375,
+      "learning_rate": 0.00019987200478976909,
+      "loss": 1.9116,
+      "step": 150
+    },
+    {
+      "epoch": 0.01758115484056306,
+      "grad_norm": 36.25,
+      "learning_rate": 0.00019986646174172755,
+      "loss": 1.9378,
+      "step": 153
+    },
+    {
+      "epoch": 0.017925883366848607,
+      "grad_norm": 0.86328125,
+      "learning_rate": 0.00019986080127899487,
+      "loss": 1.8727,
+      "step": 156
+    },
+    {
+      "epoch": 0.018270611893134156,
+      "grad_norm": 0.94921875,
+      "learning_rate": 0.0001998550234082261,
+      "loss": 1.8471,
+      "step": 159
+    },
+    {
+      "epoch": 0.01861534041941971,
+      "grad_norm": 1.1328125,
+      "learning_rate": 0.00019984912813621438,
+      "loss": 1.8372,
+      "step": 162
+    },
+    {
+      "epoch": 0.018960068945705257,
+      "grad_norm": 0.7578125,
+      "learning_rate": 0.00019984311546989098,
+      "loss": 1.8197,
+      "step": 165
+    },
+    {
+      "epoch": 0.019304797471990806,
+      "grad_norm": 0.7734375,
+      "learning_rate": 0.00019983698541632498,
+      "loss": 1.809,
+      "step": 168
+    },
+    {
+      "epoch": 0.01964952599827636,
+      "grad_norm": 0.80859375,
+      "learning_rate": 0.00019983073798272364,
+      "loss": 1.829,
+      "step": 171
+    },
+    {
+      "epoch": 0.019994254524561907,
+      "grad_norm": 0.6484375,
+      "learning_rate": 0.00019982437317643217,
+      "loss": 1.8843,
+      "step": 174
+    },
+    {
+      "epoch": 0.020338983050847456,
+      "grad_norm": 0.66015625,
+      "learning_rate": 0.00019981789100493376,
+      "loss": 1.9159,
+      "step": 177
+    },
+    {
+      "epoch": 0.02068371157713301,
+      "grad_norm": 0.56640625,
+      "learning_rate": 0.0001998112914758496,
+      "loss": 1.8781,
+      "step": 180
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 5.891859920034202e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5692f259194658f6923f4b51ca2a607b4d71f7a19644f7edb031aba7b29cf648
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:d7ca5d0fd565f49515cc3a135b4552fcc038d4359977a97b00c246603ed40a99
 size 5368