Model save

Browse files

Files changed (6) hide show

README.md +7 -12
adapter_model.safetensors +1 -1
all_results.json +9 -9
eval_results.json +5 -5
train_results.json +5 -5
trainer_state.json +132 -314

README.md CHANGED Viewed

@@ -2,13 +2,9 @@
 license: other
 library_name: peft
 tags:
-- alignment-handbook
-- generated_from_trainer
 - trl
 - sft
 - generated_from_trainer
-datasets:
-- ruozhiba
 base_model: 01-ai/Yi-6B
 model-index:
 - name: Yi-6B-ruozhiba
@@ -20,9 +16,9 @@ should probably proofread and complete it, then remove this comment. -->
 # Yi-6B-ruozhiba
-This model is a fine-tuned version of [01-ai/Yi-6B](https://huggingface.co/01-ai/Yi-6B) on the ruozhiba dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.1235
 ## Model description
@@ -54,12 +50,11 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 2.4558        | 1.0   | 19   | 2.1018          |
-| 2.4558        | 2.0   | 38   | 1.9877          |
-| 2.0718        | 3.0   | 57   | 1.9598          |
-| 2.0718        | 4.0   | 76   | 1.9522          |
-| 1.9638        | 3.0   | 1206 | 2.4228          |
-| 1.8176        | 4.0   | 1608 | 2.4900          |
 ### Framework versions

 license: other
 library_name: peft
 tags:
 - trl
 - sft
 - generated_from_trainer
 base_model: 01-ai/Yi-6B
 model-index:
 - name: Yi-6B-ruozhiba
 # Yi-6B-ruozhiba
+This model is a fine-tuned version of [01-ai/Yi-6B](https://huggingface.co/01-ai/Yi-6B) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 2.2082
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 1.948         | 1.0   | 217  | 1.9488          |
+| 1.7781        | 2.0   | 434  | 1.9393          |
+| 1.4563        | 3.0   | 651  | 2.0187          |
+| 1.3206        | 4.0   | 868  | 2.1767          |
+| 1.1018        | 5.0   | 1085 | 2.2082          |
 ### Framework versions

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e4e14f6400e394f4ec3e521399218a2b28c2755cfafaab8c44d2e8daa90f6f7d
 size 72673912

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff29234f0bb30543464da6cc219166f299f4a42af925bef04b8a8aa2aa26d45c
 size 72673912

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 0.56,
-    "eval_loss": 2.123528480529785,
-    "eval_runtime": 4.2701,
     "eval_samples": 23,
-    "eval_samples_per_second": 5.386,
-    "eval_steps_per_second": 5.386,
-    "train_loss": 0.0,
-    "train_runtime": 9.8498,
     "train_samples": 217,
-    "train_samples_per_second": 110.155,
-    "train_steps_per_second": 110.155
 }

 {
+    "epoch": 5.0,
+    "eval_loss": 2.2082066535949707,
+    "eval_runtime": 2.7423,
     "eval_samples": 23,
+    "eval_samples_per_second": 8.387,
+    "eval_steps_per_second": 8.387,
+    "train_loss": 1.4582410645375055,
+    "train_runtime": 606.5736,
     "train_samples": 217,
+    "train_samples_per_second": 1.789,
+    "train_steps_per_second": 1.789
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 0.56,
-    "eval_loss": 2.123528480529785,
-    "eval_runtime": 4.2701,
     "eval_samples": 23,
-    "eval_samples_per_second": 5.386,
-    "eval_steps_per_second": 5.386
 }

 {
+    "epoch": 5.0,
+    "eval_loss": 2.2082066535949707,
+    "eval_runtime": 2.7423,
     "eval_samples": 23,
+    "eval_samples_per_second": 8.387,
+    "eval_steps_per_second": 8.387
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 0.56,
-    "train_loss": 0.0,
-    "train_runtime": 9.8498,
     "train_samples": 217,
-    "train_samples_per_second": 110.155,
-    "train_steps_per_second": 110.155
 }

 {
+    "epoch": 5.0,
+    "train_loss": 1.4582410645375055,
+    "train_runtime": 606.5736,
     "train_samples": 217,
+    "train_samples_per_second": 1.789,
+    "train_steps_per_second": 1.789
 }

trainer_state.json CHANGED Viewed

@@ -1,411 +1,229 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.5610724925521351,
   "eval_steps": 500,
-  "global_step": 2260,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.05,
-      "learning_rate": 5e-06,
-      "loss": 2.4558,
       "step": 1
     },
     {
-      "epoch": 1.0,
-      "eval_loss": 2.1018261909484863,
-      "eval_runtime": 0.6129,
-      "eval_samples_per_second": 3.263,
-      "eval_steps_per_second": 3.263,
-      "step": 19
-    },
-    {
-      "epoch": 2.0,
-      "eval_loss": 1.9877368211746216,
-      "eval_runtime": 0.6133,
-      "eval_samples_per_second": 3.261,
-      "eval_steps_per_second": 3.261,
-      "step": 38
-    },
-    {
-      "epoch": 2.11,
-      "learning_rate": 3.6143458894413465e-05,
-      "loss": 2.0718,
       "step": 40
     },
     {
-      "epoch": 3.0,
-      "eval_loss": 1.9598064422607422,
-      "eval_runtime": 0.6117,
-      "eval_samples_per_second": 3.269,
-      "eval_steps_per_second": 3.269,
-      "step": 57
-    },
-    {
-      "epoch": 4.0,
-      "eval_loss": 1.9522112607955933,
-      "eval_runtime": 0.6123,
-      "eval_samples_per_second": 3.267,
-      "eval_steps_per_second": 3.267,
-      "step": 76
-    },
-    {
-      "epoch": 4.21,
-      "learning_rate": 3.7445716067596503e-06,
-      "loss": 1.826,
       "step": 80
     },
     {
-      "epoch": 0.12,
-      "learning_rate": 1.1904761904761905e-05,
-      "loss": 3.0723,
       "step": 120
     },
     {
-      "epoch": 0.16,
-      "learning_rate": 1.5873015873015872e-05,
-      "loss": 2.9971,
       "step": 160
     },
     {
-      "epoch": 0.2,
-      "learning_rate": 1.984126984126984e-05,
-      "loss": 2.8439,
       "step": 200
     },
     {
-      "epoch": 0.24,
-      "learning_rate": 2.380952380952381e-05,
-      "loss": 2.8909,
       "step": 240
     },
     {
-      "epoch": 0.28,
-      "learning_rate": 2.777777777777778e-05,
-      "loss": 2.7911,
       "step": 280
     },
     {
-      "epoch": 0.32,
-      "learning_rate": 3.1746031746031745e-05,
-      "loss": 2.9226,
       "step": 320
     },
     {
-      "epoch": 0.36,
-      "learning_rate": 3.571428571428572e-05,
-      "loss": 2.686,
       "step": 360
     },
     {
-      "epoch": 0.4,
-      "learning_rate": 3.968253968253968e-05,
-      "loss": 2.7288,
       "step": 400
     },
     {
-      "epoch": 0.44,
-      "learning_rate": 4.3650793650793655e-05,
-      "loss": 2.8761,
       "step": 440
     },
     {
-      "epoch": 0.48,
-      "learning_rate": 4.761904761904762e-05,
-      "loss": 2.7233,
       "step": 480
     },
     {
-      "epoch": 0.52,
-      "learning_rate": 4.999846164295305e-05,
-      "loss": 2.7677,
       "step": 520
     },
     {
-      "epoch": 0.56,
-      "learning_rate": 4.998115730036208e-05,
-      "loss": 2.8222,
       "step": 560
     },
     {
-      "epoch": 0.6,
-      "learning_rate": 4.994463902265648e-05,
-      "loss": 2.741,
       "step": 600
     },
     {
-      "epoch": 0.64,
-      "learning_rate": 4.9888934897398796e-05,
-      "loss": 2.7184,
       "step": 640
     },
     {
-      "epoch": 0.68,
-      "learning_rate": 4.981408776869891e-05,
-      "loss": 2.7622,
       "step": 680
     },
     {
-      "epoch": 0.71,
-      "learning_rate": 4.972015520426105e-05,
-      "loss": 2.7802,
       "step": 720
     },
     {
-      "epoch": 0.75,
-      "learning_rate": 4.960720945110629e-05,
-      "loss": 2.8312,
       "step": 760
     },
     {
-      "epoch": 0.79,
-      "learning_rate": 4.9475337380004715e-05,
-      "loss": 2.6631,
       "step": 800
     },
     {
-      "epoch": 0.83,
-      "learning_rate": 4.932464041865992e-05,
-      "loss": 2.7406,
       "step": 840
     },
     {
-      "epoch": 2.19,
-      "learning_rate": 3.454201062050763e-05,
-      "loss": 2.0682,
       "step": 880
     },
     {
-      "epoch": 2.29,
-      "learning_rate": 3.291511591195636e-05,
-      "loss": 2.0316,
       "step": 920
     },
     {
-      "epoch": 2.39,
-      "learning_rate": 3.125004214391146e-05,
-      "loss": 2.0728,
       "step": 960
     },
     {
-      "epoch": 2.49,
-      "learning_rate": 2.955482090443287e-05,
-      "loss": 2.025,
       "step": 1000
     },
     {
-      "epoch": 2.59,
-      "learning_rate": 2.7837629199805354e-05,
-      "loss": 2.0502,
       "step": 1040
     },
-    {
-      "epoch": 2.69,
-      "learning_rate": 2.610675001223441e-05,
-      "loss": 2.0532,
-      "step": 1080
-    },
-    {
-      "epoch": 2.79,
-      "learning_rate": 2.4370532346360474e-05,
-      "loss": 2.1131,
-      "step": 1120
-    },
-    {
-      "epoch": 2.89,
-      "learning_rate": 2.2637350957309882e-05,
-      "loss": 2.0662,
-      "step": 1160
-    },
-    {
-      "epoch": 2.99,
-      "learning_rate": 2.0915565954536744e-05,
-      "loss": 1.9638,
-      "step": 1200
-    },
-    {
-      "epoch": 3.0,
-      "eval_loss": 2.4228010177612305,
-      "eval_runtime": 5.1555,
-      "eval_samples_per_second": 9.116,
-      "eval_steps_per_second": 9.116,
-      "step": 1206
-    },
-    {
-      "epoch": 3.08,
-      "learning_rate": 1.9213482476309065e-05,
-      "loss": 1.8999,
-      "step": 1240
-    },
-    {
-      "epoch": 3.18,
-      "learning_rate": 1.7539310629351915e-05,
-      "loss": 1.8828,
-      "step": 1280
-    },
-    {
-      "epoch": 3.28,
-      "learning_rate": 1.5901125886881146e-05,
-      "loss": 1.7305,
-      "step": 1320
-    },
-    {
-      "epoch": 3.38,
-      "learning_rate": 1.430683013605043e-05,
-      "loss": 1.8129,
-      "step": 1360
-    },
-    {
-      "epoch": 3.48,
-      "learning_rate": 1.276411356270143e-05,
-      "loss": 1.9584,
-      "step": 1400
-    },
-    {
-      "epoch": 3.58,
-      "learning_rate": 1.1280417557268735e-05,
-      "loss": 1.8074,
-      "step": 1440
-    },
-    {
-      "epoch": 3.68,
-      "learning_rate": 9.862898820764927e-06,
-      "loss": 1.7996,
-      "step": 1480
-    },
-    {
-      "epoch": 3.78,
-      "learning_rate": 8.518394843983093e-06,
-      "loss": 1.8291,
-      "step": 1520
-    },
-    {
-      "epoch": 3.88,
-      "learning_rate": 7.253390926429918e-06,
-      "loss": 1.8193,
-      "step": 1560
-    },
-    {
-      "epoch": 3.98,
-      "learning_rate": 6.073988894075491e-06,
-      "loss": 1.8176,
-      "step": 1600
-    },
-    {
-      "epoch": 4.0,
-      "eval_loss": 2.489954948425293,
-      "eval_runtime": 5.1439,
-      "eval_samples_per_second": 9.137,
-      "eval_steps_per_second": 9.137,
-      "step": 1608
-    },
-    {
-      "epoch": 4.08,
-      "learning_rate": 4.985877666811953e-06,
-      "loss": 1.7447,
-      "step": 1640
-    },
-    {
-      "epoch": 4.18,
-      "learning_rate": 3.994305817590549e-06,
-      "loss": 1.8169,
-      "step": 1680
-    },
-    {
-      "epoch": 4.28,
-      "learning_rate": 3.1040562555998216e-06,
-      "loss": 1.7304,
-      "step": 1720
-    },
-    {
-      "epoch": 4.38,
-      "learning_rate": 2.3194231556022544e-06,
-      "loss": 1.6802,
-      "step": 1760
-    },
-    {
-      "epoch": 4.48,
-      "learning_rate": 1.644191244712251e-06,
-      "loss": 1.762,
-      "step": 1800
-    },
-    {
-      "epoch": 4.58,
-      "learning_rate": 1.0816175465267586e-06,
-      "loss": 1.6769,
-      "step": 1840
-    },
-    {
-      "epoch": 4.68,
-      "learning_rate": 6.344156706670989e-07,
-      "loss": 1.6643,
-      "step": 1880
-    },
-    {
-      "epoch": 4.78,
-      "learning_rate": 3.047427235122663e-07,
-      "loss": 1.7539,
-      "step": 1920
-    },
-    {
-      "epoch": 4.88,
-      "learning_rate": 9.418890326059748e-08,
-      "loss": 1.7693,
-      "step": 1960
-    },
     {
       "epoch": 4.98,
-      "learning_rate": 3.769829508754041e-09,
-      "loss": 1.8315,
-      "step": 2000
-    },
-    {
-      "epoch": 0.51,
-      "learning_rate": 4.999974616484595e-05,
-      "loss": 3.4729,
-      "step": 2040
-    },
-    {
-      "epoch": 0.52,
-      "learning_rate": 4.99983643554066e-05,
-      "loss": 3.8916,
-      "step": 2080
-    },
-    {
-      "epoch": 0.53,
-      "learning_rate": 4.999578104083307e-05,
-      "loss": 3.7239,
-      "step": 2120
-    },
-    {
-      "epoch": 0.54,
-      "learning_rate": 4.9991996345288116e-05,
-      "loss": 3.8084,
-      "step": 2160
-    },
-    {
-      "epoch": 0.55,
-      "learning_rate": 4.9987010450676885e-05,
-      "loss": 3.2992,
-      "step": 2200
     },
     {
-      "epoch": 0.56,
-      "learning_rate": 4.998082359663817e-05,
-      "loss": 3.809,
-      "step": 2240
     },
     {
-      "epoch": 0.56,
-      "step": 2260,
-      "total_flos": 1.095290092486656e+16,
-      "train_loss": 0.0,
-      "train_runtime": 9.8498,
-      "train_samples_per_second": 110.155,
-      "train_steps_per_second": 110.155
     }
   ],
   "logging_steps": 40,
@@ -413,7 +231,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
   "save_steps": 20,
-  "total_flos": 1.095290092486656e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.0,
   "eval_steps": 500,
+  "global_step": 1085,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.0,
+      "learning_rate": 4.587155963302753e-07,
+      "loss": 2.9047,
       "step": 1
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 1.834862385321101e-05,
+      "loss": 2.6449,
       "step": 40
     },
     {
+      "epoch": 0.37,
+      "learning_rate": 3.669724770642202e-05,
+      "loss": 2.2297,
       "step": 80
     },
     {
+      "epoch": 0.55,
+      "learning_rate": 4.998433068104634e-05,
+      "loss": 2.0343,
       "step": 120
     },
     {
+      "epoch": 0.74,
+      "learning_rate": 4.9663895022434335e-05,
+      "loss": 1.9288,
       "step": 160
     },
     {
+      "epoch": 0.92,
+      "learning_rate": 4.893515717147499e-05,
+      "loss": 1.948,
       "step": 200
     },
     {
+      "epoch": 1.0,
+      "eval_loss": 1.9487614631652832,
+      "eval_runtime": 2.7263,
+      "eval_samples_per_second": 8.436,
+      "eval_steps_per_second": 8.436,
+      "step": 217
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 4.7810181129491795e-05,
+      "loss": 1.9046,
       "step": 240
     },
     {
+      "epoch": 1.29,
+      "learning_rate": 4.630759048306189e-05,
+      "loss": 1.8033,
       "step": 280
     },
     {
+      "epoch": 1.47,
+      "learning_rate": 4.4452260097026376e-05,
+      "loss": 1.7401,
       "step": 320
     },
     {
+      "epoch": 1.66,
+      "learning_rate": 4.227490431976606e-05,
+      "loss": 1.8471,
       "step": 360
     },
     {
+      "epoch": 1.84,
+      "learning_rate": 3.981156851786102e-05,
+      "loss": 1.7781,
       "step": 400
     },
     {
+      "epoch": 2.0,
+      "eval_loss": 1.9392595291137695,
+      "eval_runtime": 2.7235,
+      "eval_samples_per_second": 8.445,
+      "eval_steps_per_second": 8.445,
+      "step": 434
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 3.710303235760038e-05,
+      "loss": 1.6503,
       "step": 440
     },
     {
+      "epoch": 2.21,
+      "learning_rate": 3.41941347118094e-05,
+      "loss": 1.5325,
       "step": 480
     },
     {
+      "epoch": 2.4,
+      "learning_rate": 3.113303136792597e-05,
+      "loss": 1.4801,
       "step": 520
     },
     {
+      "epoch": 2.58,
+      "learning_rate": 2.7970397825710876e-05,
+      "loss": 1.5216,
       "step": 560
     },
     {
+      "epoch": 2.76,
+      "learning_rate": 2.4758590381998137e-05,
+      "loss": 1.426,
       "step": 600
     },
     {
+      "epoch": 2.95,
+      "learning_rate": 2.1550779390435147e-05,
+      "loss": 1.4563,
       "step": 640
     },
     {
+      "epoch": 3.0,
+      "eval_loss": 2.018707036972046,
+      "eval_runtime": 2.7309,
+      "eval_samples_per_second": 8.422,
+      "eval_steps_per_second": 8.422,
+      "step": 651
+    },
+    {
+      "epoch": 3.13,
+      "learning_rate": 1.840006904479584e-05,
+      "loss": 1.2741,
       "step": 680
     },
     {
+      "epoch": 3.32,
+      "learning_rate": 1.5358618257547464e-05,
+      "loss": 1.1991,
       "step": 720
     },
     {
+      "epoch": 3.5,
+      "learning_rate": 1.2476777187220119e-05,
+      "loss": 1.2377,
       "step": 760
     },
     {
+      "epoch": 3.69,
+      "learning_rate": 9.802253709067949e-06,
+      "loss": 1.2592,
       "step": 800
     },
     {
+      "epoch": 3.87,
+      "learning_rate": 7.3793236278095755e-06,
+      "loss": 1.3206,
       "step": 840
     },
     {
+      "epoch": 4.0,
+      "eval_loss": 2.17669677734375,
+      "eval_runtime": 2.7315,
+      "eval_samples_per_second": 8.42,
+      "eval_steps_per_second": 8.42,
+      "step": 868
+    },
+    {
+      "epoch": 4.06,
+      "learning_rate": 5.248097707101035e-06,
+      "loss": 1.1614,
       "step": 880
     },
     {
+      "epoch": 4.24,
+      "learning_rate": 3.443857649812915e-06,
+      "loss": 1.1929,
       "step": 920
     },
     {
+      "epoch": 4.42,
+      "learning_rate": 1.9964720217269558e-06,
+      "loss": 1.0971,
       "step": 960
     },
     {
+      "epoch": 4.61,
+      "learning_rate": 9.299017878319383e-07,
+      "loss": 1.091,
       "step": 1000
     },
     {
+      "epoch": 4.79,
+      "learning_rate": 2.6180364689323554e-07,
+      "loss": 1.1938,
       "step": 1040
     },
     {
       "epoch": 4.98,
+      "learning_rate": 3.237730954069873e-09,
+      "loss": 1.1018,
+      "step": 1080
     },
     {
+      "epoch": 5.0,
+      "eval_loss": 2.2082066535949707,
+      "eval_runtime": 2.7308,
+      "eval_samples_per_second": 8.422,
+      "eval_steps_per_second": 8.422,
+      "step": 1085
     },
     {
+      "epoch": 5.0,
+      "step": 1085,
+      "total_flos": 6971428308910080.0,
+      "train_loss": 1.4582410645375055,
+      "train_runtime": 606.5736,
+      "train_samples_per_second": 1.789,
+      "train_steps_per_second": 1.789
     }
   ],
   "logging_steps": 40,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
   "save_steps": 20,
+  "total_flos": 6971428308910080.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null