End of training

Browse files

Files changed (6) hide show

README.md +14 -2
all_results.json +16 -0
eval_results.json +10 -0
tokenizer.json +1 -6
train_results.json +9 -0
trainer_state.json +469 -0

README.md CHANGED Viewed

@@ -3,11 +3,23 @@ license: other
 base_model: Qwen/Qwen1.5-4B
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
 model-index:
 - name: lmind_nq_train6000_eval6489_v1_reciteonly_qa_v3_Qwen_Qwen1.5-4B_3e-4_lora2
-  results: []
 library_name: peft
 ---
@@ -16,7 +28,7 @@ should probably proofread and complete it, then remove this comment. -->
 # lmind_nq_train6000_eval6489_v1_reciteonly_qa_v3_Qwen_Qwen1.5-4B_3e-4_lora2
-This model is a fine-tuned version of [Qwen/Qwen1.5-4B](https://huggingface.co/Qwen/Qwen1.5-4B) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 3.0184
 - Accuracy: 0.5886

 base_model: Qwen/Qwen1.5-4B
 tags:
 - generated_from_trainer
+datasets:
+- tyzhu/lmind_nq_train6000_eval6489_v1_reciteonly_qa_v3
 metrics:
 - accuracy
 model-index:
 - name: lmind_nq_train6000_eval6489_v1_reciteonly_qa_v3_Qwen_Qwen1.5-4B_3e-4_lora2
+  results:
+  - task:
+      name: Causal Language Modeling
+      type: text-generation
+    dataset:
+      name: tyzhu/lmind_nq_train6000_eval6489_v1_reciteonly_qa_v3
+      type: tyzhu/lmind_nq_train6000_eval6489_v1_reciteonly_qa_v3
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.5885829596412556
 library_name: peft
 ---
 # lmind_nq_train6000_eval6489_v1_reciteonly_qa_v3_Qwen_Qwen1.5-4B_3e-4_lora2
+This model is a fine-tuned version of [Qwen/Qwen1.5-4B](https://huggingface.co/Qwen/Qwen1.5-4B) on the tyzhu/lmind_nq_train6000_eval6489_v1_reciteonly_qa_v3 dataset.
 It achieves the following results on the evaluation set:
 - Loss: 3.0184
 - Accuracy: 0.5886

all_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "epoch": 19.946666666666665,
+    "eval_accuracy": 0.5885829596412556,
+    "eval_loss": 3.0184407234191895,
+    "eval_runtime": 7.0977,
+    "eval_samples": 500,
+    "eval_samples_per_second": 70.445,
+    "eval_steps_per_second": 8.876,
+    "perplexity": 20.45936499070068,
+    "total_flos": 3.767212755417825e+17,
+    "train_loss": 0.406913380316872,
+    "train_runtime": 8744.2637,
+    "train_samples": 6000,
+    "train_samples_per_second": 13.723,
+    "train_steps_per_second": 0.428
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 19.946666666666665,
+    "eval_accuracy": 0.5885829596412556,
+    "eval_loss": 3.0184407234191895,
+    "eval_runtime": 7.0977,
+    "eval_samples": 500,
+    "eval_samples_per_second": 70.445,
+    "eval_steps_per_second": 8.876,
+    "perplexity": 20.45936499070068
+}

tokenizer.json CHANGED Viewed

@@ -1,11 +1,6 @@
 {
   "version": "1.0",
-  "truncation": {
-    "direction": "Right",
-    "max_length": 1024,
-    "strategy": "LongestFirst",
-    "stride": 0
-  },
   "padding": null,
   "added_tokens": [
     {

 {
   "version": "1.0",
+  "truncation": null,
   "padding": null,
   "added_tokens": [
     {

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 19.946666666666665,
+    "total_flos": 3.767212755417825e+17,
+    "train_loss": 0.406913380316872,
+    "train_runtime": 8744.2637,
+    "train_samples": 6000,
+    "train_samples_per_second": 13.723,
+    "train_steps_per_second": 0.428
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,469 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 19.946666666666665,
+  "eval_steps": 500,
+  "global_step": 3740,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.5333333333333333,
+      "grad_norm": 0.2082328200340271,
+      "learning_rate": 0.0003,
+      "loss": 1.7516,
+      "step": 100
+    },
+    {
+      "epoch": 0.9973333333333333,
+      "eval_accuracy": 0.608609865470852,
+      "eval_loss": 1.6714181900024414,
+      "eval_runtime": 6.6041,
+      "eval_samples_per_second": 75.71,
+      "eval_steps_per_second": 9.54,
+      "step": 187
+    },
+    {
+      "epoch": 1.0666666666666667,
+      "grad_norm": 0.2450818121433258,
+      "learning_rate": 0.0003,
+      "loss": 1.6997,
+      "step": 200
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 0.36302751302719116,
+      "learning_rate": 0.0003,
+      "loss": 1.5219,
+      "step": 300
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.6104035874439462,
+      "eval_loss": 1.6736148595809937,
+      "eval_runtime": 7.0545,
+      "eval_samples_per_second": 70.877,
+      "eval_steps_per_second": 8.93,
+      "step": 375
+    },
+    {
+      "epoch": 2.1333333333333333,
+      "grad_norm": 0.4031146764755249,
+      "learning_rate": 0.0003,
+      "loss": 1.4473,
+      "step": 400
+    },
+    {
+      "epoch": 2.6666666666666665,
+      "grad_norm": 0.4989413917064667,
+      "learning_rate": 0.0003,
+      "loss": 1.2037,
+      "step": 500
+    },
+    {
+      "epoch": 2.997333333333333,
+      "eval_accuracy": 0.6081076233183856,
+      "eval_loss": 1.756110429763794,
+      "eval_runtime": 6.5632,
+      "eval_samples_per_second": 76.183,
+      "eval_steps_per_second": 9.599,
+      "step": 562
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 0.5431676506996155,
+      "learning_rate": 0.0003,
+      "loss": 1.0868,
+      "step": 600
+    },
+    {
+      "epoch": 3.7333333333333334,
+      "grad_norm": 0.5269047021865845,
+      "learning_rate": 0.0003,
+      "loss": 0.8815,
+      "step": 700
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.6032645739910314,
+      "eval_loss": 1.8874716758728027,
+      "eval_runtime": 6.1584,
+      "eval_samples_per_second": 81.19,
+      "eval_steps_per_second": 10.23,
+      "step": 750
+    },
+    {
+      "epoch": 4.266666666666667,
+      "grad_norm": 0.681224524974823,
+      "learning_rate": 0.0003,
+      "loss": 0.7337,
+      "step": 800
+    },
+    {
+      "epoch": 4.8,
+      "grad_norm": 0.7092007994651794,
+      "learning_rate": 0.0003,
+      "loss": 0.6016,
+      "step": 900
+    },
+    {
+      "epoch": 4.997333333333334,
+      "eval_accuracy": 0.5979730941704036,
+      "eval_loss": 2.076803684234619,
+      "eval_runtime": 6.7069,
+      "eval_samples_per_second": 74.55,
+      "eval_steps_per_second": 9.393,
+      "step": 937
+    },
+    {
+      "epoch": 5.333333333333333,
+      "grad_norm": 0.6530160903930664,
+      "learning_rate": 0.0003,
+      "loss": 0.4625,
+      "step": 1000
+    },
+    {
+      "epoch": 5.866666666666667,
+      "grad_norm": 0.7848784923553467,
+      "learning_rate": 0.0003,
+      "loss": 0.3979,
+      "step": 1100
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.5953094170403588,
+      "eval_loss": 2.260585069656372,
+      "eval_runtime": 7.0817,
+      "eval_samples_per_second": 70.605,
+      "eval_steps_per_second": 8.896,
+      "step": 1125
+    },
+    {
+      "epoch": 6.4,
+      "grad_norm": 0.8100391030311584,
+      "learning_rate": 0.0003,
+      "loss": 0.2797,
+      "step": 1200
+    },
+    {
+      "epoch": 6.933333333333334,
+      "grad_norm": 0.723619282245636,
+      "learning_rate": 0.0003,
+      "loss": 0.2591,
+      "step": 1300
+    },
+    {
+      "epoch": 6.997333333333334,
+      "eval_accuracy": 0.5932645739910314,
+      "eval_loss": 2.4669973850250244,
+      "eval_runtime": 7.1955,
+      "eval_samples_per_second": 69.488,
+      "eval_steps_per_second": 8.755,
+      "step": 1312
+    },
+    {
+      "epoch": 7.466666666666667,
+      "grad_norm": 0.6629557013511658,
+      "learning_rate": 0.0003,
+      "loss": 0.1822,
+      "step": 1400
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 0.6765617728233337,
+      "learning_rate": 0.0003,
+      "loss": 0.1821,
+      "step": 1500
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.592152466367713,
+      "eval_loss": 2.6145341396331787,
+      "eval_runtime": 7.0099,
+      "eval_samples_per_second": 71.327,
+      "eval_steps_per_second": 8.987,
+      "step": 1500
+    },
+    {
+      "epoch": 8.533333333333333,
+      "grad_norm": 0.5296387672424316,
+      "learning_rate": 0.0003,
+      "loss": 0.1338,
+      "step": 1600
+    },
+    {
+      "epoch": 8.997333333333334,
+      "eval_accuracy": 0.5910582959641255,
+      "eval_loss": 2.739866256713867,
+      "eval_runtime": 7.1202,
+      "eval_samples_per_second": 70.223,
+      "eval_steps_per_second": 8.848,
+      "step": 1687
+    },
+    {
+      "epoch": 9.066666666666666,
+      "grad_norm": 0.402245432138443,
+      "learning_rate": 0.0003,
+      "loss": 0.1407,
+      "step": 1700
+    },
+    {
+      "epoch": 9.6,
+      "grad_norm": 0.44858765602111816,
+      "learning_rate": 0.0003,
+      "loss": 0.1172,
+      "step": 1800
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.5914618834080717,
+      "eval_loss": 2.833005666732788,
+      "eval_runtime": 7.0274,
+      "eval_samples_per_second": 71.15,
+      "eval_steps_per_second": 8.965,
+      "step": 1875
+    },
+    {
+      "epoch": 10.133333333333333,
+      "grad_norm": 0.4508216381072998,
+      "learning_rate": 0.0003,
+      "loss": 0.1195,
+      "step": 1900
+    },
+    {
+      "epoch": 10.666666666666666,
+      "grad_norm": 0.37036266922950745,
+      "learning_rate": 0.0003,
+      "loss": 0.1102,
+      "step": 2000
+    },
+    {
+      "epoch": 10.997333333333334,
+      "eval_accuracy": 0.5914349775784753,
+      "eval_loss": 2.8673934936523438,
+      "eval_runtime": 6.5903,
+      "eval_samples_per_second": 75.869,
+      "eval_steps_per_second": 9.56,
+      "step": 2062
+    },
+    {
+      "epoch": 11.2,
+      "grad_norm": 0.3041936457157135,
+      "learning_rate": 0.0003,
+      "loss": 0.1131,
+      "step": 2100
+    },
+    {
+      "epoch": 11.733333333333333,
+      "grad_norm": 0.5073165893554688,
+      "learning_rate": 0.0003,
+      "loss": 0.1079,
+      "step": 2200
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.5903497757847533,
+      "eval_loss": 2.894710063934326,
+      "eval_runtime": 7.0771,
+      "eval_samples_per_second": 70.65,
+      "eval_steps_per_second": 8.902,
+      "step": 2250
+    },
+    {
+      "epoch": 12.266666666666667,
+      "grad_norm": 0.4313170909881592,
+      "learning_rate": 0.0003,
+      "loss": 0.1083,
+      "step": 2300
+    },
+    {
+      "epoch": 12.8,
+      "grad_norm": 0.4307994544506073,
+      "learning_rate": 0.0003,
+      "loss": 0.11,
+      "step": 2400
+    },
+    {
+      "epoch": 12.997333333333334,
+      "eval_accuracy": 0.589354260089686,
+      "eval_loss": 2.9230430126190186,
+      "eval_runtime": 7.1832,
+      "eval_samples_per_second": 69.607,
+      "eval_steps_per_second": 8.771,
+      "step": 2437
+    },
+    {
+      "epoch": 13.333333333333334,
+      "grad_norm": 0.38372334837913513,
+      "learning_rate": 0.0003,
+      "loss": 0.1082,
+      "step": 2500
+    },
+    {
+      "epoch": 13.866666666666667,
+      "grad_norm": 0.49263113737106323,
+      "learning_rate": 0.0003,
+      "loss": 0.1136,
+      "step": 2600
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.5888340807174888,
+      "eval_loss": 2.9049084186553955,
+      "eval_runtime": 6.7163,
+      "eval_samples_per_second": 74.446,
+      "eval_steps_per_second": 9.38,
+      "step": 2625
+    },
+    {
+      "epoch": 14.4,
+      "grad_norm": 0.42505690455436707,
+      "learning_rate": 0.0003,
+      "loss": 0.1086,
+      "step": 2700
+    },
+    {
+      "epoch": 14.933333333333334,
+      "grad_norm": 0.6179661750793457,
+      "learning_rate": 0.0003,
+      "loss": 0.1173,
+      "step": 2800
+    },
+    {
+      "epoch": 14.997333333333334,
+      "eval_accuracy": 0.5882511210762332,
+      "eval_loss": 2.8788018226623535,
+      "eval_runtime": 6.217,
+      "eval_samples_per_second": 80.425,
+      "eval_steps_per_second": 10.133,
+      "step": 2812
+    },
+    {
+      "epoch": 15.466666666666667,
+      "grad_norm": 0.45964017510414124,
+      "learning_rate": 0.0003,
+      "loss": 0.109,
+      "step": 2900
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 0.5801168084144592,
+      "learning_rate": 0.0003,
+      "loss": 0.1163,
+      "step": 3000
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.589237668161435,
+      "eval_loss": 2.9582040309906006,
+      "eval_runtime": 7.1226,
+      "eval_samples_per_second": 70.199,
+      "eval_steps_per_second": 8.845,
+      "step": 3000
+    },
+    {
+      "epoch": 16.533333333333335,
+      "grad_norm": 0.4587346315383911,
+      "learning_rate": 0.0003,
+      "loss": 0.1047,
+      "step": 3100
+    },
+    {
+      "epoch": 16.997333333333334,
+      "eval_accuracy": 0.5885650224215246,
+      "eval_loss": 2.9484808444976807,
+      "eval_runtime": 6.6834,
+      "eval_samples_per_second": 74.812,
+      "eval_steps_per_second": 9.426,
+      "step": 3187
+    },
+    {
+      "epoch": 17.066666666666666,
+      "grad_norm": 0.4009888470172882,
+      "learning_rate": 0.0003,
+      "loss": 0.1145,
+      "step": 3200
+    },
+    {
+      "epoch": 17.6,
+      "grad_norm": 1.4840149879455566,
+      "learning_rate": 0.0003,
+      "loss": 0.1044,
+      "step": 3300
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.5894080717488789,
+      "eval_loss": 2.9815316200256348,
+      "eval_runtime": 7.2254,
+      "eval_samples_per_second": 69.2,
+      "eval_steps_per_second": 8.719,
+      "step": 3375
+    },
+    {
+      "epoch": 18.133333333333333,
+      "grad_norm": 0.4150511920452118,
+      "learning_rate": 0.0003,
+      "loss": 0.1111,
+      "step": 3400
+    },
+    {
+      "epoch": 18.666666666666668,
+      "grad_norm": 0.47382423281669617,
+      "learning_rate": 0.0003,
+      "loss": 0.105,
+      "step": 3500
+    },
+    {
+      "epoch": 18.997333333333334,
+      "eval_accuracy": 0.5881076233183856,
+      "eval_loss": 2.987971544265747,
+      "eval_runtime": 7.3831,
+      "eval_samples_per_second": 67.722,
+      "eval_steps_per_second": 8.533,
+      "step": 3562
+    },
+    {
+      "epoch": 19.2,
+      "grad_norm": 0.4355124533176422,
+      "learning_rate": 0.0003,
+      "loss": 0.1068,
+      "step": 3600
+    },
+    {
+      "epoch": 19.733333333333334,
+      "grad_norm": 0.43823131918907166,
+      "learning_rate": 0.0003,
+      "loss": 0.1036,
+      "step": 3700
+    },
+    {
+      "epoch": 19.946666666666665,
+      "eval_accuracy": 0.5885829596412556,
+      "eval_loss": 3.0184407234191895,
+      "eval_runtime": 6.2011,
+      "eval_samples_per_second": 80.631,
+      "eval_steps_per_second": 10.159,
+      "step": 3740
+    },
+    {
+      "epoch": 19.946666666666665,
+      "step": 3740,
+      "total_flos": 3.767212755417825e+17,
+      "train_loss": 0.406913380316872,
+      "train_runtime": 8744.2637,
+      "train_samples_per_second": 13.723,
+      "train_steps_per_second": 0.428
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 3740,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
+  "save_steps": 500,
+  "total_flos": 3.767212755417825e+17,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}