End of training

Browse files

Files changed (6) hide show

README.md +14 -2
all_results.json +16 -0
eval_results.json +10 -0
tokenizer.json +1 -6
train_results.json +9 -0
trainer_state.json +469 -0

README.md CHANGED Viewed

@@ -3,11 +3,23 @@ license: other
 base_model: Qwen/Qwen1.5-4B
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
 model-index:
 - name: lmind_nq_train6000_eval6489_v1_reciteonly_qa_v3_Qwen_Qwen1.5-4B_5e-4_lora2
-  results: []
 library_name: peft
 ---
@@ -16,7 +28,7 @@ should probably proofread and complete it, then remove this comment. -->
 # lmind_nq_train6000_eval6489_v1_reciteonly_qa_v3_Qwen_Qwen1.5-4B_5e-4_lora2
-This model is a fine-tuned version of [Qwen/Qwen1.5-4B](https://huggingface.co/Qwen/Qwen1.5-4B) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 2.8927
 - Accuracy: 0.5834

 base_model: Qwen/Qwen1.5-4B
 tags:
 - generated_from_trainer
+datasets:
+- tyzhu/lmind_nq_train6000_eval6489_v1_reciteonly_qa_v3
 metrics:
 - accuracy
 model-index:
 - name: lmind_nq_train6000_eval6489_v1_reciteonly_qa_v3_Qwen_Qwen1.5-4B_5e-4_lora2
+  results:
+  - task:
+      name: Causal Language Modeling
+      type: text-generation
+    dataset:
+      name: tyzhu/lmind_nq_train6000_eval6489_v1_reciteonly_qa_v3
+      type: tyzhu/lmind_nq_train6000_eval6489_v1_reciteonly_qa_v3
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.5833811659192825
 library_name: peft
 ---
 # lmind_nq_train6000_eval6489_v1_reciteonly_qa_v3_Qwen_Qwen1.5-4B_5e-4_lora2
+This model is a fine-tuned version of [Qwen/Qwen1.5-4B](https://huggingface.co/Qwen/Qwen1.5-4B) on the tyzhu/lmind_nq_train6000_eval6489_v1_reciteonly_qa_v3 dataset.
 It achieves the following results on the evaluation set:
 - Loss: 2.8927
 - Accuracy: 0.5834

all_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "epoch": 19.946666666666665,
+    "eval_accuracy": 0.5833811659192825,
+    "eval_loss": 2.8927161693573,
+    "eval_runtime": 7.219,
+    "eval_samples": 500,
+    "eval_samples_per_second": 69.262,
+    "eval_steps_per_second": 8.727,
+    "perplexity": 18.042248911365512,
+    "total_flos": 3.767212755417825e+17,
+    "train_loss": 0.3823815970497335,
+    "train_runtime": 8612.098,
+    "train_samples": 6000,
+    "train_samples_per_second": 13.934,
+    "train_steps_per_second": 0.434
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 19.946666666666665,
+    "eval_accuracy": 0.5833811659192825,
+    "eval_loss": 2.8927161693573,
+    "eval_runtime": 7.219,
+    "eval_samples": 500,
+    "eval_samples_per_second": 69.262,
+    "eval_steps_per_second": 8.727,
+    "perplexity": 18.042248911365512
+}

tokenizer.json CHANGED Viewed

@@ -1,11 +1,6 @@
 {
   "version": "1.0",
-  "truncation": {
-    "direction": "Right",
-    "max_length": 1024,
-    "strategy": "LongestFirst",
-    "stride": 0
-  },
   "padding": null,
   "added_tokens": [
     {

 {
   "version": "1.0",
+  "truncation": null,
   "padding": null,
   "added_tokens": [
     {

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 19.946666666666665,
+    "total_flos": 3.767212755417825e+17,
+    "train_loss": 0.3823815970497335,
+    "train_runtime": 8612.098,
+    "train_samples": 6000,
+    "train_samples_per_second": 13.934,
+    "train_steps_per_second": 0.434
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,469 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 19.946666666666665,
+  "eval_steps": 500,
+  "global_step": 3740,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.5333333333333333,
+      "grad_norm": 0.20725354552268982,
+      "learning_rate": 0.0005,
+      "loss": 1.745,
+      "step": 100
+    },
+    {
+      "epoch": 0.9973333333333333,
+      "eval_accuracy": 0.6095964125560538,
+      "eval_loss": 1.6685587167739868,
+      "eval_runtime": 7.2077,
+      "eval_samples_per_second": 69.37,
+      "eval_steps_per_second": 8.741,
+      "step": 187
+    },
+    {
+      "epoch": 1.0666666666666667,
+      "grad_norm": 0.2690771818161011,
+      "learning_rate": 0.0005,
+      "loss": 1.6849,
+      "step": 200
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 0.4035240113735199,
+      "learning_rate": 0.0005,
+      "loss": 1.4255,
+      "step": 300
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.6086905829596413,
+      "eval_loss": 1.6989078521728516,
+      "eval_runtime": 7.238,
+      "eval_samples_per_second": 69.08,
+      "eval_steps_per_second": 8.704,
+      "step": 375
+    },
+    {
+      "epoch": 2.1333333333333333,
+      "grad_norm": 0.4456392526626587,
+      "learning_rate": 0.0005,
+      "loss": 1.3352,
+      "step": 400
+    },
+    {
+      "epoch": 2.6666666666666665,
+      "grad_norm": 0.5438903570175171,
+      "learning_rate": 0.0005,
+      "loss": 1.0295,
+      "step": 500
+    },
+    {
+      "epoch": 2.997333333333333,
+      "eval_accuracy": 0.6051838565022422,
+      "eval_loss": 1.8158506155014038,
+      "eval_runtime": 7.1914,
+      "eval_samples_per_second": 69.528,
+      "eval_steps_per_second": 8.761,
+      "step": 562
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 0.624527096748352,
+      "learning_rate": 0.0005,
+      "loss": 0.913,
+      "step": 600
+    },
+    {
+      "epoch": 3.7333333333333334,
+      "grad_norm": 0.6307316422462463,
+      "learning_rate": 0.0005,
+      "loss": 0.6982,
+      "step": 700
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.5995874439461883,
+      "eval_loss": 1.9993760585784912,
+      "eval_runtime": 7.2263,
+      "eval_samples_per_second": 69.191,
+      "eval_steps_per_second": 8.718,
+      "step": 750
+    },
+    {
+      "epoch": 4.266666666666667,
+      "grad_norm": 0.682472288608551,
+      "learning_rate": 0.0005,
+      "loss": 0.5759,
+      "step": 800
+    },
+    {
+      "epoch": 4.8,
+      "grad_norm": 0.6614798903465271,
+      "learning_rate": 0.0005,
+      "loss": 0.4584,
+      "step": 900
+    },
+    {
+      "epoch": 4.997333333333334,
+      "eval_accuracy": 0.5948789237668162,
+      "eval_loss": 2.205808162689209,
+      "eval_runtime": 7.2168,
+      "eval_samples_per_second": 69.282,
+      "eval_steps_per_second": 8.73,
+      "step": 937
+    },
+    {
+      "epoch": 5.333333333333333,
+      "grad_norm": 0.5452418327331543,
+      "learning_rate": 0.0005,
+      "loss": 0.3573,
+      "step": 1000
+    },
+    {
+      "epoch": 5.866666666666667,
+      "grad_norm": 0.6646350622177124,
+      "learning_rate": 0.0005,
+      "loss": 0.3048,
+      "step": 1100
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.5927713004484305,
+      "eval_loss": 2.3635921478271484,
+      "eval_runtime": 6.1911,
+      "eval_samples_per_second": 80.761,
+      "eval_steps_per_second": 10.176,
+      "step": 1125
+    },
+    {
+      "epoch": 6.4,
+      "grad_norm": 0.6814024448394775,
+      "learning_rate": 0.0005,
+      "loss": 0.2279,
+      "step": 1200
+    },
+    {
+      "epoch": 6.933333333333334,
+      "grad_norm": 0.6752302646636963,
+      "learning_rate": 0.0005,
+      "loss": 0.2175,
+      "step": 1300
+    },
+    {
+      "epoch": 6.997333333333334,
+      "eval_accuracy": 0.590457399103139,
+      "eval_loss": 2.521801233291626,
+      "eval_runtime": 6.7724,
+      "eval_samples_per_second": 73.829,
+      "eval_steps_per_second": 9.302,
+      "step": 1312
+    },
+    {
+      "epoch": 7.466666666666667,
+      "grad_norm": 0.49109765887260437,
+      "learning_rate": 0.0005,
+      "loss": 0.1666,
+      "step": 1400
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 0.5880148410797119,
+      "learning_rate": 0.0005,
+      "loss": 0.1719,
+      "step": 1500
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.5909417040358744,
+      "eval_loss": 2.6291897296905518,
+      "eval_runtime": 6.2159,
+      "eval_samples_per_second": 80.438,
+      "eval_steps_per_second": 10.135,
+      "step": 1500
+    },
+    {
+      "epoch": 8.533333333333333,
+      "grad_norm": 0.4664401412010193,
+      "learning_rate": 0.0005,
+      "loss": 0.1355,
+      "step": 1600
+    },
+    {
+      "epoch": 8.997333333333334,
+      "eval_accuracy": 0.5891569506726457,
+      "eval_loss": 2.702845573425293,
+      "eval_runtime": 7.3052,
+      "eval_samples_per_second": 68.445,
+      "eval_steps_per_second": 8.624,
+      "step": 1687
+    },
+    {
+      "epoch": 9.066666666666666,
+      "grad_norm": 0.4231439530849457,
+      "learning_rate": 0.0005,
+      "loss": 0.1487,
+      "step": 1700
+    },
+    {
+      "epoch": 9.6,
+      "grad_norm": 0.5074131488800049,
+      "learning_rate": 0.0005,
+      "loss": 0.1302,
+      "step": 1800
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.5875515695067265,
+      "eval_loss": 2.75019907951355,
+      "eval_runtime": 7.0122,
+      "eval_samples_per_second": 71.305,
+      "eval_steps_per_second": 8.984,
+      "step": 1875
+    },
+    {
+      "epoch": 10.133333333333333,
+      "grad_norm": 0.5491900444030762,
+      "learning_rate": 0.0005,
+      "loss": 0.1382,
+      "step": 1900
+    },
+    {
+      "epoch": 10.666666666666666,
+      "grad_norm": 0.48405131697654724,
+      "learning_rate": 0.0005,
+      "loss": 0.1281,
+      "step": 2000
+    },
+    {
+      "epoch": 10.997333333333334,
+      "eval_accuracy": 0.5874977578475337,
+      "eval_loss": 2.7714619636535645,
+      "eval_runtime": 6.6161,
+      "eval_samples_per_second": 75.573,
+      "eval_steps_per_second": 9.522,
+      "step": 2062
+    },
+    {
+      "epoch": 11.2,
+      "grad_norm": 0.5252687931060791,
+      "learning_rate": 0.0005,
+      "loss": 0.1342,
+      "step": 2100
+    },
+    {
+      "epoch": 11.733333333333333,
+      "grad_norm": 0.5249276161193848,
+      "learning_rate": 0.0005,
+      "loss": 0.1331,
+      "step": 2200
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.586170403587444,
+      "eval_loss": 2.7947192192077637,
+      "eval_runtime": 6.6386,
+      "eval_samples_per_second": 75.317,
+      "eval_steps_per_second": 9.49,
+      "step": 2250
+    },
+    {
+      "epoch": 12.266666666666667,
+      "grad_norm": 0.4678025543689728,
+      "learning_rate": 0.0005,
+      "loss": 0.1401,
+      "step": 2300
+    },
+    {
+      "epoch": 12.8,
+      "grad_norm": 0.548941969871521,
+      "learning_rate": 0.0005,
+      "loss": 0.1435,
+      "step": 2400
+    },
+    {
+      "epoch": 12.997333333333334,
+      "eval_accuracy": 0.5867085201793723,
+      "eval_loss": 2.7769455909729004,
+      "eval_runtime": 7.1738,
+      "eval_samples_per_second": 69.698,
+      "eval_steps_per_second": 8.782,
+      "step": 2437
+    },
+    {
+      "epoch": 13.333333333333334,
+      "grad_norm": 0.5314351320266724,
+      "learning_rate": 0.0005,
+      "loss": 0.1407,
+      "step": 2500
+    },
+    {
+      "epoch": 13.866666666666667,
+      "grad_norm": 0.563681960105896,
+      "learning_rate": 0.0005,
+      "loss": 0.1468,
+      "step": 2600
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.5861883408071749,
+      "eval_loss": 2.7598185539245605,
+      "eval_runtime": 6.1952,
+      "eval_samples_per_second": 80.707,
+      "eval_steps_per_second": 10.169,
+      "step": 2625
+    },
+    {
+      "epoch": 14.4,
+      "grad_norm": 0.5683262944221497,
+      "learning_rate": 0.0005,
+      "loss": 0.1355,
+      "step": 2700
+    },
+    {
+      "epoch": 14.933333333333334,
+      "grad_norm": 0.6214954853057861,
+      "learning_rate": 0.0005,
+      "loss": 0.1449,
+      "step": 2800
+    },
+    {
+      "epoch": 14.997333333333334,
+      "eval_accuracy": 0.5854529147982063,
+      "eval_loss": 2.8146610260009766,
+      "eval_runtime": 6.2114,
+      "eval_samples_per_second": 80.497,
+      "eval_steps_per_second": 10.143,
+      "step": 2812
+    },
+    {
+      "epoch": 15.466666666666667,
+      "grad_norm": 0.653416633605957,
+      "learning_rate": 0.0005,
+      "loss": 0.1272,
+      "step": 2900
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 0.51493239402771,
+      "learning_rate": 0.0005,
+      "loss": 0.1404,
+      "step": 3000
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.5859372197309417,
+      "eval_loss": 2.8563687801361084,
+      "eval_runtime": 6.2751,
+      "eval_samples_per_second": 79.679,
+      "eval_steps_per_second": 10.04,
+      "step": 3000
+    },
+    {
+      "epoch": 16.533333333333335,
+      "grad_norm": 0.470777302980423,
+      "learning_rate": 0.0005,
+      "loss": 0.121,
+      "step": 3100
+    },
+    {
+      "epoch": 16.997333333333334,
+      "eval_accuracy": 0.5863408071748879,
+      "eval_loss": 2.8380913734436035,
+      "eval_runtime": 7.2527,
+      "eval_samples_per_second": 68.94,
+      "eval_steps_per_second": 8.686,
+      "step": 3187
+    },
+    {
+      "epoch": 17.066666666666666,
+      "grad_norm": 0.46096956729888916,
+      "learning_rate": 0.0005,
+      "loss": 0.1339,
+      "step": 3200
+    },
+    {
+      "epoch": 17.6,
+      "grad_norm": 0.487093985080719,
+      "learning_rate": 0.0005,
+      "loss": 0.1198,
+      "step": 3300
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.5841255605381166,
+      "eval_loss": 2.8844361305236816,
+      "eval_runtime": 6.3792,
+      "eval_samples_per_second": 78.38,
+      "eval_steps_per_second": 9.876,
+      "step": 3375
+    },
+    {
+      "epoch": 18.133333333333333,
+      "grad_norm": 0.3982308804988861,
+      "learning_rate": 0.0005,
+      "loss": 0.1284,
+      "step": 3400
+    },
+    {
+      "epoch": 18.666666666666668,
+      "grad_norm": 0.42424336075782776,
+      "learning_rate": 0.0005,
+      "loss": 0.1198,
+      "step": 3500
+    },
+    {
+      "epoch": 18.997333333333334,
+      "eval_accuracy": 0.5833811659192825,
+      "eval_loss": 2.903993606567383,
+      "eval_runtime": 6.7287,
+      "eval_samples_per_second": 74.309,
+      "eval_steps_per_second": 9.363,
+      "step": 3562
+    },
+    {
+      "epoch": 19.2,
+      "grad_norm": 0.40813153982162476,
+      "learning_rate": 0.0005,
+      "loss": 0.1247,
+      "step": 3600
+    },
+    {
+      "epoch": 19.733333333333334,
+      "grad_norm": 0.5687228441238403,
+      "learning_rate": 0.0005,
+      "loss": 0.1215,
+      "step": 3700
+    },
+    {
+      "epoch": 19.946666666666665,
+      "eval_accuracy": 0.5833811659192825,
+      "eval_loss": 2.8927161693573,
+      "eval_runtime": 6.2166,
+      "eval_samples_per_second": 80.43,
+      "eval_steps_per_second": 10.134,
+      "step": 3740
+    },
+    {
+      "epoch": 19.946666666666665,
+      "step": 3740,
+      "total_flos": 3.767212755417825e+17,
+      "train_loss": 0.3823815970497335,
+      "train_runtime": 8612.098,
+      "train_samples_per_second": 13.934,
+      "train_steps_per_second": 0.434
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 3740,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
+  "save_steps": 500,
+  "total_flos": 3.767212755417825e+17,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}