End of training

Browse files

Files changed (6) hide show

README.md +14 -2
all_results.json +12 -12
eval_results.json +7 -7
tokenizer.json +1 -6
train_results.json +6 -6
trainer_state.json +690 -12

README.md CHANGED Viewed

@@ -3,11 +3,23 @@ license: other
 base_model: Qwen/Qwen1.5-4B
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
 model-index:
 - name: lmind_hotpot_train8000_eval7405_v1_docidx_Qwen_Qwen1.5-4B_lora2
-  results: []
 library_name: peft
 ---
@@ -16,7 +28,7 @@ should probably proofread and complete it, then remove this comment. -->
 # lmind_hotpot_train8000_eval7405_v1_docidx_Qwen_Qwen1.5-4B_lora2
-This model is a fine-tuned version of [Qwen/Qwen1.5-4B](https://huggingface.co/Qwen/Qwen1.5-4B) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.7825
 - Accuracy: 0.7891

 base_model: Qwen/Qwen1.5-4B
 tags:
 - generated_from_trainer
+datasets:
+- tyzhu/lmind_hotpot_train8000_eval7405_v1_docidx
 metrics:
 - accuracy
 model-index:
 - name: lmind_hotpot_train8000_eval7405_v1_docidx_Qwen_Qwen1.5-4B_lora2
+  results:
+  - task:
+      name: Causal Language Modeling
+      type: text-generation
+    dataset:
+      name: tyzhu/lmind_hotpot_train8000_eval7405_v1_docidx
+      type: tyzhu/lmind_hotpot_train8000_eval7405_v1_docidx
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.7890842332613391
 library_name: peft
 ---
 # lmind_hotpot_train8000_eval7405_v1_docidx_Qwen_Qwen1.5-4B_lora2
+This model is a fine-tuned version of [Qwen/Qwen1.5-4B](https://huggingface.co/Qwen/Qwen1.5-4B) on the tyzhu/lmind_hotpot_train8000_eval7405_v1_docidx dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.7825
 - Accuracy: 0.7891

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 9.997021149836163,
-    "eval_accuracy": 0.7691922246220302,
-    "eval_loss": 1.0623269081115723,
-    "eval_runtime": 7.649,
     "eval_samples": 500,
-    "eval_samples_per_second": 65.368,
-    "eval_steps_per_second": 8.236,
-    "perplexity": 2.8930951295301637,
-    "total_flos": 6.866381543623885e+17,
-    "train_loss": 1.1092717030903723,
-    "train_runtime": 19337.1025,
     "train_samples": 26854,
-    "train_samples_per_second": 13.887,
-    "train_steps_per_second": 0.434
 }

 {
+    "epoch": 19.997021149836165,
+    "eval_accuracy": 0.7890842332613391,
+    "eval_loss": 0.7825167179107666,
+    "eval_runtime": 7.775,
     "eval_samples": 500,
+    "eval_samples_per_second": 64.309,
+    "eval_steps_per_second": 8.103,
+    "perplexity": 2.186969330199743,
+    "total_flos": 1.3732763132881797e+18,
+    "train_loss": 0.18793870911126484,
+    "train_runtime": 19785.1606,
     "train_samples": 26854,
+    "train_samples_per_second": 27.146,
+    "train_steps_per_second": 0.848
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "epoch": 9.997021149836163,
-    "eval_accuracy": 0.7691922246220302,
-    "eval_loss": 1.0623269081115723,
-    "eval_runtime": 7.649,
     "eval_samples": 500,
-    "eval_samples_per_second": 65.368,
-    "eval_steps_per_second": 8.236,
-    "perplexity": 2.8930951295301637
 }

 {
+    "epoch": 19.997021149836165,
+    "eval_accuracy": 0.7890842332613391,
+    "eval_loss": 0.7825167179107666,
+    "eval_runtime": 7.775,
     "eval_samples": 500,
+    "eval_samples_per_second": 64.309,
+    "eval_steps_per_second": 8.103,
+    "perplexity": 2.186969330199743
 }

tokenizer.json CHANGED Viewed

@@ -1,11 +1,6 @@
 {
   "version": "1.0",
-  "truncation": {
-    "direction": "Right",
-    "max_length": 1024,
-    "strategy": "LongestFirst",
-    "stride": 0
-  },
   "padding": null,
   "added_tokens": [
     {

 {
   "version": "1.0",
+  "truncation": null,
   "padding": null,
   "added_tokens": [
     {

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 9.997021149836163,
-    "total_flos": 6.866381543623885e+17,
-    "train_loss": 1.1092717030903723,
-    "train_runtime": 19337.1025,
     "train_samples": 26854,
-    "train_samples_per_second": 13.887,
-    "train_steps_per_second": 0.434
 }

 {
+    "epoch": 19.997021149836165,
+    "total_flos": 1.3732763132881797e+18,
+    "train_loss": 0.18793870911126484,
+    "train_runtime": 19785.1606,
     "train_samples": 26854,
+    "train_samples_per_second": 27.146,
+    "train_steps_per_second": 0.848
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 9.997021149836163,
   "eval_steps": 500,
-  "global_step": 8390,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -680,21 +680,699 @@
       "step": 8390
     },
     {
-      "epoch": 9.997021149836163,
-      "step": 8390,
-      "total_flos": 6.866381543623885e+17,
-      "train_loss": 1.1092717030903723,
-      "train_runtime": 19337.1025,
-      "train_samples_per_second": 13.887,
-      "train_steps_per_second": 0.434
     }
   ],
   "logging_steps": 100,
-  "max_steps": 8390,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 6.866381543623885e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 19.997021149836165,
   "eval_steps": 500,
+  "global_step": 16780,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "step": 8390
     },
     {
+      "epoch": 10.011915400655347,
+      "grad_norm": 1.1237155199050903,
+      "learning_rate": 0.0001,
+      "loss": 0.5067,
+      "step": 8400
+    },
+    {
+      "epoch": 10.131069407208818,
+      "grad_norm": 1.2166295051574707,
+      "learning_rate": 0.0001,
+      "loss": 0.5138,
+      "step": 8500
+    },
+    {
+      "epoch": 10.250223413762289,
+      "grad_norm": 1.1621054410934448,
+      "learning_rate": 0.0001,
+      "loss": 0.5314,
+      "step": 8600
+    },
+    {
+      "epoch": 10.369377420315757,
+      "grad_norm": 1.082357406616211,
+      "learning_rate": 0.0001,
+      "loss": 0.5358,
+      "step": 8700
+    },
+    {
+      "epoch": 10.488531426869228,
+      "grad_norm": 1.3300856351852417,
+      "learning_rate": 0.0001,
+      "loss": 0.5464,
+      "step": 8800
+    },
+    {
+      "epoch": 10.607685433422699,
+      "grad_norm": 1.1997504234313965,
+      "learning_rate": 0.0001,
+      "loss": 0.5422,
+      "step": 8900
+    },
+    {
+      "epoch": 10.72683943997617,
+      "grad_norm": 1.4044774770736694,
+      "learning_rate": 0.0001,
+      "loss": 0.5567,
+      "step": 9000
+    },
+    {
+      "epoch": 10.84599344652964,
+      "grad_norm": 1.215906023979187,
+      "learning_rate": 0.0001,
+      "loss": 0.562,
+      "step": 9100
+    },
+    {
+      "epoch": 10.96514745308311,
+      "grad_norm": 1.2198461294174194,
+      "learning_rate": 0.0001,
+      "loss": 0.5784,
+      "step": 9200
+    },
+    {
+      "epoch": 10.999702114983616,
+      "eval_accuracy": 0.7730842332613391,
+      "eval_loss": 1.010130763053894,
+      "eval_runtime": 7.8978,
+      "eval_samples_per_second": 63.309,
+      "eval_steps_per_second": 7.977,
+      "step": 9229
+    },
+    {
+      "epoch": 11.08430145963658,
+      "grad_norm": 1.3466765880584717,
+      "learning_rate": 0.0001,
+      "loss": 0.4876,
+      "step": 9300
+    },
+    {
+      "epoch": 11.20345546619005,
+      "grad_norm": 1.3371703624725342,
+      "learning_rate": 0.0001,
+      "loss": 0.4666,
+      "step": 9400
+    },
+    {
+      "epoch": 11.32260947274352,
+      "grad_norm": 1.3903799057006836,
+      "learning_rate": 0.0001,
+      "loss": 0.4819,
+      "step": 9500
+    },
+    {
+      "epoch": 11.441763479296991,
+      "grad_norm": 1.261116623878479,
+      "learning_rate": 0.0001,
+      "loss": 0.4857,
+      "step": 9600
+    },
+    {
+      "epoch": 11.560917485850462,
+      "grad_norm": 1.4429560899734497,
+      "learning_rate": 0.0001,
+      "loss": 0.4941,
+      "step": 9700
+    },
+    {
+      "epoch": 11.680071492403933,
+      "grad_norm": 1.268157958984375,
+      "learning_rate": 0.0001,
+      "loss": 0.4913,
+      "step": 9800
+    },
+    {
+      "epoch": 11.799225498957403,
+      "grad_norm": 1.3515466451644897,
+      "learning_rate": 0.0001,
+      "loss": 0.5074,
+      "step": 9900
+    },
+    {
+      "epoch": 11.918379505510872,
+      "grad_norm": 1.343897819519043,
+      "learning_rate": 0.0001,
+      "loss": 0.5071,
+      "step": 10000
+    },
+    {
+      "epoch": 11.999404229967233,
+      "eval_accuracy": 0.7760388768898488,
+      "eval_loss": 0.9537739753723145,
+      "eval_runtime": 7.6808,
+      "eval_samples_per_second": 65.098,
+      "eval_steps_per_second": 8.202,
+      "step": 10068
+    },
+    {
+      "epoch": 12.037533512064343,
+      "grad_norm": 1.2503083944320679,
+      "learning_rate": 0.0001,
+      "loss": 0.4805,
+      "step": 10100
+    },
+    {
+      "epoch": 12.156687518617813,
+      "grad_norm": 1.1671448945999146,
+      "learning_rate": 0.0001,
+      "loss": 0.4098,
+      "step": 10200
+    },
+    {
+      "epoch": 12.275841525171284,
+      "grad_norm": 1.2349199056625366,
+      "learning_rate": 0.0001,
+      "loss": 0.4222,
+      "step": 10300
+    },
+    {
+      "epoch": 12.394995531724755,
+      "grad_norm": 1.3856853246688843,
+      "learning_rate": 0.0001,
+      "loss": 0.4282,
+      "step": 10400
+    },
+    {
+      "epoch": 12.514149538278225,
+      "grad_norm": 1.2162753343582153,
+      "learning_rate": 0.0001,
+      "loss": 0.4353,
+      "step": 10500
+    },
+    {
+      "epoch": 12.633303544831694,
+      "grad_norm": 1.4368740320205688,
+      "learning_rate": 0.0001,
+      "loss": 0.4506,
+      "step": 10600
+    },
+    {
+      "epoch": 12.752457551385165,
+      "grad_norm": 1.2878433465957642,
+      "learning_rate": 0.0001,
+      "loss": 0.4607,
+      "step": 10700
+    },
+    {
+      "epoch": 12.871611557938635,
+      "grad_norm": 1.3356980085372925,
+      "learning_rate": 0.0001,
+      "loss": 0.4651,
+      "step": 10800
+    },
+    {
+      "epoch": 12.990765564492106,
+      "grad_norm": 1.4646358489990234,
+      "learning_rate": 0.0001,
+      "loss": 0.4734,
+      "step": 10900
+    },
+    {
+      "epoch": 12.99910634495085,
+      "eval_accuracy": 0.7790539956803456,
+      "eval_loss": 0.9292365908622742,
+      "eval_runtime": 7.7765,
+      "eval_samples_per_second": 64.296,
+      "eval_steps_per_second": 8.101,
+      "step": 10907
+    },
+    {
+      "epoch": 13.109919571045577,
+      "grad_norm": 1.0571186542510986,
+      "learning_rate": 0.0001,
+      "loss": 0.3875,
+      "step": 11000
+    },
+    {
+      "epoch": 13.229073577599047,
+      "grad_norm": 1.5074485540390015,
+      "learning_rate": 0.0001,
+      "loss": 0.3734,
+      "step": 11100
+    },
+    {
+      "epoch": 13.348227584152518,
+      "grad_norm": 1.0904532670974731,
+      "learning_rate": 0.0001,
+      "loss": 0.3906,
+      "step": 11200
+    },
+    {
+      "epoch": 13.467381590705987,
+      "grad_norm": 1.1496778726577759,
+      "learning_rate": 0.0001,
+      "loss": 0.3999,
+      "step": 11300
+    },
+    {
+      "epoch": 13.586535597259457,
+      "grad_norm": 1.4542232751846313,
+      "learning_rate": 0.0001,
+      "loss": 0.4048,
+      "step": 11400
+    },
+    {
+      "epoch": 13.705689603812928,
+      "grad_norm": 1.6107604503631592,
+      "learning_rate": 0.0001,
+      "loss": 0.4098,
+      "step": 11500
+    },
+    {
+      "epoch": 13.824843610366399,
+      "grad_norm": 1.6126165390014648,
+      "learning_rate": 0.0001,
+      "loss": 0.4141,
+      "step": 11600
+    },
+    {
+      "epoch": 13.94399761691987,
+      "grad_norm": 1.5488628149032593,
+      "learning_rate": 0.0001,
+      "loss": 0.4302,
+      "step": 11700
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.7808639308855292,
+      "eval_loss": 0.8845791220664978,
+      "eval_runtime": 7.816,
+      "eval_samples_per_second": 63.971,
+      "eval_steps_per_second": 8.06,
+      "step": 11747
+    },
+    {
+      "epoch": 14.06315162347334,
+      "grad_norm": 1.1683179140090942,
+      "learning_rate": 0.0001,
+      "loss": 0.3842,
+      "step": 11800
+    },
+    {
+      "epoch": 14.182305630026809,
+      "grad_norm": 1.4228167533874512,
+      "learning_rate": 0.0001,
+      "loss": 0.3452,
+      "step": 11900
+    },
+    {
+      "epoch": 14.30145963658028,
+      "grad_norm": 1.3090318441390991,
+      "learning_rate": 0.0001,
+      "loss": 0.3518,
+      "step": 12000
+    },
+    {
+      "epoch": 14.42061364313375,
+      "grad_norm": 1.3104828596115112,
+      "learning_rate": 0.0001,
+      "loss": 0.3632,
+      "step": 12100
+    },
+    {
+      "epoch": 14.53976764968722,
+      "grad_norm": 1.5828286409378052,
+      "learning_rate": 0.0001,
+      "loss": 0.3737,
+      "step": 12200
+    },
+    {
+      "epoch": 14.658921656240691,
+      "grad_norm": 1.3281217813491821,
+      "learning_rate": 0.0001,
+      "loss": 0.3705,
+      "step": 12300
+    },
+    {
+      "epoch": 14.778075662794162,
+      "grad_norm": 1.753090500831604,
+      "learning_rate": 0.0001,
+      "loss": 0.3839,
+      "step": 12400
+    },
+    {
+      "epoch": 14.897229669347631,
+      "grad_norm": 1.3213167190551758,
+      "learning_rate": 0.0001,
+      "loss": 0.3917,
+      "step": 12500
+    },
+    {
+      "epoch": 14.999702114983616,
+      "eval_accuracy": 0.7832613390928725,
+      "eval_loss": 0.8536106944084167,
+      "eval_runtime": 7.6693,
+      "eval_samples_per_second": 65.195,
+      "eval_steps_per_second": 8.215,
+      "step": 12586
+    },
+    {
+      "epoch": 15.016383675901102,
+      "grad_norm": 1.5647796392440796,
+      "learning_rate": 0.0001,
+      "loss": 0.3796,
+      "step": 12600
+    },
+    {
+      "epoch": 15.135537682454572,
+      "grad_norm": 1.903051495552063,
+      "learning_rate": 0.0001,
+      "loss": 0.3098,
+      "step": 12700
+    },
+    {
+      "epoch": 15.254691689008043,
+      "grad_norm": 1.4900842905044556,
+      "learning_rate": 0.0001,
+      "loss": 0.3291,
+      "step": 12800
+    },
+    {
+      "epoch": 15.373845695561513,
+      "grad_norm": 1.3253552913665771,
+      "learning_rate": 0.0001,
+      "loss": 0.3284,
+      "step": 12900
+    },
+    {
+      "epoch": 15.492999702114984,
+      "grad_norm": 1.582220196723938,
+      "learning_rate": 0.0001,
+      "loss": 0.345,
+      "step": 13000
+    },
+    {
+      "epoch": 15.612153708668455,
+      "grad_norm": 1.4743067026138306,
+      "learning_rate": 0.0001,
+      "loss": 0.3482,
+      "step": 13100
+    },
+    {
+      "epoch": 15.731307715221924,
+      "grad_norm": 1.5687114000320435,
+      "learning_rate": 0.0001,
+      "loss": 0.3573,
+      "step": 13200
+    },
+    {
+      "epoch": 15.850461721775394,
+      "grad_norm": 1.5427637100219727,
+      "learning_rate": 0.0001,
+      "loss": 0.3531,
+      "step": 13300
+    },
+    {
+      "epoch": 15.969615728328865,
+      "grad_norm": 1.621741533279419,
+      "learning_rate": 0.0001,
+      "loss": 0.3632,
+      "step": 13400
+    },
+    {
+      "epoch": 15.999404229967233,
+      "eval_accuracy": 0.7846133909287257,
+      "eval_loss": 0.8468108177185059,
+      "eval_runtime": 7.8749,
+      "eval_samples_per_second": 63.493,
+      "eval_steps_per_second": 8.0,
+      "step": 13425
+    },
+    {
+      "epoch": 16.088769734882334,
+      "grad_norm": 1.3480048179626465,
+      "learning_rate": 0.0001,
+      "loss": 0.3116,
+      "step": 13500
+    },
+    {
+      "epoch": 16.207923741435806,
+      "grad_norm": 1.3218774795532227,
+      "learning_rate": 0.0001,
+      "loss": 0.2957,
+      "step": 13600
+    },
+    {
+      "epoch": 16.327077747989275,
+      "grad_norm": 1.5867496728897095,
+      "learning_rate": 0.0001,
+      "loss": 0.3087,
+      "step": 13700
+    },
+    {
+      "epoch": 16.446231754542747,
+      "grad_norm": 1.3426684141159058,
+      "learning_rate": 0.0001,
+      "loss": 0.315,
+      "step": 13800
+    },
+    {
+      "epoch": 16.565385761096216,
+      "grad_norm": 1.5667626857757568,
+      "learning_rate": 0.0001,
+      "loss": 0.3212,
+      "step": 13900
+    },
+    {
+      "epoch": 16.68453976764969,
+      "grad_norm": 1.3792177438735962,
+      "learning_rate": 0.0001,
+      "loss": 0.3258,
+      "step": 14000
+    },
+    {
+      "epoch": 16.803693774203158,
+      "grad_norm": 1.5244312286376953,
+      "learning_rate": 0.0001,
+      "loss": 0.3337,
+      "step": 14100
+    },
+    {
+      "epoch": 16.922847780756626,
+      "grad_norm": 1.598897933959961,
+      "learning_rate": 0.0001,
+      "loss": 0.3351,
+      "step": 14200
+    },
+    {
+      "epoch": 16.99910634495085,
+      "eval_accuracy": 0.7862505399568035,
+      "eval_loss": 0.8243688941001892,
+      "eval_runtime": 7.7339,
+      "eval_samples_per_second": 64.651,
+      "eval_steps_per_second": 8.146,
+      "step": 14264
+    },
+    {
+      "epoch": 17.0420017873101,
+      "grad_norm": 1.5057127475738525,
+      "learning_rate": 0.0001,
+      "loss": 0.3195,
+      "step": 14300
+    },
+    {
+      "epoch": 17.161155793863568,
+      "grad_norm": 1.175302505493164,
+      "learning_rate": 0.0001,
+      "loss": 0.2775,
+      "step": 14400
+    },
+    {
+      "epoch": 17.28030980041704,
+      "grad_norm": 1.4136508703231812,
+      "learning_rate": 0.0001,
+      "loss": 0.289,
+      "step": 14500
+    },
+    {
+      "epoch": 17.39946380697051,
+      "grad_norm": 1.5237888097763062,
+      "learning_rate": 0.0001,
+      "loss": 0.2897,
+      "step": 14600
+    },
+    {
+      "epoch": 17.51861781352398,
+      "grad_norm": 1.4952021837234497,
+      "learning_rate": 0.0001,
+      "loss": 0.3002,
+      "step": 14700
+    },
+    {
+      "epoch": 17.63777182007745,
+      "grad_norm": 1.4359500408172607,
+      "learning_rate": 0.0001,
+      "loss": 0.2994,
+      "step": 14800
+    },
+    {
+      "epoch": 17.75692582663092,
+      "grad_norm": 1.2760846614837646,
+      "learning_rate": 0.0001,
+      "loss": 0.3085,
+      "step": 14900
+    },
+    {
+      "epoch": 17.87607983318439,
+      "grad_norm": 1.4437624216079712,
+      "learning_rate": 0.0001,
+      "loss": 0.3141,
+      "step": 15000
+    },
+    {
+      "epoch": 17.99523383973786,
+      "grad_norm": 1.4819003343582153,
+      "learning_rate": 0.0001,
+      "loss": 0.3186,
+      "step": 15100
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.7870842332613391,
+      "eval_loss": 0.8095716834068298,
+      "eval_runtime": 7.8907,
+      "eval_samples_per_second": 63.366,
+      "eval_steps_per_second": 7.984,
+      "step": 15104
+    },
+    {
+      "epoch": 18.114387846291333,
+      "grad_norm": 1.4048779010772705,
+      "learning_rate": 0.0001,
+      "loss": 0.2551,
+      "step": 15200
+    },
+    {
+      "epoch": 18.2335418528448,
+      "grad_norm": 1.2755182981491089,
+      "learning_rate": 0.0001,
+      "loss": 0.2625,
+      "step": 15300
+    },
+    {
+      "epoch": 18.35269585939827,
+      "grad_norm": 1.5804539918899536,
+      "learning_rate": 0.0001,
+      "loss": 0.2733,
+      "step": 15400
+    },
+    {
+      "epoch": 18.471849865951743,
+      "grad_norm": 1.2414181232452393,
+      "learning_rate": 0.0001,
+      "loss": 0.2827,
+      "step": 15500
+    },
+    {
+      "epoch": 18.591003872505212,
+      "grad_norm": 1.2644073963165283,
+      "learning_rate": 0.0001,
+      "loss": 0.2873,
+      "step": 15600
+    },
+    {
+      "epoch": 18.710157879058684,
+      "grad_norm": 1.8947105407714844,
+      "learning_rate": 0.0001,
+      "loss": 0.2913,
+      "step": 15700
+    },
+    {
+      "epoch": 18.829311885612153,
+      "grad_norm": 1.429527759552002,
+      "learning_rate": 0.0001,
+      "loss": 0.2977,
+      "step": 15800
+    },
+    {
+      "epoch": 18.948465892165625,
+      "grad_norm": 1.8058485984802246,
+      "learning_rate": 0.0001,
+      "loss": 0.2957,
+      "step": 15900
+    },
+    {
+      "epoch": 18.999702114983616,
+      "eval_accuracy": 0.7885053995680346,
+      "eval_loss": 0.7864968776702881,
+      "eval_runtime": 7.7324,
+      "eval_samples_per_second": 64.663,
+      "eval_steps_per_second": 8.148,
+      "step": 15943
+    },
+    {
+      "epoch": 19.067619898719094,
+      "grad_norm": 1.3445817232131958,
+      "learning_rate": 0.0001,
+      "loss": 0.2748,
+      "step": 16000
+    },
+    {
+      "epoch": 19.186773905272563,
+      "grad_norm": 1.358742356300354,
+      "learning_rate": 0.0001,
+      "loss": 0.2494,
+      "step": 16100
+    },
+    {
+      "epoch": 19.305927911826036,
+      "grad_norm": 1.2323551177978516,
+      "learning_rate": 0.0001,
+      "loss": 0.255,
+      "step": 16200
+    },
+    {
+      "epoch": 19.425081918379504,
+      "grad_norm": 1.210010290145874,
+      "learning_rate": 0.0001,
+      "loss": 0.2592,
+      "step": 16300
+    },
+    {
+      "epoch": 19.544235924932977,
+      "grad_norm": 1.4125585556030273,
+      "learning_rate": 0.0001,
+      "loss": 0.2664,
+      "step": 16400
+    },
+    {
+      "epoch": 19.663389931486446,
+      "grad_norm": 1.5337769985198975,
+      "learning_rate": 0.0001,
+      "loss": 0.2741,
+      "step": 16500
+    },
+    {
+      "epoch": 19.782543938039918,
+      "grad_norm": 1.4104398488998413,
+      "learning_rate": 0.0001,
+      "loss": 0.277,
+      "step": 16600
+    },
+    {
+      "epoch": 19.901697944593387,
+      "grad_norm": 1.6847435235977173,
+      "learning_rate": 0.0001,
+      "loss": 0.2858,
+      "step": 16700
+    },
+    {
+      "epoch": 19.997021149836165,
+      "eval_accuracy": 0.7890842332613391,
+      "eval_loss": 0.7825167179107666,
+      "eval_runtime": 7.7619,
+      "eval_samples_per_second": 64.417,
+      "eval_steps_per_second": 8.117,
+      "step": 16780
+    },
+    {
+      "epoch": 19.997021149836165,
+      "step": 16780,
+      "total_flos": 1.3732763132881797e+18,
+      "train_loss": 0.18793870911126484,
+      "train_runtime": 19785.1606,
+      "train_samples_per_second": 27.146,
+      "train_steps_per_second": 0.848
     }
   ],
   "logging_steps": 100,
+  "max_steps": 16780,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
   "save_steps": 500,
+  "total_flos": 1.3732763132881797e+18,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null