End of training

Browse files

Files changed (6) hide show

README.md +14 -2
all_results.json +12 -12
eval_results.json +7 -7
tokenizer.json +1 -6
train_results.json +6 -6
trainer_state.json +865 -12

README.md CHANGED Viewed

@@ -3,11 +3,23 @@ license: other
 base_model: Qwen/Qwen1.5-4B
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
 model-index:
 - name: lmind_hotpot_train8000_eval7405_v1_recite_qa_Qwen_Qwen1.5-4B_lora2
-  results: []
 library_name: peft
 ---
@@ -16,7 +28,7 @@ should probably proofread and complete it, then remove this comment. -->
 # lmind_hotpot_train8000_eval7405_v1_recite_qa_Qwen_Qwen1.5-4B_lora2
-This model is a fine-tuned version of [Qwen/Qwen1.5-4B](https://huggingface.co/Qwen/Qwen1.5-4B) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.4804
 - Accuracy: 0.7780

 base_model: Qwen/Qwen1.5-4B
 tags:
 - generated_from_trainer
+datasets:
+- tyzhu/lmind_hotpot_train8000_eval7405_v1_recite_qa
 metrics:
 - accuracy
 model-index:
 - name: lmind_hotpot_train8000_eval7405_v1_recite_qa_Qwen_Qwen1.5-4B_lora2
+  results:
+  - task:
+      name: Causal Language Modeling
+      type: text-generation
+    dataset:
+      name: tyzhu/lmind_hotpot_train8000_eval7405_v1_recite_qa
+      type: tyzhu/lmind_hotpot_train8000_eval7405_v1_recite_qa
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.7780232896652111
 library_name: peft
 ---
 # lmind_hotpot_train8000_eval7405_v1_recite_qa_Qwen_Qwen1.5-4B_lora2
+This model is a fine-tuned version of [Qwen/Qwen1.5-4B](https://huggingface.co/Qwen/Qwen1.5-4B) on the tyzhu/lmind_hotpot_train8000_eval7405_v1_recite_qa dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.4804
 - Accuracy: 0.7780

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 9.997704842781731,
-    "eval_accuracy": 0.75309461426492,
-    "eval_loss": 0.6794138550758362,
-    "eval_runtime": 9.1448,
     "eval_samples": 500,
-    "eval_samples_per_second": 54.676,
-    "eval_steps_per_second": 6.889,
-    "perplexity": 1.972721092829053,
-    "total_flos": 1.1476921981127885e+18,
-    "train_loss": 0.9514775436443402,
-    "train_runtime": 23095.7984,
     "train_samples": 34854,
-    "train_samples_per_second": 15.091,
-    "train_steps_per_second": 0.472
 }

 {
+    "epoch": 19.99770484278173,
+    "eval_accuracy": 0.7780232896652111,
+    "eval_loss": 0.4803846478462219,
+    "eval_runtime": 8.961,
     "eval_samples": 500,
+    "eval_samples_per_second": 55.798,
+    "eval_steps_per_second": 7.03,
+    "perplexity": 1.6166961412986696,
+    "total_flos": 2.2953494160657613e+18,
+    "train_loss": 0.14266219607616806,
+    "train_runtime": 24051.9241,
     "train_samples": 34854,
+    "train_samples_per_second": 28.982,
+    "train_steps_per_second": 0.906
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "epoch": 9.997704842781731,
-    "eval_accuracy": 0.75309461426492,
-    "eval_loss": 0.6794138550758362,
-    "eval_runtime": 9.1448,
     "eval_samples": 500,
-    "eval_samples_per_second": 54.676,
-    "eval_steps_per_second": 6.889,
-    "perplexity": 1.972721092829053
 }

 {
+    "epoch": 19.99770484278173,
+    "eval_accuracy": 0.7780232896652111,
+    "eval_loss": 0.4803846478462219,
+    "eval_runtime": 8.961,
     "eval_samples": 500,
+    "eval_samples_per_second": 55.798,
+    "eval_steps_per_second": 7.03,
+    "perplexity": 1.6166961412986696
 }

tokenizer.json CHANGED Viewed

@@ -1,11 +1,6 @@
 {
   "version": "1.0",
-  "truncation": {
-    "direction": "Right",
-    "max_length": 1024,
-    "strategy": "LongestFirst",
-    "stride": 0
-  },
   "padding": null,
   "added_tokens": [
     {

 {
   "version": "1.0",
+  "truncation": null,
   "padding": null,
   "added_tokens": [
     {

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 9.997704842781731,
-    "total_flos": 1.1476921981127885e+18,
-    "train_loss": 0.9514775436443402,
-    "train_runtime": 23095.7984,
     "train_samples": 34854,
-    "train_samples_per_second": 15.091,
-    "train_steps_per_second": 0.472
 }

 {
+    "epoch": 19.99770484278173,
+    "total_flos": 2.2953494160657613e+18,
+    "train_loss": 0.14266219607616806,
+    "train_runtime": 24051.9241,
     "train_samples": 34854,
+    "train_samples_per_second": 28.982,
+    "train_steps_per_second": 0.906
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 9.997704842781731,
   "eval_steps": 500,
-  "global_step": 10890,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -855,21 +855,874 @@
       "step": 10890
     },
     {
-      "epoch": 9.997704842781731,
-      "step": 10890,
-      "total_flos": 1.1476921981127885e+18,
-      "train_loss": 0.9514775436443402,
-      "train_runtime": 23095.7984,
-      "train_samples_per_second": 15.091,
-      "train_steps_per_second": 0.472
     }
   ],
   "logging_steps": 100,
-  "max_steps": 10890,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 1.1476921981127885e+18,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 19.99770484278173,
   "eval_steps": 500,
+  "global_step": 21780,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "step": 10890
     },
     {
+      "epoch": 10.009180628873079,
+      "grad_norm": 1.3423351049423218,
+      "learning_rate": 0.0001,
+      "loss": 0.386,
+      "step": 10900
+    },
+    {
+      "epoch": 10.100986917603857,
+      "grad_norm": 1.132673740386963,
+      "learning_rate": 0.0001,
+      "loss": 0.3726,
+      "step": 11000
+    },
+    {
+      "epoch": 10.192793206334635,
+      "grad_norm": 1.614931344985962,
+      "learning_rate": 0.0001,
+      "loss": 0.3819,
+      "step": 11100
+    },
+    {
+      "epoch": 10.284599495065413,
+      "grad_norm": 1.3352196216583252,
+      "learning_rate": 0.0001,
+      "loss": 0.3876,
+      "step": 11200
+    },
+    {
+      "epoch": 10.37640578379619,
+      "grad_norm": 1.0957690477371216,
+      "learning_rate": 0.0001,
+      "loss": 0.3973,
+      "step": 11300
+    },
+    {
+      "epoch": 10.468212072526969,
+      "grad_norm": 1.142330527305603,
+      "learning_rate": 0.0001,
+      "loss": 0.396,
+      "step": 11400
+    },
+    {
+      "epoch": 10.560018361257747,
+      "grad_norm": 1.4076579809188843,
+      "learning_rate": 0.0001,
+      "loss": 0.402,
+      "step": 11500
+    },
+    {
+      "epoch": 10.651824649988525,
+      "grad_norm": 1.389333963394165,
+      "learning_rate": 0.0001,
+      "loss": 0.3962,
+      "step": 11600
+    },
+    {
+      "epoch": 10.743630938719303,
+      "grad_norm": 1.4440951347351074,
+      "learning_rate": 0.0001,
+      "loss": 0.4049,
+      "step": 11700
+    },
+    {
+      "epoch": 10.83543722745008,
+      "grad_norm": 1.4290118217468262,
+      "learning_rate": 0.0001,
+      "loss": 0.4093,
+      "step": 11800
+    },
+    {
+      "epoch": 10.927243516180859,
+      "grad_norm": 1.46366548538208,
+      "learning_rate": 0.0001,
+      "loss": 0.413,
+      "step": 11900
+    },
+    {
+      "epoch": 10.999770484278173,
+      "eval_accuracy": 0.7576768558951965,
+      "eval_loss": 0.6291825175285339,
+      "eval_runtime": 8.951,
+      "eval_samples_per_second": 55.86,
+      "eval_steps_per_second": 7.038,
+      "step": 11979
+    },
+    {
+      "epoch": 11.019049804911637,
+      "grad_norm": 1.1713697910308838,
+      "learning_rate": 0.0001,
+      "loss": 0.395,
+      "step": 12000
+    },
+    {
+      "epoch": 11.110856093642415,
+      "grad_norm": 1.277626395225525,
+      "learning_rate": 0.0001,
+      "loss": 0.3355,
+      "step": 12100
+    },
+    {
+      "epoch": 11.202662382373193,
+      "grad_norm": 1.3597822189331055,
+      "learning_rate": 0.0001,
+      "loss": 0.3412,
+      "step": 12200
+    },
+    {
+      "epoch": 11.29446867110397,
+      "grad_norm": 1.4017976522445679,
+      "learning_rate": 0.0001,
+      "loss": 0.3414,
+      "step": 12300
+    },
+    {
+      "epoch": 11.386274959834749,
+      "grad_norm": 1.409915804862976,
+      "learning_rate": 0.0001,
+      "loss": 0.3558,
+      "step": 12400
+    },
+    {
+      "epoch": 11.478081248565527,
+      "grad_norm": 1.400634765625,
+      "learning_rate": 0.0001,
+      "loss": 0.3577,
+      "step": 12500
+    },
+    {
+      "epoch": 11.569887537296305,
+      "grad_norm": 1.5898892879486084,
+      "learning_rate": 0.0001,
+      "loss": 0.354,
+      "step": 12600
+    },
+    {
+      "epoch": 11.661693826027083,
+      "grad_norm": 1.3252007961273193,
+      "learning_rate": 0.0001,
+      "loss": 0.3682,
+      "step": 12700
+    },
+    {
+      "epoch": 11.75350011475786,
+      "grad_norm": 1.302128791809082,
+      "learning_rate": 0.0001,
+      "loss": 0.3715,
+      "step": 12800
+    },
+    {
+      "epoch": 11.845306403488639,
+      "grad_norm": 1.3374468088150024,
+      "learning_rate": 0.0001,
+      "loss": 0.3707,
+      "step": 12900
+    },
+    {
+      "epoch": 11.937112692219417,
+      "grad_norm": 1.1755791902542114,
+      "learning_rate": 0.0001,
+      "loss": 0.3731,
+      "step": 13000
+    },
+    {
+      "epoch": 11.999540968556346,
+      "eval_accuracy": 0.76164192139738,
+      "eval_loss": 0.5926400423049927,
+      "eval_runtime": 9.0463,
+      "eval_samples_per_second": 55.271,
+      "eval_steps_per_second": 6.964,
+      "step": 13068
+    },
+    {
+      "epoch": 12.028918980950195,
+      "grad_norm": 1.3085649013519287,
+      "learning_rate": 0.0001,
+      "loss": 0.3482,
+      "step": 13100
+    },
+    {
+      "epoch": 12.120725269680973,
+      "grad_norm": 1.1860175132751465,
+      "learning_rate": 0.0001,
+      "loss": 0.2982,
+      "step": 13200
+    },
+    {
+      "epoch": 12.21253155841175,
+      "grad_norm": 1.1902750730514526,
+      "learning_rate": 0.0001,
+      "loss": 0.3095,
+      "step": 13300
+    },
+    {
+      "epoch": 12.304337847142529,
+      "grad_norm": 1.2473431825637817,
+      "learning_rate": 0.0001,
+      "loss": 0.3216,
+      "step": 13400
+    },
+    {
+      "epoch": 12.396144135873307,
+      "grad_norm": 1.443493366241455,
+      "learning_rate": 0.0001,
+      "loss": 0.319,
+      "step": 13500
+    },
+    {
+      "epoch": 12.487950424604085,
+      "grad_norm": 1.4389948844909668,
+      "learning_rate": 0.0001,
+      "loss": 0.328,
+      "step": 13600
+    },
+    {
+      "epoch": 12.579756713334863,
+      "grad_norm": 1.1586631536483765,
+      "learning_rate": 0.0001,
+      "loss": 0.3285,
+      "step": 13700
+    },
+    {
+      "epoch": 12.671563002065641,
+      "grad_norm": 1.180396318435669,
+      "learning_rate": 0.0001,
+      "loss": 0.3311,
+      "step": 13800
+    },
+    {
+      "epoch": 12.763369290796419,
+      "grad_norm": 1.4230598211288452,
+      "learning_rate": 0.0001,
+      "loss": 0.3346,
+      "step": 13900
+    },
+    {
+      "epoch": 12.855175579527197,
+      "grad_norm": 1.5782092809677124,
+      "learning_rate": 0.0001,
+      "loss": 0.3415,
+      "step": 14000
+    },
+    {
+      "epoch": 12.946981868257975,
+      "grad_norm": 1.418642282485962,
+      "learning_rate": 0.0001,
+      "loss": 0.3423,
+      "step": 14100
+    },
+    {
+      "epoch": 12.999311452834519,
+      "eval_accuracy": 0.7655866084425036,
+      "eval_loss": 0.5619787573814392,
+      "eval_runtime": 8.9635,
+      "eval_samples_per_second": 55.782,
+      "eval_steps_per_second": 7.029,
+      "step": 14157
+    },
+    {
+      "epoch": 13.038788156988753,
+      "grad_norm": 1.1923723220825195,
+      "learning_rate": 0.0001,
+      "loss": 0.3119,
+      "step": 14200
+    },
+    {
+      "epoch": 13.130594445719531,
+      "grad_norm": 1.2736058235168457,
+      "learning_rate": 0.0001,
+      "loss": 0.2762,
+      "step": 14300
+    },
+    {
+      "epoch": 13.22240073445031,
+      "grad_norm": 0.9496171474456787,
+      "learning_rate": 0.0001,
+      "loss": 0.2844,
+      "step": 14400
+    },
+    {
+      "epoch": 13.314207023181089,
+      "grad_norm": 1.22100031375885,
+      "learning_rate": 0.0001,
+      "loss": 0.2938,
+      "step": 14500
+    },
+    {
+      "epoch": 13.406013311911867,
+      "grad_norm": 1.381606101989746,
+      "learning_rate": 0.0001,
+      "loss": 0.2978,
+      "step": 14600
+    },
+    {
+      "epoch": 13.497819600642645,
+      "grad_norm": 1.43625807762146,
+      "learning_rate": 0.0001,
+      "loss": 0.3035,
+      "step": 14700
+    },
+    {
+      "epoch": 13.589625889373423,
+      "grad_norm": 1.4393320083618164,
+      "learning_rate": 0.0001,
+      "loss": 0.3065,
+      "step": 14800
+    },
+    {
+      "epoch": 13.6814321781042,
+      "grad_norm": 1.184833288192749,
+      "learning_rate": 0.0001,
+      "loss": 0.3091,
+      "step": 14900
+    },
+    {
+      "epoch": 13.773238466834979,
+      "grad_norm": 1.4501614570617676,
+      "learning_rate": 0.0001,
+      "loss": 0.3103,
+      "step": 15000
+    },
+    {
+      "epoch": 13.865044755565757,
+      "grad_norm": 1.368249535560608,
+      "learning_rate": 0.0001,
+      "loss": 0.3137,
+      "step": 15100
+    },
+    {
+      "epoch": 13.956851044296535,
+      "grad_norm": 1.4249024391174316,
+      "learning_rate": 0.0001,
+      "loss": 0.3185,
+      "step": 15200
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.7682037845705968,
+      "eval_loss": 0.542601466178894,
+      "eval_runtime": 8.9503,
+      "eval_samples_per_second": 55.864,
+      "eval_steps_per_second": 7.039,
+      "step": 15247
+    },
+    {
+      "epoch": 14.048657333027313,
+      "grad_norm": 1.3438467979431152,
+      "learning_rate": 0.0001,
+      "loss": 0.2849,
+      "step": 15300
+    },
+    {
+      "epoch": 14.14046362175809,
+      "grad_norm": 1.4617668390274048,
+      "learning_rate": 0.0001,
+      "loss": 0.2658,
+      "step": 15400
+    },
+    {
+      "epoch": 14.232269910488869,
+      "grad_norm": 1.266655683517456,
+      "learning_rate": 0.0001,
+      "loss": 0.2679,
+      "step": 15500
+    },
+    {
+      "epoch": 14.324076199219647,
+      "grad_norm": 1.2162944078445435,
+      "learning_rate": 0.0001,
+      "loss": 0.2711,
+      "step": 15600
+    },
+    {
+      "epoch": 14.415882487950425,
+      "grad_norm": 1.10415518283844,
+      "learning_rate": 0.0001,
+      "loss": 0.2763,
+      "step": 15700
+    },
+    {
+      "epoch": 14.507688776681203,
+      "grad_norm": 1.1962913274765015,
+      "learning_rate": 0.0001,
+      "loss": 0.2827,
+      "step": 15800
+    },
+    {
+      "epoch": 14.59949506541198,
+      "grad_norm": 1.2264560461044312,
+      "learning_rate": 0.0001,
+      "loss": 0.2845,
+      "step": 15900
+    },
+    {
+      "epoch": 14.691301354142759,
+      "grad_norm": 1.3857085704803467,
+      "learning_rate": 0.0001,
+      "loss": 0.2897,
+      "step": 16000
+    },
+    {
+      "epoch": 14.783107642873537,
+      "grad_norm": 1.447581171989441,
+      "learning_rate": 0.0001,
+      "loss": 0.2894,
+      "step": 16100
+    },
+    {
+      "epoch": 14.874913931604315,
+      "grad_norm": 1.3408719301223755,
+      "learning_rate": 0.0001,
+      "loss": 0.2899,
+      "step": 16200
+    },
+    {
+      "epoch": 14.966720220335093,
+      "grad_norm": 1.695694088935852,
+      "learning_rate": 0.0001,
+      "loss": 0.2924,
+      "step": 16300
+    },
+    {
+      "epoch": 14.999770484278173,
+      "eval_accuracy": 0.7708355167394468,
+      "eval_loss": 0.5231938362121582,
+      "eval_runtime": 9.1808,
+      "eval_samples_per_second": 54.462,
+      "eval_steps_per_second": 6.862,
+      "step": 16336
+    },
+    {
+      "epoch": 15.05852650906587,
+      "grad_norm": 1.1147023439407349,
+      "learning_rate": 0.0001,
+      "loss": 0.2605,
+      "step": 16400
+    },
+    {
+      "epoch": 15.150332797796649,
+      "grad_norm": 1.518908977508545,
+      "learning_rate": 0.0001,
+      "loss": 0.245,
+      "step": 16500
+    },
+    {
+      "epoch": 15.242139086527427,
+      "grad_norm": 1.1342830657958984,
+      "learning_rate": 0.0001,
+      "loss": 0.2447,
+      "step": 16600
+    },
+    {
+      "epoch": 15.333945375258205,
+      "grad_norm": 1.2657541036605835,
+      "learning_rate": 0.0001,
+      "loss": 0.2599,
+      "step": 16700
+    },
+    {
+      "epoch": 15.425751663988983,
+      "grad_norm": 0.9707338809967041,
+      "learning_rate": 0.0001,
+      "loss": 0.2591,
+      "step": 16800
+    },
+    {
+      "epoch": 15.517557952719761,
+      "grad_norm": 1.2904791831970215,
+      "learning_rate": 0.0001,
+      "loss": 0.264,
+      "step": 16900
+    },
+    {
+      "epoch": 15.609364241450539,
+      "grad_norm": 1.4617804288864136,
+      "learning_rate": 0.0001,
+      "loss": 0.2665,
+      "step": 17000
+    },
+    {
+      "epoch": 15.701170530181317,
+      "grad_norm": 1.1893932819366455,
+      "learning_rate": 0.0001,
+      "loss": 0.2689,
+      "step": 17100
+    },
+    {
+      "epoch": 15.792976818912095,
+      "grad_norm": 1.3138148784637451,
+      "learning_rate": 0.0001,
+      "loss": 0.2731,
+      "step": 17200
+    },
+    {
+      "epoch": 15.884783107642873,
+      "grad_norm": 1.2247110605239868,
+      "learning_rate": 0.0001,
+      "loss": 0.278,
+      "step": 17300
+    },
+    {
+      "epoch": 15.976589396373651,
+      "grad_norm": 1.1995705366134644,
+      "learning_rate": 0.0001,
+      "loss": 0.2824,
+      "step": 17400
+    },
+    {
+      "epoch": 15.999540968556346,
+      "eval_accuracy": 0.7727045123726346,
+      "eval_loss": 0.5129293203353882,
+      "eval_runtime": 8.9728,
+      "eval_samples_per_second": 55.724,
+      "eval_steps_per_second": 7.021,
+      "step": 17425
+    },
+    {
+      "epoch": 16.06839568510443,
+      "grad_norm": 1.088183045387268,
+      "learning_rate": 0.0001,
+      "loss": 0.2408,
+      "step": 17500
+    },
+    {
+      "epoch": 16.160201973835207,
+      "grad_norm": 1.27170991897583,
+      "learning_rate": 0.0001,
+      "loss": 0.2339,
+      "step": 17600
+    },
+    {
+      "epoch": 16.252008262565987,
+      "grad_norm": 1.093220591545105,
+      "learning_rate": 0.0001,
+      "loss": 0.2381,
+      "step": 17700
+    },
+    {
+      "epoch": 16.343814551296763,
+      "grad_norm": 1.3761118650436401,
+      "learning_rate": 0.0001,
+      "loss": 0.2361,
+      "step": 17800
+    },
+    {
+      "epoch": 16.435620840027543,
+      "grad_norm": 1.3061089515686035,
+      "learning_rate": 0.0001,
+      "loss": 0.2437,
+      "step": 17900
+    },
+    {
+      "epoch": 16.52742712875832,
+      "grad_norm": 1.318901538848877,
+      "learning_rate": 0.0001,
+      "loss": 0.2475,
+      "step": 18000
+    },
+    {
+      "epoch": 16.6192334174891,
+      "grad_norm": 1.241626262664795,
+      "learning_rate": 0.0001,
+      "loss": 0.2542,
+      "step": 18100
+    },
+    {
+      "epoch": 16.711039706219875,
+      "grad_norm": 1.1289949417114258,
+      "learning_rate": 0.0001,
+      "loss": 0.2566,
+      "step": 18200
+    },
+    {
+      "epoch": 16.802845994950655,
+      "grad_norm": 1.4046275615692139,
+      "learning_rate": 0.0001,
+      "loss": 0.2594,
+      "step": 18300
+    },
+    {
+      "epoch": 16.89465228368143,
+      "grad_norm": 1.1862374544143677,
+      "learning_rate": 0.0001,
+      "loss": 0.2611,
+      "step": 18400
+    },
+    {
+      "epoch": 16.98645857241221,
+      "grad_norm": 1.3014901876449585,
+      "learning_rate": 0.0001,
+      "loss": 0.2669,
+      "step": 18500
+    },
+    {
+      "epoch": 16.99931145283452,
+      "eval_accuracy": 0.774806404657933,
+      "eval_loss": 0.49875929951667786,
+      "eval_runtime": 9.0234,
+      "eval_samples_per_second": 55.411,
+      "eval_steps_per_second": 6.982,
+      "step": 18514
+    },
+    {
+      "epoch": 17.078264861142987,
+      "grad_norm": 1.0681638717651367,
+      "learning_rate": 0.0001,
+      "loss": 0.2239,
+      "step": 18600
+    },
+    {
+      "epoch": 17.170071149873767,
+      "grad_norm": 1.1279337406158447,
+      "learning_rate": 0.0001,
+      "loss": 0.2223,
+      "step": 18700
+    },
+    {
+      "epoch": 17.261877438604543,
+      "grad_norm": 1.3798402547836304,
+      "learning_rate": 0.0001,
+      "loss": 0.2241,
+      "step": 18800
+    },
+    {
+      "epoch": 17.353683727335323,
+      "grad_norm": 1.1741504669189453,
+      "learning_rate": 0.0001,
+      "loss": 0.2326,
+      "step": 18900
+    },
+    {
+      "epoch": 17.4454900160661,
+      "grad_norm": 1.1289469003677368,
+      "learning_rate": 0.0001,
+      "loss": 0.2345,
+      "step": 19000
+    },
+    {
+      "epoch": 17.53729630479688,
+      "grad_norm": 1.508701205253601,
+      "learning_rate": 0.0001,
+      "loss": 0.2421,
+      "step": 19100
+    },
+    {
+      "epoch": 17.629102593527655,
+      "grad_norm": 1.449561357498169,
+      "learning_rate": 0.0001,
+      "loss": 0.2387,
+      "step": 19200
+    },
+    {
+      "epoch": 17.720908882258435,
+      "grad_norm": 1.1868849992752075,
+      "learning_rate": 0.0001,
+      "loss": 0.2402,
+      "step": 19300
+    },
+    {
+      "epoch": 17.81271517098921,
+      "grad_norm": 1.4335336685180664,
+      "learning_rate": 0.0001,
+      "loss": 0.249,
+      "step": 19400
+    },
+    {
+      "epoch": 17.90452145971999,
+      "grad_norm": 1.3802162408828735,
+      "learning_rate": 0.0001,
+      "loss": 0.2491,
+      "step": 19500
+    },
+    {
+      "epoch": 17.996327748450767,
+      "grad_norm": 1.3790746927261353,
+      "learning_rate": 0.0001,
+      "loss": 0.2517,
+      "step": 19600
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.776174672489083,
+      "eval_loss": 0.4891900420188904,
+      "eval_runtime": 8.9325,
+      "eval_samples_per_second": 55.975,
+      "eval_steps_per_second": 7.053,
+      "step": 19604
+    },
+    {
+      "epoch": 18.088134037181547,
+      "grad_norm": 1.1314564943313599,
+      "learning_rate": 0.0001,
+      "loss": 0.2088,
+      "step": 19700
+    },
+    {
+      "epoch": 18.179940325912327,
+      "grad_norm": 1.2055948972702026,
+      "learning_rate": 0.0001,
+      "loss": 0.2128,
+      "step": 19800
+    },
+    {
+      "epoch": 18.271746614643103,
+      "grad_norm": 1.1677360534667969,
+      "learning_rate": 0.0001,
+      "loss": 0.2178,
+      "step": 19900
+    },
+    {
+      "epoch": 18.363552903373883,
+      "grad_norm": 1.2793176174163818,
+      "learning_rate": 0.0001,
+      "loss": 0.2216,
+      "step": 20000
+    },
+    {
+      "epoch": 18.45535919210466,
+      "grad_norm": 1.187522292137146,
+      "learning_rate": 0.0001,
+      "loss": 0.2243,
+      "step": 20100
+    },
+    {
+      "epoch": 18.54716548083544,
+      "grad_norm": 1.5564976930618286,
+      "learning_rate": 0.0001,
+      "loss": 0.2249,
+      "step": 20200
+    },
+    {
+      "epoch": 18.638971769566215,
+      "grad_norm": 1.2912520170211792,
+      "learning_rate": 0.0001,
+      "loss": 0.2319,
+      "step": 20300
+    },
+    {
+      "epoch": 18.730778058296995,
+      "grad_norm": 1.5046939849853516,
+      "learning_rate": 0.0001,
+      "loss": 0.2343,
+      "step": 20400
+    },
+    {
+      "epoch": 18.82258434702777,
+      "grad_norm": 1.4738825559616089,
+      "learning_rate": 0.0001,
+      "loss": 0.2342,
+      "step": 20500
+    },
+    {
+      "epoch": 18.91439063575855,
+      "grad_norm": 1.427435278892517,
+      "learning_rate": 0.0001,
+      "loss": 0.2376,
+      "step": 20600
+    },
+    {
+      "epoch": 18.999770484278173,
+      "eval_accuracy": 0.7773391557496361,
+      "eval_loss": 0.4808199405670166,
+      "eval_runtime": 8.9815,
+      "eval_samples_per_second": 55.67,
+      "eval_steps_per_second": 7.014,
+      "step": 20693
+    },
+    {
+      "epoch": 19.006196924489327,
+      "grad_norm": 1.294245719909668,
+      "learning_rate": 0.0001,
+      "loss": 0.2396,
+      "step": 20700
+    },
+    {
+      "epoch": 19.098003213220107,
+      "grad_norm": 0.9566488862037659,
+      "learning_rate": 0.0001,
+      "loss": 0.2006,
+      "step": 20800
+    },
+    {
+      "epoch": 19.189809501950883,
+      "grad_norm": 1.184180736541748,
+      "learning_rate": 0.0001,
+      "loss": 0.2049,
+      "step": 20900
+    },
+    {
+      "epoch": 19.281615790681663,
+      "grad_norm": 1.1258317232131958,
+      "learning_rate": 0.0001,
+      "loss": 0.2081,
+      "step": 21000
+    },
+    {
+      "epoch": 19.37342207941244,
+      "grad_norm": 1.2547038793563843,
+      "learning_rate": 0.0001,
+      "loss": 0.2133,
+      "step": 21100
+    },
+    {
+      "epoch": 19.46522836814322,
+      "grad_norm": 1.3770051002502441,
+      "learning_rate": 0.0001,
+      "loss": 0.2175,
+      "step": 21200
+    },
+    {
+      "epoch": 19.557034656873995,
+      "grad_norm": 1.3640483617782593,
+      "learning_rate": 0.0001,
+      "loss": 0.2178,
+      "step": 21300
+    },
+    {
+      "epoch": 19.648840945604775,
+      "grad_norm": 1.2219371795654297,
+      "learning_rate": 0.0001,
+      "loss": 0.2233,
+      "step": 21400
+    },
+    {
+      "epoch": 19.74064723433555,
+      "grad_norm": 1.3438184261322021,
+      "learning_rate": 0.0001,
+      "loss": 0.224,
+      "step": 21500
+    },
+    {
+      "epoch": 19.83245352306633,
+      "grad_norm": 1.2909867763519287,
+      "learning_rate": 0.0001,
+      "loss": 0.2274,
+      "step": 21600
+    },
+    {
+      "epoch": 19.924259811797107,
+      "grad_norm": 1.482640027999878,
+      "learning_rate": 0.0001,
+      "loss": 0.2316,
+      "step": 21700
+    },
+    {
+      "epoch": 19.99770484278173,
+      "eval_accuracy": 0.7780232896652111,
+      "eval_loss": 0.4803846478462219,
+      "eval_runtime": 8.977,
+      "eval_samples_per_second": 55.698,
+      "eval_steps_per_second": 7.018,
+      "step": 21780
+    },
+    {
+      "epoch": 19.99770484278173,
+      "step": 21780,
+      "total_flos": 2.2953494160657613e+18,
+      "train_loss": 0.14266219607616806,
+      "train_runtime": 24051.9241,
+      "train_samples_per_second": 28.982,
+      "train_steps_per_second": 0.906
     }
   ],
   "logging_steps": 100,
+  "max_steps": 21780,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
   "save_steps": 500,
+  "total_flos": 2.2953494160657613e+18,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null