End of training

Browse files

Files changed (6) hide show

README.md +14 -2
all_results.json +16 -0
eval_results.json +10 -0
tokenizer.json +1 -6
train_results.json +9 -0
trainer_state.json +1379 -0

README.md CHANGED Viewed

@@ -3,11 +3,23 @@ license: other
 base_model: Qwen/Qwen1.5-4B
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
 model-index:
 - name: lmind_hotpot_train8000_eval7405_v1_docidx_Qwen_Qwen1.5-4B_3e-5_lora2
-  results: []
 library_name: peft
 ---
@@ -16,7 +28,7 @@ should probably proofread and complete it, then remove this comment. -->
 # lmind_hotpot_train8000_eval7405_v1_docidx_Qwen_Qwen1.5-4B_3e-5_lora2
-This model is a fine-tuned version of [Qwen/Qwen1.5-4B](https://huggingface.co/Qwen/Qwen1.5-4B) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 1.3258
 - Accuracy: 0.7513

 base_model: Qwen/Qwen1.5-4B
 tags:
 - generated_from_trainer
+datasets:
+- tyzhu/lmind_hotpot_train8000_eval7405_v1_docidx
 metrics:
 - accuracy
 model-index:
 - name: lmind_hotpot_train8000_eval7405_v1_docidx_Qwen_Qwen1.5-4B_3e-5_lora2
+  results:
+  - task:
+      name: Causal Language Modeling
+      type: text-generation
+    dataset:
+      name: tyzhu/lmind_hotpot_train8000_eval7405_v1_docidx
+      type: tyzhu/lmind_hotpot_train8000_eval7405_v1_docidx
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.7512829373650108
 library_name: peft
 ---
 # lmind_hotpot_train8000_eval7405_v1_docidx_Qwen_Qwen1.5-4B_3e-5_lora2
+This model is a fine-tuned version of [Qwen/Qwen1.5-4B](https://huggingface.co/Qwen/Qwen1.5-4B) on the tyzhu/lmind_hotpot_train8000_eval7405_v1_docidx dataset.
 It achieves the following results on the evaluation set:
 - Loss: 1.3258
 - Accuracy: 0.7513

all_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "epoch": 19.998510574918082,
+    "eval_accuracy": 0.7512829373650108,
+    "eval_loss": 1.3258286714553833,
+    "eval_runtime": 7.7118,
+    "eval_samples": 500,
+    "eval_samples_per_second": 64.836,
+    "eval_steps_per_second": 8.169,
+    "perplexity": 3.765304262709877,
+    "total_flos": 1.3733500524072796e+18,
+    "train_loss": 0.22626538049336412,
+    "train_runtime": 9900.7803,
+    "train_samples": 26854,
+    "train_samples_per_second": 54.246,
+    "train_steps_per_second": 1.695
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 19.998510574918082,
+    "eval_accuracy": 0.7512829373650108,
+    "eval_loss": 1.3258286714553833,
+    "eval_runtime": 7.7118,
+    "eval_samples": 500,
+    "eval_samples_per_second": 64.836,
+    "eval_steps_per_second": 8.169,
+    "perplexity": 3.765304262709877
+}

tokenizer.json CHANGED Viewed

@@ -1,11 +1,6 @@
 {
   "version": "1.0",
-  "truncation": {
-    "direction": "Right",
-    "max_length": 1024,
-    "strategy": "LongestFirst",
-    "stride": 0
-  },
   "padding": null,
   "added_tokens": [
     {

 {
   "version": "1.0",
+  "truncation": null,
   "padding": null,
   "added_tokens": [
     {

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 19.998510574918082,
+    "total_flos": 1.3733500524072796e+18,
+    "train_loss": 0.22626538049336412,
+    "train_runtime": 9900.7803,
+    "train_samples": 26854,
+    "train_samples_per_second": 54.246,
+    "train_steps_per_second": 1.695
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1379 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 19.998510574918082,
+  "eval_steps": 500,
+  "global_step": 16780,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.11915400655347036,
+      "grad_norm": 0.24907414615154266,
+      "learning_rate": 3e-05,
+      "loss": 1.7899,
+      "step": 100
+    },
+    {
+      "epoch": 0.23830801310694072,
+      "grad_norm": 0.2722090780735016,
+      "learning_rate": 3e-05,
+      "loss": 1.6296,
+      "step": 200
+    },
+    {
+      "epoch": 0.3574620196604111,
+      "grad_norm": 0.30233123898506165,
+      "learning_rate": 3e-05,
+      "loss": 1.6514,
+      "step": 300
+    },
+    {
+      "epoch": 0.47661602621388144,
+      "grad_norm": 0.281762957572937,
+      "learning_rate": 3e-05,
+      "loss": 1.6225,
+      "step": 400
+    },
+    {
+      "epoch": 0.5957700327673519,
+      "grad_norm": 0.2878308892250061,
+      "learning_rate": 3e-05,
+      "loss": 1.6158,
+      "step": 500
+    },
+    {
+      "epoch": 0.7149240393208222,
+      "grad_norm": 0.26083847880363464,
+      "learning_rate": 3e-05,
+      "loss": 1.6232,
+      "step": 600
+    },
+    {
+      "epoch": 0.8340780458742926,
+      "grad_norm": 0.3153495490550995,
+      "learning_rate": 3e-05,
+      "loss": 1.616,
+      "step": 700
+    },
+    {
+      "epoch": 0.9532320524277629,
+      "grad_norm": 0.3171740770339966,
+      "learning_rate": 3e-05,
+      "loss": 1.6137,
+      "step": 800
+    },
+    {
+      "epoch": 0.9997021149836163,
+      "eval_accuracy": 0.7176760259179266,
+      "eval_loss": 1.8263936042785645,
+      "eval_runtime": 7.3244,
+      "eval_samples_per_second": 68.265,
+      "eval_steps_per_second": 8.601,
+      "step": 839
+    },
+    {
+      "epoch": 1.0723860589812333,
+      "grad_norm": 0.30662721395492554,
+      "learning_rate": 3e-05,
+      "loss": 1.6034,
+      "step": 900
+    },
+    {
+      "epoch": 1.1915400655347037,
+      "grad_norm": 0.3360077738761902,
+      "learning_rate": 3e-05,
+      "loss": 1.5982,
+      "step": 1000
+    },
+    {
+      "epoch": 1.310694072088174,
+      "grad_norm": 0.42994430661201477,
+      "learning_rate": 3e-05,
+      "loss": 1.5979,
+      "step": 1100
+    },
+    {
+      "epoch": 1.4298480786416443,
+      "grad_norm": 0.37275680899620056,
+      "learning_rate": 3e-05,
+      "loss": 1.5859,
+      "step": 1200
+    },
+    {
+      "epoch": 1.5490020851951147,
+      "grad_norm": 0.3591364622116089,
+      "learning_rate": 3e-05,
+      "loss": 1.6032,
+      "step": 1300
+    },
+    {
+      "epoch": 1.668156091748585,
+      "grad_norm": 0.43212202191352844,
+      "learning_rate": 3e-05,
+      "loss": 1.5805,
+      "step": 1400
+    },
+    {
+      "epoch": 1.7873100983020556,
+      "grad_norm": 0.36169254779815674,
+      "learning_rate": 3e-05,
+      "loss": 1.5891,
+      "step": 1500
+    },
+    {
+      "epoch": 1.9064641048555258,
+      "grad_norm": 0.37111684679985046,
+      "learning_rate": 3e-05,
+      "loss": 1.5978,
+      "step": 1600
+    },
+    {
+      "epoch": 1.9994042299672325,
+      "eval_accuracy": 0.7190323974082073,
+      "eval_loss": 1.8264212608337402,
+      "eval_runtime": 7.4268,
+      "eval_samples_per_second": 67.324,
+      "eval_steps_per_second": 8.483,
+      "step": 1678
+    },
+    {
+      "epoch": 2.025618111408996,
+      "grad_norm": 0.38414663076400757,
+      "learning_rate": 3e-05,
+      "loss": 1.5958,
+      "step": 1700
+    },
+    {
+      "epoch": 2.1447721179624666,
+      "grad_norm": 0.5014183521270752,
+      "learning_rate": 3e-05,
+      "loss": 1.5473,
+      "step": 1800
+    },
+    {
+      "epoch": 2.2639261245159368,
+      "grad_norm": 0.5397933721542358,
+      "learning_rate": 3e-05,
+      "loss": 1.5569,
+      "step": 1900
+    },
+    {
+      "epoch": 2.3830801310694074,
+      "grad_norm": 0.5639057159423828,
+      "learning_rate": 3e-05,
+      "loss": 1.567,
+      "step": 2000
+    },
+    {
+      "epoch": 2.5022341376228776,
+      "grad_norm": 0.5303636789321899,
+      "learning_rate": 3e-05,
+      "loss": 1.56,
+      "step": 2100
+    },
+    {
+      "epoch": 2.621388144176348,
+      "grad_norm": 0.5156840085983276,
+      "learning_rate": 3e-05,
+      "loss": 1.5562,
+      "step": 2200
+    },
+    {
+      "epoch": 2.7405421507298184,
+      "grad_norm": 0.5576587319374084,
+      "learning_rate": 3e-05,
+      "loss": 1.5442,
+      "step": 2300
+    },
+    {
+      "epoch": 2.8596961572832886,
+      "grad_norm": 0.5914539694786072,
+      "learning_rate": 3e-05,
+      "loss": 1.548,
+      "step": 2400
+    },
+    {
+      "epoch": 2.978850163836759,
+      "grad_norm": 0.5907685160636902,
+      "learning_rate": 3e-05,
+      "loss": 1.5493,
+      "step": 2500
+    },
+    {
+      "epoch": 2.999106344950849,
+      "eval_accuracy": 0.7211187904967603,
+      "eval_loss": 1.7809884548187256,
+      "eval_runtime": 6.9826,
+      "eval_samples_per_second": 71.606,
+      "eval_steps_per_second": 9.022,
+      "step": 2517
+    },
+    {
+      "epoch": 3.0980041703902295,
+      "grad_norm": 0.597890317440033,
+      "learning_rate": 3e-05,
+      "loss": 1.5151,
+      "step": 2600
+    },
+    {
+      "epoch": 3.2171581769436997,
+      "grad_norm": 0.6472206115722656,
+      "learning_rate": 3e-05,
+      "loss": 1.5069,
+      "step": 2700
+    },
+    {
+      "epoch": 3.33631218349717,
+      "grad_norm": 0.603473424911499,
+      "learning_rate": 3e-05,
+      "loss": 1.5205,
+      "step": 2800
+    },
+    {
+      "epoch": 3.4554661900506405,
+      "grad_norm": 0.6695737242698669,
+      "learning_rate": 3e-05,
+      "loss": 1.505,
+      "step": 2900
+    },
+    {
+      "epoch": 3.5746201966041107,
+      "grad_norm": 0.6201011538505554,
+      "learning_rate": 3e-05,
+      "loss": 1.5005,
+      "step": 3000
+    },
+    {
+      "epoch": 3.6937742031575813,
+      "grad_norm": 0.6618828773498535,
+      "learning_rate": 3e-05,
+      "loss": 1.5139,
+      "step": 3100
+    },
+    {
+      "epoch": 3.8129282097110515,
+      "grad_norm": 0.7267889380455017,
+      "learning_rate": 3e-05,
+      "loss": 1.5124,
+      "step": 3200
+    },
+    {
+      "epoch": 3.932082216264522,
+      "grad_norm": 0.6930146217346191,
+      "learning_rate": 3e-05,
+      "loss": 1.5101,
+      "step": 3300
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.7231447084233261,
+      "eval_loss": 1.7412924766540527,
+      "eval_runtime": 6.9917,
+      "eval_samples_per_second": 71.513,
+      "eval_steps_per_second": 9.011,
+      "step": 3357
+    },
+    {
+      "epoch": 4.051236222817992,
+      "grad_norm": 0.6705595850944519,
+      "learning_rate": 3e-05,
+      "loss": 1.488,
+      "step": 3400
+    },
+    {
+      "epoch": 4.1703902293714625,
+      "grad_norm": 0.707845151424408,
+      "learning_rate": 3e-05,
+      "loss": 1.4576,
+      "step": 3500
+    },
+    {
+      "epoch": 4.289544235924933,
+      "grad_norm": 0.698554515838623,
+      "learning_rate": 3e-05,
+      "loss": 1.4619,
+      "step": 3600
+    },
+    {
+      "epoch": 4.408698242478403,
+      "grad_norm": 0.7763566970825195,
+      "learning_rate": 3e-05,
+      "loss": 1.454,
+      "step": 3700
+    },
+    {
+      "epoch": 4.5278522490318736,
+      "grad_norm": 0.7236441969871521,
+      "learning_rate": 3e-05,
+      "loss": 1.462,
+      "step": 3800
+    },
+    {
+      "epoch": 4.647006255585344,
+      "grad_norm": 0.7589882612228394,
+      "learning_rate": 3e-05,
+      "loss": 1.4766,
+      "step": 3900
+    },
+    {
+      "epoch": 4.766160262138815,
+      "grad_norm": 0.818758487701416,
+      "learning_rate": 3e-05,
+      "loss": 1.4625,
+      "step": 4000
+    },
+    {
+      "epoch": 4.885314268692285,
+      "grad_norm": 0.7571113109588623,
+      "learning_rate": 3e-05,
+      "loss": 1.4678,
+      "step": 4100
+    },
+    {
+      "epoch": 4.9997021149836165,
+      "eval_accuracy": 0.7247473002159828,
+      "eval_loss": 1.7400386333465576,
+      "eval_runtime": 7.2905,
+      "eval_samples_per_second": 68.582,
+      "eval_steps_per_second": 8.641,
+      "step": 4196
+    },
+    {
+      "epoch": 5.004468275245755,
+      "grad_norm": 0.711908221244812,
+      "learning_rate": 3e-05,
+      "loss": 1.4785,
+      "step": 4200
+    },
+    {
+      "epoch": 5.123622281799226,
+      "grad_norm": 0.7867583632469177,
+      "learning_rate": 3e-05,
+      "loss": 1.4144,
+      "step": 4300
+    },
+    {
+      "epoch": 5.242776288352696,
+      "grad_norm": 0.8279469013214111,
+      "learning_rate": 3e-05,
+      "loss": 1.4163,
+      "step": 4400
+    },
+    {
+      "epoch": 5.361930294906166,
+      "grad_norm": 0.7871400713920593,
+      "learning_rate": 3e-05,
+      "loss": 1.4124,
+      "step": 4500
+    },
+    {
+      "epoch": 5.481084301459637,
+      "grad_norm": 0.8378657102584839,
+      "learning_rate": 3e-05,
+      "loss": 1.4212,
+      "step": 4600
+    },
+    {
+      "epoch": 5.600238308013107,
+      "grad_norm": 0.8661020994186401,
+      "learning_rate": 3e-05,
+      "loss": 1.4213,
+      "step": 4700
+    },
+    {
+      "epoch": 5.719392314566577,
+      "grad_norm": 0.8194323778152466,
+      "learning_rate": 3e-05,
+      "loss": 1.4275,
+      "step": 4800
+    },
+    {
+      "epoch": 5.838546321120048,
+      "grad_norm": 0.861905038356781,
+      "learning_rate": 3e-05,
+      "loss": 1.4141,
+      "step": 4900
+    },
+    {
+      "epoch": 5.957700327673518,
+      "grad_norm": 0.8899133205413818,
+      "learning_rate": 3e-05,
+      "loss": 1.4236,
+      "step": 5000
+    },
+    {
+      "epoch": 5.999404229967233,
+      "eval_accuracy": 0.726682505399568,
+      "eval_loss": 1.7018622159957886,
+      "eval_runtime": 7.202,
+      "eval_samples_per_second": 69.425,
+      "eval_steps_per_second": 8.748,
+      "step": 5035
+    },
+    {
+      "epoch": 6.076854334226988,
+      "grad_norm": 0.9570803642272949,
+      "learning_rate": 3e-05,
+      "loss": 1.3728,
+      "step": 5100
+    },
+    {
+      "epoch": 6.196008340780459,
+      "grad_norm": 0.9672366976737976,
+      "learning_rate": 3e-05,
+      "loss": 1.3649,
+      "step": 5200
+    },
+    {
+      "epoch": 6.31516234733393,
+      "grad_norm": 0.912813663482666,
+      "learning_rate": 3e-05,
+      "loss": 1.3586,
+      "step": 5300
+    },
+    {
+      "epoch": 6.434316353887399,
+      "grad_norm": 0.9537220597267151,
+      "learning_rate": 3e-05,
+      "loss": 1.3888,
+      "step": 5400
+    },
+    {
+      "epoch": 6.55347036044087,
+      "grad_norm": 1.0322316884994507,
+      "learning_rate": 3e-05,
+      "loss": 1.3805,
+      "step": 5500
+    },
+    {
+      "epoch": 6.67262436699434,
+      "grad_norm": 0.9503114223480225,
+      "learning_rate": 3e-05,
+      "loss": 1.3797,
+      "step": 5600
+    },
+    {
+      "epoch": 6.79177837354781,
+      "grad_norm": 0.980711817741394,
+      "learning_rate": 3e-05,
+      "loss": 1.372,
+      "step": 5700
+    },
+    {
+      "epoch": 6.910932380101281,
+      "grad_norm": 0.9597466588020325,
+      "learning_rate": 3e-05,
+      "loss": 1.3843,
+      "step": 5800
+    },
+    {
+      "epoch": 6.999106344950849,
+      "eval_accuracy": 0.7285701943844493,
+      "eval_loss": 1.67252779006958,
+      "eval_runtime": 7.0918,
+      "eval_samples_per_second": 70.504,
+      "eval_steps_per_second": 8.883,
+      "step": 5874
+    },
+    {
+      "epoch": 7.030086386654752,
+      "grad_norm": 1.0293294191360474,
+      "learning_rate": 3e-05,
+      "loss": 1.3604,
+      "step": 5900
+    },
+    {
+      "epoch": 7.149240393208221,
+      "grad_norm": 1.1493397951126099,
+      "learning_rate": 3e-05,
+      "loss": 1.321,
+      "step": 6000
+    },
+    {
+      "epoch": 7.268394399761692,
+      "grad_norm": 1.0697908401489258,
+      "learning_rate": 3e-05,
+      "loss": 1.3199,
+      "step": 6100
+    },
+    {
+      "epoch": 7.387548406315163,
+      "grad_norm": 0.9961449503898621,
+      "learning_rate": 3e-05,
+      "loss": 1.3055,
+      "step": 6200
+    },
+    {
+      "epoch": 7.506702412868632,
+      "grad_norm": 0.9932839274406433,
+      "learning_rate": 3e-05,
+      "loss": 1.3357,
+      "step": 6300
+    },
+    {
+      "epoch": 7.625856419422103,
+      "grad_norm": 1.1646201610565186,
+      "learning_rate": 3e-05,
+      "loss": 1.3237,
+      "step": 6400
+    },
+    {
+      "epoch": 7.745010425975574,
+      "grad_norm": 1.049346685409546,
+      "learning_rate": 3e-05,
+      "loss": 1.3364,
+      "step": 6500
+    },
+    {
+      "epoch": 7.864164432529043,
+      "grad_norm": 1.0449471473693848,
+      "learning_rate": 3e-05,
+      "loss": 1.3321,
+      "step": 6600
+    },
+    {
+      "epoch": 7.983318439082514,
+      "grad_norm": 1.0868715047836304,
+      "learning_rate": 3e-05,
+      "loss": 1.3481,
+      "step": 6700
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.7304362850971923,
+      "eval_loss": 1.6380517482757568,
+      "eval_runtime": 7.0963,
+      "eval_samples_per_second": 70.459,
+      "eval_steps_per_second": 8.878,
+      "step": 6714
+    },
+    {
+      "epoch": 8.102472445635984,
+      "grad_norm": 1.170162558555603,
+      "learning_rate": 3e-05,
+      "loss": 1.2724,
+      "step": 6800
+    },
+    {
+      "epoch": 8.221626452189454,
+      "grad_norm": 1.0903751850128174,
+      "learning_rate": 3e-05,
+      "loss": 1.2611,
+      "step": 6900
+    },
+    {
+      "epoch": 8.340780458742925,
+      "grad_norm": 1.1591229438781738,
+      "learning_rate": 3e-05,
+      "loss": 1.2769,
+      "step": 7000
+    },
+    {
+      "epoch": 8.459934465296396,
+      "grad_norm": 1.0120233297348022,
+      "learning_rate": 3e-05,
+      "loss": 1.2806,
+      "step": 7100
+    },
+    {
+      "epoch": 8.579088471849866,
+      "grad_norm": 1.1763852834701538,
+      "learning_rate": 3e-05,
+      "loss": 1.3051,
+      "step": 7200
+    },
+    {
+      "epoch": 8.698242478403337,
+      "grad_norm": 1.1366691589355469,
+      "learning_rate": 3e-05,
+      "loss": 1.283,
+      "step": 7300
+    },
+    {
+      "epoch": 8.817396484956806,
+      "grad_norm": 1.1808778047561646,
+      "learning_rate": 3e-05,
+      "loss": 1.2863,
+      "step": 7400
+    },
+    {
+      "epoch": 8.936550491510276,
+      "grad_norm": 1.2300970554351807,
+      "learning_rate": 3e-05,
+      "loss": 1.2954,
+      "step": 7500
+    },
+    {
+      "epoch": 8.999702114983616,
+      "eval_accuracy": 0.7324362850971923,
+      "eval_loss": 1.6103289127349854,
+      "eval_runtime": 7.1148,
+      "eval_samples_per_second": 70.276,
+      "eval_steps_per_second": 8.855,
+      "step": 7553
+    },
+    {
+      "epoch": 9.055704498063747,
+      "grad_norm": 1.319324016571045,
+      "learning_rate": 3e-05,
+      "loss": 1.2613,
+      "step": 7600
+    },
+    {
+      "epoch": 9.174858504617218,
+      "grad_norm": 1.1479202508926392,
+      "learning_rate": 3e-05,
+      "loss": 1.2172,
+      "step": 7700
+    },
+    {
+      "epoch": 9.294012511170688,
+      "grad_norm": 1.147423505783081,
+      "learning_rate": 3e-05,
+      "loss": 1.2342,
+      "step": 7800
+    },
+    {
+      "epoch": 9.413166517724159,
+      "grad_norm": 1.2309343814849854,
+      "learning_rate": 3e-05,
+      "loss": 1.2386,
+      "step": 7900
+    },
+    {
+      "epoch": 9.53232052427763,
+      "grad_norm": 1.121598243713379,
+      "learning_rate": 3e-05,
+      "loss": 1.2312,
+      "step": 8000
+    },
+    {
+      "epoch": 9.651474530831099,
+      "grad_norm": 1.3166605234146118,
+      "learning_rate": 3e-05,
+      "loss": 1.2376,
+      "step": 8100
+    },
+    {
+      "epoch": 9.77062853738457,
+      "grad_norm": 1.2599198818206787,
+      "learning_rate": 3e-05,
+      "loss": 1.2457,
+      "step": 8200
+    },
+    {
+      "epoch": 9.88978254393804,
+      "grad_norm": 1.297348141670227,
+      "learning_rate": 3e-05,
+      "loss": 1.2426,
+      "step": 8300
+    },
+    {
+      "epoch": 9.999404229967233,
+      "eval_accuracy": 0.7338099352051836,
+      "eval_loss": 1.5784611701965332,
+      "eval_runtime": 7.1512,
+      "eval_samples_per_second": 69.918,
+      "eval_steps_per_second": 8.81,
+      "step": 8392
+    },
+    {
+      "epoch": 10.00893655049151,
+      "grad_norm": 1.33698308467865,
+      "learning_rate": 3e-05,
+      "loss": 1.2404,
+      "step": 8400
+    },
+    {
+      "epoch": 10.128090557044981,
+      "grad_norm": 1.469753384590149,
+      "learning_rate": 3e-05,
+      "loss": 1.1701,
+      "step": 8500
+    },
+    {
+      "epoch": 10.247244563598452,
+      "grad_norm": 1.8849149942398071,
+      "learning_rate": 3e-05,
+      "loss": 1.1834,
+      "step": 8600
+    },
+    {
+      "epoch": 10.36639857015192,
+      "grad_norm": 1.3924856185913086,
+      "learning_rate": 3e-05,
+      "loss": 1.1877,
+      "step": 8700
+    },
+    {
+      "epoch": 10.485552576705391,
+      "grad_norm": 1.3874456882476807,
+      "learning_rate": 3e-05,
+      "loss": 1.1965,
+      "step": 8800
+    },
+    {
+      "epoch": 10.604706583258862,
+      "grad_norm": 1.5605155229568481,
+      "learning_rate": 3e-05,
+      "loss": 1.1833,
+      "step": 8900
+    },
+    {
+      "epoch": 10.723860589812332,
+      "grad_norm": 1.2716716527938843,
+      "learning_rate": 3e-05,
+      "loss": 1.1923,
+      "step": 9000
+    },
+    {
+      "epoch": 10.843014596365803,
+      "grad_norm": 1.434921383857727,
+      "learning_rate": 3e-05,
+      "loss": 1.2105,
+      "step": 9100
+    },
+    {
+      "epoch": 10.962168602919274,
+      "grad_norm": 1.3238595724105835,
+      "learning_rate": 3e-05,
+      "loss": 1.2169,
+      "step": 9200
+    },
+    {
+      "epoch": 10.99910634495085,
+      "eval_accuracy": 0.7355291576673866,
+      "eval_loss": 1.5435452461242676,
+      "eval_runtime": 7.5254,
+      "eval_samples_per_second": 66.442,
+      "eval_steps_per_second": 8.372,
+      "step": 9231
+    },
+    {
+      "epoch": 11.081322609472744,
+      "grad_norm": 1.414612054824829,
+      "learning_rate": 3e-05,
+      "loss": 1.1529,
+      "step": 9300
+    },
+    {
+      "epoch": 11.200476616026213,
+      "grad_norm": 1.3387949466705322,
+      "learning_rate": 3e-05,
+      "loss": 1.1356,
+      "step": 9400
+    },
+    {
+      "epoch": 11.319630622579684,
+      "grad_norm": 1.312972068786621,
+      "learning_rate": 3e-05,
+      "loss": 1.1461,
+      "step": 9500
+    },
+    {
+      "epoch": 11.438784629133155,
+      "grad_norm": 1.5637264251708984,
+      "learning_rate": 3e-05,
+      "loss": 1.1396,
+      "step": 9600
+    },
+    {
+      "epoch": 11.557938635686625,
+      "grad_norm": 1.419885277748108,
+      "learning_rate": 3e-05,
+      "loss": 1.16,
+      "step": 9700
+    },
+    {
+      "epoch": 11.677092642240096,
+      "grad_norm": 1.555853009223938,
+      "learning_rate": 3e-05,
+      "loss": 1.1438,
+      "step": 9800
+    },
+    {
+      "epoch": 11.796246648793566,
+      "grad_norm": 1.543087124824524,
+      "learning_rate": 3e-05,
+      "loss": 1.1596,
+      "step": 9900
+    },
+    {
+      "epoch": 11.915400655347035,
+      "grad_norm": 1.6761687994003296,
+      "learning_rate": 3e-05,
+      "loss": 1.167,
+      "step": 10000
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.7374902807775378,
+      "eval_loss": 1.5215668678283691,
+      "eval_runtime": 7.0414,
+      "eval_samples_per_second": 71.008,
+      "eval_steps_per_second": 8.947,
+      "step": 10071
+    },
+    {
+      "epoch": 12.034554661900506,
+      "grad_norm": 1.6120909452438354,
+      "learning_rate": 3e-05,
+      "loss": 1.1362,
+      "step": 10100
+    },
+    {
+      "epoch": 12.153708668453977,
+      "grad_norm": 1.432334542274475,
+      "learning_rate": 3e-05,
+      "loss": 1.0834,
+      "step": 10200
+    },
+    {
+      "epoch": 12.272862675007447,
+      "grad_norm": 1.400549292564392,
+      "learning_rate": 3e-05,
+      "loss": 1.096,
+      "step": 10300
+    },
+    {
+      "epoch": 12.392016681560918,
+      "grad_norm": 1.365933895111084,
+      "learning_rate": 3e-05,
+      "loss": 1.0918,
+      "step": 10400
+    },
+    {
+      "epoch": 12.511170688114388,
+      "grad_norm": 1.9454312324523926,
+      "learning_rate": 3e-05,
+      "loss": 1.0951,
+      "step": 10500
+    },
+    {
+      "epoch": 12.63032469466786,
+      "grad_norm": 1.6147247552871704,
+      "learning_rate": 3e-05,
+      "loss": 1.115,
+      "step": 10600
+    },
+    {
+      "epoch": 12.749478701221328,
+      "grad_norm": 1.5626009702682495,
+      "learning_rate": 3e-05,
+      "loss": 1.118,
+      "step": 10700
+    },
+    {
+      "epoch": 12.868632707774799,
+      "grad_norm": 1.6438124179840088,
+      "learning_rate": 3e-05,
+      "loss": 1.1273,
+      "step": 10800
+    },
+    {
+      "epoch": 12.98778671432827,
+      "grad_norm": 1.5316485166549683,
+      "learning_rate": 3e-05,
+      "loss": 1.1276,
+      "step": 10900
+    },
+    {
+      "epoch": 12.999702114983616,
+      "eval_accuracy": 0.7392181425485961,
+      "eval_loss": 1.4949097633361816,
+      "eval_runtime": 7.1295,
+      "eval_samples_per_second": 70.131,
+      "eval_steps_per_second": 8.837,
+      "step": 10910
+    },
+    {
+      "epoch": 13.10694072088174,
+      "grad_norm": 1.6530476808547974,
+      "learning_rate": 3e-05,
+      "loss": 1.0685,
+      "step": 11000
+    },
+    {
+      "epoch": 13.22609472743521,
+      "grad_norm": 1.571428894996643,
+      "learning_rate": 3e-05,
+      "loss": 1.0333,
+      "step": 11100
+    },
+    {
+      "epoch": 13.345248733988681,
+      "grad_norm": 1.5977364778518677,
+      "learning_rate": 3e-05,
+      "loss": 1.0519,
+      "step": 11200
+    },
+    {
+      "epoch": 13.46440274054215,
+      "grad_norm": 1.8079047203063965,
+      "learning_rate": 3e-05,
+      "loss": 1.0746,
+      "step": 11300
+    },
+    {
+      "epoch": 13.58355674709562,
+      "grad_norm": 1.59292733669281,
+      "learning_rate": 3e-05,
+      "loss": 1.0751,
+      "step": 11400
+    },
+    {
+      "epoch": 13.702710753649091,
+      "grad_norm": 1.6971626281738281,
+      "learning_rate": 3e-05,
+      "loss": 1.0613,
+      "step": 11500
+    },
+    {
+      "epoch": 13.821864760202562,
+      "grad_norm": 1.7633167505264282,
+      "learning_rate": 3e-05,
+      "loss": 1.0639,
+      "step": 11600
+    },
+    {
+      "epoch": 13.941018766756033,
+      "grad_norm": 1.5861283540725708,
+      "learning_rate": 3e-05,
+      "loss": 1.0819,
+      "step": 11700
+    },
+    {
+      "epoch": 13.999404229967233,
+      "eval_accuracy": 0.7406004319654428,
+      "eval_loss": 1.4818942546844482,
+      "eval_runtime": 7.4071,
+      "eval_samples_per_second": 67.503,
+      "eval_steps_per_second": 8.505,
+      "step": 11749
+    },
+    {
+      "epoch": 14.060172773309503,
+      "grad_norm": 1.7363096475601196,
+      "learning_rate": 3e-05,
+      "loss": 1.059,
+      "step": 11800
+    },
+    {
+      "epoch": 14.179326779862972,
+      "grad_norm": 1.8236732482910156,
+      "learning_rate": 3e-05,
+      "loss": 1.0138,
+      "step": 11900
+    },
+    {
+      "epoch": 14.298480786416443,
+      "grad_norm": 1.7334719896316528,
+      "learning_rate": 3e-05,
+      "loss": 1.0069,
+      "step": 12000
+    },
+    {
+      "epoch": 14.417634792969913,
+      "grad_norm": 1.6551170349121094,
+      "learning_rate": 3e-05,
+      "loss": 1.0113,
+      "step": 12100
+    },
+    {
+      "epoch": 14.536788799523384,
+      "grad_norm": 1.630021095275879,
+      "learning_rate": 3e-05,
+      "loss": 1.0346,
+      "step": 12200
+    },
+    {
+      "epoch": 14.655942806076855,
+      "grad_norm": 1.7144087553024292,
+      "learning_rate": 3e-05,
+      "loss": 1.0095,
+      "step": 12300
+    },
+    {
+      "epoch": 14.775096812630325,
+      "grad_norm": 1.7622939348220825,
+      "learning_rate": 3e-05,
+      "loss": 1.0338,
+      "step": 12400
+    },
+    {
+      "epoch": 14.894250819183796,
+      "grad_norm": 1.7320427894592285,
+      "learning_rate": 3e-05,
+      "loss": 1.032,
+      "step": 12500
+    },
+    {
+      "epoch": 14.99910634495085,
+      "eval_accuracy": 0.7426090712742981,
+      "eval_loss": 1.4468342065811157,
+      "eval_runtime": 7.1972,
+      "eval_samples_per_second": 69.471,
+      "eval_steps_per_second": 8.753,
+      "step": 12588
+    },
+    {
+      "epoch": 15.01787310098302,
+      "grad_norm": 1.8335142135620117,
+      "learning_rate": 3e-05,
+      "loss": 0.9336,
+      "step": 12600
+    },
+    {
+      "epoch": 15.137027107536491,
+      "grad_norm": 1.7047183513641357,
+      "learning_rate": 3e-05,
+      "loss": 0.9394,
+      "step": 12700
+    },
+    {
+      "epoch": 15.256181114089962,
+      "grad_norm": 1.5435420274734497,
+      "learning_rate": 3e-05,
+      "loss": 0.9804,
+      "step": 12800
+    },
+    {
+      "epoch": 15.375335120643431,
+      "grad_norm": 1.994692325592041,
+      "learning_rate": 3e-05,
+      "loss": 0.9765,
+      "step": 12900
+    },
+    {
+      "epoch": 15.494489127196902,
+      "grad_norm": 2.072622537612915,
+      "learning_rate": 3e-05,
+      "loss": 0.9955,
+      "step": 13000
+    },
+    {
+      "epoch": 15.613643133750372,
+      "grad_norm": 2.14208722114563,
+      "learning_rate": 3e-05,
+      "loss": 0.9814,
+      "step": 13100
+    },
+    {
+      "epoch": 15.732797140303843,
+      "grad_norm": 1.855945110321045,
+      "learning_rate": 3e-05,
+      "loss": 0.9939,
+      "step": 13200
+    },
+    {
+      "epoch": 15.851951146857314,
+      "grad_norm": 1.8408160209655762,
+      "learning_rate": 3e-05,
+      "loss": 0.9853,
+      "step": 13300
+    },
+    {
+      "epoch": 15.971105153410784,
+      "grad_norm": 1.8263169527053833,
+      "learning_rate": 3e-05,
+      "loss": 0.9981,
+      "step": 13400
+    },
+    {
+      "epoch": 15.999702114983616,
+      "eval_accuracy": 0.7442721382289417,
+      "eval_loss": 1.4091745615005493,
+      "eval_runtime": 8.0125,
+      "eval_samples_per_second": 62.403,
+      "eval_steps_per_second": 7.863,
+      "step": 13424
+    },
+    {
+      "epoch": 16.090259159964255,
+      "grad_norm": 2.0035765171051025,
+      "learning_rate": 3e-05,
+      "loss": 0.9524,
+      "step": 13500
+    },
+    {
+      "epoch": 16.209413166517724,
+      "grad_norm": 2.207390785217285,
+      "learning_rate": 3e-05,
+      "loss": 0.9136,
+      "step": 13600
+    },
+    {
+      "epoch": 16.328567173071196,
+      "grad_norm": 1.8691837787628174,
+      "learning_rate": 3e-05,
+      "loss": 0.9374,
+      "step": 13700
+    },
+    {
+      "epoch": 16.447721179624665,
+      "grad_norm": 1.9585497379302979,
+      "learning_rate": 3e-05,
+      "loss": 0.9427,
+      "step": 13800
+    },
+    {
+      "epoch": 16.566875186178134,
+      "grad_norm": 2.1230435371398926,
+      "learning_rate": 3e-05,
+      "loss": 0.9485,
+      "step": 13900
+    },
+    {
+      "epoch": 16.686029192731606,
+      "grad_norm": 1.8812588453292847,
+      "learning_rate": 3e-05,
+      "loss": 0.9474,
+      "step": 14000
+    },
+    {
+      "epoch": 16.805183199285075,
+      "grad_norm": 2.00522518157959,
+      "learning_rate": 3e-05,
+      "loss": 0.9554,
+      "step": 14100
+    },
+    {
+      "epoch": 16.924337205838548,
+      "grad_norm": 2.1199073791503906,
+      "learning_rate": 3e-05,
+      "loss": 0.9523,
+      "step": 14200
+    },
+    {
+      "epoch": 16.999404229967233,
+      "eval_accuracy": 0.7462505399568035,
+      "eval_loss": 1.394910454750061,
+      "eval_runtime": 7.7306,
+      "eval_samples_per_second": 64.678,
+      "eval_steps_per_second": 8.149,
+      "step": 14263
+    },
+    {
+      "epoch": 17.043491212392016,
+      "grad_norm": 1.9974786043167114,
+      "learning_rate": 3e-05,
+      "loss": 0.9456,
+      "step": 14300
+    },
+    {
+      "epoch": 17.16264521894549,
+      "grad_norm": 1.8176357746124268,
+      "learning_rate": 3e-05,
+      "loss": 0.8874,
+      "step": 14400
+    },
+    {
+      "epoch": 17.281799225498958,
+      "grad_norm": 2.0692601203918457,
+      "learning_rate": 3e-05,
+      "loss": 0.9041,
+      "step": 14500
+    },
+    {
+      "epoch": 17.400953232052427,
+      "grad_norm": 2.0602495670318604,
+      "learning_rate": 3e-05,
+      "loss": 0.9052,
+      "step": 14600
+    },
+    {
+      "epoch": 17.5201072386059,
+      "grad_norm": 2.2935659885406494,
+      "learning_rate": 3e-05,
+      "loss": 0.9026,
+      "step": 14700
+    },
+    {
+      "epoch": 17.639261245159368,
+      "grad_norm": 2.3279073238372803,
+      "learning_rate": 3e-05,
+      "loss": 0.8857,
+      "step": 14800
+    },
+    {
+      "epoch": 17.75841525171284,
+      "grad_norm": 2.5026357173919678,
+      "learning_rate": 3e-05,
+      "loss": 0.9163,
+      "step": 14900
+    },
+    {
+      "epoch": 17.87756925826631,
+      "grad_norm": 1.9783616065979004,
+      "learning_rate": 3e-05,
+      "loss": 0.907,
+      "step": 15000
+    },
+    {
+      "epoch": 17.996723264819778,
+      "grad_norm": 1.7425028085708618,
+      "learning_rate": 3e-05,
+      "loss": 0.9281,
+      "step": 15100
+    },
+    {
+      "epoch": 17.99910634495085,
+      "eval_accuracy": 0.7477105831533477,
+      "eval_loss": 1.3853000402450562,
+      "eval_runtime": 7.8211,
+      "eval_samples_per_second": 63.93,
+      "eval_steps_per_second": 8.055,
+      "step": 15102
+    },
+    {
+      "epoch": 18.11587727137325,
+      "grad_norm": 2.080223798751831,
+      "learning_rate": 3e-05,
+      "loss": 0.8379,
+      "step": 15200
+    },
+    {
+      "epoch": 18.23503127792672,
+      "grad_norm": 2.135795831680298,
+      "learning_rate": 3e-05,
+      "loss": 0.857,
+      "step": 15300
+    },
+    {
+      "epoch": 18.35418528448019,
+      "grad_norm": 1.939634919166565,
+      "learning_rate": 3e-05,
+      "loss": 0.8646,
+      "step": 15400
+    },
+    {
+      "epoch": 18.47333929103366,
+      "grad_norm": 2.035285234451294,
+      "learning_rate": 3e-05,
+      "loss": 0.8725,
+      "step": 15500
+    },
+    {
+      "epoch": 18.592493297587133,
+      "grad_norm": 1.9423282146453857,
+      "learning_rate": 3e-05,
+      "loss": 0.8773,
+      "step": 15600
+    },
+    {
+      "epoch": 18.7116473041406,
+      "grad_norm": 1.8535542488098145,
+      "learning_rate": 3e-05,
+      "loss": 0.8783,
+      "step": 15700
+    },
+    {
+      "epoch": 18.83080131069407,
+      "grad_norm": 1.8560757637023926,
+      "learning_rate": 3e-05,
+      "loss": 0.8783,
+      "step": 15800
+    },
+    {
+      "epoch": 18.949955317247543,
+      "grad_norm": 2.0741496086120605,
+      "learning_rate": 3e-05,
+      "loss": 0.8664,
+      "step": 15900
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.7496069114470842,
+      "eval_loss": 1.366912603378296,
+      "eval_runtime": 7.6548,
+      "eval_samples_per_second": 65.318,
+      "eval_steps_per_second": 8.23,
+      "step": 15942
+    },
+    {
+      "epoch": 19.069109323801012,
+      "grad_norm": 2.1111717224121094,
+      "learning_rate": 3e-05,
+      "loss": 0.862,
+      "step": 16000
+    },
+    {
+      "epoch": 19.188263330354484,
+      "grad_norm": 2.0599365234375,
+      "learning_rate": 3e-05,
+      "loss": 0.8021,
+      "step": 16100
+    },
+    {
+      "epoch": 19.307417336907953,
+      "grad_norm": 1.752618432044983,
+      "learning_rate": 3e-05,
+      "loss": 0.8294,
+      "step": 16200
+    },
+    {
+      "epoch": 19.426571343461426,
+      "grad_norm": 2.0611188411712646,
+      "learning_rate": 3e-05,
+      "loss": 0.8242,
+      "step": 16300
+    },
+    {
+      "epoch": 19.545725350014894,
+      "grad_norm": 2.7928466796875,
+      "learning_rate": 3e-05,
+      "loss": 0.8313,
+      "step": 16400
+    },
+    {
+      "epoch": 19.664879356568363,
+      "grad_norm": 2.2697372436523438,
+      "learning_rate": 3e-05,
+      "loss": 0.8389,
+      "step": 16500
+    },
+    {
+      "epoch": 19.784033363121836,
+      "grad_norm": 1.9462206363677979,
+      "learning_rate": 3e-05,
+      "loss": 0.8413,
+      "step": 16600
+    },
+    {
+      "epoch": 19.903187369675305,
+      "grad_norm": 1.8066469430923462,
+      "learning_rate": 3e-05,
+      "loss": 0.8537,
+      "step": 16700
+    },
+    {
+      "epoch": 19.998510574918082,
+      "eval_accuracy": 0.7512829373650108,
+      "eval_loss": 1.3258286714553833,
+      "eval_runtime": 7.9417,
+      "eval_samples_per_second": 62.959,
+      "eval_steps_per_second": 7.933,
+      "step": 16780
+    },
+    {
+      "epoch": 19.998510574918082,
+      "step": 16780,
+      "total_flos": 1.3733500524072796e+18,
+      "train_loss": 0.22626538049336412,
+      "train_runtime": 9900.7803,
+      "train_samples_per_second": 54.246,
+      "train_steps_per_second": 1.695
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 16780,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
+  "save_steps": 500,
+  "total_flos": 1.3733500524072796e+18,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}