End of training

Browse files

Files changed (6) hide show

README.md +14 -2
all_results.json +16 -0
eval_results.json +10 -0
tokenizer.json +1 -6
train_results.json +9 -0
trainer_state.json +686 -0

README.md CHANGED Viewed

@@ -3,11 +3,23 @@ license: other
 base_model: Qwen/Qwen1.5-4B
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
 model-index:
 - name: lmind_nq_train6000_eval6489_v1_docidx_v3_Qwen_Qwen1.5-4B_5e-5_lora2
-  results: []
 library_name: peft
 ---
@@ -16,7 +28,7 @@ should probably proofread and complete it, then remove this comment. -->
 # lmind_nq_train6000_eval6489_v1_docidx_v3_Qwen_Qwen1.5-4B_5e-5_lora2
-This model is a fine-tuned version of [Qwen/Qwen1.5-4B](https://huggingface.co/Qwen/Qwen1.5-4B) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 5.0355
 - Accuracy: 0.4273

 base_model: Qwen/Qwen1.5-4B
 tags:
 - generated_from_trainer
+datasets:
+- tyzhu/lmind_nq_train6000_eval6489_v1_docidx_v3
 metrics:
 - accuracy
 model-index:
 - name: lmind_nq_train6000_eval6489_v1_docidx_v3_Qwen_Qwen1.5-4B_5e-5_lora2
+  results:
+  - task:
+      name: Causal Language Modeling
+      type: text-generation
+    dataset:
+      name: tyzhu/lmind_nq_train6000_eval6489_v1_docidx_v3
+      type: tyzhu/lmind_nq_train6000_eval6489_v1_docidx_v3
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.42728205128205127
 library_name: peft
 ---
 # lmind_nq_train6000_eval6489_v1_docidx_v3_Qwen_Qwen1.5-4B_5e-5_lora2
+This model is a fine-tuned version of [Qwen/Qwen1.5-4B](https://huggingface.co/Qwen/Qwen1.5-4B) on the tyzhu/lmind_nq_train6000_eval6489_v1_docidx_v3 dataset.
 It achieves the following results on the evaluation set:
 - Loss: 5.0355
 - Accuracy: 0.4273

all_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "epoch": 19.970717423133237,
+    "eval_accuracy": 0.42728205128205127,
+    "eval_loss": 5.035463809967041,
+    "eval_runtime": 5.6207,
+    "eval_samples": 500,
+    "eval_samples_per_second": 88.957,
+    "eval_steps_per_second": 11.209,
+    "perplexity": 153.77089654928625,
+    "total_flos": 5.856471132500132e+17,
+    "train_loss": 1.188865839770812,
+    "train_runtime": 15402.4164,
+    "train_samples": 10925,
+    "train_samples_per_second": 14.186,
+    "train_steps_per_second": 0.443
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 19.970717423133237,
+    "eval_accuracy": 0.42728205128205127,
+    "eval_loss": 5.035463809967041,
+    "eval_runtime": 5.6207,
+    "eval_samples": 500,
+    "eval_samples_per_second": 88.957,
+    "eval_steps_per_second": 11.209,
+    "perplexity": 153.77089654928625
+}

tokenizer.json CHANGED Viewed

@@ -1,11 +1,6 @@
 {
   "version": "1.0",
-  "truncation": {
-    "direction": "Right",
-    "max_length": 1024,
-    "strategy": "LongestFirst",
-    "stride": 0
-  },
   "padding": null,
   "added_tokens": [
     {

 {
   "version": "1.0",
+  "truncation": null,
   "padding": null,
   "added_tokens": [
     {

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 19.970717423133237,
+    "total_flos": 5.856471132500132e+17,
+    "train_loss": 1.188865839770812,
+    "train_runtime": 15402.4164,
+    "train_samples": 10925,
+    "train_samples_per_second": 14.186,
+    "train_steps_per_second": 0.443
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,686 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 19.970717423133237,
+  "eval_steps": 500,
+  "global_step": 6820,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.29282576866764276,
+      "grad_norm": 0.25126561522483826,
+      "learning_rate": 5e-05,
+      "loss": 2.0212,
+      "step": 100
+    },
+    {
+      "epoch": 0.5856515373352855,
+      "grad_norm": 0.2594548463821411,
+      "learning_rate": 5e-05,
+      "loss": 1.9601,
+      "step": 200
+    },
+    {
+      "epoch": 0.8784773060029283,
+      "grad_norm": 0.267731249332428,
+      "learning_rate": 5e-05,
+      "loss": 1.9626,
+      "step": 300
+    },
+    {
+      "epoch": 0.9985358711566618,
+      "eval_accuracy": 0.4726666666666667,
+      "eval_loss": 2.9919469356536865,
+      "eval_runtime": 5.796,
+      "eval_samples_per_second": 86.266,
+      "eval_steps_per_second": 10.87,
+      "step": 341
+    },
+    {
+      "epoch": 1.171303074670571,
+      "grad_norm": 0.3525784909725189,
+      "learning_rate": 5e-05,
+      "loss": 1.9477,
+      "step": 400
+    },
+    {
+      "epoch": 1.4641288433382138,
+      "grad_norm": 0.3649675250053406,
+      "learning_rate": 5e-05,
+      "loss": 1.9044,
+      "step": 500
+    },
+    {
+      "epoch": 1.7569546120058566,
+      "grad_norm": 0.4195611774921417,
+      "learning_rate": 5e-05,
+      "loss": 1.9158,
+      "step": 600
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.47374358974358977,
+      "eval_loss": 2.9863882064819336,
+      "eval_runtime": 5.61,
+      "eval_samples_per_second": 89.126,
+      "eval_steps_per_second": 11.23,
+      "step": 683
+    },
+    {
+      "epoch": 2.049780380673499,
+      "grad_norm": 0.41343557834625244,
+      "learning_rate": 5e-05,
+      "loss": 1.9046,
+      "step": 700
+    },
+    {
+      "epoch": 2.342606149341142,
+      "grad_norm": 0.49672290682792664,
+      "learning_rate": 5e-05,
+      "loss": 1.8367,
+      "step": 800
+    },
+    {
+      "epoch": 2.6354319180087846,
+      "grad_norm": 0.5728709697723389,
+      "learning_rate": 5e-05,
+      "loss": 1.8573,
+      "step": 900
+    },
+    {
+      "epoch": 2.9282576866764276,
+      "grad_norm": 0.5571523904800415,
+      "learning_rate": 5e-05,
+      "loss": 1.8622,
+      "step": 1000
+    },
+    {
+      "epoch": 2.998535871156662,
+      "eval_accuracy": 0.47102564102564104,
+      "eval_loss": 3.0419609546661377,
+      "eval_runtime": 5.7173,
+      "eval_samples_per_second": 87.454,
+      "eval_steps_per_second": 11.019,
+      "step": 1024
+    },
+    {
+      "epoch": 3.22108345534407,
+      "grad_norm": 0.5878937840461731,
+      "learning_rate": 5e-05,
+      "loss": 1.7839,
+      "step": 1100
+    },
+    {
+      "epoch": 3.513909224011713,
+      "grad_norm": 0.6718343496322632,
+      "learning_rate": 5e-05,
+      "loss": 1.7601,
+      "step": 1200
+    },
+    {
+      "epoch": 3.8067349926793557,
+      "grad_norm": 0.7238633632659912,
+      "learning_rate": 5e-05,
+      "loss": 1.786,
+      "step": 1300
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.46615384615384614,
+      "eval_loss": 3.1526739597320557,
+      "eval_runtime": 5.5502,
+      "eval_samples_per_second": 90.087,
+      "eval_steps_per_second": 11.351,
+      "step": 1366
+    },
+    {
+      "epoch": 4.099560761346998,
+      "grad_norm": 0.8255831599235535,
+      "learning_rate": 5e-05,
+      "loss": 1.7459,
+      "step": 1400
+    },
+    {
+      "epoch": 4.392386530014641,
+      "grad_norm": 0.7857334613800049,
+      "learning_rate": 5e-05,
+      "loss": 1.6799,
+      "step": 1500
+    },
+    {
+      "epoch": 4.685212298682284,
+      "grad_norm": 0.8550590872764587,
+      "learning_rate": 5e-05,
+      "loss": 1.68,
+      "step": 1600
+    },
+    {
+      "epoch": 4.978038067349927,
+      "grad_norm": 0.9140918254852295,
+      "learning_rate": 5e-05,
+      "loss": 1.7019,
+      "step": 1700
+    },
+    {
+      "epoch": 4.998535871156662,
+      "eval_accuracy": 0.4634358974358974,
+      "eval_loss": 3.381866693496704,
+      "eval_runtime": 5.9878,
+      "eval_samples_per_second": 83.503,
+      "eval_steps_per_second": 10.521,
+      "step": 1707
+    },
+    {
+      "epoch": 5.270863836017569,
+      "grad_norm": 0.958633542060852,
+      "learning_rate": 5e-05,
+      "loss": 1.6064,
+      "step": 1800
+    },
+    {
+      "epoch": 5.563689604685212,
+      "grad_norm": 0.9240352511405945,
+      "learning_rate": 5e-05,
+      "loss": 1.5911,
+      "step": 1900
+    },
+    {
+      "epoch": 5.856515373352855,
+      "grad_norm": 0.971266508102417,
+      "learning_rate": 5e-05,
+      "loss": 1.6036,
+      "step": 2000
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.45887179487179486,
+      "eval_loss": 3.4968838691711426,
+      "eval_runtime": 5.9643,
+      "eval_samples_per_second": 83.832,
+      "eval_steps_per_second": 10.563,
+      "step": 2049
+    },
+    {
+      "epoch": 6.149341142020498,
+      "grad_norm": 1.107942819595337,
+      "learning_rate": 5e-05,
+      "loss": 1.5305,
+      "step": 2100
+    },
+    {
+      "epoch": 6.44216691068814,
+      "grad_norm": 1.133771300315857,
+      "learning_rate": 5e-05,
+      "loss": 1.4897,
+      "step": 2200
+    },
+    {
+      "epoch": 6.734992679355783,
+      "grad_norm": 1.037837266921997,
+      "learning_rate": 5e-05,
+      "loss": 1.5175,
+      "step": 2300
+    },
+    {
+      "epoch": 6.998535871156662,
+      "eval_accuracy": 0.45774358974358975,
+      "eval_loss": 3.64119553565979,
+      "eval_runtime": 5.7326,
+      "eval_samples_per_second": 87.22,
+      "eval_steps_per_second": 10.99,
+      "step": 2390
+    },
+    {
+      "epoch": 7.027818448023426,
+      "grad_norm": 1.2089684009552002,
+      "learning_rate": 5e-05,
+      "loss": 1.4929,
+      "step": 2400
+    },
+    {
+      "epoch": 7.320644216691068,
+      "grad_norm": 1.2794983386993408,
+      "learning_rate": 5e-05,
+      "loss": 1.3851,
+      "step": 2500
+    },
+    {
+      "epoch": 7.613469985358711,
+      "grad_norm": 1.2079399824142456,
+      "learning_rate": 5e-05,
+      "loss": 1.4075,
+      "step": 2600
+    },
+    {
+      "epoch": 7.906295754026354,
+      "grad_norm": 1.1294775009155273,
+      "learning_rate": 5e-05,
+      "loss": 1.4007,
+      "step": 2700
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.45374358974358975,
+      "eval_loss": 3.831012487411499,
+      "eval_runtime": 5.871,
+      "eval_samples_per_second": 85.164,
+      "eval_steps_per_second": 10.731,
+      "step": 2732
+    },
+    {
+      "epoch": 8.199121522693996,
+      "grad_norm": 1.3208889961242676,
+      "learning_rate": 5e-05,
+      "loss": 1.3076,
+      "step": 2800
+    },
+    {
+      "epoch": 8.49194729136164,
+      "grad_norm": 1.345077395439148,
+      "learning_rate": 5e-05,
+      "loss": 1.2867,
+      "step": 2900
+    },
+    {
+      "epoch": 8.784773060029282,
+      "grad_norm": 1.4141809940338135,
+      "learning_rate": 5e-05,
+      "loss": 1.326,
+      "step": 3000
+    },
+    {
+      "epoch": 8.998535871156662,
+      "eval_accuracy": 0.44866666666666666,
+      "eval_loss": 3.9176931381225586,
+      "eval_runtime": 5.7802,
+      "eval_samples_per_second": 86.502,
+      "eval_steps_per_second": 10.899,
+      "step": 3073
+    },
+    {
+      "epoch": 9.077598828696924,
+      "grad_norm": 1.3622578382492065,
+      "learning_rate": 5e-05,
+      "loss": 1.2725,
+      "step": 3100
+    },
+    {
+      "epoch": 9.370424597364568,
+      "grad_norm": 1.632681965827942,
+      "learning_rate": 5e-05,
+      "loss": 1.1894,
+      "step": 3200
+    },
+    {
+      "epoch": 9.66325036603221,
+      "grad_norm": 1.5909069776535034,
+      "learning_rate": 5e-05,
+      "loss": 1.1959,
+      "step": 3300
+    },
+    {
+      "epoch": 9.956076134699854,
+      "grad_norm": 1.5544390678405762,
+      "learning_rate": 5e-05,
+      "loss": 1.231,
+      "step": 3400
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.4450769230769231,
+      "eval_loss": 4.066500186920166,
+      "eval_runtime": 5.7535,
+      "eval_samples_per_second": 86.904,
+      "eval_steps_per_second": 10.95,
+      "step": 3415
+    },
+    {
+      "epoch": 10.248901903367496,
+      "grad_norm": 1.678530216217041,
+      "learning_rate": 5e-05,
+      "loss": 1.1034,
+      "step": 3500
+    },
+    {
+      "epoch": 10.541727672035138,
+      "grad_norm": 1.7260808944702148,
+      "learning_rate": 5e-05,
+      "loss": 1.0997,
+      "step": 3600
+    },
+    {
+      "epoch": 10.834553440702782,
+      "grad_norm": 1.8344779014587402,
+      "learning_rate": 5e-05,
+      "loss": 1.1298,
+      "step": 3700
+    },
+    {
+      "epoch": 10.998535871156662,
+      "eval_accuracy": 0.44,
+      "eval_loss": 4.177348613739014,
+      "eval_runtime": 5.7468,
+      "eval_samples_per_second": 87.005,
+      "eval_steps_per_second": 10.963,
+      "step": 3756
+    },
+    {
+      "epoch": 11.127379209370424,
+      "grad_norm": 1.9434887170791626,
+      "learning_rate": 5e-05,
+      "loss": 1.0734,
+      "step": 3800
+    },
+    {
+      "epoch": 11.420204978038067,
+      "grad_norm": 1.9285024404525757,
+      "learning_rate": 5e-05,
+      "loss": 1.0046,
+      "step": 3900
+    },
+    {
+      "epoch": 11.71303074670571,
+      "grad_norm": 1.9000359773635864,
+      "learning_rate": 5e-05,
+      "loss": 1.0276,
+      "step": 4000
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.43784615384615383,
+      "eval_loss": 4.287516117095947,
+      "eval_runtime": 5.6257,
+      "eval_samples_per_second": 88.878,
+      "eval_steps_per_second": 11.199,
+      "step": 4098
+    },
+    {
+      "epoch": 12.005856515373353,
+      "grad_norm": 1.707350492477417,
+      "learning_rate": 5e-05,
+      "loss": 1.0392,
+      "step": 4100
+    },
+    {
+      "epoch": 12.298682284040996,
+      "grad_norm": 1.9523829221725464,
+      "learning_rate": 5e-05,
+      "loss": 0.9029,
+      "step": 4200
+    },
+    {
+      "epoch": 12.591508052708638,
+      "grad_norm": 1.9846230745315552,
+      "learning_rate": 5e-05,
+      "loss": 0.9324,
+      "step": 4300
+    },
+    {
+      "epoch": 12.88433382137628,
+      "grad_norm": 2.4833240509033203,
+      "learning_rate": 5e-05,
+      "loss": 0.9525,
+      "step": 4400
+    },
+    {
+      "epoch": 12.998535871156662,
+      "eval_accuracy": 0.4351794871794872,
+      "eval_loss": 4.42730188369751,
+      "eval_runtime": 5.835,
+      "eval_samples_per_second": 85.69,
+      "eval_steps_per_second": 10.797,
+      "step": 4439
+    },
+    {
+      "epoch": 13.177159590043924,
+      "grad_norm": 1.8055790662765503,
+      "learning_rate": 5e-05,
+      "loss": 0.8664,
+      "step": 4500
+    },
+    {
+      "epoch": 13.469985358711567,
+      "grad_norm": 2.5267982482910156,
+      "learning_rate": 5e-05,
+      "loss": 0.8457,
+      "step": 4600
+    },
+    {
+      "epoch": 13.762811127379209,
+      "grad_norm": 2.2086236476898193,
+      "learning_rate": 5e-05,
+      "loss": 0.8616,
+      "step": 4700
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.43241025641025643,
+      "eval_loss": 4.44843053817749,
+      "eval_runtime": 5.7935,
+      "eval_samples_per_second": 86.303,
+      "eval_steps_per_second": 10.874,
+      "step": 4781
+    },
+    {
+      "epoch": 14.055636896046853,
+      "grad_norm": 2.44354510307312,
+      "learning_rate": 5e-05,
+      "loss": 0.8402,
+      "step": 4800
+    },
+    {
+      "epoch": 14.348462664714495,
+      "grad_norm": 2.1125502586364746,
+      "learning_rate": 5e-05,
+      "loss": 0.7608,
+      "step": 4900
+    },
+    {
+      "epoch": 14.641288433382137,
+      "grad_norm": 2.1573476791381836,
+      "learning_rate": 5e-05,
+      "loss": 0.7736,
+      "step": 5000
+    },
+    {
+      "epoch": 14.93411420204978,
+      "grad_norm": 2.4622254371643066,
+      "learning_rate": 5e-05,
+      "loss": 0.7799,
+      "step": 5100
+    },
+    {
+      "epoch": 14.998535871156662,
+      "eval_accuracy": 0.43133333333333335,
+      "eval_loss": 4.622844219207764,
+      "eval_runtime": 5.87,
+      "eval_samples_per_second": 85.178,
+      "eval_steps_per_second": 10.732,
+      "step": 5122
+    },
+    {
+      "epoch": 15.226939970717423,
+      "grad_norm": 2.4932661056518555,
+      "learning_rate": 5e-05,
+      "loss": 0.7057,
+      "step": 5200
+    },
+    {
+      "epoch": 15.519765739385067,
+      "grad_norm": 2.3488550186157227,
+      "learning_rate": 5e-05,
+      "loss": 0.686,
+      "step": 5300
+    },
+    {
+      "epoch": 15.812591508052709,
+      "grad_norm": 2.2296109199523926,
+      "learning_rate": 5e-05,
+      "loss": 0.7084,
+      "step": 5400
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.4303076923076923,
+      "eval_loss": 4.723867416381836,
+      "eval_runtime": 5.6093,
+      "eval_samples_per_second": 89.137,
+      "eval_steps_per_second": 11.231,
+      "step": 5464
+    },
+    {
+      "epoch": 16.105417276720353,
+      "grad_norm": 2.141963243484497,
+      "learning_rate": 5e-05,
+      "loss": 0.6755,
+      "step": 5500
+    },
+    {
+      "epoch": 16.398243045387993,
+      "grad_norm": 2.679950475692749,
+      "learning_rate": 5e-05,
+      "loss": 0.6229,
+      "step": 5600
+    },
+    {
+      "epoch": 16.691068814055637,
+      "grad_norm": 2.506779193878174,
+      "learning_rate": 5e-05,
+      "loss": 0.6377,
+      "step": 5700
+    },
+    {
+      "epoch": 16.98389458272328,
+      "grad_norm": 3.019353151321411,
+      "learning_rate": 5e-05,
+      "loss": 0.6478,
+      "step": 5800
+    },
+    {
+      "epoch": 16.998535871156662,
+      "eval_accuracy": 0.430974358974359,
+      "eval_loss": 4.816666126251221,
+      "eval_runtime": 5.9538,
+      "eval_samples_per_second": 83.98,
+      "eval_steps_per_second": 10.581,
+      "step": 5805
+    },
+    {
+      "epoch": 17.27672035139092,
+      "grad_norm": 2.6447300910949707,
+      "learning_rate": 5e-05,
+      "loss": 0.5511,
+      "step": 5900
+    },
+    {
+      "epoch": 17.569546120058565,
+      "grad_norm": 2.720766067504883,
+      "learning_rate": 5e-05,
+      "loss": 0.5638,
+      "step": 6000
+    },
+    {
+      "epoch": 17.86237188872621,
+      "grad_norm": 2.4070911407470703,
+      "learning_rate": 5e-05,
+      "loss": 0.5862,
+      "step": 6100
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.43025641025641026,
+      "eval_loss": 4.85101842880249,
+      "eval_runtime": 5.6529,
+      "eval_samples_per_second": 88.45,
+      "eval_steps_per_second": 11.145,
+      "step": 6147
+    },
+    {
+      "epoch": 18.15519765739385,
+      "grad_norm": 3.0029456615448,
+      "learning_rate": 5e-05,
+      "loss": 0.5335,
+      "step": 6200
+    },
+    {
+      "epoch": 18.448023426061493,
+      "grad_norm": 2.6631345748901367,
+      "learning_rate": 5e-05,
+      "loss": 0.5018,
+      "step": 6300
+    },
+    {
+      "epoch": 18.740849194729137,
+      "grad_norm": 2.603055477142334,
+      "learning_rate": 5e-05,
+      "loss": 0.5189,
+      "step": 6400
+    },
+    {
+      "epoch": 18.998535871156662,
+      "eval_accuracy": 0.42425641025641025,
+      "eval_loss": 4.926539897918701,
+      "eval_runtime": 5.8773,
+      "eval_samples_per_second": 85.073,
+      "eval_steps_per_second": 10.719,
+      "step": 6488
+    },
+    {
+      "epoch": 19.03367496339678,
+      "grad_norm": 2.3171300888061523,
+      "learning_rate": 5e-05,
+      "loss": 0.5225,
+      "step": 6500
+    },
+    {
+      "epoch": 19.32650073206442,
+      "grad_norm": 3.008113384246826,
+      "learning_rate": 5e-05,
+      "loss": 0.4485,
+      "step": 6600
+    },
+    {
+      "epoch": 19.619326500732065,
+      "grad_norm": 2.5204029083251953,
+      "learning_rate": 5e-05,
+      "loss": 0.4623,
+      "step": 6700
+    },
+    {
+      "epoch": 19.91215226939971,
+      "grad_norm": 2.9562718868255615,
+      "learning_rate": 5e-05,
+      "loss": 0.4767,
+      "step": 6800
+    },
+    {
+      "epoch": 19.970717423133237,
+      "eval_accuracy": 0.42728205128205127,
+      "eval_loss": 5.035463809967041,
+      "eval_runtime": 5.7429,
+      "eval_samples_per_second": 87.064,
+      "eval_steps_per_second": 10.97,
+      "step": 6820
+    },
+    {
+      "epoch": 19.970717423133237,
+      "step": 6820,
+      "total_flos": 5.856471132500132e+17,
+      "train_loss": 1.188865839770812,
+      "train_runtime": 15402.4164,
+      "train_samples_per_second": 14.186,
+      "train_steps_per_second": 0.443
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 6820,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
+  "save_steps": 500,
+  "total_flos": 5.856471132500132e+17,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}