Mitchel Hsu commited on Jun 24, 2023

Commit

507c812

•

1 Parent(s): e77bf98

add: Update model

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

adapter_config.json +0 -22
checkpoint-1400/scaler.pt +0 -3
checkpoint-1400/scheduler.pt +0 -3
checkpoint-1400/trainer_state.json +0 -912
checkpoint-1400/training_args.bin +0 -3
checkpoint-3600/optimizer.pt +0 -3
checkpoint-3600/pytorch_model.bin +0 -3
checkpoint-3600/rng_state.pth +0 -3
checkpoint-3600/scaler.pt +0 -3
checkpoint-3600/scheduler.pt +0 -3
checkpoint-3600/trainer_state.json +0 -2320
checkpoint-3600/training_args.bin +0 -3
checkpoint-3800/optimizer.pt +0 -3
checkpoint-3800/pytorch_model.bin +0 -3
checkpoint-3800/rng_state.pth +0 -3
checkpoint-3800/scaler.pt +0 -3
checkpoint-3800/scheduler.pt +0 -3
checkpoint-3800/trainer_state.json +0 -2448
checkpoint-3800/training_args.bin +0 -3
config.json +24 -0
generation_config.json +7 -0
checkpoint-1400/rng_state.pth → pytorch_model-00001-of-00039.bin +2 -2
adapter_model.bin → pytorch_model-00002-of-00039.bin +2 -2
checkpoint-1400/optimizer.pt → pytorch_model-00003-of-00039.bin +2 -2
checkpoint-1400/pytorch_model.bin → pytorch_model-00004-of-00039.bin +2 -2
pytorch_model-00005-of-00039.bin +3 -0
pytorch_model-00006-of-00039.bin +3 -0
pytorch_model-00007-of-00039.bin +3 -0
pytorch_model-00008-of-00039.bin +3 -0
pytorch_model-00009-of-00039.bin +3 -0
pytorch_model-00010-of-00039.bin +3 -0
pytorch_model-00011-of-00039.bin +3 -0
pytorch_model-00012-of-00039.bin +3 -0
pytorch_model-00013-of-00039.bin +3 -0
pytorch_model-00014-of-00039.bin +3 -0
pytorch_model-00015-of-00039.bin +3 -0
pytorch_model-00016-of-00039.bin +3 -0
pytorch_model-00017-of-00039.bin +3 -0
pytorch_model-00018-of-00039.bin +3 -0
pytorch_model-00019-of-00039.bin +3 -0
pytorch_model-00020-of-00039.bin +3 -0
pytorch_model-00021-of-00039.bin +3 -0
pytorch_model-00022-of-00039.bin +3 -0
pytorch_model-00023-of-00039.bin +3 -0
pytorch_model-00024-of-00039.bin +3 -0
pytorch_model-00025-of-00039.bin +3 -0
pytorch_model-00026-of-00039.bin +3 -0
pytorch_model-00027-of-00039.bin +3 -0
pytorch_model-00028-of-00039.bin +3 -0
pytorch_model-00029-of-00039.bin +3 -0

adapter_config.json DELETED Viewed

@@ -1,22 +0,0 @@
-{
-  "base_model_name_or_path": "decapoda-research/llama-7b-hf",
-  "bias": "none",
-  "fan_in_fan_out": false,
-  "inference_mode": true,
-  "init_lora_weights": true,
-  "layers_pattern": null,
-  "layers_to_transform": null,
-  "lora_alpha": 16,
-  "lora_dropout": 0.05,
-  "modules_to_save": null,
-  "peft_type": "LORA",
-  "r": 16,
-  "revision": null,
-  "target_modules": [
-    "q_proj",
-    "k_proj",
-    "v_proj",
-    "o_proj"
-  ],
-  "task_type": "CAUSAL_LM"
-}

checkpoint-1400/scaler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:16fdfc03b58220402968eacaac23fb5471cdb9061302380bd3c8d4d326c02ade
-size 557

checkpoint-1400/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:0dcd27fef07230ceb8ed85e2a9692df56c7d01b0fe9f962e0a8e2690c9acc9b3
-size 627

checkpoint-1400/trainer_state.json DELETED Viewed

@@ -1,912 +0,0 @@
-{
-  "best_metric": 0.8923280239105225,
-  "best_model_checkpoint": "./lora-alpaca-hc8/checkpoint-1400",
-  "epoch": 3.6012861736334405,
-  "global_step": 1400,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.03,
-      "learning_rate": 2.9999999999999997e-05,
-      "loss": 1.3719,
-      "step": 10
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 5.9999999999999995e-05,
-      "loss": 1.5358,
-      "step": 20
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 8.999999999999999e-05,
-      "loss": 1.5633,
-      "step": 30
-    },
-    {
-      "epoch": 0.1,
-      "learning_rate": 0.00011999999999999999,
-      "loss": 1.2433,
-      "step": 40
-    },
-    {
-      "epoch": 0.13,
-      "learning_rate": 0.00015,
-      "loss": 0.9843,
-      "step": 50
-    },
-    {
-      "epoch": 0.15,
-      "learning_rate": 0.00017999999999999998,
-      "loss": 1.012,
-      "step": 60
-    },
-    {
-      "epoch": 0.18,
-      "learning_rate": 0.00020999999999999998,
-      "loss": 1.0392,
-      "step": 70
-    },
-    {
-      "epoch": 0.21,
-      "learning_rate": 0.00023999999999999998,
-      "loss": 1.0541,
-      "step": 80
-    },
-    {
-      "epoch": 0.23,
-      "learning_rate": 0.00027,
-      "loss": 0.9608,
-      "step": 90
-    },
-    {
-      "epoch": 0.26,
-      "learning_rate": 0.0003,
-      "loss": 0.8697,
-      "step": 100
-    },
-    {
-      "epoch": 0.28,
-      "learning_rate": 0.00029920634920634916,
-      "loss": 0.9836,
-      "step": 110
-    },
-    {
-      "epoch": 0.31,
-      "learning_rate": 0.00029841269841269835,
-      "loss": 1.003,
-      "step": 120
-    },
-    {
-      "epoch": 0.33,
-      "learning_rate": 0.0002976190476190476,
-      "loss": 1.0052,
-      "step": 130
-    },
-    {
-      "epoch": 0.36,
-      "learning_rate": 0.0002968253968253968,
-      "loss": 0.9267,
-      "step": 140
-    },
-    {
-      "epoch": 0.39,
-      "learning_rate": 0.000296031746031746,
-      "loss": 0.8318,
-      "step": 150
-    },
-    {
-      "epoch": 0.41,
-      "learning_rate": 0.0002952380952380952,
-      "loss": 0.9594,
-      "step": 160
-    },
-    {
-      "epoch": 0.44,
-      "learning_rate": 0.00029444444444444445,
-      "loss": 0.987,
-      "step": 170
-    },
-    {
-      "epoch": 0.46,
-      "learning_rate": 0.00029365079365079364,
-      "loss": 0.9646,
-      "step": 180
-    },
-    {
-      "epoch": 0.49,
-      "learning_rate": 0.00029285714285714283,
-      "loss": 0.8501,
-      "step": 190
-    },
-    {
-      "epoch": 0.51,
-      "learning_rate": 0.000292063492063492,
-      "loss": 0.7568,
-      "step": 200
-    },
-    {
-      "epoch": 0.51,
-      "eval_loss": 0.9958714246749878,
-      "eval_runtime": 189.2223,
-      "eval_samples_per_second": 10.57,
-      "eval_steps_per_second": 1.321,
-      "step": 200
-    },
-    {
-      "epoch": 0.54,
-      "learning_rate": 0.00029126984126984126,
-      "loss": 0.949,
-      "step": 210
-    },
-    {
-      "epoch": 0.57,
-      "learning_rate": 0.00029047619047619045,
-      "loss": 0.9581,
-      "step": 220
-    },
-    {
-      "epoch": 0.59,
-      "learning_rate": 0.00028968253968253963,
-      "loss": 0.9526,
-      "step": 230
-    },
-    {
-      "epoch": 0.62,
-      "learning_rate": 0.0002888888888888888,
-      "loss": 0.847,
-      "step": 240
-    },
-    {
-      "epoch": 0.64,
-      "learning_rate": 0.00028809523809523806,
-      "loss": 0.7414,
-      "step": 250
-    },
-    {
-      "epoch": 0.67,
-      "learning_rate": 0.00028730158730158725,
-      "loss": 0.9449,
-      "step": 260
-    },
-    {
-      "epoch": 0.69,
-      "learning_rate": 0.0002865079365079365,
-      "loss": 0.9607,
-      "step": 270
-    },
-    {
-      "epoch": 0.72,
-      "learning_rate": 0.0002857142857142857,
-      "loss": 0.9456,
-      "step": 280
-    },
-    {
-      "epoch": 0.75,
-      "learning_rate": 0.0002849206349206349,
-      "loss": 0.8346,
-      "step": 290
-    },
-    {
-      "epoch": 0.77,
-      "learning_rate": 0.0002841269841269841,
-      "loss": 0.7275,
-      "step": 300
-    },
-    {
-      "epoch": 0.8,
-      "learning_rate": 0.0002833333333333333,
-      "loss": 0.9337,
-      "step": 310
-    },
-    {
-      "epoch": 0.82,
-      "learning_rate": 0.0002825396825396825,
-      "loss": 0.9466,
-      "step": 320
-    },
-    {
-      "epoch": 0.85,
-      "learning_rate": 0.00028174603174603173,
-      "loss": 0.9386,
-      "step": 330
-    },
-    {
-      "epoch": 0.87,
-      "learning_rate": 0.0002809523809523809,
-      "loss": 0.8254,
-      "step": 340
-    },
-    {
-      "epoch": 0.9,
-      "learning_rate": 0.0002801587301587301,
-      "loss": 0.723,
-      "step": 350
-    },
-    {
-      "epoch": 0.93,
-      "learning_rate": 0.00027936507936507935,
-      "loss": 0.9274,
-      "step": 360
-    },
-    {
-      "epoch": 0.95,
-      "learning_rate": 0.00027857142857142854,
-      "loss": 0.9492,
-      "step": 370
-    },
-    {
-      "epoch": 0.98,
-      "learning_rate": 0.0002777777777777778,
-      "loss": 0.871,
-      "step": 380
-    },
-    {
-      "epoch": 1.0,
-      "learning_rate": 0.00027698412698412697,
-      "loss": 0.7533,
-      "step": 390
-    },
-    {
-      "epoch": 1.03,
-      "learning_rate": 0.00027619047619047615,
-      "loss": 0.9284,
-      "step": 400
-    },
-    {
-      "epoch": 1.03,
-      "eval_loss": 0.9276881217956543,
-      "eval_runtime": 189.2181,
-      "eval_samples_per_second": 10.57,
-      "eval_steps_per_second": 1.321,
-      "step": 400
-    },
-    {
-      "epoch": 1.05,
-      "learning_rate": 0.0002753968253968254,
-      "loss": 0.9402,
-      "step": 410
-    },
-    {
-      "epoch": 1.08,
-      "learning_rate": 0.0002746031746031746,
-      "loss": 0.9188,
-      "step": 420
-    },
-    {
-      "epoch": 1.11,
-      "learning_rate": 0.00027380952380952377,
-      "loss": 0.7976,
-      "step": 430
-    },
-    {
-      "epoch": 1.13,
-      "learning_rate": 0.00027301587301587296,
-      "loss": 0.7172,
-      "step": 440
-    },
-    {
-      "epoch": 1.16,
-      "learning_rate": 0.0002722222222222222,
-      "loss": 0.9195,
-      "step": 450
-    },
-    {
-      "epoch": 1.18,
-      "learning_rate": 0.0002714285714285714,
-      "loss": 0.9426,
-      "step": 460
-    },
-    {
-      "epoch": 1.21,
-      "learning_rate": 0.00027063492063492063,
-      "loss": 0.9034,
-      "step": 470
-    },
-    {
-      "epoch": 1.23,
-      "learning_rate": 0.0002698412698412698,
-      "loss": 0.788,
-      "step": 480
-    },
-    {
-      "epoch": 1.26,
-      "learning_rate": 0.000269047619047619,
-      "loss": 0.7213,
-      "step": 490
-    },
-    {
-      "epoch": 1.29,
-      "learning_rate": 0.00026825396825396825,
-      "loss": 0.9149,
-      "step": 500
-    },
-    {
-      "epoch": 1.31,
-      "learning_rate": 0.00026746031746031744,
-      "loss": 0.9386,
-      "step": 510
-    },
-    {
-      "epoch": 1.34,
-      "learning_rate": 0.0002666666666666666,
-      "loss": 0.9099,
-      "step": 520
-    },
-    {
-      "epoch": 1.36,
-      "learning_rate": 0.00026587301587301587,
-      "loss": 0.7802,
-      "step": 530
-    },
-    {
-      "epoch": 1.39,
-      "learning_rate": 0.00026507936507936506,
-      "loss": 0.7246,
-      "step": 540
-    },
-    {
-      "epoch": 1.41,
-      "learning_rate": 0.00026428571428571424,
-      "loss": 0.9213,
-      "step": 550
-    },
-    {
-      "epoch": 1.44,
-      "learning_rate": 0.00026349206349206343,
-      "loss": 0.9348,
-      "step": 560
-    },
-    {
-      "epoch": 1.47,
-      "learning_rate": 0.0002626984126984127,
-      "loss": 0.8995,
-      "step": 570
-    },
-    {
-      "epoch": 1.49,
-      "learning_rate": 0.00026190476190476186,
-      "loss": 0.7866,
-      "step": 580
-    },
-    {
-      "epoch": 1.52,
-      "learning_rate": 0.0002611111111111111,
-      "loss": 0.7257,
-      "step": 590
-    },
-    {
-      "epoch": 1.54,
-      "learning_rate": 0.0002603174603174603,
-      "loss": 0.918,
-      "step": 600
-    },
-    {
-      "epoch": 1.54,
-      "eval_loss": 0.9236659407615662,
-      "eval_runtime": 189.1236,
-      "eval_samples_per_second": 10.575,
-      "eval_steps_per_second": 1.322,
-      "step": 600
-    },
-    {
-      "epoch": 1.57,
-      "learning_rate": 0.00025952380952380953,
-      "loss": 0.933,
-      "step": 610
-    },
-    {
-      "epoch": 1.59,
-      "learning_rate": 0.0002587301587301587,
-      "loss": 0.9085,
-      "step": 620
-    },
-    {
-      "epoch": 1.62,
-      "learning_rate": 0.0002579365079365079,
-      "loss": 0.7928,
-      "step": 630
-    },
-    {
-      "epoch": 1.65,
-      "learning_rate": 0.0002571428571428571,
-      "loss": 0.7162,
-      "step": 640
-    },
-    {
-      "epoch": 1.67,
-      "learning_rate": 0.00025634920634920634,
-      "loss": 0.9076,
-      "step": 650
-    },
-    {
-      "epoch": 1.7,
-      "learning_rate": 0.00025555555555555553,
-      "loss": 0.9345,
-      "step": 660
-    },
-    {
-      "epoch": 1.72,
-      "learning_rate": 0.0002547619047619047,
-      "loss": 0.9107,
-      "step": 670
-    },
-    {
-      "epoch": 1.75,
-      "learning_rate": 0.00025396825396825396,
-      "loss": 0.7721,
-      "step": 680
-    },
-    {
-      "epoch": 1.77,
-      "learning_rate": 0.00025317460317460315,
-      "loss": 0.7112,
-      "step": 690
-    },
-    {
-      "epoch": 1.8,
-      "learning_rate": 0.0002523809523809524,
-      "loss": 0.9118,
-      "step": 700
-    },
-    {
-      "epoch": 1.83,
-      "learning_rate": 0.0002515873015873016,
-      "loss": 0.9205,
-      "step": 710
-    },
-    {
-      "epoch": 1.85,
-      "learning_rate": 0.00025079365079365076,
-      "loss": 0.9004,
-      "step": 720
-    },
-    {
-      "epoch": 1.88,
-      "learning_rate": 0.00025,
-      "loss": 0.7741,
-      "step": 730
-    },
-    {
-      "epoch": 1.9,
-      "learning_rate": 0.0002492063492063492,
-      "loss": 0.7186,
-      "step": 740
-    },
-    {
-      "epoch": 1.93,
-      "learning_rate": 0.0002484126984126984,
-      "loss": 0.9002,
-      "step": 750
-    },
-    {
-      "epoch": 1.95,
-      "learning_rate": 0.00024761904761904757,
-      "loss": 0.9066,
-      "step": 760
-    },
-    {
-      "epoch": 1.98,
-      "learning_rate": 0.0002468253968253968,
-      "loss": 0.8127,
-      "step": 770
-    },
-    {
-      "epoch": 2.01,
-      "learning_rate": 0.000246031746031746,
-      "loss": 0.7305,
-      "step": 780
-    },
-    {
-      "epoch": 2.03,
-      "learning_rate": 0.0002452380952380952,
-      "loss": 0.8921,
-      "step": 790
-    },
-    {
-      "epoch": 2.06,
-      "learning_rate": 0.00024444444444444443,
-      "loss": 0.9178,
-      "step": 800
-    },
-    {
-      "epoch": 2.06,
-      "eval_loss": 0.901778519153595,
-      "eval_runtime": 189.2038,
-      "eval_samples_per_second": 10.571,
-      "eval_steps_per_second": 1.321,
-      "step": 800
-    },
-    {
-      "epoch": 2.08,
-      "learning_rate": 0.00024365079365079364,
-      "loss": 0.8823,
-      "step": 810
-    },
-    {
-      "epoch": 2.11,
-      "learning_rate": 0.00024285714285714283,
-      "loss": 0.7521,
-      "step": 820
-    },
-    {
-      "epoch": 2.14,
-      "learning_rate": 0.00024206349206349205,
-      "loss": 0.717,
-      "step": 830
-    },
-    {
-      "epoch": 2.16,
-      "learning_rate": 0.00024126984126984123,
-      "loss": 0.9045,
-      "step": 840
-    },
-    {
-      "epoch": 2.19,
-      "learning_rate": 0.00024047619047619048,
-      "loss": 0.9146,
-      "step": 850
-    },
-    {
-      "epoch": 2.21,
-      "learning_rate": 0.00023968253968253966,
-      "loss": 0.8678,
-      "step": 860
-    },
-    {
-      "epoch": 2.24,
-      "learning_rate": 0.00023888888888888885,
-      "loss": 0.745,
-      "step": 870
-    },
-    {
-      "epoch": 2.26,
-      "learning_rate": 0.00023809523809523807,
-      "loss": 0.7226,
-      "step": 880
-    },
-    {
-      "epoch": 2.29,
-      "learning_rate": 0.00023730158730158728,
-      "loss": 0.9002,
-      "step": 890
-    },
-    {
-      "epoch": 2.32,
-      "learning_rate": 0.0002365079365079365,
-      "loss": 0.9035,
-      "step": 900
-    },
-    {
-      "epoch": 2.34,
-      "learning_rate": 0.00023571428571428569,
-      "loss": 0.878,
-      "step": 910
-    },
-    {
-      "epoch": 2.37,
-      "learning_rate": 0.00023492063492063487,
-      "loss": 0.7397,
-      "step": 920
-    },
-    {
-      "epoch": 2.39,
-      "learning_rate": 0.00023412698412698412,
-      "loss": 0.7251,
-      "step": 930
-    },
-    {
-      "epoch": 2.42,
-      "learning_rate": 0.0002333333333333333,
-      "loss": 0.9014,
-      "step": 940
-    },
-    {
-      "epoch": 2.44,
-      "learning_rate": 0.00023253968253968252,
-      "loss": 0.9158,
-      "step": 950
-    },
-    {
-      "epoch": 2.47,
-      "learning_rate": 0.0002317460317460317,
-      "loss": 0.8596,
-      "step": 960
-    },
-    {
-      "epoch": 2.5,
-      "learning_rate": 0.00023095238095238095,
-      "loss": 0.7312,
-      "step": 970
-    },
-    {
-      "epoch": 2.52,
-      "learning_rate": 0.00023015873015873014,
-      "loss": 0.7271,
-      "step": 980
-    },
-    {
-      "epoch": 2.55,
-      "learning_rate": 0.00022936507936507935,
-      "loss": 0.9007,
-      "step": 990
-    },
-    {
-      "epoch": 2.57,
-      "learning_rate": 0.00022857142857142854,
-      "loss": 0.9186,
-      "step": 1000
-    },
-    {
-      "epoch": 2.57,
-      "eval_loss": 0.8995742201805115,
-      "eval_runtime": 189.2401,
-      "eval_samples_per_second": 10.569,
-      "eval_steps_per_second": 1.321,
-      "step": 1000
-    },
-    {
-      "epoch": 2.6,
-      "learning_rate": 0.00022777777777777778,
-      "loss": 0.8685,
-      "step": 1010
-    },
-    {
-      "epoch": 2.62,
-      "learning_rate": 0.00022698412698412697,
-      "loss": 0.7359,
-      "step": 1020
-    },
-    {
-      "epoch": 2.65,
-      "learning_rate": 0.00022619047619047616,
-      "loss": 0.7166,
-      "step": 1030
-    },
-    {
-      "epoch": 2.68,
-      "learning_rate": 0.00022539682539682537,
-      "loss": 0.9012,
-      "step": 1040
-    },
-    {
-      "epoch": 2.7,
-      "learning_rate": 0.0002246031746031746,
-      "loss": 0.9195,
-      "step": 1050
-    },
-    {
-      "epoch": 2.73,
-      "learning_rate": 0.0002238095238095238,
-      "loss": 0.8733,
-      "step": 1060
-    },
-    {
-      "epoch": 2.75,
-      "learning_rate": 0.000223015873015873,
-      "loss": 0.7488,
-      "step": 1070
-    },
-    {
-      "epoch": 2.78,
-      "learning_rate": 0.00022222222222222218,
-      "loss": 0.7223,
-      "step": 1080
-    },
-    {
-      "epoch": 2.8,
-      "learning_rate": 0.00022142857142857142,
-      "loss": 0.9034,
-      "step": 1090
-    },
-    {
-      "epoch": 2.83,
-      "learning_rate": 0.0002206349206349206,
-      "loss": 0.9174,
-      "step": 1100
-    },
-    {
-      "epoch": 2.86,
-      "learning_rate": 0.00021984126984126982,
-      "loss": 0.868,
-      "step": 1110
-    },
-    {
-      "epoch": 2.88,
-      "learning_rate": 0.000219047619047619,
-      "loss": 0.7394,
-      "step": 1120
-    },
-    {
-      "epoch": 2.91,
-      "learning_rate": 0.00021825396825396825,
-      "loss": 0.7198,
-      "step": 1130
-    },
-    {
-      "epoch": 2.93,
-      "learning_rate": 0.00021746031746031744,
-      "loss": 0.9085,
-      "step": 1140
-    },
-    {
-      "epoch": 2.96,
-      "learning_rate": 0.00021666666666666666,
-      "loss": 0.9148,
-      "step": 1150
-    },
-    {
-      "epoch": 2.98,
-      "learning_rate": 0.00021587301587301584,
-      "loss": 0.7775,
-      "step": 1160
-    },
-    {
-      "epoch": 3.01,
-      "learning_rate": 0.0002150793650793651,
-      "loss": 0.7366,
-      "step": 1170
-    },
-    {
-      "epoch": 3.04,
-      "learning_rate": 0.00021428571428571427,
-      "loss": 0.8865,
-      "step": 1180
-    },
-    {
-      "epoch": 3.06,
-      "learning_rate": 0.00021349206349206346,
-      "loss": 0.8989,
-      "step": 1190
-    },
-    {
-      "epoch": 3.09,
-      "learning_rate": 0.00021269841269841268,
-      "loss": 0.8376,
-      "step": 1200
-    },
-    {
-      "epoch": 3.09,
-      "eval_loss": 0.8965018391609192,
-      "eval_runtime": 189.2693,
-      "eval_samples_per_second": 10.567,
-      "eval_steps_per_second": 1.321,
-      "step": 1200
-    },
-    {
-      "epoch": 3.11,
-      "learning_rate": 0.0002119047619047619,
-      "loss": 0.7012,
-      "step": 1210
-    },
-    {
-      "epoch": 3.14,
-      "learning_rate": 0.0002111111111111111,
-      "loss": 0.7288,
-      "step": 1220
-    },
-    {
-      "epoch": 3.16,
-      "learning_rate": 0.0002103174603174603,
-      "loss": 0.8904,
-      "step": 1230
-    },
-    {
-      "epoch": 3.19,
-      "learning_rate": 0.00020952380952380948,
-      "loss": 0.9081,
-      "step": 1240
-    },
-    {
-      "epoch": 3.22,
-      "learning_rate": 0.00020873015873015873,
-      "loss": 0.8461,
-      "step": 1250
-    },
-    {
-      "epoch": 3.24,
-      "learning_rate": 0.00020793650793650791,
-      "loss": 0.6997,
-      "step": 1260
-    },
-    {
-      "epoch": 3.27,
-      "learning_rate": 0.00020714285714285713,
-      "loss": 0.7189,
-      "step": 1270
-    },
-    {
-      "epoch": 3.29,
-      "learning_rate": 0.00020634920634920632,
-      "loss": 0.8863,
-      "step": 1280
-    },
-    {
-      "epoch": 3.32,
-      "learning_rate": 0.00020555555555555556,
-      "loss": 0.906,
-      "step": 1290
-    },
-    {
-      "epoch": 3.34,
-      "learning_rate": 0.00020476190476190475,
-      "loss": 0.8287,
-      "step": 1300
-    },
-    {
-      "epoch": 3.37,
-      "learning_rate": 0.00020396825396825393,
-      "loss": 0.7015,
-      "step": 1310
-    },
-    {
-      "epoch": 3.4,
-      "learning_rate": 0.00020317460317460315,
-      "loss": 0.7325,
-      "step": 1320
-    },
-    {
-      "epoch": 3.42,
-      "learning_rate": 0.00020238095238095236,
-      "loss": 0.8878,
-      "step": 1330
-    },
-    {
-      "epoch": 3.45,
-      "learning_rate": 0.00020158730158730158,
-      "loss": 0.9057,
-      "step": 1340
-    },
-    {
-      "epoch": 3.47,
-      "learning_rate": 0.00020079365079365077,
-      "loss": 0.8399,
-      "step": 1350
-    },
-    {
-      "epoch": 3.5,
-      "learning_rate": 0.00019999999999999998,
-      "loss": 0.7073,
-      "step": 1360
-    },
-    {
-      "epoch": 3.52,
-      "learning_rate": 0.0001992063492063492,
-      "loss": 0.7281,
-      "step": 1370
-    },
-    {
-      "epoch": 3.55,
-      "learning_rate": 0.0001984126984126984,
-      "loss": 0.8829,
-      "step": 1380
-    },
-    {
-      "epoch": 3.58,
-      "learning_rate": 0.0001976190476190476,
-      "loss": 0.8923,
-      "step": 1390
-    },
-    {
-      "epoch": 3.6,
-      "learning_rate": 0.0001968253968253968,
-      "loss": 0.8389,
-      "step": 1400
-    },
-    {
-      "epoch": 3.6,
-      "eval_loss": 0.8923280239105225,
-      "eval_runtime": 189.1693,
-      "eval_samples_per_second": 10.573,
-      "eval_steps_per_second": 1.322,
-      "step": 1400
-    }
-  ],
-  "max_steps": 3880,
-  "num_train_epochs": 10,
-  "total_flos": 1.627337272190042e+18,
-  "trial_name": null,
-  "trial_params": null
-}

checkpoint-1400/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:3e9adb78996a536c4aa514741768e2b05cafc3e20ac4a0a0fe98e38b91109396
-size 3899

checkpoint-3600/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:33b24cfa8e04448aada6bd0f35798f33e4037e4f5c5e4d990ab5168be1ac720c
-size 134433093

checkpoint-3600/pytorch_model.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:58653c0888eea93a18cfef68476391e6cf3aaabd0a866d5bd1a63232af5da325
-size 67201357

checkpoint-3600/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:efd17e8763b5b06bd50bbfccd0ef28c0faa97523b4dd293e16d443dfb1f74431
-size 14575

checkpoint-3600/scaler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:7fa181fa360d46feed4180ea17c8b6a4a879a9b4231c2e91aff2be20be9076cc
-size 557

checkpoint-3600/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:f0b82598b73ddc100e1ea38611348b8278822263257c909d620c6530bad49649
-size 627

checkpoint-3600/trainer_state.json DELETED Viewed

@@ -1,2320 +0,0 @@
-{
-  "best_metric": 0.8923280239105225,
-  "best_model_checkpoint": "./lora-alpaca-hc8/checkpoint-1400",
-  "epoch": 9.260450160771704,
-  "global_step": 3600,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.03,
-      "learning_rate": 2.9999999999999997e-05,
-      "loss": 1.3719,
-      "step": 10
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 5.9999999999999995e-05,
-      "loss": 1.5358,
-      "step": 20
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 8.999999999999999e-05,
-      "loss": 1.5633,
-      "step": 30
-    },
-    {
-      "epoch": 0.1,
-      "learning_rate": 0.00011999999999999999,
-      "loss": 1.2433,
-      "step": 40
-    },
-    {
-      "epoch": 0.13,
-      "learning_rate": 0.00015,
-      "loss": 0.9843,
-      "step": 50
-    },
-    {
-      "epoch": 0.15,
-      "learning_rate": 0.00017999999999999998,
-      "loss": 1.012,
-      "step": 60
-    },
-    {
-      "epoch": 0.18,
-      "learning_rate": 0.00020999999999999998,
-      "loss": 1.0392,
-      "step": 70
-    },
-    {
-      "epoch": 0.21,
-      "learning_rate": 0.00023999999999999998,
-      "loss": 1.0541,
-      "step": 80
-    },
-    {
-      "epoch": 0.23,
-      "learning_rate": 0.00027,
-      "loss": 0.9608,
-      "step": 90
-    },
-    {
-      "epoch": 0.26,
-      "learning_rate": 0.0003,
-      "loss": 0.8697,
-      "step": 100
-    },
-    {
-      "epoch": 0.28,
-      "learning_rate": 0.00029920634920634916,
-      "loss": 0.9836,
-      "step": 110
-    },
-    {
-      "epoch": 0.31,
-      "learning_rate": 0.00029841269841269835,
-      "loss": 1.003,
-      "step": 120
-    },
-    {
-      "epoch": 0.33,
-      "learning_rate": 0.0002976190476190476,
-      "loss": 1.0052,
-      "step": 130
-    },
-    {
-      "epoch": 0.36,
-      "learning_rate": 0.0002968253968253968,
-      "loss": 0.9267,
-      "step": 140
-    },
-    {
-      "epoch": 0.39,
-      "learning_rate": 0.000296031746031746,
-      "loss": 0.8318,
-      "step": 150
-    },
-    {
-      "epoch": 0.41,
-      "learning_rate": 0.0002952380952380952,
-      "loss": 0.9594,
-      "step": 160
-    },
-    {
-      "epoch": 0.44,
-      "learning_rate": 0.00029444444444444445,
-      "loss": 0.987,
-      "step": 170
-    },
-    {
-      "epoch": 0.46,
-      "learning_rate": 0.00029365079365079364,
-      "loss": 0.9646,
-      "step": 180
-    },
-    {
-      "epoch": 0.49,
-      "learning_rate": 0.00029285714285714283,
-      "loss": 0.8501,
-      "step": 190
-    },
-    {
-      "epoch": 0.51,
-      "learning_rate": 0.000292063492063492,
-      "loss": 0.7568,
-      "step": 200
-    },
-    {
-      "epoch": 0.51,
-      "eval_loss": 0.9958714246749878,
-      "eval_runtime": 189.2223,
-      "eval_samples_per_second": 10.57,
-      "eval_steps_per_second": 1.321,
-      "step": 200
-    },
-    {
-      "epoch": 0.54,
-      "learning_rate": 0.00029126984126984126,
-      "loss": 0.949,
-      "step": 210
-    },
-    {
-      "epoch": 0.57,
-      "learning_rate": 0.00029047619047619045,
-      "loss": 0.9581,
-      "step": 220
-    },
-    {
-      "epoch": 0.59,
-      "learning_rate": 0.00028968253968253963,
-      "loss": 0.9526,
-      "step": 230
-    },
-    {
-      "epoch": 0.62,
-      "learning_rate": 0.0002888888888888888,
-      "loss": 0.847,
-      "step": 240
-    },
-    {
-      "epoch": 0.64,
-      "learning_rate": 0.00028809523809523806,
-      "loss": 0.7414,
-      "step": 250
-    },
-    {
-      "epoch": 0.67,
-      "learning_rate": 0.00028730158730158725,
-      "loss": 0.9449,
-      "step": 260
-    },
-    {
-      "epoch": 0.69,
-      "learning_rate": 0.0002865079365079365,
-      "loss": 0.9607,
-      "step": 270
-    },
-    {
-      "epoch": 0.72,
-      "learning_rate": 0.0002857142857142857,
-      "loss": 0.9456,
-      "step": 280
-    },
-    {
-      "epoch": 0.75,
-      "learning_rate": 0.0002849206349206349,
-      "loss": 0.8346,
-      "step": 290
-    },
-    {
-      "epoch": 0.77,
-      "learning_rate": 0.0002841269841269841,
-      "loss": 0.7275,
-      "step": 300
-    },
-    {
-      "epoch": 0.8,
-      "learning_rate": 0.0002833333333333333,
-      "loss": 0.9337,
-      "step": 310
-    },
-    {
-      "epoch": 0.82,
-      "learning_rate": 0.0002825396825396825,
-      "loss": 0.9466,
-      "step": 320
-    },
-    {
-      "epoch": 0.85,
-      "learning_rate": 0.00028174603174603173,
-      "loss": 0.9386,
-      "step": 330
-    },
-    {
-      "epoch": 0.87,
-      "learning_rate": 0.0002809523809523809,
-      "loss": 0.8254,
-      "step": 340
-    },
-    {
-      "epoch": 0.9,
-      "learning_rate": 0.0002801587301587301,
-      "loss": 0.723,
-      "step": 350
-    },
-    {
-      "epoch": 0.93,
-      "learning_rate": 0.00027936507936507935,
-      "loss": 0.9274,
-      "step": 360
-    },
-    {
-      "epoch": 0.95,
-      "learning_rate": 0.00027857142857142854,
-      "loss": 0.9492,
-      "step": 370
-    },
-    {
-      "epoch": 0.98,
-      "learning_rate": 0.0002777777777777778,
-      "loss": 0.871,
-      "step": 380
-    },
-    {
-      "epoch": 1.0,
-      "learning_rate": 0.00027698412698412697,
-      "loss": 0.7533,
-      "step": 390
-    },
-    {
-      "epoch": 1.03,
-      "learning_rate": 0.00027619047619047615,
-      "loss": 0.9284,
-      "step": 400
-    },
-    {
-      "epoch": 1.03,
-      "eval_loss": 0.9276881217956543,
-      "eval_runtime": 189.2181,
-      "eval_samples_per_second": 10.57,
-      "eval_steps_per_second": 1.321,
-      "step": 400
-    },
-    {
-      "epoch": 1.05,
-      "learning_rate": 0.0002753968253968254,
-      "loss": 0.9402,
-      "step": 410
-    },
-    {
-      "epoch": 1.08,
-      "learning_rate": 0.0002746031746031746,
-      "loss": 0.9188,
-      "step": 420
-    },
-    {
-      "epoch": 1.11,
-      "learning_rate": 0.00027380952380952377,
-      "loss": 0.7976,
-      "step": 430
-    },
-    {
-      "epoch": 1.13,
-      "learning_rate": 0.00027301587301587296,
-      "loss": 0.7172,
-      "step": 440
-    },
-    {
-      "epoch": 1.16,
-      "learning_rate": 0.0002722222222222222,
-      "loss": 0.9195,
-      "step": 450
-    },
-    {
-      "epoch": 1.18,
-      "learning_rate": 0.0002714285714285714,
-      "loss": 0.9426,
-      "step": 460
-    },
-    {
-      "epoch": 1.21,
-      "learning_rate": 0.00027063492063492063,
-      "loss": 0.9034,
-      "step": 470
-    },
-    {
-      "epoch": 1.23,
-      "learning_rate": 0.0002698412698412698,
-      "loss": 0.788,
-      "step": 480
-    },
-    {
-      "epoch": 1.26,
-      "learning_rate": 0.000269047619047619,
-      "loss": 0.7213,
-      "step": 490
-    },
-    {
-      "epoch": 1.29,
-      "learning_rate": 0.00026825396825396825,
-      "loss": 0.9149,
-      "step": 500
-    },
-    {
-      "epoch": 1.31,
-      "learning_rate": 0.00026746031746031744,
-      "loss": 0.9386,
-      "step": 510
-    },
-    {
-      "epoch": 1.34,
-      "learning_rate": 0.0002666666666666666,
-      "loss": 0.9099,
-      "step": 520
-    },
-    {
-      "epoch": 1.36,
-      "learning_rate": 0.00026587301587301587,
-      "loss": 0.7802,
-      "step": 530
-    },
-    {
-      "epoch": 1.39,
-      "learning_rate": 0.00026507936507936506,
-      "loss": 0.7246,
-      "step": 540
-    },
-    {
-      "epoch": 1.41,
-      "learning_rate": 0.00026428571428571424,
-      "loss": 0.9213,
-      "step": 550
-    },
-    {
-      "epoch": 1.44,
-      "learning_rate": 0.00026349206349206343,
-      "loss": 0.9348,
-      "step": 560
-    },
-    {
-      "epoch": 1.47,
-      "learning_rate": 0.0002626984126984127,
-      "loss": 0.8995,
-      "step": 570
-    },
-    {
-      "epoch": 1.49,
-      "learning_rate": 0.00026190476190476186,
-      "loss": 0.7866,
-      "step": 580
-    },
-    {
-      "epoch": 1.52,
-      "learning_rate": 0.0002611111111111111,
-      "loss": 0.7257,
-      "step": 590
-    },
-    {
-      "epoch": 1.54,
-      "learning_rate": 0.0002603174603174603,
-      "loss": 0.918,
-      "step": 600
-    },
-    {
-      "epoch": 1.54,
-      "eval_loss": 0.9236659407615662,
-      "eval_runtime": 189.1236,
-      "eval_samples_per_second": 10.575,
-      "eval_steps_per_second": 1.322,
-      "step": 600
-    },
-    {
-      "epoch": 1.57,
-      "learning_rate": 0.00025952380952380953,
-      "loss": 0.933,
-      "step": 610
-    },
-    {
-      "epoch": 1.59,
-      "learning_rate": 0.0002587301587301587,
-      "loss": 0.9085,
-      "step": 620
-    },
-    {
-      "epoch": 1.62,
-      "learning_rate": 0.0002579365079365079,
-      "loss": 0.7928,
-      "step": 630
-    },
-    {
-      "epoch": 1.65,
-      "learning_rate": 0.0002571428571428571,
-      "loss": 0.7162,
-      "step": 640
-    },
-    {
-      "epoch": 1.67,
-      "learning_rate": 0.00025634920634920634,
-      "loss": 0.9076,
-      "step": 650
-    },
-    {
-      "epoch": 1.7,
-      "learning_rate": 0.00025555555555555553,
-      "loss": 0.9345,
-      "step": 660
-    },
-    {
-      "epoch": 1.72,
-      "learning_rate": 0.0002547619047619047,
-      "loss": 0.9107,
-      "step": 670
-    },
-    {
-      "epoch": 1.75,
-      "learning_rate": 0.00025396825396825396,
-      "loss": 0.7721,
-      "step": 680
-    },
-    {
-      "epoch": 1.77,
-      "learning_rate": 0.00025317460317460315,
-      "loss": 0.7112,
-      "step": 690
-    },
-    {
-      "epoch": 1.8,
-      "learning_rate": 0.0002523809523809524,
-      "loss": 0.9118,
-      "step": 700
-    },
-    {
-      "epoch": 1.83,
-      "learning_rate": 0.0002515873015873016,
-      "loss": 0.9205,
-      "step": 710
-    },
-    {
-      "epoch": 1.85,
-      "learning_rate": 0.00025079365079365076,
-      "loss": 0.9004,
-      "step": 720
-    },
-    {
-      "epoch": 1.88,
-      "learning_rate": 0.00025,
-      "loss": 0.7741,
-      "step": 730
-    },
-    {
-      "epoch": 1.9,
-      "learning_rate": 0.0002492063492063492,
-      "loss": 0.7186,
-      "step": 740
-    },
-    {
-      "epoch": 1.93,
-      "learning_rate": 0.0002484126984126984,
-      "loss": 0.9002,
-      "step": 750
-    },
-    {
-      "epoch": 1.95,
-      "learning_rate": 0.00024761904761904757,
-      "loss": 0.9066,
-      "step": 760
-    },
-    {
-      "epoch": 1.98,
-      "learning_rate": 0.0002468253968253968,
-      "loss": 0.8127,
-      "step": 770
-    },
-    {
-      "epoch": 2.01,
-      "learning_rate": 0.000246031746031746,
-      "loss": 0.7305,
-      "step": 780
-    },
-    {
-      "epoch": 2.03,
-      "learning_rate": 0.0002452380952380952,
-      "loss": 0.8921,
-      "step": 790
-    },
-    {
-      "epoch": 2.06,
-      "learning_rate": 0.00024444444444444443,
-      "loss": 0.9178,
-      "step": 800
-    },
-    {
-      "epoch": 2.06,
-      "eval_loss": 0.901778519153595,
-      "eval_runtime": 189.2038,
-      "eval_samples_per_second": 10.571,
-      "eval_steps_per_second": 1.321,
-      "step": 800
-    },
-    {
-      "epoch": 2.08,
-      "learning_rate": 0.00024365079365079364,
-      "loss": 0.8823,
-      "step": 810
-    },
-    {
-      "epoch": 2.11,
-      "learning_rate": 0.00024285714285714283,
-      "loss": 0.7521,
-      "step": 820
-    },
-    {
-      "epoch": 2.14,
-      "learning_rate": 0.00024206349206349205,
-      "loss": 0.717,
-      "step": 830
-    },
-    {
-      "epoch": 2.16,
-      "learning_rate": 0.00024126984126984123,
-      "loss": 0.9045,
-      "step": 840
-    },
-    {
-      "epoch": 2.19,
-      "learning_rate": 0.00024047619047619048,
-      "loss": 0.9146,
-      "step": 850
-    },
-    {
-      "epoch": 2.21,
-      "learning_rate": 0.00023968253968253966,
-      "loss": 0.8678,
-      "step": 860
-    },
-    {
-      "epoch": 2.24,
-      "learning_rate": 0.00023888888888888885,
-      "loss": 0.745,
-      "step": 870
-    },
-    {
-      "epoch": 2.26,
-      "learning_rate": 0.00023809523809523807,
-      "loss": 0.7226,
-      "step": 880
-    },
-    {
-      "epoch": 2.29,
-      "learning_rate": 0.00023730158730158728,
-      "loss": 0.9002,
-      "step": 890
-    },
-    {
-      "epoch": 2.32,
-      "learning_rate": 0.0002365079365079365,
-      "loss": 0.9035,
-      "step": 900
-    },
-    {
-      "epoch": 2.34,
-      "learning_rate": 0.00023571428571428569,
-      "loss": 0.878,
-      "step": 910
-    },
-    {
-      "epoch": 2.37,
-      "learning_rate": 0.00023492063492063487,
-      "loss": 0.7397,
-      "step": 920
-    },
-    {
-      "epoch": 2.39,
-      "learning_rate": 0.00023412698412698412,
-      "loss": 0.7251,
-      "step": 930
-    },
-    {
-      "epoch": 2.42,
-      "learning_rate": 0.0002333333333333333,
-      "loss": 0.9014,
-      "step": 940
-    },
-    {
-      "epoch": 2.44,
-      "learning_rate": 0.00023253968253968252,
-      "loss": 0.9158,
-      "step": 950
-    },
-    {
-      "epoch": 2.47,
-      "learning_rate": 0.0002317460317460317,
-      "loss": 0.8596,
-      "step": 960
-    },
-    {
-      "epoch": 2.5,
-      "learning_rate": 0.00023095238095238095,
-      "loss": 0.7312,
-      "step": 970
-    },
-    {
-      "epoch": 2.52,
-      "learning_rate": 0.00023015873015873014,
-      "loss": 0.7271,
-      "step": 980
-    },
-    {
-      "epoch": 2.55,
-      "learning_rate": 0.00022936507936507935,
-      "loss": 0.9007,
-      "step": 990
-    },
-    {
-      "epoch": 2.57,
-      "learning_rate": 0.00022857142857142854,
-      "loss": 0.9186,
-      "step": 1000
-    },
-    {
-      "epoch": 2.57,
-      "eval_loss": 0.8995742201805115,
-      "eval_runtime": 189.2401,
-      "eval_samples_per_second": 10.569,
-      "eval_steps_per_second": 1.321,
-      "step": 1000
-    },
-    {
-      "epoch": 2.6,
-      "learning_rate": 0.00022777777777777778,
-      "loss": 0.8685,
-      "step": 1010
-    },
-    {
-      "epoch": 2.62,
-      "learning_rate": 0.00022698412698412697,
-      "loss": 0.7359,
-      "step": 1020
-    },
-    {
-      "epoch": 2.65,
-      "learning_rate": 0.00022619047619047616,
-      "loss": 0.7166,
-      "step": 1030
-    },
-    {
-      "epoch": 2.68,
-      "learning_rate": 0.00022539682539682537,
-      "loss": 0.9012,
-      "step": 1040
-    },
-    {
-      "epoch": 2.7,
-      "learning_rate": 0.0002246031746031746,
-      "loss": 0.9195,
-      "step": 1050
-    },
-    {
-      "epoch": 2.73,
-      "learning_rate": 0.0002238095238095238,
-      "loss": 0.8733,
-      "step": 1060
-    },
-    {
-      "epoch": 2.75,
-      "learning_rate": 0.000223015873015873,
-      "loss": 0.7488,
-      "step": 1070
-    },
-    {
-      "epoch": 2.78,
-      "learning_rate": 0.00022222222222222218,
-      "loss": 0.7223,
-      "step": 1080
-    },
-    {
-      "epoch": 2.8,
-      "learning_rate": 0.00022142857142857142,
-      "loss": 0.9034,
-      "step": 1090
-    },
-    {
-      "epoch": 2.83,
-      "learning_rate": 0.0002206349206349206,
-      "loss": 0.9174,
-      "step": 1100
-    },
-    {
-      "epoch": 2.86,
-      "learning_rate": 0.00021984126984126982,
-      "loss": 0.868,
-      "step": 1110
-    },
-    {
-      "epoch": 2.88,
-      "learning_rate": 0.000219047619047619,
-      "loss": 0.7394,
-      "step": 1120
-    },
-    {
-      "epoch": 2.91,
-      "learning_rate": 0.00021825396825396825,
-      "loss": 0.7198,
-      "step": 1130
-    },
-    {
-      "epoch": 2.93,
-      "learning_rate": 0.00021746031746031744,
-      "loss": 0.9085,
-      "step": 1140
-    },
-    {
-      "epoch": 2.96,
-      "learning_rate": 0.00021666666666666666,
-      "loss": 0.9148,
-      "step": 1150
-    },
-    {
-      "epoch": 2.98,
-      "learning_rate": 0.00021587301587301584,
-      "loss": 0.7775,
-      "step": 1160
-    },
-    {
-      "epoch": 3.01,
-      "learning_rate": 0.0002150793650793651,
-      "loss": 0.7366,
-      "step": 1170
-    },
-    {
-      "epoch": 3.04,
-      "learning_rate": 0.00021428571428571427,
-      "loss": 0.8865,
-      "step": 1180
-    },
-    {
-      "epoch": 3.06,
-      "learning_rate": 0.00021349206349206346,
-      "loss": 0.8989,
-      "step": 1190
-    },
-    {
-      "epoch": 3.09,
-      "learning_rate": 0.00021269841269841268,
-      "loss": 0.8376,
-      "step": 1200
-    },
-    {
-      "epoch": 3.09,
-      "eval_loss": 0.8965018391609192,
-      "eval_runtime": 189.2693,
-      "eval_samples_per_second": 10.567,
-      "eval_steps_per_second": 1.321,
-      "step": 1200
-    },
-    {
-      "epoch": 3.11,
-      "learning_rate": 0.0002119047619047619,
-      "loss": 0.7012,
-      "step": 1210
-    },
-    {
-      "epoch": 3.14,
-      "learning_rate": 0.0002111111111111111,
-      "loss": 0.7288,
-      "step": 1220
-    },
-    {
-      "epoch": 3.16,
-      "learning_rate": 0.0002103174603174603,
-      "loss": 0.8904,
-      "step": 1230
-    },
-    {
-      "epoch": 3.19,
-      "learning_rate": 0.00020952380952380948,
-      "loss": 0.9081,
-      "step": 1240
-    },
-    {
-      "epoch": 3.22,
-      "learning_rate": 0.00020873015873015873,
-      "loss": 0.8461,
-      "step": 1250
-    },
-    {
-      "epoch": 3.24,
-      "learning_rate": 0.00020793650793650791,
-      "loss": 0.6997,
-      "step": 1260
-    },
-    {
-      "epoch": 3.27,
-      "learning_rate": 0.00020714285714285713,
-      "loss": 0.7189,
-      "step": 1270
-    },
-    {
-      "epoch": 3.29,
-      "learning_rate": 0.00020634920634920632,
-      "loss": 0.8863,
-      "step": 1280
-    },
-    {
-      "epoch": 3.32,
-      "learning_rate": 0.00020555555555555556,
-      "loss": 0.906,
-      "step": 1290
-    },
-    {
-      "epoch": 3.34,
-      "learning_rate": 0.00020476190476190475,
-      "loss": 0.8287,
-      "step": 1300
-    },
-    {
-      "epoch": 3.37,
-      "learning_rate": 0.00020396825396825393,
-      "loss": 0.7015,
-      "step": 1310
-    },
-    {
-      "epoch": 3.4,
-      "learning_rate": 0.00020317460317460315,
-      "loss": 0.7325,
-      "step": 1320
-    },
-    {
-      "epoch": 3.42,
-      "learning_rate": 0.00020238095238095236,
-      "loss": 0.8878,
-      "step": 1330
-    },
-    {
-      "epoch": 3.45,
-      "learning_rate": 0.00020158730158730158,
-      "loss": 0.9057,
-      "step": 1340
-    },
-    {
-      "epoch": 3.47,
-      "learning_rate": 0.00020079365079365077,
-      "loss": 0.8399,
-      "step": 1350
-    },
-    {
-      "epoch": 3.5,
-      "learning_rate": 0.00019999999999999998,
-      "loss": 0.7073,
-      "step": 1360
-    },
-    {
-      "epoch": 3.52,
-      "learning_rate": 0.0001992063492063492,
-      "loss": 0.7281,
-      "step": 1370
-    },
-    {
-      "epoch": 3.55,
-      "learning_rate": 0.0001984126984126984,
-      "loss": 0.8829,
-      "step": 1380
-    },
-    {
-      "epoch": 3.58,
-      "learning_rate": 0.0001976190476190476,
-      "loss": 0.8923,
-      "step": 1390
-    },
-    {
-      "epoch": 3.6,
-      "learning_rate": 0.0001968253968253968,
-      "loss": 0.8389,
-      "step": 1400
-    },
-    {
-      "epoch": 3.6,
-      "eval_loss": 0.8923280239105225,
-      "eval_runtime": 189.1693,
-      "eval_samples_per_second": 10.573,
-      "eval_steps_per_second": 1.322,
-      "step": 1400
-    },
-    {
-      "epoch": 3.63,
-      "learning_rate": 0.00019603174603174603,
-      "loss": 0.7148,
-      "step": 1410
-    },
-    {
-      "epoch": 3.65,
-      "learning_rate": 0.00019523809523809522,
-      "loss": 0.7331,
-      "step": 1420
-    },
-    {
-      "epoch": 3.68,
-      "learning_rate": 0.00019444444444444443,
-      "loss": 0.8944,
-      "step": 1430
-    },
-    {
-      "epoch": 3.7,
-      "learning_rate": 0.00019365079365079362,
-      "loss": 0.9001,
-      "step": 1440
-    },
-    {
-      "epoch": 3.73,
-      "learning_rate": 0.00019285714285714286,
-      "loss": 0.8397,
-      "step": 1450
-    },
-    {
-      "epoch": 3.76,
-      "learning_rate": 0.00019206349206349205,
-      "loss": 0.6953,
-      "step": 1460
-    },
-    {
-      "epoch": 3.78,
-      "learning_rate": 0.00019126984126984124,
-      "loss": 0.7229,
-      "step": 1470
-    },
-    {
-      "epoch": 3.81,
-      "learning_rate": 0.00019047619047619045,
-      "loss": 0.8833,
-      "step": 1480
-    },
-    {
-      "epoch": 3.83,
-      "learning_rate": 0.00018968253968253967,
-      "loss": 0.9028,
-      "step": 1490
-    },
-    {
-      "epoch": 3.86,
-      "learning_rate": 0.00018888888888888888,
-      "loss": 0.8412,
-      "step": 1500
-    },
-    {
-      "epoch": 3.88,
-      "learning_rate": 0.00018809523809523807,
-      "loss": 0.7024,
-      "step": 1510
-    },
-    {
-      "epoch": 3.91,
-      "learning_rate": 0.0001873015873015873,
-      "loss": 0.7262,
-      "step": 1520
-    },
-    {
-      "epoch": 3.94,
-      "learning_rate": 0.0001865079365079365,
-      "loss": 0.8926,
-      "step": 1530
-    },
-    {
-      "epoch": 3.96,
-      "learning_rate": 0.00018571428571428572,
-      "loss": 0.8703,
-      "step": 1540
-    },
-    {
-      "epoch": 3.99,
-      "learning_rate": 0.0001849206349206349,
-      "loss": 0.7311,
-      "step": 1550
-    },
-    {
-      "epoch": 4.01,
-      "learning_rate": 0.0001841269841269841,
-      "loss": 0.7535,
-      "step": 1560
-    },
-    {
-      "epoch": 4.04,
-      "learning_rate": 0.00018333333333333334,
-      "loss": 0.8779,
-      "step": 1570
-    },
-    {
-      "epoch": 4.06,
-      "learning_rate": 0.00018253968253968252,
-      "loss": 0.887,
-      "step": 1580
-    },
-    {
-      "epoch": 4.09,
-      "learning_rate": 0.00018174603174603174,
-      "loss": 0.797,
-      "step": 1590
-    },
-    {
-      "epoch": 4.12,
-      "learning_rate": 0.00018095238095238093,
-      "loss": 0.6651,
-      "step": 1600
-    },
-    {
-      "epoch": 4.12,
-      "eval_loss": 0.904344916343689,
-      "eval_runtime": 189.1226,
-      "eval_samples_per_second": 10.575,
-      "eval_steps_per_second": 1.322,
-      "step": 1600
-    },
-    {
-      "epoch": 4.14,
-      "learning_rate": 0.00018015873015873017,
-      "loss": 0.7348,
-      "step": 1610
-    },
-    {
-      "epoch": 4.17,
-      "learning_rate": 0.00017936507936507936,
-      "loss": 0.8756,
-      "step": 1620
-    },
-    {
-      "epoch": 4.19,
-      "learning_rate": 0.00017857142857142854,
-      "loss": 0.8934,
-      "step": 1630
-    },
-    {
-      "epoch": 4.22,
-      "learning_rate": 0.00017777777777777776,
-      "loss": 0.8023,
-      "step": 1640
-    },
-    {
-      "epoch": 4.24,
-      "learning_rate": 0.00017698412698412697,
-      "loss": 0.6788,
-      "step": 1650
-    },
-    {
-      "epoch": 4.27,
-      "learning_rate": 0.0001761904761904762,
-      "loss": 0.7387,
-      "step": 1660
-    },
-    {
-      "epoch": 4.3,
-      "learning_rate": 0.00017539682539682538,
-      "loss": 0.885,
-      "step": 1670
-    },
-    {
-      "epoch": 4.32,
-      "learning_rate": 0.00017460317460317457,
-      "loss": 0.8738,
-      "step": 1680
-    },
-    {
-      "epoch": 4.35,
-      "learning_rate": 0.0001738095238095238,
-      "loss": 0.8059,
-      "step": 1690
-    },
-    {
-      "epoch": 4.37,
-      "learning_rate": 0.000173015873015873,
-      "loss": 0.6667,
-      "step": 1700
-    },
-    {
-      "epoch": 4.4,
-      "learning_rate": 0.0001722222222222222,
-      "loss": 0.7406,
-      "step": 1710
-    },
-    {
-      "epoch": 4.42,
-      "learning_rate": 0.0001714285714285714,
-      "loss": 0.8764,
-      "step": 1720
-    },
-    {
-      "epoch": 4.45,
-      "learning_rate": 0.00017063492063492064,
-      "loss": 0.8839,
-      "step": 1730
-    },
-    {
-      "epoch": 4.48,
-      "learning_rate": 0.00016984126984126983,
-      "loss": 0.8009,
-      "step": 1740
-    },
-    {
-      "epoch": 4.5,
-      "learning_rate": 0.00016904761904761904,
-      "loss": 0.6658,
-      "step": 1750
-    },
-    {
-      "epoch": 4.53,
-      "learning_rate": 0.00016825396825396823,
-      "loss": 0.7423,
-      "step": 1760
-    },
-    {
-      "epoch": 4.55,
-      "learning_rate": 0.00016746031746031747,
-      "loss": 0.8748,
-      "step": 1770
-    },
-    {
-      "epoch": 4.58,
-      "learning_rate": 0.00016666666666666666,
-      "loss": 0.887,
-      "step": 1780
-    },
-    {
-      "epoch": 4.6,
-      "learning_rate": 0.00016587301587301585,
-      "loss": 0.8038,
-      "step": 1790
-    },
-    {
-      "epoch": 4.63,
-      "learning_rate": 0.00016507936507936506,
-      "loss": 0.6631,
-      "step": 1800
-    },
-    {
-      "epoch": 4.63,
-      "eval_loss": 0.9004252552986145,
-      "eval_runtime": 189.1263,
-      "eval_samples_per_second": 10.575,
-      "eval_steps_per_second": 1.322,
-      "step": 1800
-    },
-    {
-      "epoch": 4.66,
-      "learning_rate": 0.00016428571428571428,
-      "loss": 0.7327,
-      "step": 1810
-    },
-    {
-      "epoch": 4.68,
-      "learning_rate": 0.0001634920634920635,
-      "loss": 0.8703,
-      "step": 1820
-    },
-    {
-      "epoch": 4.71,
-      "learning_rate": 0.00016269841269841268,
-      "loss": 0.8734,
-      "step": 1830
-    },
-    {
-      "epoch": 4.73,
-      "learning_rate": 0.00016190476190476187,
-      "loss": 0.8066,
-      "step": 1840
-    },
-    {
-      "epoch": 4.76,
-      "learning_rate": 0.0001611111111111111,
-      "loss": 0.6655,
-      "step": 1850
-    },
-    {
-      "epoch": 4.78,
-      "learning_rate": 0.0001603174603174603,
-      "loss": 0.736,
-      "step": 1860
-    },
-    {
-      "epoch": 4.81,
-      "learning_rate": 0.00015952380952380951,
-      "loss": 0.8707,
-      "step": 1870
-    },
-    {
-      "epoch": 4.84,
-      "learning_rate": 0.0001587301587301587,
-      "loss": 0.8789,
-      "step": 1880
-    },
-    {
-      "epoch": 4.86,
-      "learning_rate": 0.00015793650793650795,
-      "loss": 0.804,
-      "step": 1890
-    },
-    {
-      "epoch": 4.89,
-      "learning_rate": 0.00015714285714285713,
-      "loss": 0.6628,
-      "step": 1900
-    },
-    {
-      "epoch": 4.91,
-      "learning_rate": 0.00015634920634920635,
-      "loss": 0.7394,
-      "step": 1910
-    },
-    {
-      "epoch": 4.94,
-      "learning_rate": 0.00015555555555555554,
-      "loss": 0.8856,
-      "step": 1920
-    },
-    {
-      "epoch": 4.96,
-      "learning_rate": 0.00015476190476190478,
-      "loss": 0.8558,
-      "step": 1930
-    },
-    {
-      "epoch": 4.99,
-      "learning_rate": 0.00015396825396825397,
-      "loss": 0.6766,
-      "step": 1940
-    },
-    {
-      "epoch": 5.02,
-      "learning_rate": 0.00015317460317460315,
-      "loss": 0.7662,
-      "step": 1950
-    },
-    {
-      "epoch": 5.04,
-      "learning_rate": 0.00015238095238095237,
-      "loss": 0.8602,
-      "step": 1960
-    },
-    {
-      "epoch": 5.07,
-      "learning_rate": 0.00015158730158730158,
-      "loss": 0.8567,
-      "step": 1970
-    },
-    {
-      "epoch": 5.09,
-      "learning_rate": 0.0001507936507936508,
-      "loss": 0.7482,
-      "step": 1980
-    },
-    {
-      "epoch": 5.12,
-      "learning_rate": 0.00015,
-      "loss": 0.6249,
-      "step": 1990
-    },
-    {
-      "epoch": 5.14,
-      "learning_rate": 0.00014920634920634917,
-      "loss": 0.7506,
-      "step": 2000
-    },
-    {
-      "epoch": 5.14,
-      "eval_loss": 0.9112463593482971,
-      "eval_runtime": 189.2232,
-      "eval_samples_per_second": 10.57,
-      "eval_steps_per_second": 1.321,
-      "step": 2000
-    },
-    {
-      "epoch": 5.17,
-      "learning_rate": 0.0001484126984126984,
-      "loss": 0.8679,
-      "step": 2010
-    },
-    {
-      "epoch": 5.2,
-      "learning_rate": 0.0001476190476190476,
-      "loss": 0.8575,
-      "step": 2020
-    },
-    {
-      "epoch": 5.22,
-      "learning_rate": 0.00014682539682539682,
-      "loss": 0.7545,
-      "step": 2030
-    },
-    {
-      "epoch": 5.25,
-      "learning_rate": 0.000146031746031746,
-      "loss": 0.6237,
-      "step": 2040
-    },
-    {
-      "epoch": 5.27,
-      "learning_rate": 0.00014523809523809522,
-      "loss": 0.7561,
-      "step": 2050
-    },
-    {
-      "epoch": 5.3,
-      "learning_rate": 0.0001444444444444444,
-      "loss": 0.8688,
-      "step": 2060
-    },
-    {
-      "epoch": 5.32,
-      "learning_rate": 0.00014365079365079363,
-      "loss": 0.8578,
-      "step": 2070
-    },
-    {
-      "epoch": 5.35,
-      "learning_rate": 0.00014285714285714284,
-      "loss": 0.7743,
-      "step": 2080
-    },
-    {
-      "epoch": 5.38,
-      "learning_rate": 0.00014206349206349206,
-      "loss": 0.6337,
-      "step": 2090
-    },
-    {
-      "epoch": 5.4,
-      "learning_rate": 0.00014126984126984124,
-      "loss": 0.7518,
-      "step": 2100
-    },
-    {
-      "epoch": 5.43,
-      "learning_rate": 0.00014047619047619046,
-      "loss": 0.8736,
-      "step": 2110
-    },
-    {
-      "epoch": 5.45,
-      "learning_rate": 0.00013968253968253967,
-      "loss": 0.8623,
-      "step": 2120
-    },
-    {
-      "epoch": 5.48,
-      "learning_rate": 0.0001388888888888889,
-      "loss": 0.7719,
-      "step": 2130
-    },
-    {
-      "epoch": 5.5,
-      "learning_rate": 0.00013809523809523808,
-      "loss": 0.6363,
-      "step": 2140
-    },
-    {
-      "epoch": 5.53,
-      "learning_rate": 0.0001373015873015873,
-      "loss": 0.7458,
-      "step": 2150
-    },
-    {
-      "epoch": 5.56,
-      "learning_rate": 0.00013650793650793648,
-      "loss": 0.865,
-      "step": 2160
-    },
-    {
-      "epoch": 5.58,
-      "learning_rate": 0.00013587301587301588,
-      "loss": 2.6458,
-      "step": 2170
-    },
-    {
-      "epoch": 5.61,
-      "learning_rate": 0.00013587301587301588,
-      "loss": 801.9857,
-      "step": 2180
-    },
-    {
-      "epoch": 5.63,
-      "learning_rate": 0.0001357142857142857,
-      "loss": 4068.018,
-      "step": 2190
-    },
-    {
-      "epoch": 5.66,
-      "learning_rate": 0.00013547619047619047,
-      "loss": 41837456.0,
-      "step": 2200
-    },
-    {
-      "epoch": 5.66,
-      "eval_loss": NaN,
-      "eval_runtime": 189.1905,
-      "eval_samples_per_second": 10.571,
-      "eval_steps_per_second": 1.321,
-      "step": 2200
-    },
-    {
-      "epoch": 5.68,
-      "learning_rate": 0.00013547619047619047,
-      "loss": 1.4509301308571507e+26,
-      "step": 2210
-    },
-    {
-      "epoch": 5.71,
-      "learning_rate": 0.00013547619047619047,
-      "loss": 3.3847730092507856e+24,
-      "step": 2220
-    },
-    {
-      "epoch": 5.74,
-      "learning_rate": 0.00013547619047619047,
-      "loss": 1.5211943209070177e+23,
-      "step": 2230
-    },
-    {
-      "epoch": 5.76,
-      "learning_rate": 0.00013547619047619047,
-      "loss": 6.678915709304036e+21,
-      "step": 2240
-    },
-    {
-      "epoch": 5.79,
-      "learning_rate": 0.00013531746031746032,
-      "loss": 9.238063623264189e+19,
-      "step": 2250
-    },
-    {
-      "epoch": 5.81,
-      "learning_rate": 0.00013531746031746032,
-      "loss": 1.0532014646514701e+20,
-      "step": 2260
-    },
-    {
-      "epoch": 5.84,
-      "learning_rate": 0.00013531746031746032,
-      "loss": 3.161435096687031e+25,
-      "step": 2270
-    },
-    {
-      "epoch": 5.86,
-      "learning_rate": 0.00013531746031746032,
-      "loss": 2.0162940987179532e+19,
-      "step": 2280
-    },
-    {
-      "epoch": 5.89,
-      "learning_rate": 0.00013531746031746032,
-      "loss": 2.55694599151234e+20,
-      "step": 2290
-    },
-    {
-      "epoch": 5.92,
-      "learning_rate": 0.00013523809523809522,
-      "loss": 5.808441058207432e+20,
-      "step": 2300
-    },
-    {
-      "epoch": 5.94,
-      "learning_rate": 0.00013523809523809522,
-      "loss": 1.9880088514154103e+22,
-      "step": 2310
-    },
-    {
-      "epoch": 5.97,
-      "learning_rate": 0.00013523809523809522,
-      "loss": 2.0954874078435546e+24,
-      "step": 2320
-    },
-    {
-      "epoch": 5.99,
-      "learning_rate": 0.00013523809523809522,
-      "loss": 6.309141694629275e+20,
-      "step": 2330
-    },
-    {
-      "epoch": 6.02,
-      "learning_rate": 0.00013515873015873016,
-      "loss": 7.353349497283535e+23,
-      "step": 2340
-    },
-    {
-      "epoch": 6.05,
-      "learning_rate": 0.00013468253968253966,
-      "loss": 0.0,
-      "step": 2350
-    },
-    {
-      "epoch": 6.07,
-      "learning_rate": 0.00013388888888888888,
-      "loss": 0.0,
-      "step": 2360
-    },
-    {
-      "epoch": 6.1,
-      "learning_rate": 0.00013309523809523806,
-      "loss": 0.0,
-      "step": 2370
-    },
-    {
-      "epoch": 6.12,
-      "learning_rate": 0.00013230158730158728,
-      "loss": 0.0,
-      "step": 2380
-    },
-    {
-      "epoch": 6.15,
-      "learning_rate": 0.0001315079365079365,
-      "loss": 0.0,
-      "step": 2390
-    },
-    {
-      "epoch": 6.17,
-      "learning_rate": 0.0001307142857142857,
-      "loss": 0.0,
-      "step": 2400
-    },
-    {
-      "epoch": 6.17,
-      "eval_loss": NaN,
-      "eval_runtime": 164.902,
-      "eval_samples_per_second": 12.128,
-      "eval_steps_per_second": 1.516,
-      "step": 2400
-    },
-    {
-      "epoch": 6.2,
-      "learning_rate": 0.0001299206349206349,
-      "loss": 0.0,
-      "step": 2410
-    },
-    {
-      "epoch": 6.23,
-      "learning_rate": 0.0001291269841269841,
-      "loss": 0.0,
-      "step": 2420
-    },
-    {
-      "epoch": 6.25,
-      "learning_rate": 0.00012833333333333333,
-      "loss": 0.0,
-      "step": 2430
-    },
-    {
-      "epoch": 6.28,
-      "learning_rate": 0.00012753968253968254,
-      "loss": 0.0,
-      "step": 2440
-    },
-    {
-      "epoch": 6.3,
-      "learning_rate": 0.00012674603174603173,
-      "loss": 0.0,
-      "step": 2450
-    },
-    {
-      "epoch": 6.33,
-      "learning_rate": 0.00012595238095238094,
-      "loss": 0.0,
-      "step": 2460
-    },
-    {
-      "epoch": 6.35,
-      "learning_rate": 0.00012515873015873013,
-      "loss": 0.0,
-      "step": 2470
-    },
-    {
-      "epoch": 6.38,
-      "learning_rate": 0.00012436507936507935,
-      "loss": 0.0,
-      "step": 2480
-    },
-    {
-      "epoch": 6.41,
-      "learning_rate": 0.00012357142857142856,
-      "loss": 0.0,
-      "step": 2490
-    },
-    {
-      "epoch": 6.43,
-      "learning_rate": 0.00012277777777777778,
-      "loss": 0.0,
-      "step": 2500
-    },
-    {
-      "epoch": 6.46,
-      "learning_rate": 0.00012198412698412697,
-      "loss": 0.0,
-      "step": 2510
-    },
-    {
-      "epoch": 6.48,
-      "learning_rate": 0.00012119047619047618,
-      "loss": 0.0,
-      "step": 2520
-    },
-    {
-      "epoch": 6.51,
-      "learning_rate": 0.00012039682539682538,
-      "loss": 0.0,
-      "step": 2530
-    },
-    {
-      "epoch": 6.53,
-      "learning_rate": 0.0001196031746031746,
-      "loss": 0.0,
-      "step": 2540
-    },
-    {
-      "epoch": 6.56,
-      "learning_rate": 0.0001188095238095238,
-      "loss": 0.0,
-      "step": 2550
-    },
-    {
-      "epoch": 6.59,
-      "learning_rate": 0.00011801587301587301,
-      "loss": 0.0,
-      "step": 2560
-    },
-    {
-      "epoch": 6.61,
-      "learning_rate": 0.0001172222222222222,
-      "loss": 0.0,
-      "step": 2570
-    },
-    {
-      "epoch": 6.64,
-      "learning_rate": 0.00011642857142857142,
-      "loss": 0.0,
-      "step": 2580
-    },
-    {
-      "epoch": 6.66,
-      "learning_rate": 0.00011563492063492062,
-      "loss": 0.0,
-      "step": 2590
-    },
-    {
-      "epoch": 6.69,
-      "learning_rate": 0.00011484126984126983,
-      "loss": 0.0,
-      "step": 2600
-    },
-    {
-      "epoch": 6.69,
-      "eval_loss": NaN,
-      "eval_runtime": 164.9294,
-      "eval_samples_per_second": 12.126,
-      "eval_steps_per_second": 1.516,
-      "step": 2600
-    },
-    {
-      "epoch": 6.71,
-      "learning_rate": 0.00011404761904761903,
-      "loss": 0.0,
-      "step": 2610
-    },
-    {
-      "epoch": 6.74,
-      "learning_rate": 0.00011325396825396825,
-      "loss": 0.0,
-      "step": 2620
-    },
-    {
-      "epoch": 6.77,
-      "learning_rate": 0.00011246031746031745,
-      "loss": 0.0,
-      "step": 2630
-    },
-    {
-      "epoch": 6.79,
-      "learning_rate": 0.00011166666666666667,
-      "loss": 0.0,
-      "step": 2640
-    },
-    {
-      "epoch": 6.82,
-      "learning_rate": 0.00011087301587301585,
-      "loss": 0.0,
-      "step": 2650
-    },
-    {
-      "epoch": 6.84,
-      "learning_rate": 0.00011007936507936507,
-      "loss": 0.0,
-      "step": 2660
-    },
-    {
-      "epoch": 6.87,
-      "learning_rate": 0.00010928571428571427,
-      "loss": 0.0,
-      "step": 2670
-    },
-    {
-      "epoch": 6.89,
-      "learning_rate": 0.00010849206349206349,
-      "loss": 0.0,
-      "step": 2680
-    },
-    {
-      "epoch": 6.92,
-      "learning_rate": 0.00010769841269841269,
-      "loss": 0.0,
-      "step": 2690
-    },
-    {
-      "epoch": 6.95,
-      "learning_rate": 0.0001069047619047619,
-      "loss": 0.0,
-      "step": 2700
-    },
-    {
-      "epoch": 6.97,
-      "learning_rate": 0.0001061111111111111,
-      "loss": 0.0,
-      "step": 2710
-    },
-    {
-      "epoch": 7.0,
-      "learning_rate": 0.0001053174603174603,
-      "loss": 0.0,
-      "step": 2720
-    },
-    {
-      "epoch": 7.02,
-      "learning_rate": 0.0001045238095238095,
-      "loss": 0.0,
-      "step": 2730
-    },
-    {
-      "epoch": 7.05,
-      "learning_rate": 0.00010373015873015872,
-      "loss": 0.0,
-      "step": 2740
-    },
-    {
-      "epoch": 7.07,
-      "learning_rate": 0.00010293650793650792,
-      "loss": 0.0,
-      "step": 2750
-    },
-    {
-      "epoch": 7.1,
-      "learning_rate": 0.00010214285714285714,
-      "loss": 0.0,
-      "step": 2760
-    },
-    {
-      "epoch": 7.13,
-      "learning_rate": 0.00010134920634920634,
-      "loss": 0.0,
-      "step": 2770
-    },
-    {
-      "epoch": 7.15,
-      "learning_rate": 0.00010055555555555555,
-      "loss": 0.0,
-      "step": 2780
-    },
-    {
-      "epoch": 7.18,
-      "learning_rate": 9.976190476190474e-05,
-      "loss": 0.0,
-      "step": 2790
-    },
-    {
-      "epoch": 7.2,
-      "learning_rate": 9.896825396825396e-05,
-      "loss": 0.0,
-      "step": 2800
-    },
-    {
-      "epoch": 7.2,
-      "eval_loss": NaN,
-      "eval_runtime": 164.8859,
-      "eval_samples_per_second": 12.13,
-      "eval_steps_per_second": 1.516,
-      "step": 2800
-    },
-    {
-      "epoch": 7.23,
-      "learning_rate": 9.817460317460316e-05,
-      "loss": 0.0,
-      "step": 2810
-    },
-    {
-      "epoch": 7.25,
-      "learning_rate": 9.738095238095237e-05,
-      "loss": 0.0,
-      "step": 2820
-    },
-    {
-      "epoch": 7.28,
-      "learning_rate": 9.658730158730158e-05,
-      "loss": 0.0,
-      "step": 2830
-    },
-    {
-      "epoch": 7.31,
-      "learning_rate": 9.579365079365079e-05,
-      "loss": 0.0,
-      "step": 2840
-    },
-    {
-      "epoch": 7.33,
-      "learning_rate": 9.499999999999999e-05,
-      "loss": 0.0,
-      "step": 2850
-    },
-    {
-      "epoch": 7.36,
-      "learning_rate": 9.42063492063492e-05,
-      "loss": 0.0,
-      "step": 2860
-    },
-    {
-      "epoch": 7.38,
-      "learning_rate": 9.34126984126984e-05,
-      "loss": 0.0,
-      "step": 2870
-    },
-    {
-      "epoch": 7.41,
-      "learning_rate": 9.261904761904761e-05,
-      "loss": 0.0,
-      "step": 2880
-    },
-    {
-      "epoch": 7.43,
-      "learning_rate": 9.182539682539681e-05,
-      "loss": 0.0,
-      "step": 2890
-    },
-    {
-      "epoch": 7.46,
-      "learning_rate": 9.103174603174603e-05,
-      "loss": 0.0,
-      "step": 2900
-    },
-    {
-      "epoch": 7.49,
-      "learning_rate": 9.023809523809523e-05,
-      "loss": 0.0,
-      "step": 2910
-    },
-    {
-      "epoch": 7.51,
-      "learning_rate": 8.944444444444444e-05,
-      "loss": 0.0,
-      "step": 2920
-    },
-    {
-      "epoch": 7.54,
-      "learning_rate": 8.865079365079364e-05,
-      "loss": 0.0,
-      "step": 2930
-    },
-    {
-      "epoch": 7.56,
-      "learning_rate": 8.785714285714286e-05,
-      "loss": 0.0,
-      "step": 2940
-    },
-    {
-      "epoch": 7.59,
-      "learning_rate": 8.706349206349205e-05,
-      "loss": 0.0,
-      "step": 2950
-    },
-    {
-      "epoch": 7.61,
-      "learning_rate": 8.626984126984126e-05,
-      "loss": 0.0,
-      "step": 2960
-    },
-    {
-      "epoch": 7.64,
-      "learning_rate": 8.547619047619046e-05,
-      "loss": 0.0,
-      "step": 2970
-    },
-    {
-      "epoch": 7.67,
-      "learning_rate": 8.468253968253968e-05,
-      "loss": 0.0,
-      "step": 2980
-    },
-    {
-      "epoch": 7.69,
-      "learning_rate": 8.388888888888888e-05,
-      "loss": 0.0,
-      "step": 2990
-    },
-    {
-      "epoch": 7.72,
-      "learning_rate": 8.30952380952381e-05,
-      "loss": 0.0,
-      "step": 3000
-    },
-    {
-      "epoch": 7.72,
-      "eval_loss": NaN,
-      "eval_runtime": 164.8915,
-      "eval_samples_per_second": 12.129,
-      "eval_steps_per_second": 1.516,
-      "step": 3000
-    },
-    {
-      "epoch": 7.74,
-      "learning_rate": 8.23015873015873e-05,
-      "loss": 0.0,
-      "step": 3010
-    },
-    {
-      "epoch": 7.77,
-      "learning_rate": 8.150793650793651e-05,
-      "loss": 0.0,
-      "step": 3020
-    },
-    {
-      "epoch": 7.79,
-      "learning_rate": 8.07142857142857e-05,
-      "loss": 0.0,
-      "step": 3030
-    },
-    {
-      "epoch": 7.82,
-      "learning_rate": 7.992063492063491e-05,
-      "loss": 0.0,
-      "step": 3040
-    },
-    {
-      "epoch": 7.85,
-      "learning_rate": 7.912698412698412e-05,
-      "loss": 0.0,
-      "step": 3050
-    },
-    {
-      "epoch": 7.87,
-      "learning_rate": 7.833333333333333e-05,
-      "loss": 0.0,
-      "step": 3060
-    },
-    {
-      "epoch": 7.9,
-      "learning_rate": 7.753968253968253e-05,
-      "loss": 0.0,
-      "step": 3070
-    },
-    {
-      "epoch": 7.92,
-      "learning_rate": 7.674603174603175e-05,
-      "loss": 0.0,
-      "step": 3080
-    },
-    {
-      "epoch": 7.95,
-      "learning_rate": 7.595238095238095e-05,
-      "loss": 0.0,
-      "step": 3090
-    },
-    {
-      "epoch": 7.97,
-      "learning_rate": 7.515873015873015e-05,
-      "loss": 0.0,
-      "step": 3100
-    },
-    {
-      "epoch": 8.0,
-      "learning_rate": 7.436507936507935e-05,
-      "loss": 0.0,
-      "step": 3110
-    },
-    {
-      "epoch": 8.03,
-      "learning_rate": 7.357142857142857e-05,
-      "loss": 0.0,
-      "step": 3120
-    },
-    {
-      "epoch": 8.05,
-      "learning_rate": 7.277777777777777e-05,
-      "loss": 0.0,
-      "step": 3130
-    },
-    {
-      "epoch": 8.08,
-      "learning_rate": 7.198412698412697e-05,
-      "loss": 0.0,
-      "step": 3140
-    },
-    {
-      "epoch": 8.1,
-      "learning_rate": 7.119047619047618e-05,
-      "loss": 0.0,
-      "step": 3150
-    },
-    {
-      "epoch": 8.13,
-      "learning_rate": 7.039682539682539e-05,
-      "loss": 0.0,
-      "step": 3160
-    },
-    {
-      "epoch": 8.15,
-      "learning_rate": 6.960317460317459e-05,
-      "loss": 0.0,
-      "step": 3170
-    },
-    {
-      "epoch": 8.18,
-      "learning_rate": 6.88095238095238e-05,
-      "loss": 0.0,
-      "step": 3180
-    },
-    {
-      "epoch": 8.21,
-      "learning_rate": 6.8015873015873e-05,
-      "loss": 0.0,
-      "step": 3190
-    },
-    {
-      "epoch": 8.23,
-      "learning_rate": 6.722222222222222e-05,
-      "loss": 0.0,
-      "step": 3200
-    },
-    {
-      "epoch": 8.23,
-      "eval_loss": NaN,
-      "eval_runtime": 164.9214,
-      "eval_samples_per_second": 12.127,
-      "eval_steps_per_second": 1.516,
-      "step": 3200
-    },
-    {
-      "epoch": 8.26,
-      "learning_rate": 6.642857142857142e-05,
-      "loss": 0.0,
-      "step": 3210
-    },
-    {
-      "epoch": 8.28,
-      "learning_rate": 6.563492063492062e-05,
-      "loss": 0.0,
-      "step": 3220
-    },
-    {
-      "epoch": 8.31,
-      "learning_rate": 6.484126984126984e-05,
-      "loss": 0.0,
-      "step": 3230
-    },
-    {
-      "epoch": 8.33,
-      "learning_rate": 6.404761904761904e-05,
-      "loss": 0.0,
-      "step": 3240
-    },
-    {
-      "epoch": 8.36,
-      "learning_rate": 6.325396825396824e-05,
-      "loss": 0.0,
-      "step": 3250
-    },
-    {
-      "epoch": 8.39,
-      "learning_rate": 6.246031746031746e-05,
-      "loss": 0.0,
-      "step": 3260
-    },
-    {
-      "epoch": 8.41,
-      "learning_rate": 6.166666666666666e-05,
-      "loss": 0.0,
-      "step": 3270
-    },
-    {
-      "epoch": 8.44,
-      "learning_rate": 6.0873015873015865e-05,
-      "loss": 0.0,
-      "step": 3280
-    },
-    {
-      "epoch": 8.46,
-      "learning_rate": 6.007936507936507e-05,
-      "loss": 0.0,
-      "step": 3290
-    },
-    {
-      "epoch": 8.49,
-      "learning_rate": 5.9285714285714275e-05,
-      "loss": 0.0,
-      "step": 3300
-    },
-    {
-      "epoch": 8.51,
-      "learning_rate": 5.849206349206348e-05,
-      "loss": 0.0,
-      "step": 3310
-    },
-    {
-      "epoch": 8.54,
-      "learning_rate": 5.769841269841269e-05,
-      "loss": 0.0,
-      "step": 3320
-    },
-    {
-      "epoch": 8.57,
-      "learning_rate": 5.69047619047619e-05,
-      "loss": 0.0,
-      "step": 3330
-    },
-    {
-      "epoch": 8.59,
-      "learning_rate": 5.61111111111111e-05,
-      "loss": 0.0,
-      "step": 3340
-    },
-    {
-      "epoch": 8.62,
-      "learning_rate": 5.531746031746031e-05,
-      "loss": 0.0,
-      "step": 3350
-    },
-    {
-      "epoch": 8.64,
-      "learning_rate": 5.452380952380952e-05,
-      "loss": 0.0,
-      "step": 3360
-    },
-    {
-      "epoch": 8.67,
-      "learning_rate": 5.3730158730158726e-05,
-      "loss": 0.0,
-      "step": 3370
-    },
-    {
-      "epoch": 8.69,
-      "learning_rate": 5.293650793650793e-05,
-      "loss": 0.0,
-      "step": 3380
-    },
-    {
-      "epoch": 8.72,
-      "learning_rate": 5.2142857142857135e-05,
-      "loss": 0.0,
-      "step": 3390
-    },
-    {
-      "epoch": 8.75,
-      "learning_rate": 5.1349206349206344e-05,
-      "loss": 0.0,
-      "step": 3400
-    },
-    {
-      "epoch": 8.75,
-      "eval_loss": NaN,
-      "eval_runtime": 164.9331,
-      "eval_samples_per_second": 12.126,
-      "eval_steps_per_second": 1.516,
-      "step": 3400
-    },
-    {
-      "epoch": 8.77,
-      "learning_rate": 5.055555555555555e-05,
-      "loss": 0.0,
-      "step": 3410
-    },
-    {
-      "epoch": 8.8,
-      "learning_rate": 4.976190476190475e-05,
-      "loss": 0.0,
-      "step": 3420
-    },
-    {
-      "epoch": 8.82,
-      "learning_rate": 4.896825396825396e-05,
-      "loss": 0.0,
-      "step": 3430
-    },
-    {
-      "epoch": 8.85,
-      "learning_rate": 4.817460317460317e-05,
-      "loss": 0.0,
-      "step": 3440
-    },
-    {
-      "epoch": 8.87,
-      "learning_rate": 4.738095238095238e-05,
-      "loss": 0.0,
-      "step": 3450
-    },
-    {
-      "epoch": 8.9,
-      "learning_rate": 4.658730158730158e-05,
-      "loss": 0.0,
-      "step": 3460
-    },
-    {
-      "epoch": 8.93,
-      "learning_rate": 4.579365079365079e-05,
-      "loss": 0.0,
-      "step": 3470
-    },
-    {
-      "epoch": 8.95,
-      "learning_rate": 4.4999999999999996e-05,
-      "loss": 0.0,
-      "step": 3480
-    },
-    {
-      "epoch": 8.98,
-      "learning_rate": 4.42063492063492e-05,
-      "loss": 0.0,
-      "step": 3490
-    },
-    {
-      "epoch": 9.0,
-      "learning_rate": 4.3412698412698406e-05,
-      "loss": 0.0,
-      "step": 3500
-    },
-    {
-      "epoch": 9.03,
-      "learning_rate": 4.2619047619047614e-05,
-      "loss": 0.0,
-      "step": 3510
-    },
-    {
-      "epoch": 9.05,
-      "learning_rate": 4.182539682539682e-05,
-      "loss": 0.0,
-      "step": 3520
-    },
-    {
-      "epoch": 9.08,
-      "learning_rate": 4.1031746031746024e-05,
-      "loss": 0.0,
-      "step": 3530
-    },
-    {
-      "epoch": 9.11,
-      "learning_rate": 4.023809523809523e-05,
-      "loss": 0.0,
-      "step": 3540
-    },
-    {
-      "epoch": 9.13,
-      "learning_rate": 3.944444444444444e-05,
-      "loss": 0.0,
-      "step": 3550
-    },
-    {
-      "epoch": 9.16,
-      "learning_rate": 3.865079365079365e-05,
-      "loss": 0.0,
-      "step": 3560
-    },
-    {
-      "epoch": 9.18,
-      "learning_rate": 3.785714285714285e-05,
-      "loss": 0.0,
-      "step": 3570
-    },
-    {
-      "epoch": 9.21,
-      "learning_rate": 3.706349206349206e-05,
-      "loss": 0.0,
-      "step": 3580
-    },
-    {
-      "epoch": 9.23,
-      "learning_rate": 3.6269841269841266e-05,
-      "loss": 0.0,
-      "step": 3590
-    },
-    {
-      "epoch": 9.26,
-      "learning_rate": 3.5476190476190475e-05,
-      "loss": 0.0,
-      "step": 3600
-    },
-    {
-      "epoch": 9.26,
-      "eval_loss": NaN,
-      "eval_runtime": 164.9466,
-      "eval_samples_per_second": 12.125,
-      "eval_steps_per_second": 1.516,
-      "step": 3600
-    }
-  ],
-  "max_steps": 3880,
-  "num_train_epochs": 10,
-  "total_flos": 4.1583436794093896e+18,
-  "trial_name": null,
-  "trial_params": null
-}

checkpoint-3600/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:3e9adb78996a536c4aa514741768e2b05cafc3e20ac4a0a0fe98e38b91109396
-size 3899

checkpoint-3800/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:18c2f0237ccfb8afd6cd7875393f49b2693b0535a82600fa7a3ed83c4fb9d324
-size 134433093

checkpoint-3800/pytorch_model.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:58653c0888eea93a18cfef68476391e6cf3aaabd0a866d5bd1a63232af5da325
-size 67201357

checkpoint-3800/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:94a7728da6a7fa81be20f01daede1f4c98ccfa8b9f494eba5cd524ec56cdd102
-size 14575

checkpoint-3800/scaler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:7fa181fa360d46feed4180ea17c8b6a4a879a9b4231c2e91aff2be20be9076cc
-size 557

checkpoint-3800/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:34b8c336e51219d5b13963d925f0201df2c0b333a86c61eb7fe22364210b844d
-size 627

checkpoint-3800/trainer_state.json DELETED Viewed

@@ -1,2448 +0,0 @@
-{
-  "best_metric": 0.8923280239105225,
-  "best_model_checkpoint": "./lora-alpaca-hc8/checkpoint-1400",
-  "epoch": 9.77491961414791,
-  "global_step": 3800,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.03,
-      "learning_rate": 2.9999999999999997e-05,
-      "loss": 1.3719,
-      "step": 10
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 5.9999999999999995e-05,
-      "loss": 1.5358,
-      "step": 20
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 8.999999999999999e-05,
-      "loss": 1.5633,
-      "step": 30
-    },
-    {
-      "epoch": 0.1,
-      "learning_rate": 0.00011999999999999999,
-      "loss": 1.2433,
-      "step": 40
-    },
-    {
-      "epoch": 0.13,
-      "learning_rate": 0.00015,
-      "loss": 0.9843,
-      "step": 50
-    },
-    {
-      "epoch": 0.15,
-      "learning_rate": 0.00017999999999999998,
-      "loss": 1.012,
-      "step": 60
-    },
-    {
-      "epoch": 0.18,
-      "learning_rate": 0.00020999999999999998,
-      "loss": 1.0392,
-      "step": 70
-    },
-    {
-      "epoch": 0.21,
-      "learning_rate": 0.00023999999999999998,
-      "loss": 1.0541,
-      "step": 80
-    },
-    {
-      "epoch": 0.23,
-      "learning_rate": 0.00027,
-      "loss": 0.9608,
-      "step": 90
-    },
-    {
-      "epoch": 0.26,
-      "learning_rate": 0.0003,
-      "loss": 0.8697,
-      "step": 100
-    },
-    {
-      "epoch": 0.28,
-      "learning_rate": 0.00029920634920634916,
-      "loss": 0.9836,
-      "step": 110
-    },
-    {
-      "epoch": 0.31,
-      "learning_rate": 0.00029841269841269835,
-      "loss": 1.003,
-      "step": 120
-    },
-    {
-      "epoch": 0.33,
-      "learning_rate": 0.0002976190476190476,
-      "loss": 1.0052,
-      "step": 130
-    },
-    {
-      "epoch": 0.36,
-      "learning_rate": 0.0002968253968253968,
-      "loss": 0.9267,
-      "step": 140
-    },
-    {
-      "epoch": 0.39,
-      "learning_rate": 0.000296031746031746,
-      "loss": 0.8318,
-      "step": 150
-    },
-    {
-      "epoch": 0.41,
-      "learning_rate": 0.0002952380952380952,
-      "loss": 0.9594,
-      "step": 160
-    },
-    {
-      "epoch": 0.44,
-      "learning_rate": 0.00029444444444444445,
-      "loss": 0.987,
-      "step": 170
-    },
-    {
-      "epoch": 0.46,
-      "learning_rate": 0.00029365079365079364,
-      "loss": 0.9646,
-      "step": 180
-    },
-    {
-      "epoch": 0.49,
-      "learning_rate": 0.00029285714285714283,
-      "loss": 0.8501,
-      "step": 190
-    },
-    {
-      "epoch": 0.51,
-      "learning_rate": 0.000292063492063492,
-      "loss": 0.7568,
-      "step": 200
-    },
-    {
-      "epoch": 0.51,
-      "eval_loss": 0.9958714246749878,
-      "eval_runtime": 189.2223,
-      "eval_samples_per_second": 10.57,
-      "eval_steps_per_second": 1.321,
-      "step": 200
-    },
-    {
-      "epoch": 0.54,
-      "learning_rate": 0.00029126984126984126,
-      "loss": 0.949,
-      "step": 210
-    },
-    {
-      "epoch": 0.57,
-      "learning_rate": 0.00029047619047619045,
-      "loss": 0.9581,
-      "step": 220
-    },
-    {
-      "epoch": 0.59,
-      "learning_rate": 0.00028968253968253963,
-      "loss": 0.9526,
-      "step": 230
-    },
-    {
-      "epoch": 0.62,
-      "learning_rate": 0.0002888888888888888,
-      "loss": 0.847,
-      "step": 240
-    },
-    {
-      "epoch": 0.64,
-      "learning_rate": 0.00028809523809523806,
-      "loss": 0.7414,
-      "step": 250
-    },
-    {
-      "epoch": 0.67,
-      "learning_rate": 0.00028730158730158725,
-      "loss": 0.9449,
-      "step": 260
-    },
-    {
-      "epoch": 0.69,
-      "learning_rate": 0.0002865079365079365,
-      "loss": 0.9607,
-      "step": 270
-    },
-    {
-      "epoch": 0.72,
-      "learning_rate": 0.0002857142857142857,
-      "loss": 0.9456,
-      "step": 280
-    },
-    {
-      "epoch": 0.75,
-      "learning_rate": 0.0002849206349206349,
-      "loss": 0.8346,
-      "step": 290
-    },
-    {
-      "epoch": 0.77,
-      "learning_rate": 0.0002841269841269841,
-      "loss": 0.7275,
-      "step": 300
-    },
-    {
-      "epoch": 0.8,
-      "learning_rate": 0.0002833333333333333,
-      "loss": 0.9337,
-      "step": 310
-    },
-    {
-      "epoch": 0.82,
-      "learning_rate": 0.0002825396825396825,
-      "loss": 0.9466,
-      "step": 320
-    },
-    {
-      "epoch": 0.85,
-      "learning_rate": 0.00028174603174603173,
-      "loss": 0.9386,
-      "step": 330
-    },
-    {
-      "epoch": 0.87,
-      "learning_rate": 0.0002809523809523809,
-      "loss": 0.8254,
-      "step": 340
-    },
-    {
-      "epoch": 0.9,
-      "learning_rate": 0.0002801587301587301,
-      "loss": 0.723,
-      "step": 350
-    },
-    {
-      "epoch": 0.93,
-      "learning_rate": 0.00027936507936507935,
-      "loss": 0.9274,
-      "step": 360
-    },
-    {
-      "epoch": 0.95,
-      "learning_rate": 0.00027857142857142854,
-      "loss": 0.9492,
-      "step": 370
-    },
-    {
-      "epoch": 0.98,
-      "learning_rate": 0.0002777777777777778,
-      "loss": 0.871,
-      "step": 380
-    },
-    {
-      "epoch": 1.0,
-      "learning_rate": 0.00027698412698412697,
-      "loss": 0.7533,
-      "step": 390
-    },
-    {
-      "epoch": 1.03,
-      "learning_rate": 0.00027619047619047615,
-      "loss": 0.9284,
-      "step": 400
-    },
-    {
-      "epoch": 1.03,
-      "eval_loss": 0.9276881217956543,
-      "eval_runtime": 189.2181,
-      "eval_samples_per_second": 10.57,
-      "eval_steps_per_second": 1.321,
-      "step": 400
-    },
-    {
-      "epoch": 1.05,
-      "learning_rate": 0.0002753968253968254,
-      "loss": 0.9402,
-      "step": 410
-    },
-    {
-      "epoch": 1.08,
-      "learning_rate": 0.0002746031746031746,
-      "loss": 0.9188,
-      "step": 420
-    },
-    {
-      "epoch": 1.11,
-      "learning_rate": 0.00027380952380952377,
-      "loss": 0.7976,
-      "step": 430
-    },
-    {
-      "epoch": 1.13,
-      "learning_rate": 0.00027301587301587296,
-      "loss": 0.7172,
-      "step": 440
-    },
-    {
-      "epoch": 1.16,
-      "learning_rate": 0.0002722222222222222,
-      "loss": 0.9195,
-      "step": 450
-    },
-    {
-      "epoch": 1.18,
-      "learning_rate": 0.0002714285714285714,
-      "loss": 0.9426,
-      "step": 460
-    },
-    {
-      "epoch": 1.21,
-      "learning_rate": 0.00027063492063492063,
-      "loss": 0.9034,
-      "step": 470
-    },
-    {
-      "epoch": 1.23,
-      "learning_rate": 0.0002698412698412698,
-      "loss": 0.788,
-      "step": 480
-    },
-    {
-      "epoch": 1.26,
-      "learning_rate": 0.000269047619047619,
-      "loss": 0.7213,
-      "step": 490
-    },
-    {
-      "epoch": 1.29,
-      "learning_rate": 0.00026825396825396825,
-      "loss": 0.9149,
-      "step": 500
-    },
-    {
-      "epoch": 1.31,
-      "learning_rate": 0.00026746031746031744,
-      "loss": 0.9386,
-      "step": 510
-    },
-    {
-      "epoch": 1.34,
-      "learning_rate": 0.0002666666666666666,
-      "loss": 0.9099,
-      "step": 520
-    },
-    {
-      "epoch": 1.36,
-      "learning_rate": 0.00026587301587301587,
-      "loss": 0.7802,
-      "step": 530
-    },
-    {
-      "epoch": 1.39,
-      "learning_rate": 0.00026507936507936506,
-      "loss": 0.7246,
-      "step": 540
-    },
-    {
-      "epoch": 1.41,
-      "learning_rate": 0.00026428571428571424,
-      "loss": 0.9213,
-      "step": 550
-    },
-    {
-      "epoch": 1.44,
-      "learning_rate": 0.00026349206349206343,
-      "loss": 0.9348,
-      "step": 560
-    },
-    {
-      "epoch": 1.47,
-      "learning_rate": 0.0002626984126984127,
-      "loss": 0.8995,
-      "step": 570
-    },
-    {
-      "epoch": 1.49,
-      "learning_rate": 0.00026190476190476186,
-      "loss": 0.7866,
-      "step": 580
-    },
-    {
-      "epoch": 1.52,
-      "learning_rate": 0.0002611111111111111,
-      "loss": 0.7257,
-      "step": 590
-    },
-    {
-      "epoch": 1.54,
-      "learning_rate": 0.0002603174603174603,
-      "loss": 0.918,
-      "step": 600
-    },
-    {
-      "epoch": 1.54,
-      "eval_loss": 0.9236659407615662,
-      "eval_runtime": 189.1236,
-      "eval_samples_per_second": 10.575,
-      "eval_steps_per_second": 1.322,
-      "step": 600
-    },
-    {
-      "epoch": 1.57,
-      "learning_rate": 0.00025952380952380953,
-      "loss": 0.933,
-      "step": 610
-    },
-    {
-      "epoch": 1.59,
-      "learning_rate": 0.0002587301587301587,
-      "loss": 0.9085,
-      "step": 620
-    },
-    {
-      "epoch": 1.62,
-      "learning_rate": 0.0002579365079365079,
-      "loss": 0.7928,
-      "step": 630
-    },
-    {
-      "epoch": 1.65,
-      "learning_rate": 0.0002571428571428571,
-      "loss": 0.7162,
-      "step": 640
-    },
-    {
-      "epoch": 1.67,
-      "learning_rate": 0.00025634920634920634,
-      "loss": 0.9076,
-      "step": 650
-    },
-    {
-      "epoch": 1.7,
-      "learning_rate": 0.00025555555555555553,
-      "loss": 0.9345,
-      "step": 660
-    },
-    {
-      "epoch": 1.72,
-      "learning_rate": 0.0002547619047619047,
-      "loss": 0.9107,
-      "step": 670
-    },
-    {
-      "epoch": 1.75,
-      "learning_rate": 0.00025396825396825396,
-      "loss": 0.7721,
-      "step": 680
-    },
-    {
-      "epoch": 1.77,
-      "learning_rate": 0.00025317460317460315,
-      "loss": 0.7112,
-      "step": 690
-    },
-    {
-      "epoch": 1.8,
-      "learning_rate": 0.0002523809523809524,
-      "loss": 0.9118,
-      "step": 700
-    },
-    {
-      "epoch": 1.83,
-      "learning_rate": 0.0002515873015873016,
-      "loss": 0.9205,
-      "step": 710
-    },
-    {
-      "epoch": 1.85,
-      "learning_rate": 0.00025079365079365076,
-      "loss": 0.9004,
-      "step": 720
-    },
-    {
-      "epoch": 1.88,
-      "learning_rate": 0.00025,
-      "loss": 0.7741,
-      "step": 730
-    },
-    {
-      "epoch": 1.9,
-      "learning_rate": 0.0002492063492063492,
-      "loss": 0.7186,
-      "step": 740
-    },
-    {
-      "epoch": 1.93,
-      "learning_rate": 0.0002484126984126984,
-      "loss": 0.9002,
-      "step": 750
-    },
-    {
-      "epoch": 1.95,
-      "learning_rate": 0.00024761904761904757,
-      "loss": 0.9066,
-      "step": 760
-    },
-    {
-      "epoch": 1.98,
-      "learning_rate": 0.0002468253968253968,
-      "loss": 0.8127,
-      "step": 770
-    },
-    {
-      "epoch": 2.01,
-      "learning_rate": 0.000246031746031746,
-      "loss": 0.7305,
-      "step": 780
-    },
-    {
-      "epoch": 2.03,
-      "learning_rate": 0.0002452380952380952,
-      "loss": 0.8921,
-      "step": 790
-    },
-    {
-      "epoch": 2.06,
-      "learning_rate": 0.00024444444444444443,
-      "loss": 0.9178,
-      "step": 800
-    },
-    {
-      "epoch": 2.06,
-      "eval_loss": 0.901778519153595,
-      "eval_runtime": 189.2038,
-      "eval_samples_per_second": 10.571,
-      "eval_steps_per_second": 1.321,
-      "step": 800
-    },
-    {
-      "epoch": 2.08,
-      "learning_rate": 0.00024365079365079364,
-      "loss": 0.8823,
-      "step": 810
-    },
-    {
-      "epoch": 2.11,
-      "learning_rate": 0.00024285714285714283,
-      "loss": 0.7521,
-      "step": 820
-    },
-    {
-      "epoch": 2.14,
-      "learning_rate": 0.00024206349206349205,
-      "loss": 0.717,
-      "step": 830
-    },
-    {
-      "epoch": 2.16,
-      "learning_rate": 0.00024126984126984123,
-      "loss": 0.9045,
-      "step": 840
-    },
-    {
-      "epoch": 2.19,
-      "learning_rate": 0.00024047619047619048,
-      "loss": 0.9146,
-      "step": 850
-    },
-    {
-      "epoch": 2.21,
-      "learning_rate": 0.00023968253968253966,
-      "loss": 0.8678,
-      "step": 860
-    },
-    {
-      "epoch": 2.24,
-      "learning_rate": 0.00023888888888888885,
-      "loss": 0.745,
-      "step": 870
-    },
-    {
-      "epoch": 2.26,
-      "learning_rate": 0.00023809523809523807,
-      "loss": 0.7226,
-      "step": 880
-    },
-    {
-      "epoch": 2.29,
-      "learning_rate": 0.00023730158730158728,
-      "loss": 0.9002,
-      "step": 890
-    },
-    {
-      "epoch": 2.32,
-      "learning_rate": 0.0002365079365079365,
-      "loss": 0.9035,
-      "step": 900
-    },
-    {
-      "epoch": 2.34,
-      "learning_rate": 0.00023571428571428569,
-      "loss": 0.878,
-      "step": 910
-    },
-    {
-      "epoch": 2.37,
-      "learning_rate": 0.00023492063492063487,
-      "loss": 0.7397,
-      "step": 920
-    },
-    {
-      "epoch": 2.39,
-      "learning_rate": 0.00023412698412698412,
-      "loss": 0.7251,
-      "step": 930
-    },
-    {
-      "epoch": 2.42,
-      "learning_rate": 0.0002333333333333333,
-      "loss": 0.9014,
-      "step": 940
-    },
-    {
-      "epoch": 2.44,
-      "learning_rate": 0.00023253968253968252,
-      "loss": 0.9158,
-      "step": 950
-    },
-    {
-      "epoch": 2.47,
-      "learning_rate": 0.0002317460317460317,
-      "loss": 0.8596,
-      "step": 960
-    },
-    {
-      "epoch": 2.5,
-      "learning_rate": 0.00023095238095238095,
-      "loss": 0.7312,
-      "step": 970
-    },
-    {
-      "epoch": 2.52,
-      "learning_rate": 0.00023015873015873014,
-      "loss": 0.7271,
-      "step": 980
-    },
-    {
-      "epoch": 2.55,
-      "learning_rate": 0.00022936507936507935,
-      "loss": 0.9007,
-      "step": 990
-    },
-    {
-      "epoch": 2.57,
-      "learning_rate": 0.00022857142857142854,
-      "loss": 0.9186,
-      "step": 1000
-    },
-    {
-      "epoch": 2.57,
-      "eval_loss": 0.8995742201805115,
-      "eval_runtime": 189.2401,
-      "eval_samples_per_second": 10.569,
-      "eval_steps_per_second": 1.321,
-      "step": 1000
-    },
-    {
-      "epoch": 2.6,
-      "learning_rate": 0.00022777777777777778,
-      "loss": 0.8685,
-      "step": 1010
-    },
-    {
-      "epoch": 2.62,
-      "learning_rate": 0.00022698412698412697,
-      "loss": 0.7359,
-      "step": 1020
-    },
-    {
-      "epoch": 2.65,
-      "learning_rate": 0.00022619047619047616,
-      "loss": 0.7166,
-      "step": 1030
-    },
-    {
-      "epoch": 2.68,
-      "learning_rate": 0.00022539682539682537,
-      "loss": 0.9012,
-      "step": 1040
-    },
-    {
-      "epoch": 2.7,
-      "learning_rate": 0.0002246031746031746,
-      "loss": 0.9195,
-      "step": 1050
-    },
-    {
-      "epoch": 2.73,
-      "learning_rate": 0.0002238095238095238,
-      "loss": 0.8733,
-      "step": 1060
-    },
-    {
-      "epoch": 2.75,
-      "learning_rate": 0.000223015873015873,
-      "loss": 0.7488,
-      "step": 1070
-    },
-    {
-      "epoch": 2.78,
-      "learning_rate": 0.00022222222222222218,
-      "loss": 0.7223,
-      "step": 1080
-    },
-    {
-      "epoch": 2.8,
-      "learning_rate": 0.00022142857142857142,
-      "loss": 0.9034,
-      "step": 1090
-    },
-    {
-      "epoch": 2.83,
-      "learning_rate": 0.0002206349206349206,
-      "loss": 0.9174,
-      "step": 1100
-    },
-    {
-      "epoch": 2.86,
-      "learning_rate": 0.00021984126984126982,
-      "loss": 0.868,
-      "step": 1110
-    },
-    {
-      "epoch": 2.88,
-      "learning_rate": 0.000219047619047619,
-      "loss": 0.7394,
-      "step": 1120
-    },
-    {
-      "epoch": 2.91,
-      "learning_rate": 0.00021825396825396825,
-      "loss": 0.7198,
-      "step": 1130
-    },
-    {
-      "epoch": 2.93,
-      "learning_rate": 0.00021746031746031744,
-      "loss": 0.9085,
-      "step": 1140
-    },
-    {
-      "epoch": 2.96,
-      "learning_rate": 0.00021666666666666666,
-      "loss": 0.9148,
-      "step": 1150
-    },
-    {
-      "epoch": 2.98,
-      "learning_rate": 0.00021587301587301584,
-      "loss": 0.7775,
-      "step": 1160
-    },
-    {
-      "epoch": 3.01,
-      "learning_rate": 0.0002150793650793651,
-      "loss": 0.7366,
-      "step": 1170
-    },
-    {
-      "epoch": 3.04,
-      "learning_rate": 0.00021428571428571427,
-      "loss": 0.8865,
-      "step": 1180
-    },
-    {
-      "epoch": 3.06,
-      "learning_rate": 0.00021349206349206346,
-      "loss": 0.8989,
-      "step": 1190
-    },
-    {
-      "epoch": 3.09,
-      "learning_rate": 0.00021269841269841268,
-      "loss": 0.8376,
-      "step": 1200
-    },
-    {
-      "epoch": 3.09,
-      "eval_loss": 0.8965018391609192,
-      "eval_runtime": 189.2693,
-      "eval_samples_per_second": 10.567,
-      "eval_steps_per_second": 1.321,
-      "step": 1200
-    },
-    {
-      "epoch": 3.11,
-      "learning_rate": 0.0002119047619047619,
-      "loss": 0.7012,
-      "step": 1210
-    },
-    {
-      "epoch": 3.14,
-      "learning_rate": 0.0002111111111111111,
-      "loss": 0.7288,
-      "step": 1220
-    },
-    {
-      "epoch": 3.16,
-      "learning_rate": 0.0002103174603174603,
-      "loss": 0.8904,
-      "step": 1230
-    },
-    {
-      "epoch": 3.19,
-      "learning_rate": 0.00020952380952380948,
-      "loss": 0.9081,
-      "step": 1240
-    },
-    {
-      "epoch": 3.22,
-      "learning_rate": 0.00020873015873015873,
-      "loss": 0.8461,
-      "step": 1250
-    },
-    {
-      "epoch": 3.24,
-      "learning_rate": 0.00020793650793650791,
-      "loss": 0.6997,
-      "step": 1260
-    },
-    {
-      "epoch": 3.27,
-      "learning_rate": 0.00020714285714285713,
-      "loss": 0.7189,
-      "step": 1270
-    },
-    {
-      "epoch": 3.29,
-      "learning_rate": 0.00020634920634920632,
-      "loss": 0.8863,
-      "step": 1280
-    },
-    {
-      "epoch": 3.32,
-      "learning_rate": 0.00020555555555555556,
-      "loss": 0.906,
-      "step": 1290
-    },
-    {
-      "epoch": 3.34,
-      "learning_rate": 0.00020476190476190475,
-      "loss": 0.8287,
-      "step": 1300
-    },
-    {
-      "epoch": 3.37,
-      "learning_rate": 0.00020396825396825393,
-      "loss": 0.7015,
-      "step": 1310
-    },
-    {
-      "epoch": 3.4,
-      "learning_rate": 0.00020317460317460315,
-      "loss": 0.7325,
-      "step": 1320
-    },
-    {
-      "epoch": 3.42,
-      "learning_rate": 0.00020238095238095236,
-      "loss": 0.8878,
-      "step": 1330
-    },
-    {
-      "epoch": 3.45,
-      "learning_rate": 0.00020158730158730158,
-      "loss": 0.9057,
-      "step": 1340
-    },
-    {
-      "epoch": 3.47,
-      "learning_rate": 0.00020079365079365077,
-      "loss": 0.8399,
-      "step": 1350
-    },
-    {
-      "epoch": 3.5,
-      "learning_rate": 0.00019999999999999998,
-      "loss": 0.7073,
-      "step": 1360
-    },
-    {
-      "epoch": 3.52,
-      "learning_rate": 0.0001992063492063492,
-      "loss": 0.7281,
-      "step": 1370
-    },
-    {
-      "epoch": 3.55,
-      "learning_rate": 0.0001984126984126984,
-      "loss": 0.8829,
-      "step": 1380
-    },
-    {
-      "epoch": 3.58,
-      "learning_rate": 0.0001976190476190476,
-      "loss": 0.8923,
-      "step": 1390
-    },
-    {
-      "epoch": 3.6,
-      "learning_rate": 0.0001968253968253968,
-      "loss": 0.8389,
-      "step": 1400
-    },
-    {
-      "epoch": 3.6,
-      "eval_loss": 0.8923280239105225,
-      "eval_runtime": 189.1693,
-      "eval_samples_per_second": 10.573,
-      "eval_steps_per_second": 1.322,
-      "step": 1400
-    },
-    {
-      "epoch": 3.63,
-      "learning_rate": 0.00019603174603174603,
-      "loss": 0.7148,
-      "step": 1410
-    },
-    {
-      "epoch": 3.65,
-      "learning_rate": 0.00019523809523809522,
-      "loss": 0.7331,
-      "step": 1420
-    },
-    {
-      "epoch": 3.68,
-      "learning_rate": 0.00019444444444444443,
-      "loss": 0.8944,
-      "step": 1430
-    },
-    {
-      "epoch": 3.7,
-      "learning_rate": 0.00019365079365079362,
-      "loss": 0.9001,
-      "step": 1440
-    },
-    {
-      "epoch": 3.73,
-      "learning_rate": 0.00019285714285714286,
-      "loss": 0.8397,
-      "step": 1450
-    },
-    {
-      "epoch": 3.76,
-      "learning_rate": 0.00019206349206349205,
-      "loss": 0.6953,
-      "step": 1460
-    },
-    {
-      "epoch": 3.78,
-      "learning_rate": 0.00019126984126984124,
-      "loss": 0.7229,
-      "step": 1470
-    },
-    {
-      "epoch": 3.81,
-      "learning_rate": 0.00019047619047619045,
-      "loss": 0.8833,
-      "step": 1480
-    },
-    {
-      "epoch": 3.83,
-      "learning_rate": 0.00018968253968253967,
-      "loss": 0.9028,
-      "step": 1490
-    },
-    {
-      "epoch": 3.86,
-      "learning_rate": 0.00018888888888888888,
-      "loss": 0.8412,
-      "step": 1500
-    },
-    {
-      "epoch": 3.88,
-      "learning_rate": 0.00018809523809523807,
-      "loss": 0.7024,
-      "step": 1510
-    },
-    {
-      "epoch": 3.91,
-      "learning_rate": 0.0001873015873015873,
-      "loss": 0.7262,
-      "step": 1520
-    },
-    {
-      "epoch": 3.94,
-      "learning_rate": 0.0001865079365079365,
-      "loss": 0.8926,
-      "step": 1530
-    },
-    {
-      "epoch": 3.96,
-      "learning_rate": 0.00018571428571428572,
-      "loss": 0.8703,
-      "step": 1540
-    },
-    {
-      "epoch": 3.99,
-      "learning_rate": 0.0001849206349206349,
-      "loss": 0.7311,
-      "step": 1550
-    },
-    {
-      "epoch": 4.01,
-      "learning_rate": 0.0001841269841269841,
-      "loss": 0.7535,
-      "step": 1560
-    },
-    {
-      "epoch": 4.04,
-      "learning_rate": 0.00018333333333333334,
-      "loss": 0.8779,
-      "step": 1570
-    },
-    {
-      "epoch": 4.06,
-      "learning_rate": 0.00018253968253968252,
-      "loss": 0.887,
-      "step": 1580
-    },
-    {
-      "epoch": 4.09,
-      "learning_rate": 0.00018174603174603174,
-      "loss": 0.797,
-      "step": 1590
-    },
-    {
-      "epoch": 4.12,
-      "learning_rate": 0.00018095238095238093,
-      "loss": 0.6651,
-      "step": 1600
-    },
-    {
-      "epoch": 4.12,
-      "eval_loss": 0.904344916343689,
-      "eval_runtime": 189.1226,
-      "eval_samples_per_second": 10.575,
-      "eval_steps_per_second": 1.322,
-      "step": 1600
-    },
-    {
-      "epoch": 4.14,
-      "learning_rate": 0.00018015873015873017,
-      "loss": 0.7348,
-      "step": 1610
-    },
-    {
-      "epoch": 4.17,
-      "learning_rate": 0.00017936507936507936,
-      "loss": 0.8756,
-      "step": 1620
-    },
-    {
-      "epoch": 4.19,
-      "learning_rate": 0.00017857142857142854,
-      "loss": 0.8934,
-      "step": 1630
-    },
-    {
-      "epoch": 4.22,
-      "learning_rate": 0.00017777777777777776,
-      "loss": 0.8023,
-      "step": 1640
-    },
-    {
-      "epoch": 4.24,
-      "learning_rate": 0.00017698412698412697,
-      "loss": 0.6788,
-      "step": 1650
-    },
-    {
-      "epoch": 4.27,
-      "learning_rate": 0.0001761904761904762,
-      "loss": 0.7387,
-      "step": 1660
-    },
-    {
-      "epoch": 4.3,
-      "learning_rate": 0.00017539682539682538,
-      "loss": 0.885,
-      "step": 1670
-    },
-    {
-      "epoch": 4.32,
-      "learning_rate": 0.00017460317460317457,
-      "loss": 0.8738,
-      "step": 1680
-    },
-    {
-      "epoch": 4.35,
-      "learning_rate": 0.0001738095238095238,
-      "loss": 0.8059,
-      "step": 1690
-    },
-    {
-      "epoch": 4.37,
-      "learning_rate": 0.000173015873015873,
-      "loss": 0.6667,
-      "step": 1700
-    },
-    {
-      "epoch": 4.4,
-      "learning_rate": 0.0001722222222222222,
-      "loss": 0.7406,
-      "step": 1710
-    },
-    {
-      "epoch": 4.42,
-      "learning_rate": 0.0001714285714285714,
-      "loss": 0.8764,
-      "step": 1720
-    },
-    {
-      "epoch": 4.45,
-      "learning_rate": 0.00017063492063492064,
-      "loss": 0.8839,
-      "step": 1730
-    },
-    {
-      "epoch": 4.48,
-      "learning_rate": 0.00016984126984126983,
-      "loss": 0.8009,
-      "step": 1740
-    },
-    {
-      "epoch": 4.5,
-      "learning_rate": 0.00016904761904761904,
-      "loss": 0.6658,
-      "step": 1750
-    },
-    {
-      "epoch": 4.53,
-      "learning_rate": 0.00016825396825396823,
-      "loss": 0.7423,
-      "step": 1760
-    },
-    {
-      "epoch": 4.55,
-      "learning_rate": 0.00016746031746031747,
-      "loss": 0.8748,
-      "step": 1770
-    },
-    {
-      "epoch": 4.58,
-      "learning_rate": 0.00016666666666666666,
-      "loss": 0.887,
-      "step": 1780
-    },
-    {
-      "epoch": 4.6,
-      "learning_rate": 0.00016587301587301585,
-      "loss": 0.8038,
-      "step": 1790
-    },
-    {
-      "epoch": 4.63,
-      "learning_rate": 0.00016507936507936506,
-      "loss": 0.6631,
-      "step": 1800
-    },
-    {
-      "epoch": 4.63,
-      "eval_loss": 0.9004252552986145,
-      "eval_runtime": 189.1263,
-      "eval_samples_per_second": 10.575,
-      "eval_steps_per_second": 1.322,
-      "step": 1800
-    },
-    {
-      "epoch": 4.66,
-      "learning_rate": 0.00016428571428571428,
-      "loss": 0.7327,
-      "step": 1810
-    },
-    {
-      "epoch": 4.68,
-      "learning_rate": 0.0001634920634920635,
-      "loss": 0.8703,
-      "step": 1820
-    },
-    {
-      "epoch": 4.71,
-      "learning_rate": 0.00016269841269841268,
-      "loss": 0.8734,
-      "step": 1830
-    },
-    {
-      "epoch": 4.73,
-      "learning_rate": 0.00016190476190476187,
-      "loss": 0.8066,
-      "step": 1840
-    },
-    {
-      "epoch": 4.76,
-      "learning_rate": 0.0001611111111111111,
-      "loss": 0.6655,
-      "step": 1850
-    },
-    {
-      "epoch": 4.78,
-      "learning_rate": 0.0001603174603174603,
-      "loss": 0.736,
-      "step": 1860
-    },
-    {
-      "epoch": 4.81,
-      "learning_rate": 0.00015952380952380951,
-      "loss": 0.8707,
-      "step": 1870
-    },
-    {
-      "epoch": 4.84,
-      "learning_rate": 0.0001587301587301587,
-      "loss": 0.8789,
-      "step": 1880
-    },
-    {
-      "epoch": 4.86,
-      "learning_rate": 0.00015793650793650795,
-      "loss": 0.804,
-      "step": 1890
-    },
-    {
-      "epoch": 4.89,
-      "learning_rate": 0.00015714285714285713,
-      "loss": 0.6628,
-      "step": 1900
-    },
-    {
-      "epoch": 4.91,
-      "learning_rate": 0.00015634920634920635,
-      "loss": 0.7394,
-      "step": 1910
-    },
-    {
-      "epoch": 4.94,
-      "learning_rate": 0.00015555555555555554,
-      "loss": 0.8856,
-      "step": 1920
-    },
-    {
-      "epoch": 4.96,
-      "learning_rate": 0.00015476190476190478,
-      "loss": 0.8558,
-      "step": 1930
-    },
-    {
-      "epoch": 4.99,
-      "learning_rate": 0.00015396825396825397,
-      "loss": 0.6766,
-      "step": 1940
-    },
-    {
-      "epoch": 5.02,
-      "learning_rate": 0.00015317460317460315,
-      "loss": 0.7662,
-      "step": 1950
-    },
-    {
-      "epoch": 5.04,
-      "learning_rate": 0.00015238095238095237,
-      "loss": 0.8602,
-      "step": 1960
-    },
-    {
-      "epoch": 5.07,
-      "learning_rate": 0.00015158730158730158,
-      "loss": 0.8567,
-      "step": 1970
-    },
-    {
-      "epoch": 5.09,
-      "learning_rate": 0.0001507936507936508,
-      "loss": 0.7482,
-      "step": 1980
-    },
-    {
-      "epoch": 5.12,
-      "learning_rate": 0.00015,
-      "loss": 0.6249,
-      "step": 1990
-    },
-    {
-      "epoch": 5.14,
-      "learning_rate": 0.00014920634920634917,
-      "loss": 0.7506,
-      "step": 2000
-    },
-    {
-      "epoch": 5.14,
-      "eval_loss": 0.9112463593482971,
-      "eval_runtime": 189.2232,
-      "eval_samples_per_second": 10.57,
-      "eval_steps_per_second": 1.321,
-      "step": 2000
-    },
-    {
-      "epoch": 5.17,
-      "learning_rate": 0.0001484126984126984,
-      "loss": 0.8679,
-      "step": 2010
-    },
-    {
-      "epoch": 5.2,
-      "learning_rate": 0.0001476190476190476,
-      "loss": 0.8575,
-      "step": 2020
-    },
-    {
-      "epoch": 5.22,
-      "learning_rate": 0.00014682539682539682,
-      "loss": 0.7545,
-      "step": 2030
-    },
-    {
-      "epoch": 5.25,
-      "learning_rate": 0.000146031746031746,
-      "loss": 0.6237,
-      "step": 2040
-    },
-    {
-      "epoch": 5.27,
-      "learning_rate": 0.00014523809523809522,
-      "loss": 0.7561,
-      "step": 2050
-    },
-    {
-      "epoch": 5.3,
-      "learning_rate": 0.0001444444444444444,
-      "loss": 0.8688,
-      "step": 2060
-    },
-    {
-      "epoch": 5.32,
-      "learning_rate": 0.00014365079365079363,
-      "loss": 0.8578,
-      "step": 2070
-    },
-    {
-      "epoch": 5.35,
-      "learning_rate": 0.00014285714285714284,
-      "loss": 0.7743,
-      "step": 2080
-    },
-    {
-      "epoch": 5.38,
-      "learning_rate": 0.00014206349206349206,
-      "loss": 0.6337,
-      "step": 2090
-    },
-    {
-      "epoch": 5.4,
-      "learning_rate": 0.00014126984126984124,
-      "loss": 0.7518,
-      "step": 2100
-    },
-    {
-      "epoch": 5.43,
-      "learning_rate": 0.00014047619047619046,
-      "loss": 0.8736,
-      "step": 2110
-    },
-    {
-      "epoch": 5.45,
-      "learning_rate": 0.00013968253968253967,
-      "loss": 0.8623,
-      "step": 2120
-    },
-    {
-      "epoch": 5.48,
-      "learning_rate": 0.0001388888888888889,
-      "loss": 0.7719,
-      "step": 2130
-    },
-    {
-      "epoch": 5.5,
-      "learning_rate": 0.00013809523809523808,
-      "loss": 0.6363,
-      "step": 2140
-    },
-    {
-      "epoch": 5.53,
-      "learning_rate": 0.0001373015873015873,
-      "loss": 0.7458,
-      "step": 2150
-    },
-    {
-      "epoch": 5.56,
-      "learning_rate": 0.00013650793650793648,
-      "loss": 0.865,
-      "step": 2160
-    },
-    {
-      "epoch": 5.58,
-      "learning_rate": 0.00013587301587301588,
-      "loss": 2.6458,
-      "step": 2170
-    },
-    {
-      "epoch": 5.61,
-      "learning_rate": 0.00013587301587301588,
-      "loss": 801.9857,
-      "step": 2180
-    },
-    {
-      "epoch": 5.63,
-      "learning_rate": 0.0001357142857142857,
-      "loss": 4068.018,
-      "step": 2190
-    },
-    {
-      "epoch": 5.66,
-      "learning_rate": 0.00013547619047619047,
-      "loss": 41837456.0,
-      "step": 2200
-    },
-    {
-      "epoch": 5.66,
-      "eval_loss": NaN,
-      "eval_runtime": 189.1905,
-      "eval_samples_per_second": 10.571,
-      "eval_steps_per_second": 1.321,
-      "step": 2200
-    },
-    {
-      "epoch": 5.68,
-      "learning_rate": 0.00013547619047619047,
-      "loss": 1.4509301308571507e+26,
-      "step": 2210
-    },
-    {
-      "epoch": 5.71,
-      "learning_rate": 0.00013547619047619047,
-      "loss": 3.3847730092507856e+24,
-      "step": 2220
-    },
-    {
-      "epoch": 5.74,
-      "learning_rate": 0.00013547619047619047,
-      "loss": 1.5211943209070177e+23,
-      "step": 2230
-    },
-    {
-      "epoch": 5.76,
-      "learning_rate": 0.00013547619047619047,
-      "loss": 6.678915709304036e+21,
-      "step": 2240
-    },
-    {
-      "epoch": 5.79,
-      "learning_rate": 0.00013531746031746032,
-      "loss": 9.238063623264189e+19,
-      "step": 2250
-    },
-    {
-      "epoch": 5.81,
-      "learning_rate": 0.00013531746031746032,
-      "loss": 1.0532014646514701e+20,
-      "step": 2260
-    },
-    {
-      "epoch": 5.84,
-      "learning_rate": 0.00013531746031746032,
-      "loss": 3.161435096687031e+25,
-      "step": 2270
-    },
-    {
-      "epoch": 5.86,
-      "learning_rate": 0.00013531746031746032,
-      "loss": 2.0162940987179532e+19,
-      "step": 2280
-    },
-    {
-      "epoch": 5.89,
-      "learning_rate": 0.00013531746031746032,
-      "loss": 2.55694599151234e+20,
-      "step": 2290
-    },
-    {
-      "epoch": 5.92,
-      "learning_rate": 0.00013523809523809522,
-      "loss": 5.808441058207432e+20,
-      "step": 2300
-    },
-    {
-      "epoch": 5.94,
-      "learning_rate": 0.00013523809523809522,
-      "loss": 1.9880088514154103e+22,
-      "step": 2310
-    },
-    {
-      "epoch": 5.97,
-      "learning_rate": 0.00013523809523809522,
-      "loss": 2.0954874078435546e+24,
-      "step": 2320
-    },
-    {
-      "epoch": 5.99,
-      "learning_rate": 0.00013523809523809522,
-      "loss": 6.309141694629275e+20,
-      "step": 2330
-    },
-    {
-      "epoch": 6.02,
-      "learning_rate": 0.00013515873015873016,
-      "loss": 7.353349497283535e+23,
-      "step": 2340
-    },
-    {
-      "epoch": 6.05,
-      "learning_rate": 0.00013468253968253966,
-      "loss": 0.0,
-      "step": 2350
-    },
-    {
-      "epoch": 6.07,
-      "learning_rate": 0.00013388888888888888,
-      "loss": 0.0,
-      "step": 2360
-    },
-    {
-      "epoch": 6.1,
-      "learning_rate": 0.00013309523809523806,
-      "loss": 0.0,
-      "step": 2370
-    },
-    {
-      "epoch": 6.12,
-      "learning_rate": 0.00013230158730158728,
-      "loss": 0.0,
-      "step": 2380
-    },
-    {
-      "epoch": 6.15,
-      "learning_rate": 0.0001315079365079365,
-      "loss": 0.0,
-      "step": 2390
-    },
-    {
-      "epoch": 6.17,
-      "learning_rate": 0.0001307142857142857,
-      "loss": 0.0,
-      "step": 2400
-    },
-    {
-      "epoch": 6.17,
-      "eval_loss": NaN,
-      "eval_runtime": 164.902,
-      "eval_samples_per_second": 12.128,
-      "eval_steps_per_second": 1.516,
-      "step": 2400
-    },
-    {
-      "epoch": 6.2,
-      "learning_rate": 0.0001299206349206349,
-      "loss": 0.0,
-      "step": 2410
-    },
-    {
-      "epoch": 6.23,
-      "learning_rate": 0.0001291269841269841,
-      "loss": 0.0,
-      "step": 2420
-    },
-    {
-      "epoch": 6.25,
-      "learning_rate": 0.00012833333333333333,
-      "loss": 0.0,
-      "step": 2430
-    },
-    {
-      "epoch": 6.28,
-      "learning_rate": 0.00012753968253968254,
-      "loss": 0.0,
-      "step": 2440
-    },
-    {
-      "epoch": 6.3,
-      "learning_rate": 0.00012674603174603173,
-      "loss": 0.0,
-      "step": 2450
-    },
-    {
-      "epoch": 6.33,
-      "learning_rate": 0.00012595238095238094,
-      "loss": 0.0,
-      "step": 2460
-    },
-    {
-      "epoch": 6.35,
-      "learning_rate": 0.00012515873015873013,
-      "loss": 0.0,
-      "step": 2470
-    },
-    {
-      "epoch": 6.38,
-      "learning_rate": 0.00012436507936507935,
-      "loss": 0.0,
-      "step": 2480
-    },
-    {
-      "epoch": 6.41,
-      "learning_rate": 0.00012357142857142856,
-      "loss": 0.0,
-      "step": 2490
-    },
-    {
-      "epoch": 6.43,
-      "learning_rate": 0.00012277777777777778,
-      "loss": 0.0,
-      "step": 2500
-    },
-    {
-      "epoch": 6.46,
-      "learning_rate": 0.00012198412698412697,
-      "loss": 0.0,
-      "step": 2510
-    },
-    {
-      "epoch": 6.48,
-      "learning_rate": 0.00012119047619047618,
-      "loss": 0.0,
-      "step": 2520
-    },
-    {
-      "epoch": 6.51,
-      "learning_rate": 0.00012039682539682538,
-      "loss": 0.0,
-      "step": 2530
-    },
-    {
-      "epoch": 6.53,
-      "learning_rate": 0.0001196031746031746,
-      "loss": 0.0,
-      "step": 2540
-    },
-    {
-      "epoch": 6.56,
-      "learning_rate": 0.0001188095238095238,
-      "loss": 0.0,
-      "step": 2550
-    },
-    {
-      "epoch": 6.59,
-      "learning_rate": 0.00011801587301587301,
-      "loss": 0.0,
-      "step": 2560
-    },
-    {
-      "epoch": 6.61,
-      "learning_rate": 0.0001172222222222222,
-      "loss": 0.0,
-      "step": 2570
-    },
-    {
-      "epoch": 6.64,
-      "learning_rate": 0.00011642857142857142,
-      "loss": 0.0,
-      "step": 2580
-    },
-    {
-      "epoch": 6.66,
-      "learning_rate": 0.00011563492063492062,
-      "loss": 0.0,
-      "step": 2590
-    },
-    {
-      "epoch": 6.69,
-      "learning_rate": 0.00011484126984126983,
-      "loss": 0.0,
-      "step": 2600
-    },
-    {
-      "epoch": 6.69,
-      "eval_loss": NaN,
-      "eval_runtime": 164.9294,
-      "eval_samples_per_second": 12.126,
-      "eval_steps_per_second": 1.516,
-      "step": 2600
-    },
-    {
-      "epoch": 6.71,
-      "learning_rate": 0.00011404761904761903,
-      "loss": 0.0,
-      "step": 2610
-    },
-    {
-      "epoch": 6.74,
-      "learning_rate": 0.00011325396825396825,
-      "loss": 0.0,
-      "step": 2620
-    },
-    {
-      "epoch": 6.77,
-      "learning_rate": 0.00011246031746031745,
-      "loss": 0.0,
-      "step": 2630
-    },
-    {
-      "epoch": 6.79,
-      "learning_rate": 0.00011166666666666667,
-      "loss": 0.0,
-      "step": 2640
-    },
-    {
-      "epoch": 6.82,
-      "learning_rate": 0.00011087301587301585,
-      "loss": 0.0,
-      "step": 2650
-    },
-    {
-      "epoch": 6.84,
-      "learning_rate": 0.00011007936507936507,
-      "loss": 0.0,
-      "step": 2660
-    },
-    {
-      "epoch": 6.87,
-      "learning_rate": 0.00010928571428571427,
-      "loss": 0.0,
-      "step": 2670
-    },
-    {
-      "epoch": 6.89,
-      "learning_rate": 0.00010849206349206349,
-      "loss": 0.0,
-      "step": 2680
-    },
-    {
-      "epoch": 6.92,
-      "learning_rate": 0.00010769841269841269,
-      "loss": 0.0,
-      "step": 2690
-    },
-    {
-      "epoch": 6.95,
-      "learning_rate": 0.0001069047619047619,
-      "loss": 0.0,
-      "step": 2700
-    },
-    {
-      "epoch": 6.97,
-      "learning_rate": 0.0001061111111111111,
-      "loss": 0.0,
-      "step": 2710
-    },
-    {
-      "epoch": 7.0,
-      "learning_rate": 0.0001053174603174603,
-      "loss": 0.0,
-      "step": 2720
-    },
-    {
-      "epoch": 7.02,
-      "learning_rate": 0.0001045238095238095,
-      "loss": 0.0,
-      "step": 2730
-    },
-    {
-      "epoch": 7.05,
-      "learning_rate": 0.00010373015873015872,
-      "loss": 0.0,
-      "step": 2740
-    },
-    {
-      "epoch": 7.07,
-      "learning_rate": 0.00010293650793650792,
-      "loss": 0.0,
-      "step": 2750
-    },
-    {
-      "epoch": 7.1,
-      "learning_rate": 0.00010214285714285714,
-      "loss": 0.0,
-      "step": 2760
-    },
-    {
-      "epoch": 7.13,
-      "learning_rate": 0.00010134920634920634,
-      "loss": 0.0,
-      "step": 2770
-    },
-    {
-      "epoch": 7.15,
-      "learning_rate": 0.00010055555555555555,
-      "loss": 0.0,
-      "step": 2780
-    },
-    {
-      "epoch": 7.18,
-      "learning_rate": 9.976190476190474e-05,
-      "loss": 0.0,
-      "step": 2790
-    },
-    {
-      "epoch": 7.2,
-      "learning_rate": 9.896825396825396e-05,
-      "loss": 0.0,
-      "step": 2800
-    },
-    {
-      "epoch": 7.2,
-      "eval_loss": NaN,
-      "eval_runtime": 164.8859,
-      "eval_samples_per_second": 12.13,
-      "eval_steps_per_second": 1.516,
-      "step": 2800
-    },
-    {
-      "epoch": 7.23,
-      "learning_rate": 9.817460317460316e-05,
-      "loss": 0.0,
-      "step": 2810
-    },
-    {
-      "epoch": 7.25,
-      "learning_rate": 9.738095238095237e-05,
-      "loss": 0.0,
-      "step": 2820
-    },
-    {
-      "epoch": 7.28,
-      "learning_rate": 9.658730158730158e-05,
-      "loss": 0.0,
-      "step": 2830
-    },
-    {
-      "epoch": 7.31,
-      "learning_rate": 9.579365079365079e-05,
-      "loss": 0.0,
-      "step": 2840
-    },
-    {
-      "epoch": 7.33,
-      "learning_rate": 9.499999999999999e-05,
-      "loss": 0.0,
-      "step": 2850
-    },
-    {
-      "epoch": 7.36,
-      "learning_rate": 9.42063492063492e-05,
-      "loss": 0.0,
-      "step": 2860
-    },
-    {
-      "epoch": 7.38,
-      "learning_rate": 9.34126984126984e-05,
-      "loss": 0.0,
-      "step": 2870
-    },
-    {
-      "epoch": 7.41,
-      "learning_rate": 9.261904761904761e-05,
-      "loss": 0.0,
-      "step": 2880
-    },
-    {
-      "epoch": 7.43,
-      "learning_rate": 9.182539682539681e-05,
-      "loss": 0.0,
-      "step": 2890
-    },
-    {
-      "epoch": 7.46,
-      "learning_rate": 9.103174603174603e-05,
-      "loss": 0.0,
-      "step": 2900
-    },
-    {
-      "epoch": 7.49,
-      "learning_rate": 9.023809523809523e-05,
-      "loss": 0.0,
-      "step": 2910
-    },
-    {
-      "epoch": 7.51,
-      "learning_rate": 8.944444444444444e-05,
-      "loss": 0.0,
-      "step": 2920
-    },
-    {
-      "epoch": 7.54,
-      "learning_rate": 8.865079365079364e-05,
-      "loss": 0.0,
-      "step": 2930
-    },
-    {
-      "epoch": 7.56,
-      "learning_rate": 8.785714285714286e-05,
-      "loss": 0.0,
-      "step": 2940
-    },
-    {
-      "epoch": 7.59,
-      "learning_rate": 8.706349206349205e-05,
-      "loss": 0.0,
-      "step": 2950
-    },
-    {
-      "epoch": 7.61,
-      "learning_rate": 8.626984126984126e-05,
-      "loss": 0.0,
-      "step": 2960
-    },
-    {
-      "epoch": 7.64,
-      "learning_rate": 8.547619047619046e-05,
-      "loss": 0.0,
-      "step": 2970
-    },
-    {
-      "epoch": 7.67,
-      "learning_rate": 8.468253968253968e-05,
-      "loss": 0.0,
-      "step": 2980
-    },
-    {
-      "epoch": 7.69,
-      "learning_rate": 8.388888888888888e-05,
-      "loss": 0.0,
-      "step": 2990
-    },
-    {
-      "epoch": 7.72,
-      "learning_rate": 8.30952380952381e-05,
-      "loss": 0.0,
-      "step": 3000
-    },
-    {
-      "epoch": 7.72,
-      "eval_loss": NaN,
-      "eval_runtime": 164.8915,
-      "eval_samples_per_second": 12.129,
-      "eval_steps_per_second": 1.516,
-      "step": 3000
-    },
-    {
-      "epoch": 7.74,
-      "learning_rate": 8.23015873015873e-05,
-      "loss": 0.0,
-      "step": 3010
-    },
-    {
-      "epoch": 7.77,
-      "learning_rate": 8.150793650793651e-05,
-      "loss": 0.0,
-      "step": 3020
-    },
-    {
-      "epoch": 7.79,
-      "learning_rate": 8.07142857142857e-05,
-      "loss": 0.0,
-      "step": 3030
-    },
-    {
-      "epoch": 7.82,
-      "learning_rate": 7.992063492063491e-05,
-      "loss": 0.0,
-      "step": 3040
-    },
-    {
-      "epoch": 7.85,
-      "learning_rate": 7.912698412698412e-05,
-      "loss": 0.0,
-      "step": 3050
-    },
-    {
-      "epoch": 7.87,
-      "learning_rate": 7.833333333333333e-05,
-      "loss": 0.0,
-      "step": 3060
-    },
-    {
-      "epoch": 7.9,
-      "learning_rate": 7.753968253968253e-05,
-      "loss": 0.0,
-      "step": 3070
-    },
-    {
-      "epoch": 7.92,
-      "learning_rate": 7.674603174603175e-05,
-      "loss": 0.0,
-      "step": 3080
-    },
-    {
-      "epoch": 7.95,
-      "learning_rate": 7.595238095238095e-05,
-      "loss": 0.0,
-      "step": 3090
-    },
-    {
-      "epoch": 7.97,
-      "learning_rate": 7.515873015873015e-05,
-      "loss": 0.0,
-      "step": 3100
-    },
-    {
-      "epoch": 8.0,
-      "learning_rate": 7.436507936507935e-05,
-      "loss": 0.0,
-      "step": 3110
-    },
-    {
-      "epoch": 8.03,
-      "learning_rate": 7.357142857142857e-05,
-      "loss": 0.0,
-      "step": 3120
-    },
-    {
-      "epoch": 8.05,
-      "learning_rate": 7.277777777777777e-05,
-      "loss": 0.0,
-      "step": 3130
-    },
-    {
-      "epoch": 8.08,
-      "learning_rate": 7.198412698412697e-05,
-      "loss": 0.0,
-      "step": 3140
-    },
-    {
-      "epoch": 8.1,
-      "learning_rate": 7.119047619047618e-05,
-      "loss": 0.0,
-      "step": 3150
-    },
-    {
-      "epoch": 8.13,
-      "learning_rate": 7.039682539682539e-05,
-      "loss": 0.0,
-      "step": 3160
-    },
-    {
-      "epoch": 8.15,
-      "learning_rate": 6.960317460317459e-05,
-      "loss": 0.0,
-      "step": 3170
-    },
-    {
-      "epoch": 8.18,
-      "learning_rate": 6.88095238095238e-05,
-      "loss": 0.0,
-      "step": 3180
-    },
-    {
-      "epoch": 8.21,
-      "learning_rate": 6.8015873015873e-05,
-      "loss": 0.0,
-      "step": 3190
-    },
-    {
-      "epoch": 8.23,
-      "learning_rate": 6.722222222222222e-05,
-      "loss": 0.0,
-      "step": 3200
-    },
-    {
-      "epoch": 8.23,
-      "eval_loss": NaN,
-      "eval_runtime": 164.9214,
-      "eval_samples_per_second": 12.127,
-      "eval_steps_per_second": 1.516,
-      "step": 3200
-    },
-    {
-      "epoch": 8.26,
-      "learning_rate": 6.642857142857142e-05,
-      "loss": 0.0,
-      "step": 3210
-    },
-    {
-      "epoch": 8.28,
-      "learning_rate": 6.563492063492062e-05,
-      "loss": 0.0,
-      "step": 3220
-    },
-    {
-      "epoch": 8.31,
-      "learning_rate": 6.484126984126984e-05,
-      "loss": 0.0,
-      "step": 3230
-    },
-    {
-      "epoch": 8.33,
-      "learning_rate": 6.404761904761904e-05,
-      "loss": 0.0,
-      "step": 3240
-    },
-    {
-      "epoch": 8.36,
-      "learning_rate": 6.325396825396824e-05,
-      "loss": 0.0,
-      "step": 3250
-    },
-    {
-      "epoch": 8.39,
-      "learning_rate": 6.246031746031746e-05,
-      "loss": 0.0,
-      "step": 3260
-    },
-    {
-      "epoch": 8.41,
-      "learning_rate": 6.166666666666666e-05,
-      "loss": 0.0,
-      "step": 3270
-    },
-    {
-      "epoch": 8.44,
-      "learning_rate": 6.0873015873015865e-05,
-      "loss": 0.0,
-      "step": 3280
-    },
-    {
-      "epoch": 8.46,
-      "learning_rate": 6.007936507936507e-05,
-      "loss": 0.0,
-      "step": 3290
-    },
-    {
-      "epoch": 8.49,
-      "learning_rate": 5.9285714285714275e-05,
-      "loss": 0.0,
-      "step": 3300
-    },
-    {
-      "epoch": 8.51,
-      "learning_rate": 5.849206349206348e-05,
-      "loss": 0.0,
-      "step": 3310
-    },
-    {
-      "epoch": 8.54,
-      "learning_rate": 5.769841269841269e-05,
-      "loss": 0.0,
-      "step": 3320
-    },
-    {
-      "epoch": 8.57,
-      "learning_rate": 5.69047619047619e-05,
-      "loss": 0.0,
-      "step": 3330
-    },
-    {
-      "epoch": 8.59,
-      "learning_rate": 5.61111111111111e-05,
-      "loss": 0.0,
-      "step": 3340
-    },
-    {
-      "epoch": 8.62,
-      "learning_rate": 5.531746031746031e-05,
-      "loss": 0.0,
-      "step": 3350
-    },
-    {
-      "epoch": 8.64,
-      "learning_rate": 5.452380952380952e-05,
-      "loss": 0.0,
-      "step": 3360
-    },
-    {
-      "epoch": 8.67,
-      "learning_rate": 5.3730158730158726e-05,
-      "loss": 0.0,
-      "step": 3370
-    },
-    {
-      "epoch": 8.69,
-      "learning_rate": 5.293650793650793e-05,
-      "loss": 0.0,
-      "step": 3380
-    },
-    {
-      "epoch": 8.72,
-      "learning_rate": 5.2142857142857135e-05,
-      "loss": 0.0,
-      "step": 3390
-    },
-    {
-      "epoch": 8.75,
-      "learning_rate": 5.1349206349206344e-05,
-      "loss": 0.0,
-      "step": 3400
-    },
-    {
-      "epoch": 8.75,
-      "eval_loss": NaN,
-      "eval_runtime": 164.9331,
-      "eval_samples_per_second": 12.126,
-      "eval_steps_per_second": 1.516,
-      "step": 3400
-    },
-    {
-      "epoch": 8.77,
-      "learning_rate": 5.055555555555555e-05,
-      "loss": 0.0,
-      "step": 3410
-    },
-    {
-      "epoch": 8.8,
-      "learning_rate": 4.976190476190475e-05,
-      "loss": 0.0,
-      "step": 3420
-    },
-    {
-      "epoch": 8.82,
-      "learning_rate": 4.896825396825396e-05,
-      "loss": 0.0,
-      "step": 3430
-    },
-    {
-      "epoch": 8.85,
-      "learning_rate": 4.817460317460317e-05,
-      "loss": 0.0,
-      "step": 3440
-    },
-    {
-      "epoch": 8.87,
-      "learning_rate": 4.738095238095238e-05,
-      "loss": 0.0,
-      "step": 3450
-    },
-    {
-      "epoch": 8.9,
-      "learning_rate": 4.658730158730158e-05,
-      "loss": 0.0,
-      "step": 3460
-    },
-    {
-      "epoch": 8.93,
-      "learning_rate": 4.579365079365079e-05,
-      "loss": 0.0,
-      "step": 3470
-    },
-    {
-      "epoch": 8.95,
-      "learning_rate": 4.4999999999999996e-05,
-      "loss": 0.0,
-      "step": 3480
-    },
-    {
-      "epoch": 8.98,
-      "learning_rate": 4.42063492063492e-05,
-      "loss": 0.0,
-      "step": 3490
-    },
-    {
-      "epoch": 9.0,
-      "learning_rate": 4.3412698412698406e-05,
-      "loss": 0.0,
-      "step": 3500
-    },
-    {
-      "epoch": 9.03,
-      "learning_rate": 4.2619047619047614e-05,
-      "loss": 0.0,
-      "step": 3510
-    },
-    {
-      "epoch": 9.05,
-      "learning_rate": 4.182539682539682e-05,
-      "loss": 0.0,
-      "step": 3520
-    },
-    {
-      "epoch": 9.08,
-      "learning_rate": 4.1031746031746024e-05,
-      "loss": 0.0,
-      "step": 3530
-    },
-    {
-      "epoch": 9.11,
-      "learning_rate": 4.023809523809523e-05,
-      "loss": 0.0,
-      "step": 3540
-    },
-    {
-      "epoch": 9.13,
-      "learning_rate": 3.944444444444444e-05,
-      "loss": 0.0,
-      "step": 3550
-    },
-    {
-      "epoch": 9.16,
-      "learning_rate": 3.865079365079365e-05,
-      "loss": 0.0,
-      "step": 3560
-    },
-    {
-      "epoch": 9.18,
-      "learning_rate": 3.785714285714285e-05,
-      "loss": 0.0,
-      "step": 3570
-    },
-    {
-      "epoch": 9.21,
-      "learning_rate": 3.706349206349206e-05,
-      "loss": 0.0,
-      "step": 3580
-    },
-    {
-      "epoch": 9.23,
-      "learning_rate": 3.6269841269841266e-05,
-      "loss": 0.0,
-      "step": 3590
-    },
-    {
-      "epoch": 9.26,
-      "learning_rate": 3.5476190476190475e-05,
-      "loss": 0.0,
-      "step": 3600
-    },
-    {
-      "epoch": 9.26,
-      "eval_loss": NaN,
-      "eval_runtime": 164.9466,
-      "eval_samples_per_second": 12.125,
-      "eval_steps_per_second": 1.516,
-      "step": 3600
-    },
-    {
-      "epoch": 9.29,
-      "learning_rate": 3.4682539682539676e-05,
-      "loss": 0.0,
-      "step": 3610
-    },
-    {
-      "epoch": 9.31,
-      "learning_rate": 3.3888888888888884e-05,
-      "loss": 0.0,
-      "step": 3620
-    },
-    {
-      "epoch": 9.34,
-      "learning_rate": 3.309523809523809e-05,
-      "loss": 0.0,
-      "step": 3630
-    },
-    {
-      "epoch": 9.36,
-      "learning_rate": 3.23015873015873e-05,
-      "loss": 0.0,
-      "step": 3640
-    },
-    {
-      "epoch": 9.39,
-      "learning_rate": 3.15079365079365e-05,
-      "loss": 0.0,
-      "step": 3650
-    },
-    {
-      "epoch": 9.41,
-      "learning_rate": 3.071428571428571e-05,
-      "loss": 0.0,
-      "step": 3660
-    },
-    {
-      "epoch": 9.44,
-      "learning_rate": 2.992063492063492e-05,
-      "loss": 0.0,
-      "step": 3670
-    },
-    {
-      "epoch": 9.47,
-      "learning_rate": 2.9126984126984124e-05,
-      "loss": 0.0,
-      "step": 3680
-    },
-    {
-      "epoch": 9.49,
-      "learning_rate": 2.833333333333333e-05,
-      "loss": 0.0,
-      "step": 3690
-    },
-    {
-      "epoch": 9.52,
-      "learning_rate": 2.7539682539682537e-05,
-      "loss": 0.0,
-      "step": 3700
-    },
-    {
-      "epoch": 9.54,
-      "learning_rate": 2.6746031746031742e-05,
-      "loss": 0.0,
-      "step": 3710
-    },
-    {
-      "epoch": 9.57,
-      "learning_rate": 2.595238095238095e-05,
-      "loss": 0.0,
-      "step": 3720
-    },
-    {
-      "epoch": 9.59,
-      "learning_rate": 2.5158730158730155e-05,
-      "loss": 0.0,
-      "step": 3730
-    },
-    {
-      "epoch": 9.62,
-      "learning_rate": 2.4365079365079363e-05,
-      "loss": 0.0,
-      "step": 3740
-    },
-    {
-      "epoch": 9.65,
-      "learning_rate": 2.3571428571428568e-05,
-      "loss": 0.0,
-      "step": 3750
-    },
-    {
-      "epoch": 9.67,
-      "learning_rate": 2.2777777777777776e-05,
-      "loss": 0.0,
-      "step": 3760
-    },
-    {
-      "epoch": 9.7,
-      "learning_rate": 2.198412698412698e-05,
-      "loss": 0.0,
-      "step": 3770
-    },
-    {
-      "epoch": 9.72,
-      "learning_rate": 2.119047619047619e-05,
-      "loss": 0.0,
-      "step": 3780
-    },
-    {
-      "epoch": 9.75,
-      "learning_rate": 2.0396825396825394e-05,
-      "loss": 0.0,
-      "step": 3790
-    },
-    {
-      "epoch": 9.77,
-      "learning_rate": 1.9603174603174602e-05,
-      "loss": 0.0,
-      "step": 3800
-    },
-    {
-      "epoch": 9.77,
-      "eval_loss": NaN,
-      "eval_runtime": 164.8991,
-      "eval_samples_per_second": 12.129,
-      "eval_steps_per_second": 1.516,
-      "step": 3800
-    }
-  ],
-  "max_steps": 3880,
-  "num_train_epochs": 10,
-  "total_flos": 4.3886595913710305e+18,
-  "trial_name": null,
-  "trial_params": null
-}

checkpoint-3800/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:3e9adb78996a536c4aa514741768e2b05cafc3e20ac4a0a0fe98e38b91109396
-size 3899

config.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "_name_or_path": "decapoda-research/llama-7b-hf",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "bos_token_id": 0,
+  "eos_token_id": 1,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 11008,
+  "max_position_embeddings": 2048,
+  "max_sequence_length": 2048,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "pad_token_id": -1,
+  "rms_norm_eps": 1e-06,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float16",
+  "transformers_version": "4.29.2",
+  "use_cache": true,
+  "vocab_size": 32000
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.29.2"
+}

checkpoint-1400/rng_state.pth → pytorch_model-00001-of-00039.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b813319309bb78de43fcb3df443c8fa6445901aa3ecbd7af077bb6cad5abbd16
-size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:975b4fcce1cc0f5d39f984b7ebcac7a505bb56623bc6eff75df7f381f0007f3e
+size 396364479

adapter_model.bin → pytorch_model-00002-of-00039.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5e1621f48d9ad8feb1d6d31050275f0aafd080c5c07153301fe2f48411f4406
-size 443

 version https://git-lfs.github.com/spec/v1
+oid sha256:27283e5ff7771322644820763a40e77ee0010486bf6d2ff868b91b593368e54d
+size 371215393

checkpoint-1400/optimizer.pt → pytorch_model-00003-of-00039.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:08f7a1d9c9173c3436019668ea26863da5987bfaefcf8c31239fa1070132548c
-size 134433093

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5d680f0fd9b39af959244383207858b3267e2dcc52f1175ae2b4ee02ba89553
+size 371215986

checkpoint-1400/pytorch_model.bin → pytorch_model-00004-of-00039.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a08267c1710aaea04b40844ab403cd930673f05fd06be55a0be7f6cec062b8d
-size 67201357

 version https://git-lfs.github.com/spec/v1
+oid sha256:b473df902ef42eebd86da908b28c363106f9c6d941135a6f1e2f218cc60bc683
+size 371215986

pytorch_model-00005-of-00039.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4a2a87142731bdcb6ad27a6a9c38414e3f05789b9d00fabdca75f9c917332171
+size 371215986

pytorch_model-00006-of-00039.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:038201b714a5eeddbffc0f7d6401fa7d5105ff0c9480eaeeda9161c7bd3d7a2c
+size 314575888

pytorch_model-00007-of-00039.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e89e8728cf12d0cdf2b802153930d91d2ef1839327b7de2b1a16494463e275f9
+size 314592882

pytorch_model-00008-of-00039.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:934849ae9e6ef4da628697d02ba984b8ba57c0b3de2a6ebccd4801f26547b74a
+size 314592882

pytorch_model-00009-of-00039.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:81e3b2e0d5f945e056c2e7e36f537c5a6630dd3c10525d931e913a04e86cf700
+size 371215393

pytorch_model-00010-of-00039.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cc8bcc28c6492ebac9031ea9581290ac6eb08c485b55e5aaea4f0c3ae2d89d6a
+size 371215986

pytorch_model-00011-of-00039.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5c5c844df0791f6483bdbb1c61579026529145ca7581eb58dbe33d468cbbad20
+size 371215986

pytorch_model-00012-of-00039.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4c503b904ea8996ac79dcb7a8c4a7b5ecee5aa75192280f4ad5b30df9162030a
+size 371215986

pytorch_model-00013-of-00039.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fd65605bdc1fa36223bd6df6e74077380b95f4183db2d139bd2b765041e25503
+size 314575888

pytorch_model-00014-of-00039.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1ff0bb12cf5798c6fb85b7462cd4a83d1a395c354875fe739f628a693fc3eb04
+size 314592882

pytorch_model-00015-of-00039.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bac5ee8a9a61324a31abfbee8c59daaa4c6292581c4e3f28db43686a43f3388d
+size 314592882

pytorch_model-00016-of-00039.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:12e14c1ed24eab48141dc66e06c2e4cf4c1fa8b84d571f25f13f1994ea3c4932
+size 371215393

pytorch_model-00017-of-00039.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a2c122693cd9e13cdc97eefe31237f04b1aa689bb934c4411465b10400d26c0a
+size 371215986

pytorch_model-00018-of-00039.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be7157b8619d9ee86c047bb142e6a3a7a7e4c0401c733e7446a1b5c10a5b4d3c
+size 371215986

pytorch_model-00019-of-00039.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c736d13013d2fd3f627c4068c884950e6fa78fadf08b60afd6162288297a8dd9
+size 371215986

pytorch_model-00020-of-00039.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e04f1429986b18496845282f36b032afb172f5172aba0c3fa825a714024f1e34
+size 314575888

pytorch_model-00021-of-00039.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d780c33c5bed6d8fac81d50538c06a3348dd34e7ad12c3f8cc61993a1866dbd1
+size 314592882

pytorch_model-00022-of-00039.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:822a8b3a34f79d5ca9ad4fa070b700ebe1b687d275b280d19e4b9c1705c586a7
+size 314592882

pytorch_model-00023-of-00039.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f44dade49e92d3706ac1207d25b36f19b1fcf150f46deb07ee22d74184050bfb
+size 371215393

pytorch_model-00024-of-00039.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5b6d9eff68d0909e909eed722bbe2e263df705ff486c446472c737a2c0fc31a2
+size 371215986

pytorch_model-00025-of-00039.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dc292c68330f900426448a4b661ae593347db7cdc664cc354fa965ff1c608e66
+size 371215986

pytorch_model-00026-of-00039.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3f9f1a1f95473652f893bd5f339cd6d6d9f75c3d81e525009b5898a6c21e784f
+size 371215986

pytorch_model-00027-of-00039.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:63775c85e6504ea5d5d024f7029e90c3a4b9d66079573bd1c36284ce390b7037
+size 314575888

pytorch_model-00028-of-00039.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:df35c532086f4e6b6d097bdd038afdf3bd4e271240ededf03d2747bd0544fd6f
+size 314592882

pytorch_model-00029-of-00039.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6d4b8da74b497dc675f74e756426fe1cd6384e8df50fe7d392a2e0eb4c4f06fd
+size 314592882