Upload folder using huggingface_hub

Browse files

Files changed (14) hide show

README.md +5 -5
all_results.json +5 -5
checkpoint-1000/config.json +5 -5
checkpoint-1000/optimizer.pt +2 -2
checkpoint-1000/pytorch_model.bin +2 -2
checkpoint-1000/tokenizer_config.json +1 -1
checkpoint-1000/trainer_state.json +203 -203
checkpoint-1000/training_args.bin +1 -1
config.json +5 -5
pytorch_model.bin +2 -2
tokenizer_config.json +1 -1
train_results.json +5 -5
trainer_state.json +0 -0
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -1,18 +1,18 @@
 ---
-base_model: ./output5
 tags:
 - generated_from_trainer
 model-index:
-- name: output5
   results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
-# output5
-This model is a fine-tuned version of [./output5](https://huggingface.co/./output5) on an unknown dataset.
 ## Model description
@@ -37,7 +37,7 @@ The following hyperparameters were used during training:
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: constant
-- num_epochs: 5.0
 ### Training results

 ---
+base_model: ./model
 tags:
 - generated_from_trainer
 model-index:
+- name: output6
   results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
+# output6
+This model is a fine-tuned version of [./model](https://huggingface.co/./model) on an unknown dataset.
 ## Model description
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: constant
+- num_epochs: 1.0
 ### Training results

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 5.0,
-    "train_loss": 1.999870525792007,
-    "train_runtime": 268.6642,
     "train_samples": 1528,
-    "train_samples_per_second": 28.437,
-    "train_steps_per_second": 28.437
 }

 {
+    "epoch": 1.0,
+    "train_loss": 4.918852043401508,
+    "train_runtime": 510.3139,
     "train_samples": 1528,
+    "train_samples_per_second": 2.994,
+    "train_steps_per_second": 2.994
 }

checkpoint-1000/config.json CHANGED Viewed

@@ -1,18 +1,18 @@
 {
-  "_name_or_path": "./output5",
   "architectures": [
     "LlamaForCausalLM"
   ],
   "bos_token_id": 1,
   "eos_token_id": 2,
   "hidden_act": "silu",
-  "hidden_size": 256,
   "initializer_range": 0.02,
-  "intermediate_size": 512,
-  "max_position_embeddings": 8192,
   "model_type": "llama",
   "num_attention_heads": 4,
-  "num_hidden_layers": 2,
   "num_key_value_heads": 4,
   "pretraining_tp": 2,
   "rms_norm_eps": 1e-05,

 {
+  "_name_or_path": "./model",
   "architectures": [
     "LlamaForCausalLM"
   ],
   "bos_token_id": 1,
   "eos_token_id": 2,
   "hidden_act": "silu",
+  "hidden_size": 64,
   "initializer_range": 0.02,
+  "intermediate_size": 256,
+  "max_position_embeddings": 2048,
   "model_type": "llama",
   "num_attention_heads": 4,
+  "num_hidden_layers": 64,
   "num_key_value_heads": 4,
   "pretraining_tp": 2,
   "rms_norm_eps": 1e-05,

checkpoint-1000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:75d9e2af855228dddbe0658b3aca8fceb49da183db44df0f8f6e98b8b81f5e76
-size 141585770

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c7cda44b230bbcb85da0d7236da1eb35bb9377fa2bb6fd30f7b3d1b4b84598c
+size 66872806

checkpoint-1000/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb42b85976a37ecf6745788717d8c16a2c224e77a5574c54a93294058563d9de
-size 70790896

 version https://git-lfs.github.com/spec/v1
+oid sha256:0d3c73bd6ab978ac50d3a23630d3368f4cfa257b0358bb46d412c42ebbd5fa3f
+size 33387545

checkpoint-1000/tokenizer_config.json CHANGED Viewed

@@ -29,7 +29,7 @@
   "bos_token": "<s>",
   "clean_up_tokenization_spaces": false,
   "eos_token": "</s>",
-  "model_max_length": 8192,
   "pad_token": null,
   "sp_model_kwargs": {},
   "tokenizer_class": "LlamaTokenizer",

   "bos_token": "<s>",
   "clean_up_tokenization_spaces": false,
   "eos_token": "</s>",
+  "model_max_length": 2048,
   "pad_token": null,
   "sp_model_kwargs": {},
   "tokenizer_class": "LlamaTokenizer",

checkpoint-1000/trainer_state.json CHANGED Viewed

@@ -11,1209 +11,1209 @@
     {
       "epoch": 0.0,
       "learning_rate": 0.001,
-      "loss": 1.3845,
       "step": 5
     },
     {
       "epoch": 0.01,
       "learning_rate": 0.001,
-      "loss": 1.6284,
       "step": 10
     },
     {
       "epoch": 0.01,
       "learning_rate": 0.001,
-      "loss": 1.3152,
       "step": 15
     },
     {
       "epoch": 0.01,
       "learning_rate": 0.001,
-      "loss": 1.6192,
       "step": 20
     },
     {
       "epoch": 0.02,
       "learning_rate": 0.001,
-      "loss": 1.7394,
       "step": 25
     },
     {
       "epoch": 0.02,
       "learning_rate": 0.001,
-      "loss": 1.9925,
       "step": 30
     },
     {
       "epoch": 0.02,
       "learning_rate": 0.001,
-      "loss": 1.902,
       "step": 35
     },
     {
       "epoch": 0.03,
       "learning_rate": 0.001,
-      "loss": 1.822,
       "step": 40
     },
     {
       "epoch": 0.03,
       "learning_rate": 0.001,
-      "loss": 2.137,
       "step": 45
     },
     {
       "epoch": 0.03,
       "learning_rate": 0.001,
-      "loss": 2.2556,
       "step": 50
     },
     {
       "epoch": 0.04,
       "learning_rate": 0.001,
-      "loss": 2.2468,
       "step": 55
     },
     {
       "epoch": 0.04,
       "learning_rate": 0.001,
-      "loss": 2.0746,
       "step": 60
     },
     {
       "epoch": 0.04,
       "learning_rate": 0.001,
-      "loss": 2.1092,
       "step": 65
     },
     {
       "epoch": 0.05,
       "learning_rate": 0.001,
-      "loss": 1.9553,
       "step": 70
     },
     {
       "epoch": 0.05,
       "learning_rate": 0.001,
-      "loss": 2.121,
       "step": 75
     },
     {
       "epoch": 0.05,
       "learning_rate": 0.001,
-      "loss": 2.1722,
       "step": 80
     },
     {
       "epoch": 0.06,
       "learning_rate": 0.001,
-      "loss": 2.1552,
       "step": 85
     },
     {
       "epoch": 0.06,
       "learning_rate": 0.001,
-      "loss": 2.5971,
       "step": 90
     },
     {
       "epoch": 0.06,
       "learning_rate": 0.001,
-      "loss": 2.4684,
       "step": 95
     },
     {
       "epoch": 0.07,
       "learning_rate": 0.001,
-      "loss": 2.0248,
       "step": 100
     },
     {
       "epoch": 0.07,
       "learning_rate": 0.001,
-      "loss": 2.5156,
       "step": 105
     },
     {
       "epoch": 0.07,
       "learning_rate": 0.001,
-      "loss": 2.3322,
       "step": 110
     },
     {
       "epoch": 0.08,
       "learning_rate": 0.001,
-      "loss": 1.7698,
       "step": 115
     },
     {
       "epoch": 0.08,
       "learning_rate": 0.001,
-      "loss": 2.3363,
       "step": 120
     },
     {
       "epoch": 0.08,
       "learning_rate": 0.001,
-      "loss": 2.1079,
       "step": 125
     },
     {
       "epoch": 0.09,
       "learning_rate": 0.001,
-      "loss": 2.0998,
       "step": 130
     },
     {
       "epoch": 0.09,
       "learning_rate": 0.001,
-      "loss": 2.8265,
       "step": 135
     },
     {
       "epoch": 0.09,
       "learning_rate": 0.001,
-      "loss": 2.6611,
       "step": 140
     },
     {
       "epoch": 0.09,
       "learning_rate": 0.001,
-      "loss": 2.2187,
       "step": 145
     },
     {
       "epoch": 0.1,
       "learning_rate": 0.001,
-      "loss": 2.33,
       "step": 150
     },
     {
       "epoch": 0.1,
       "learning_rate": 0.001,
-      "loss": 2.6119,
       "step": 155
     },
     {
       "epoch": 0.1,
       "learning_rate": 0.001,
-      "loss": 2.2203,
       "step": 160
     },
     {
       "epoch": 0.11,
       "learning_rate": 0.001,
-      "loss": 2.5474,
       "step": 165
     },
     {
       "epoch": 0.11,
       "learning_rate": 0.001,
-      "loss": 2.4763,
       "step": 170
     },
     {
       "epoch": 0.11,
       "learning_rate": 0.001,
-      "loss": 2.6068,
       "step": 175
     },
     {
       "epoch": 0.12,
       "learning_rate": 0.001,
-      "loss": 2.1221,
       "step": 180
     },
     {
       "epoch": 0.12,
       "learning_rate": 0.001,
-      "loss": 2.1185,
       "step": 185
     },
     {
       "epoch": 0.12,
       "learning_rate": 0.001,
-      "loss": 1.9481,
       "step": 190
     },
     {
       "epoch": 0.13,
       "learning_rate": 0.001,
-      "loss": 2.823,
       "step": 195
     },
     {
       "epoch": 0.13,
       "learning_rate": 0.001,
-      "loss": 2.4702,
       "step": 200
     },
     {
       "epoch": 0.13,
       "learning_rate": 0.001,
-      "loss": 2.3721,
       "step": 205
     },
     {
       "epoch": 0.14,
       "learning_rate": 0.001,
-      "loss": 2.4932,
       "step": 210
     },
     {
       "epoch": 0.14,
       "learning_rate": 0.001,
-      "loss": 2.3977,
       "step": 215
     },
     {
       "epoch": 0.14,
       "learning_rate": 0.001,
-      "loss": 2.5299,
       "step": 220
     },
     {
       "epoch": 0.15,
       "learning_rate": 0.001,
-      "loss": 2.4818,
       "step": 225
     },
     {
       "epoch": 0.15,
       "learning_rate": 0.001,
-      "loss": 2.3404,
       "step": 230
     },
     {
       "epoch": 0.15,
       "learning_rate": 0.001,
-      "loss": 2.3614,
       "step": 235
     },
     {
       "epoch": 0.16,
       "learning_rate": 0.001,
-      "loss": 2.1509,
       "step": 240
     },
     {
       "epoch": 0.16,
       "learning_rate": 0.001,
-      "loss": 2.5301,
       "step": 245
     },
     {
       "epoch": 0.16,
       "learning_rate": 0.001,
-      "loss": 2.3328,
       "step": 250
     },
     {
       "epoch": 0.17,
       "learning_rate": 0.001,
-      "loss": 2.412,
       "step": 255
     },
     {
       "epoch": 0.17,
       "learning_rate": 0.001,
-      "loss": 2.5923,
       "step": 260
     },
     {
       "epoch": 0.17,
       "learning_rate": 0.001,
-      "loss": 2.2655,
       "step": 265
     },
     {
       "epoch": 0.18,
       "learning_rate": 0.001,
-      "loss": 2.7524,
       "step": 270
     },
     {
       "epoch": 0.18,
       "learning_rate": 0.001,
-      "loss": 2.6456,
       "step": 275
     },
     {
       "epoch": 0.18,
       "learning_rate": 0.001,
-      "loss": 2.3814,
       "step": 280
     },
     {
       "epoch": 0.19,
       "learning_rate": 0.001,
-      "loss": 2.3805,
       "step": 285
     },
     {
       "epoch": 0.19,
       "learning_rate": 0.001,
-      "loss": 2.6727,
       "step": 290
     },
     {
       "epoch": 0.19,
       "learning_rate": 0.001,
-      "loss": 2.3931,
       "step": 295
     },
     {
       "epoch": 0.2,
       "learning_rate": 0.001,
-      "loss": 1.9526,
       "step": 300
     },
     {
       "epoch": 0.2,
       "learning_rate": 0.001,
-      "loss": 2.7219,
       "step": 305
     },
     {
       "epoch": 0.2,
       "learning_rate": 0.001,
-      "loss": 2.4869,
       "step": 310
     },
     {
       "epoch": 0.21,
       "learning_rate": 0.001,
-      "loss": 2.4303,
       "step": 315
     },
     {
       "epoch": 0.21,
       "learning_rate": 0.001,
-      "loss": 2.5916,
       "step": 320
     },
     {
       "epoch": 0.21,
       "learning_rate": 0.001,
-      "loss": 2.3917,
       "step": 325
     },
     {
       "epoch": 0.22,
       "learning_rate": 0.001,
-      "loss": 2.4881,
       "step": 330
     },
     {
       "epoch": 0.22,
       "learning_rate": 0.001,
-      "loss": 2.3369,
       "step": 335
     },
     {
       "epoch": 0.22,
       "learning_rate": 0.001,
-      "loss": 2.45,
       "step": 340
     },
     {
       "epoch": 0.23,
       "learning_rate": 0.001,
-      "loss": 2.1916,
       "step": 345
     },
     {
       "epoch": 0.23,
       "learning_rate": 0.001,
-      "loss": 2.2606,
       "step": 350
     },
     {
       "epoch": 0.23,
       "learning_rate": 0.001,
-      "loss": 2.5533,
       "step": 355
     },
     {
       "epoch": 0.24,
       "learning_rate": 0.001,
-      "loss": 2.1873,
       "step": 360
     },
     {
       "epoch": 0.24,
       "learning_rate": 0.001,
-      "loss": 2.6057,
       "step": 365
     },
     {
       "epoch": 0.24,
       "learning_rate": 0.001,
-      "loss": 2.4611,
       "step": 370
     },
     {
       "epoch": 0.25,
       "learning_rate": 0.001,
-      "loss": 2.606,
       "step": 375
     },
     {
       "epoch": 0.25,
       "learning_rate": 0.001,
-      "loss": 2.5645,
       "step": 380
     },
     {
       "epoch": 0.25,
       "learning_rate": 0.001,
-      "loss": 2.7591,
       "step": 385
     },
     {
       "epoch": 0.26,
       "learning_rate": 0.001,
-      "loss": 2.3399,
       "step": 390
     },
     {
       "epoch": 0.26,
       "learning_rate": 0.001,
-      "loss": 2.3675,
       "step": 395
     },
     {
       "epoch": 0.26,
       "learning_rate": 0.001,
-      "loss": 2.5141,
       "step": 400
     },
     {
       "epoch": 0.27,
       "learning_rate": 0.001,
-      "loss": 2.2407,
       "step": 405
     },
     {
       "epoch": 0.27,
       "learning_rate": 0.001,
-      "loss": 2.6321,
       "step": 410
     },
     {
       "epoch": 0.27,
       "learning_rate": 0.001,
-      "loss": 2.6431,
       "step": 415
     },
     {
       "epoch": 0.27,
       "learning_rate": 0.001,
-      "loss": 2.4707,
       "step": 420
     },
     {
       "epoch": 0.28,
       "learning_rate": 0.001,
-      "loss": 2.3744,
       "step": 425
     },
     {
       "epoch": 0.28,
       "learning_rate": 0.001,
-      "loss": 2.5658,
       "step": 430
     },
     {
       "epoch": 0.28,
       "learning_rate": 0.001,
-      "loss": 1.9922,
       "step": 435
     },
     {
       "epoch": 0.29,
       "learning_rate": 0.001,
-      "loss": 2.5948,
       "step": 440
     },
     {
       "epoch": 0.29,
       "learning_rate": 0.001,
-      "loss": 2.2519,
       "step": 445
     },
     {
       "epoch": 0.29,
       "learning_rate": 0.001,
-      "loss": 2.6248,
       "step": 450
     },
     {
       "epoch": 0.3,
       "learning_rate": 0.001,
-      "loss": 2.5877,
       "step": 455
     },
     {
       "epoch": 0.3,
       "learning_rate": 0.001,
-      "loss": 2.1311,
       "step": 460
     },
     {
       "epoch": 0.3,
       "learning_rate": 0.001,
-      "loss": 2.6091,
       "step": 465
     },
     {
       "epoch": 0.31,
       "learning_rate": 0.001,
-      "loss": 2.5488,
       "step": 470
     },
     {
       "epoch": 0.31,
       "learning_rate": 0.001,
-      "loss": 2.499,
       "step": 475
     },
     {
       "epoch": 0.31,
       "learning_rate": 0.001,
-      "loss": 2.5031,
       "step": 480
     },
     {
       "epoch": 0.32,
       "learning_rate": 0.001,
-      "loss": 2.5783,
       "step": 485
     },
     {
       "epoch": 0.32,
       "learning_rate": 0.001,
-      "loss": 2.6303,
       "step": 490
     },
     {
       "epoch": 0.32,
       "learning_rate": 0.001,
-      "loss": 2.6344,
       "step": 495
     },
     {
       "epoch": 0.33,
       "learning_rate": 0.001,
-      "loss": 2.7031,
       "step": 500
     },
     {
       "epoch": 0.33,
       "learning_rate": 0.001,
-      "loss": 2.6677,
       "step": 505
     },
     {
       "epoch": 0.33,
       "learning_rate": 0.001,
-      "loss": 2.7617,
       "step": 510
     },
     {
       "epoch": 0.34,
       "learning_rate": 0.001,
-      "loss": 2.3122,
       "step": 515
     },
     {
       "epoch": 0.34,
       "learning_rate": 0.001,
-      "loss": 2.3887,
       "step": 520
     },
     {
       "epoch": 0.34,
       "learning_rate": 0.001,
-      "loss": 2.5569,
       "step": 525
     },
     {
       "epoch": 0.35,
       "learning_rate": 0.001,
-      "loss": 2.4038,
       "step": 530
     },
     {
       "epoch": 0.35,
       "learning_rate": 0.001,
-      "loss": 2.7413,
       "step": 535
     },
     {
       "epoch": 0.35,
       "learning_rate": 0.001,
-      "loss": 2.5264,
       "step": 540
     },
     {
       "epoch": 0.36,
       "learning_rate": 0.001,
-      "loss": 2.335,
       "step": 545
     },
     {
       "epoch": 0.36,
       "learning_rate": 0.001,
-      "loss": 2.7574,
       "step": 550
     },
     {
       "epoch": 0.36,
       "learning_rate": 0.001,
-      "loss": 2.4542,
       "step": 555
     },
     {
       "epoch": 0.37,
       "learning_rate": 0.001,
-      "loss": 2.0885,
       "step": 560
     },
     {
       "epoch": 0.37,
       "learning_rate": 0.001,
-      "loss": 2.6057,
       "step": 565
     },
     {
       "epoch": 0.37,
       "learning_rate": 0.001,
-      "loss": 2.4971,
       "step": 570
     },
     {
       "epoch": 0.38,
       "learning_rate": 0.001,
-      "loss": 2.6251,
       "step": 575
     },
     {
       "epoch": 0.38,
       "learning_rate": 0.001,
-      "loss": 2.5784,
       "step": 580
     },
     {
       "epoch": 0.38,
       "learning_rate": 0.001,
-      "loss": 2.3878,
       "step": 585
     },
     {
       "epoch": 0.39,
       "learning_rate": 0.001,
-      "loss": 2.4271,
       "step": 590
     },
     {
       "epoch": 0.39,
       "learning_rate": 0.001,
-      "loss": 2.6751,
       "step": 595
     },
     {
       "epoch": 0.39,
       "learning_rate": 0.001,
-      "loss": 2.17,
       "step": 600
     },
     {
       "epoch": 0.4,
       "learning_rate": 0.001,
-      "loss": 2.0794,
       "step": 605
     },
     {
       "epoch": 0.4,
       "learning_rate": 0.001,
-      "loss": 2.6073,
       "step": 610
     },
     {
       "epoch": 0.4,
       "learning_rate": 0.001,
-      "loss": 2.6717,
       "step": 615
     },
     {
       "epoch": 0.41,
       "learning_rate": 0.001,
-      "loss": 2.8236,
       "step": 620
     },
     {
       "epoch": 0.41,
       "learning_rate": 0.001,
-      "loss": 2.4193,
       "step": 625
     },
     {
       "epoch": 0.41,
       "learning_rate": 0.001,
-      "loss": 2.7181,
       "step": 630
     },
     {
       "epoch": 0.42,
       "learning_rate": 0.001,
-      "loss": 2.6567,
       "step": 635
     },
     {
       "epoch": 0.42,
       "learning_rate": 0.001,
-      "loss": 2.1919,
       "step": 640
     },
     {
       "epoch": 0.42,
       "learning_rate": 0.001,
-      "loss": 2.5645,
       "step": 645
     },
     {
       "epoch": 0.43,
       "learning_rate": 0.001,
-      "loss": 2.3313,
       "step": 650
     },
     {
       "epoch": 0.43,
       "learning_rate": 0.001,
-      "loss": 2.533,
       "step": 655
     },
     {
       "epoch": 0.43,
       "learning_rate": 0.001,
-      "loss": 2.621,
       "step": 660
     },
     {
       "epoch": 0.44,
       "learning_rate": 0.001,
-      "loss": 2.5693,
       "step": 665
     },
     {
       "epoch": 0.44,
       "learning_rate": 0.001,
-      "loss": 2.6943,
       "step": 670
     },
     {
       "epoch": 0.44,
       "learning_rate": 0.001,
-      "loss": 2.2715,
       "step": 675
     },
     {
       "epoch": 0.45,
       "learning_rate": 0.001,
-      "loss": 2.5614,
       "step": 680
     },
     {
       "epoch": 0.45,
       "learning_rate": 0.001,
-      "loss": 2.5784,
       "step": 685
     },
     {
       "epoch": 0.45,
       "learning_rate": 0.001,
-      "loss": 2.0613,
       "step": 690
     },
     {
       "epoch": 0.45,
       "learning_rate": 0.001,
-      "loss": 2.582,
       "step": 695
     },
     {
       "epoch": 0.46,
       "learning_rate": 0.001,
-      "loss": 2.5178,
       "step": 700
     },
     {
       "epoch": 0.46,
       "learning_rate": 0.001,
-      "loss": 2.432,
       "step": 705
     },
     {
       "epoch": 0.46,
       "learning_rate": 0.001,
-      "loss": 2.1979,
       "step": 710
     },
     {
       "epoch": 0.47,
       "learning_rate": 0.001,
-      "loss": 2.4317,
       "step": 715
     },
     {
       "epoch": 0.47,
       "learning_rate": 0.001,
-      "loss": 2.285,
       "step": 720
     },
     {
       "epoch": 0.47,
       "learning_rate": 0.001,
-      "loss": 2.6127,
       "step": 725
     },
     {
       "epoch": 0.48,
       "learning_rate": 0.001,
-      "loss": 2.6221,
       "step": 730
     },
     {
       "epoch": 0.48,
       "learning_rate": 0.001,
-      "loss": 2.7519,
       "step": 735
     },
     {
       "epoch": 0.48,
       "learning_rate": 0.001,
-      "loss": 2.7351,
       "step": 740
     },
     {
       "epoch": 0.49,
       "learning_rate": 0.001,
-      "loss": 2.5224,
       "step": 745
     },
     {
       "epoch": 0.49,
       "learning_rate": 0.001,
-      "loss": 2.5145,
       "step": 750
     },
     {
       "epoch": 0.49,
       "learning_rate": 0.001,
-      "loss": 2.5122,
       "step": 755
     },
     {
       "epoch": 0.5,
       "learning_rate": 0.001,
-      "loss": 2.2971,
       "step": 760
     },
     {
       "epoch": 0.5,
       "learning_rate": 0.001,
-      "loss": 2.5628,
       "step": 765
     },
     {
       "epoch": 0.5,
       "learning_rate": 0.001,
-      "loss": 2.5803,
       "step": 770
     },
     {
       "epoch": 0.51,
       "learning_rate": 0.001,
-      "loss": 2.5209,
       "step": 775
     },
     {
       "epoch": 0.51,
       "learning_rate": 0.001,
-      "loss": 2.5051,
       "step": 780
     },
     {
       "epoch": 0.51,
       "learning_rate": 0.001,
-      "loss": 2.5275,
       "step": 785
     },
     {
       "epoch": 0.52,
       "learning_rate": 0.001,
-      "loss": 2.5019,
       "step": 790
     },
     {
       "epoch": 0.52,
       "learning_rate": 0.001,
-      "loss": 2.1714,
       "step": 795
     },
     {
       "epoch": 0.52,
       "learning_rate": 0.001,
-      "loss": 2.87,
       "step": 800
     },
     {
       "epoch": 0.53,
       "learning_rate": 0.001,
-      "loss": 2.6468,
       "step": 805
     },
     {
       "epoch": 0.53,
       "learning_rate": 0.001,
-      "loss": 2.4115,
       "step": 810
     },
     {
       "epoch": 0.53,
       "learning_rate": 0.001,
-      "loss": 2.5377,
       "step": 815
     },
     {
       "epoch": 0.54,
       "learning_rate": 0.001,
-      "loss": 2.4986,
       "step": 820
     },
     {
       "epoch": 0.54,
       "learning_rate": 0.001,
-      "loss": 2.6485,
       "step": 825
     },
     {
       "epoch": 0.54,
       "learning_rate": 0.001,
-      "loss": 2.6314,
       "step": 830
     },
     {
       "epoch": 0.55,
       "learning_rate": 0.001,
-      "loss": 2.3516,
       "step": 835
     },
     {
       "epoch": 0.55,
       "learning_rate": 0.001,
-      "loss": 2.39,
       "step": 840
     },
     {
       "epoch": 0.55,
       "learning_rate": 0.001,
-      "loss": 2.3759,
       "step": 845
     },
     {
       "epoch": 0.56,
       "learning_rate": 0.001,
-      "loss": 2.5348,
       "step": 850
     },
     {
       "epoch": 0.56,
       "learning_rate": 0.001,
-      "loss": 2.6843,
       "step": 855
     },
     {
       "epoch": 0.56,
       "learning_rate": 0.001,
-      "loss": 2.6289,
       "step": 860
     },
     {
       "epoch": 0.57,
       "learning_rate": 0.001,
-      "loss": 2.4023,
       "step": 865
     },
     {
       "epoch": 0.57,
       "learning_rate": 0.001,
-      "loss": 2.5979,
       "step": 870
     },
     {
       "epoch": 0.57,
       "learning_rate": 0.001,
-      "loss": 2.4683,
       "step": 875
     },
     {
       "epoch": 0.58,
       "learning_rate": 0.001,
-      "loss": 2.7099,
       "step": 880
     },
     {
       "epoch": 0.58,
       "learning_rate": 0.001,
-      "loss": 2.3129,
       "step": 885
     },
     {
       "epoch": 0.58,
       "learning_rate": 0.001,
-      "loss": 2.4508,
       "step": 890
     },
     {
       "epoch": 0.59,
       "learning_rate": 0.001,
-      "loss": 2.6484,
       "step": 895
     },
     {
       "epoch": 0.59,
       "learning_rate": 0.001,
-      "loss": 2.4541,
       "step": 900
     },
     {
       "epoch": 0.59,
       "learning_rate": 0.001,
-      "loss": 2.5101,
       "step": 905
     },
     {
       "epoch": 0.6,
       "learning_rate": 0.001,
-      "loss": 2.6002,
       "step": 910
     },
     {
       "epoch": 0.6,
       "learning_rate": 0.001,
-      "loss": 2.742,
       "step": 915
     },
     {
       "epoch": 0.6,
       "learning_rate": 0.001,
-      "loss": 2.4772,
       "step": 920
     },
     {
       "epoch": 0.61,
       "learning_rate": 0.001,
-      "loss": 2.4328,
       "step": 925
     },
     {
       "epoch": 0.61,
       "learning_rate": 0.001,
-      "loss": 2.7404,
       "step": 930
     },
     {
       "epoch": 0.61,
       "learning_rate": 0.001,
-      "loss": 2.5969,
       "step": 935
     },
     {
       "epoch": 0.62,
       "learning_rate": 0.001,
-      "loss": 2.1367,
       "step": 940
     },
     {
       "epoch": 0.62,
       "learning_rate": 0.001,
-      "loss": 2.703,
       "step": 945
     },
     {
       "epoch": 0.62,
       "learning_rate": 0.001,
-      "loss": 2.5638,
       "step": 950
     },
     {
       "epoch": 0.62,
       "learning_rate": 0.001,
-      "loss": 1.8322,
       "step": 955
     },
     {
       "epoch": 0.63,
       "learning_rate": 0.001,
-      "loss": 2.5764,
       "step": 960
     },
     {
       "epoch": 0.63,
       "learning_rate": 0.001,
-      "loss": 2.4679,
       "step": 965
     },
     {
       "epoch": 0.63,
       "learning_rate": 0.001,
-      "loss": 2.1691,
       "step": 970
     },
     {
       "epoch": 0.64,
       "learning_rate": 0.001,
-      "loss": 2.3252,
       "step": 975
     },
     {
       "epoch": 0.64,
       "learning_rate": 0.001,
-      "loss": 2.3988,
       "step": 980
     },
     {
       "epoch": 0.64,
       "learning_rate": 0.001,
-      "loss": 2.221,
       "step": 985
     },
     {
       "epoch": 0.65,
       "learning_rate": 0.001,
-      "loss": 2.4715,
       "step": 990
     },
     {
       "epoch": 0.65,
       "learning_rate": 0.001,
-      "loss": 2.2479,
       "step": 995
     },
     {
       "epoch": 0.65,
       "learning_rate": 0.001,
-      "loss": 2.3859,
       "step": 1000
     }
   ],
   "logging_steps": 5,
-  "max_steps": 7640,
-  "num_train_epochs": 5,
   "save_steps": 1000,
-  "total_flos": 116785152000000.0,
   "trial_name": null,
   "trial_params": null
 }

     {
       "epoch": 0.0,
       "learning_rate": 0.001,
+      "loss": 10.3529,
       "step": 5
     },
     {
       "epoch": 0.01,
       "learning_rate": 0.001,
+      "loss": 10.0747,
       "step": 10
     },
     {
       "epoch": 0.01,
       "learning_rate": 0.001,
+      "loss": 9.7304,
       "step": 15
     },
     {
       "epoch": 0.01,
       "learning_rate": 0.001,
+      "loss": 9.4139,
       "step": 20
     },
     {
       "epoch": 0.02,
       "learning_rate": 0.001,
+      "loss": 9.0418,
       "step": 25
     },
     {
       "epoch": 0.02,
       "learning_rate": 0.001,
+      "loss": 8.7655,
       "step": 30
     },
     {
       "epoch": 0.02,
       "learning_rate": 0.001,
+      "loss": 8.3599,
       "step": 35
     },
     {
       "epoch": 0.03,
       "learning_rate": 0.001,
+      "loss": 8.0603,
       "step": 40
     },
     {
       "epoch": 0.03,
       "learning_rate": 0.001,
+      "loss": 7.7776,
       "step": 45
     },
     {
       "epoch": 0.03,
       "learning_rate": 0.001,
+      "loss": 7.5678,
       "step": 50
     },
     {
       "epoch": 0.04,
       "learning_rate": 0.001,
+      "loss": 7.5338,
       "step": 55
     },
     {
       "epoch": 0.04,
       "learning_rate": 0.001,
+      "loss": 7.2249,
       "step": 60
     },
     {
       "epoch": 0.04,
       "learning_rate": 0.001,
+      "loss": 7.0286,
       "step": 65
     },
     {
       "epoch": 0.05,
       "learning_rate": 0.001,
+      "loss": 6.9518,
       "step": 70
     },
     {
       "epoch": 0.05,
       "learning_rate": 0.001,
+      "loss": 6.7623,
       "step": 75
     },
     {
       "epoch": 0.05,
       "learning_rate": 0.001,
+      "loss": 6.7361,
       "step": 80
     },
     {
       "epoch": 0.06,
       "learning_rate": 0.001,
+      "loss": 6.9201,
       "step": 85
     },
     {
       "epoch": 0.06,
       "learning_rate": 0.001,
+      "loss": 6.8491,
       "step": 90
     },
     {
       "epoch": 0.06,
       "learning_rate": 0.001,
+      "loss": 6.7565,
       "step": 95
     },
     {
       "epoch": 0.07,
       "learning_rate": 0.001,
+      "loss": 6.6537,
       "step": 100
     },
     {
       "epoch": 0.07,
       "learning_rate": 0.001,
+      "loss": 6.8522,
       "step": 105
     },
     {
       "epoch": 0.07,
       "learning_rate": 0.001,
+      "loss": 6.6052,
       "step": 110
     },
     {
       "epoch": 0.08,
       "learning_rate": 0.001,
+      "loss": 6.4885,
       "step": 115
     },
     {
       "epoch": 0.08,
       "learning_rate": 0.001,
+      "loss": 6.5162,
       "step": 120
     },
     {
       "epoch": 0.08,
       "learning_rate": 0.001,
+      "loss": 6.4759,
       "step": 125
     },
     {
       "epoch": 0.09,
       "learning_rate": 0.001,
+      "loss": 6.3678,
       "step": 130
     },
     {
       "epoch": 0.09,
       "learning_rate": 0.001,
+      "loss": 6.6435,
       "step": 135
     },
     {
       "epoch": 0.09,
       "learning_rate": 0.001,
+      "loss": 6.4821,
       "step": 140
     },
     {
       "epoch": 0.09,
       "learning_rate": 0.001,
+      "loss": 6.3594,
       "step": 145
     },
     {
       "epoch": 0.1,
       "learning_rate": 0.001,
+      "loss": 6.1634,
       "step": 150
     },
     {
       "epoch": 0.1,
       "learning_rate": 0.001,
+      "loss": 6.377,
       "step": 155
     },
     {
       "epoch": 0.1,
       "learning_rate": 0.001,
+      "loss": 6.368,
       "step": 160
     },
     {
       "epoch": 0.11,
       "learning_rate": 0.001,
+      "loss": 6.1571,
       "step": 165
     },
     {
       "epoch": 0.11,
       "learning_rate": 0.001,
+      "loss": 6.122,
       "step": 170
     },
     {
       "epoch": 0.11,
       "learning_rate": 0.001,
+      "loss": 6.2277,
       "step": 175
     },
     {
       "epoch": 0.12,
       "learning_rate": 0.001,
+      "loss": 5.9614,
       "step": 180
     },
     {
       "epoch": 0.12,
       "learning_rate": 0.001,
+      "loss": 5.9394,
       "step": 185
     },
     {
       "epoch": 0.12,
       "learning_rate": 0.001,
+      "loss": 5.8261,
       "step": 190
     },
     {
       "epoch": 0.13,
       "learning_rate": 0.001,
+      "loss": 6.2232,
       "step": 195
     },
     {
       "epoch": 0.13,
       "learning_rate": 0.001,
+      "loss": 6.0747,
       "step": 200
     },
     {
       "epoch": 0.13,
       "learning_rate": 0.001,
+      "loss": 5.9842,
       "step": 205
     },
     {
       "epoch": 0.14,
       "learning_rate": 0.001,
+      "loss": 6.2139,
       "step": 210
     },
     {
       "epoch": 0.14,
       "learning_rate": 0.001,
+      "loss": 6.0711,
       "step": 215
     },
     {
       "epoch": 0.14,
       "learning_rate": 0.001,
+      "loss": 5.9545,
       "step": 220
     },
     {
       "epoch": 0.15,
       "learning_rate": 0.001,
+      "loss": 5.7681,
       "step": 225
     },
     {
       "epoch": 0.15,
       "learning_rate": 0.001,
+      "loss": 5.8673,
       "step": 230
     },
     {
       "epoch": 0.15,
       "learning_rate": 0.001,
+      "loss": 5.6984,
       "step": 235
     },
     {
       "epoch": 0.16,
       "learning_rate": 0.001,
+      "loss": 5.6021,
       "step": 240
     },
     {
       "epoch": 0.16,
       "learning_rate": 0.001,
+      "loss": 5.8764,
       "step": 245
     },
     {
       "epoch": 0.16,
       "learning_rate": 0.001,
+      "loss": 5.6526,
       "step": 250
     },
     {
       "epoch": 0.17,
       "learning_rate": 0.001,
+      "loss": 5.7407,
       "step": 255
     },
     {
       "epoch": 0.17,
       "learning_rate": 0.001,
+      "loss": 5.6711,
       "step": 260
     },
     {
       "epoch": 0.17,
       "learning_rate": 0.001,
+      "loss": 5.6802,
       "step": 265
     },
     {
       "epoch": 0.18,
       "learning_rate": 0.001,
+      "loss": 5.7385,
       "step": 270
     },
     {
       "epoch": 0.18,
       "learning_rate": 0.001,
+      "loss": 5.8663,
       "step": 275
     },
     {
       "epoch": 0.18,
       "learning_rate": 0.001,
+      "loss": 5.5553,
       "step": 280
     },
     {
       "epoch": 0.19,
       "learning_rate": 0.001,
+      "loss": 5.6528,
       "step": 285
     },
     {
       "epoch": 0.19,
       "learning_rate": 0.001,
+      "loss": 5.8758,
       "step": 290
     },
     {
       "epoch": 0.19,
       "learning_rate": 0.001,
+      "loss": 5.513,
       "step": 295
     },
     {
       "epoch": 0.2,
       "learning_rate": 0.001,
+      "loss": 5.3608,
       "step": 300
     },
     {
       "epoch": 0.2,
       "learning_rate": 0.001,
+      "loss": 5.7339,
       "step": 305
     },
     {
       "epoch": 0.2,
       "learning_rate": 0.001,
+      "loss": 5.5918,
       "step": 310
     },
     {
       "epoch": 0.21,
       "learning_rate": 0.001,
+      "loss": 5.7015,
       "step": 315
     },
     {
       "epoch": 0.21,
       "learning_rate": 0.001,
+      "loss": 5.5825,
       "step": 320
     },
     {
       "epoch": 0.21,
       "learning_rate": 0.001,
+      "loss": 5.3423,
       "step": 325
     },
     {
       "epoch": 0.22,
       "learning_rate": 0.001,
+      "loss": 5.2627,
       "step": 330
     },
     {
       "epoch": 0.22,
       "learning_rate": 0.001,
+      "loss": 5.4692,
       "step": 335
     },
     {
       "epoch": 0.22,
       "learning_rate": 0.001,
+      "loss": 5.474,
       "step": 340
     },
     {
       "epoch": 0.23,
       "learning_rate": 0.001,
+      "loss": 5.3762,
       "step": 345
     },
     {
       "epoch": 0.23,
       "learning_rate": 0.001,
+      "loss": 5.2908,
       "step": 350
     },
     {
       "epoch": 0.23,
       "learning_rate": 0.001,
+      "loss": 5.4183,
       "step": 355
     },
     {
       "epoch": 0.24,
       "learning_rate": 0.001,
+      "loss": 5.2073,
       "step": 360
     },
     {
       "epoch": 0.24,
       "learning_rate": 0.001,
+      "loss": 5.4598,
       "step": 365
     },
     {
       "epoch": 0.24,
       "learning_rate": 0.001,
+      "loss": 5.4487,
       "step": 370
     },
     {
       "epoch": 0.25,
       "learning_rate": 0.001,
+      "loss": 5.2604,
       "step": 375
     },
     {
       "epoch": 0.25,
       "learning_rate": 0.001,
+      "loss": 5.1575,
       "step": 380
     },
     {
       "epoch": 0.25,
       "learning_rate": 0.001,
+      "loss": 5.2809,
       "step": 385
     },
     {
       "epoch": 0.26,
       "learning_rate": 0.001,
+      "loss": 5.1923,
       "step": 390
     },
     {
       "epoch": 0.26,
       "learning_rate": 0.001,
+      "loss": 5.3494,
       "step": 395
     },
     {
       "epoch": 0.26,
       "learning_rate": 0.001,
+      "loss": 5.2338,
       "step": 400
     },
     {
       "epoch": 0.27,
       "learning_rate": 0.001,
+      "loss": 5.2143,
       "step": 405
     },
     {
       "epoch": 0.27,
       "learning_rate": 0.001,
+      "loss": 5.3615,
       "step": 410
     },
     {
       "epoch": 0.27,
       "learning_rate": 0.001,
+      "loss": 5.4357,
       "step": 415
     },
     {
       "epoch": 0.27,
       "learning_rate": 0.001,
+      "loss": 5.1693,
       "step": 420
     },
     {
       "epoch": 0.28,
       "learning_rate": 0.001,
+      "loss": 5.1072,
       "step": 425
     },
     {
       "epoch": 0.28,
       "learning_rate": 0.001,
+      "loss": 5.2298,
       "step": 430
     },
     {
       "epoch": 0.28,
       "learning_rate": 0.001,
+      "loss": 4.9306,
       "step": 435
     },
     {
       "epoch": 0.29,
       "learning_rate": 0.001,
+      "loss": 5.321,
       "step": 440
     },
     {
       "epoch": 0.29,
       "learning_rate": 0.001,
+      "loss": 4.9341,
       "step": 445
     },
     {
       "epoch": 0.29,
       "learning_rate": 0.001,
+      "loss": 5.0898,
       "step": 450
     },
     {
       "epoch": 0.3,
       "learning_rate": 0.001,
+      "loss": 5.1687,
       "step": 455
     },
     {
       "epoch": 0.3,
       "learning_rate": 0.001,
+      "loss": 4.8764,
       "step": 460
     },
     {
       "epoch": 0.3,
       "learning_rate": 0.001,
+      "loss": 5.1905,
       "step": 465
     },
     {
       "epoch": 0.31,
       "learning_rate": 0.001,
+      "loss": 5.0816,
       "step": 470
     },
     {
       "epoch": 0.31,
       "learning_rate": 0.001,
+      "loss": 5.2568,
       "step": 475
     },
     {
       "epoch": 0.31,
       "learning_rate": 0.001,
+      "loss": 5.2742,
       "step": 480
     },
     {
       "epoch": 0.32,
       "learning_rate": 0.001,
+      "loss": 5.0711,
       "step": 485
     },
     {
       "epoch": 0.32,
       "learning_rate": 0.001,
+      "loss": 5.0671,
       "step": 490
     },
     {
       "epoch": 0.32,
       "learning_rate": 0.001,
+      "loss": 5.1016,
       "step": 495
     },
     {
       "epoch": 0.33,
       "learning_rate": 0.001,
+      "loss": 5.3311,
       "step": 500
     },
     {
       "epoch": 0.33,
       "learning_rate": 0.001,
+      "loss": 5.2327,
       "step": 505
     },
     {
       "epoch": 0.33,
       "learning_rate": 0.001,
+      "loss": 5.3222,
       "step": 510
     },
     {
       "epoch": 0.34,
       "learning_rate": 0.001,
+      "loss": 4.9495,
       "step": 515
     },
     {
       "epoch": 0.34,
       "learning_rate": 0.001,
+      "loss": 4.957,
       "step": 520
     },
     {
       "epoch": 0.34,
       "learning_rate": 0.001,
+      "loss": 5.3251,
       "step": 525
     },
     {
       "epoch": 0.35,
       "learning_rate": 0.001,
+      "loss": 4.6873,
       "step": 530
     },
     {
       "epoch": 0.35,
       "learning_rate": 0.001,
+      "loss": 5.289,
       "step": 535
     },
     {
       "epoch": 0.35,
       "learning_rate": 0.001,
+      "loss": 5.0009,
       "step": 540
     },
     {
       "epoch": 0.36,
       "learning_rate": 0.001,
+      "loss": 4.8415,
       "step": 545
     },
     {
       "epoch": 0.36,
       "learning_rate": 0.001,
+      "loss": 5.2063,
       "step": 550
     },
     {
       "epoch": 0.36,
       "learning_rate": 0.001,
+      "loss": 4.8384,
       "step": 555
     },
     {
       "epoch": 0.37,
       "learning_rate": 0.001,
+      "loss": 4.3815,
       "step": 560
     },
     {
       "epoch": 0.37,
       "learning_rate": 0.001,
+      "loss": 4.9327,
       "step": 565
     },
     {
       "epoch": 0.37,
       "learning_rate": 0.001,
+      "loss": 4.8049,
       "step": 570
     },
     {
       "epoch": 0.38,
       "learning_rate": 0.001,
+      "loss": 4.9983,
       "step": 575
     },
     {
       "epoch": 0.38,
       "learning_rate": 0.001,
+      "loss": 4.9048,
       "step": 580
     },
     {
       "epoch": 0.38,
       "learning_rate": 0.001,
+      "loss": 4.8615,
       "step": 585
     },
     {
       "epoch": 0.39,
       "learning_rate": 0.001,
+      "loss": 4.8885,
       "step": 590
     },
     {
       "epoch": 0.39,
       "learning_rate": 0.001,
+      "loss": 4.9189,
       "step": 595
     },
     {
       "epoch": 0.39,
       "learning_rate": 0.001,
+      "loss": 4.537,
       "step": 600
     },
     {
       "epoch": 0.4,
       "learning_rate": 0.001,
+      "loss": 4.5421,
       "step": 605
     },
     {
       "epoch": 0.4,
       "learning_rate": 0.001,
+      "loss": 4.8229,
       "step": 610
     },
     {
       "epoch": 0.4,
       "learning_rate": 0.001,
+      "loss": 4.9116,
       "step": 615
     },
     {
       "epoch": 0.41,
       "learning_rate": 0.001,
+      "loss": 4.9846,
       "step": 620
     },
     {
       "epoch": 0.41,
       "learning_rate": 0.001,
+      "loss": 4.7512,
       "step": 625
     },
     {
       "epoch": 0.41,
       "learning_rate": 0.001,
+      "loss": 4.9718,
       "step": 630
     },
     {
       "epoch": 0.42,
       "learning_rate": 0.001,
+      "loss": 4.9162,
       "step": 635
     },
     {
       "epoch": 0.42,
       "learning_rate": 0.001,
+      "loss": 4.5091,
       "step": 640
     },
     {
       "epoch": 0.42,
       "learning_rate": 0.001,
+      "loss": 4.8638,
       "step": 645
     },
     {
       "epoch": 0.43,
       "learning_rate": 0.001,
+      "loss": 4.5735,
       "step": 650
     },
     {
       "epoch": 0.43,
       "learning_rate": 0.001,
+      "loss": 4.8966,
       "step": 655
     },
     {
       "epoch": 0.43,
       "learning_rate": 0.001,
+      "loss": 4.9169,
       "step": 660
     },
     {
       "epoch": 0.44,
       "learning_rate": 0.001,
+      "loss": 4.8778,
       "step": 665
     },
     {
       "epoch": 0.44,
       "learning_rate": 0.001,
+      "loss": 4.8185,
       "step": 670
     },
     {
       "epoch": 0.44,
       "learning_rate": 0.001,
+      "loss": 4.6256,
       "step": 675
     },
     {
       "epoch": 0.45,
       "learning_rate": 0.001,
+      "loss": 4.7773,
       "step": 680
     },
     {
       "epoch": 0.45,
       "learning_rate": 0.001,
+      "loss": 4.6482,
       "step": 685
     },
     {
       "epoch": 0.45,
       "learning_rate": 0.001,
+      "loss": 4.3789,
       "step": 690
     },
     {
       "epoch": 0.45,
       "learning_rate": 0.001,
+      "loss": 4.849,
       "step": 695
     },
     {
       "epoch": 0.46,
       "learning_rate": 0.001,
+      "loss": 4.7127,
       "step": 700
     },
     {
       "epoch": 0.46,
       "learning_rate": 0.001,
+      "loss": 4.6414,
       "step": 705
     },
     {
       "epoch": 0.46,
       "learning_rate": 0.001,
+      "loss": 4.512,
       "step": 710
     },
     {
       "epoch": 0.47,
       "learning_rate": 0.001,
+      "loss": 4.5855,
       "step": 715
     },
     {
       "epoch": 0.47,
       "learning_rate": 0.001,
+      "loss": 4.5004,
       "step": 720
     },
     {
       "epoch": 0.47,
       "learning_rate": 0.001,
+      "loss": 4.8402,
       "step": 725
     },
     {
       "epoch": 0.48,
       "learning_rate": 0.001,
+      "loss": 4.7665,
       "step": 730
     },
     {
       "epoch": 0.48,
       "learning_rate": 0.001,
+      "loss": 4.7962,
       "step": 735
     },
     {
       "epoch": 0.48,
       "learning_rate": 0.001,
+      "loss": 4.7931,
       "step": 740
     },
     {
       "epoch": 0.49,
       "learning_rate": 0.001,
+      "loss": 4.7293,
       "step": 745
     },
     {
       "epoch": 0.49,
       "learning_rate": 0.001,
+      "loss": 4.6017,
       "step": 750
     },
     {
       "epoch": 0.49,
       "learning_rate": 0.001,
+      "loss": 4.7313,
       "step": 755
     },
     {
       "epoch": 0.5,
       "learning_rate": 0.001,
+      "loss": 4.58,
       "step": 760
     },
     {
       "epoch": 0.5,
       "learning_rate": 0.001,
+      "loss": 4.6188,
       "step": 765
     },
     {
       "epoch": 0.5,
       "learning_rate": 0.001,
+      "loss": 4.5284,
       "step": 770
     },
     {
       "epoch": 0.51,
       "learning_rate": 0.001,
+      "loss": 4.5003,
       "step": 775
     },
     {
       "epoch": 0.51,
       "learning_rate": 0.001,
+      "loss": 4.5868,
       "step": 780
     },
     {
       "epoch": 0.51,
       "learning_rate": 0.001,
+      "loss": 4.5261,
       "step": 785
     },
     {
       "epoch": 0.52,
       "learning_rate": 0.001,
+      "loss": 4.6488,
       "step": 790
     },
     {
       "epoch": 0.52,
       "learning_rate": 0.001,
+      "loss": 4.2441,
       "step": 795
     },
     {
       "epoch": 0.52,
       "learning_rate": 0.001,
+      "loss": 4.9201,
       "step": 800
     },
     {
       "epoch": 0.53,
       "learning_rate": 0.001,
+      "loss": 4.5616,
       "step": 805
     },
     {
       "epoch": 0.53,
       "learning_rate": 0.001,
+      "loss": 4.4575,
       "step": 810
     },
     {
       "epoch": 0.53,
       "learning_rate": 0.001,
+      "loss": 4.4801,
       "step": 815
     },
     {
       "epoch": 0.54,
       "learning_rate": 0.001,
+      "loss": 4.4761,
       "step": 820
     },
     {
       "epoch": 0.54,
       "learning_rate": 0.001,
+      "loss": 4.7145,
       "step": 825
     },
     {
       "epoch": 0.54,
       "learning_rate": 0.001,
+      "loss": 4.6759,
       "step": 830
     },
     {
       "epoch": 0.55,
       "learning_rate": 0.001,
+      "loss": 4.3177,
       "step": 835
     },
     {
       "epoch": 0.55,
       "learning_rate": 0.001,
+      "loss": 4.4118,
       "step": 840
     },
     {
       "epoch": 0.55,
       "learning_rate": 0.001,
+      "loss": 4.4915,
       "step": 845
     },
     {
       "epoch": 0.56,
       "learning_rate": 0.001,
+      "loss": 4.6066,
       "step": 850
     },
     {
       "epoch": 0.56,
       "learning_rate": 0.001,
+      "loss": 4.6189,
       "step": 855
     },
     {
       "epoch": 0.56,
       "learning_rate": 0.001,
+      "loss": 4.4977,
       "step": 860
     },
     {
       "epoch": 0.57,
       "learning_rate": 0.001,
+      "loss": 4.2084,
       "step": 865
     },
     {
       "epoch": 0.57,
       "learning_rate": 0.001,
+      "loss": 4.4593,
       "step": 870
     },
     {
       "epoch": 0.57,
       "learning_rate": 0.001,
+      "loss": 4.4324,
       "step": 875
     },
     {
       "epoch": 0.58,
       "learning_rate": 0.001,
+      "loss": 4.5696,
       "step": 880
     },
     {
       "epoch": 0.58,
       "learning_rate": 0.001,
+      "loss": 4.2641,
       "step": 885
     },
     {
       "epoch": 0.58,
       "learning_rate": 0.001,
+      "loss": 4.2248,
       "step": 890
     },
     {
       "epoch": 0.59,
       "learning_rate": 0.001,
+      "loss": 4.577,
       "step": 895
     },
     {
       "epoch": 0.59,
       "learning_rate": 0.001,
+      "loss": 4.3748,
       "step": 900
     },
     {
       "epoch": 0.59,
       "learning_rate": 0.001,
+      "loss": 4.4647,
       "step": 905
     },
     {
       "epoch": 0.6,
       "learning_rate": 0.001,
+      "loss": 4.3836,
       "step": 910
     },
     {
       "epoch": 0.6,
       "learning_rate": 0.001,
+      "loss": 4.7384,
       "step": 915
     },
     {
       "epoch": 0.6,
       "learning_rate": 0.001,
+      "loss": 4.3023,
       "step": 920
     },
     {
       "epoch": 0.61,
       "learning_rate": 0.001,
+      "loss": 4.2472,
       "step": 925
     },
     {
       "epoch": 0.61,
       "learning_rate": 0.001,
+      "loss": 4.6622,
       "step": 930
     },
     {
       "epoch": 0.61,
       "learning_rate": 0.001,
+      "loss": 4.5409,
       "step": 935
     },
     {
       "epoch": 0.62,
       "learning_rate": 0.001,
+      "loss": 3.9355,
       "step": 940
     },
     {
       "epoch": 0.62,
       "learning_rate": 0.001,
+      "loss": 4.4457,
       "step": 945
     },
     {
       "epoch": 0.62,
       "learning_rate": 0.001,
+      "loss": 4.4636,
       "step": 950
     },
     {
       "epoch": 0.62,
       "learning_rate": 0.001,
+      "loss": 3.7582,
       "step": 955
     },
     {
       "epoch": 0.63,
       "learning_rate": 0.001,
+      "loss": 4.4637,
       "step": 960
     },
     {
       "epoch": 0.63,
       "learning_rate": 0.001,
+      "loss": 4.4201,
       "step": 965
     },
     {
       "epoch": 0.63,
       "learning_rate": 0.001,
+      "loss": 3.9001,
       "step": 970
     },
     {
       "epoch": 0.64,
       "learning_rate": 0.001,
+      "loss": 4.1943,
       "step": 975
     },
     {
       "epoch": 0.64,
       "learning_rate": 0.001,
+      "loss": 4.1346,
       "step": 980
     },
     {
       "epoch": 0.64,
       "learning_rate": 0.001,
+      "loss": 4.057,
       "step": 985
     },
     {
       "epoch": 0.65,
       "learning_rate": 0.001,
+      "loss": 4.1786,
       "step": 990
     },
     {
       "epoch": 0.65,
       "learning_rate": 0.001,
+      "loss": 4.0282,
       "step": 995
     },
     {
       "epoch": 0.65,
       "learning_rate": 0.001,
+      "loss": 4.2299,
       "step": 1000
     }
   ],
   "logging_steps": 5,
+  "max_steps": 1528,
+  "num_train_epochs": 1,
   "save_steps": 1000,
+  "total_flos": 76806881280000.0,
   "trial_name": null,
   "trial_params": null
 }

checkpoint-1000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:026a40a22d79b976af4f05a529a919434f1a1af96981147d87e1c857264d40d7
 size 4027

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b462423a1a93a6e821517c0dc21398bf6ebcf0fa763dc09d72a23319257dcb4
 size 4027

config.json CHANGED Viewed

@@ -1,18 +1,18 @@
 {
-  "_name_or_path": "./output5",
   "architectures": [
     "LlamaForCausalLM"
   ],
   "bos_token_id": 1,
   "eos_token_id": 2,
   "hidden_act": "silu",
-  "hidden_size": 256,
   "initializer_range": 0.02,
-  "intermediate_size": 512,
-  "max_position_embeddings": 8192,
   "model_type": "llama",
   "num_attention_heads": 4,
-  "num_hidden_layers": 2,
   "num_key_value_heads": 4,
   "pretraining_tp": 2,
   "rms_norm_eps": 1e-05,

 {
+  "_name_or_path": "./model",
   "architectures": [
     "LlamaForCausalLM"
   ],
   "bos_token_id": 1,
   "eos_token_id": 2,
   "hidden_act": "silu",
+  "hidden_size": 64,
   "initializer_range": 0.02,
+  "intermediate_size": 256,
+  "max_position_embeddings": 2048,
   "model_type": "llama",
   "num_attention_heads": 4,
+  "num_hidden_layers": 64,
   "num_key_value_heads": 4,
   "pretraining_tp": 2,
   "rms_norm_eps": 1e-05,

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4813035bd07556e93f50e8d269519bf9e2b59a15f2265677f99ab8809de94dc0
-size 70790896

 version https://git-lfs.github.com/spec/v1
+oid sha256:f2e602f32a52b66f8373757839c5af315585c930fd659e3b4a9c59aa05decfc3
+size 33387545

tokenizer_config.json CHANGED Viewed

@@ -29,7 +29,7 @@
   "bos_token": "<s>",
   "clean_up_tokenization_spaces": false,
   "eos_token": "</s>",
-  "model_max_length": 8192,
   "pad_token": null,
   "sp_model_kwargs": {},
   "tokenizer_class": "LlamaTokenizer",

   "bos_token": "<s>",
   "clean_up_tokenization_spaces": false,
   "eos_token": "</s>",
+  "model_max_length": 2048,
   "pad_token": null,
   "sp_model_kwargs": {},
   "tokenizer_class": "LlamaTokenizer",

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 5.0,
-    "train_loss": 1.999870525792007,
-    "train_runtime": 268.6642,
     "train_samples": 1528,
-    "train_samples_per_second": 28.437,
-    "train_steps_per_second": 28.437
 }

 {
+    "epoch": 1.0,
+    "train_loss": 4.918852043401508,
+    "train_runtime": 510.3139,
     "train_samples": 1528,
+    "train_samples_per_second": 2.994,
+    "train_steps_per_second": 2.994
 }

trainer_state.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:026a40a22d79b976af4f05a529a919434f1a1af96981147d87e1c857264d40d7
 size 4027

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b462423a1a93a6e821517c0dc21398bf6ebcf0fa763dc09d72a23319257dcb4
 size 4027