Upload folder using huggingface_hub

Browse files

Files changed (8) hide show

README.md +7 -7
all_results.json +11 -11
config.json +1 -1
eval_results.json +6 -6
pytorch_model.bin +1 -1
train_results.json +5 -5
trainer_state.json +389 -473
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -1,5 +1,5 @@
 ---
-base_model: ./core2
 tags:
 - generated_from_trainer
 metrics:
@@ -14,10 +14,10 @@ should probably proofread and complete it, then remove this comment. -->
 # core2
-This model is a fine-tuned version of [./core2](https://huggingface.co/./core2) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.7997
-- Accuracy: 0.4028
 ## Model description
@@ -36,12 +36,12 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 0.0001
 - train_batch_size: 1
 - eval_batch_size: 8
 - seed: 42
-- gradient_accumulation_steps: 64
-- total_train_batch_size: 64
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - num_epochs: 1.0

 ---
+base_model: ./core2/
 tags:
 - generated_from_trainer
 metrics:
 # core2
+This model is a fine-tuned version of [./core2/](https://huggingface.co/./core2/) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 2.5534
+- Accuracy: 0.4330
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 0.001
 - train_batch_size: 1
 - eval_batch_size: 8
 - seed: 42
+- gradient_accumulation_steps: 8
+- total_train_batch_size: 8
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - num_epochs: 1.0

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
     "epoch": 1.0,
-    "eval_accuracy": 0.40275220320231575,
-    "eval_loss": 2.7997472286224365,
-    "eval_runtime": 1.756,
     "eval_samples": 129,
-    "eval_samples_per_second": 73.461,
-    "eval_steps_per_second": 9.681,
-    "perplexity": 16.44049056038686,
-    "train_loss": 2.7764307147395,
-    "train_runtime": 11751.6473,
-    "train_samples": 455985,
-    "train_samples_per_second": 38.802,
-    "train_steps_per_second": 0.606
 }

 {
     "epoch": 1.0,
+    "eval_accuracy": 0.43297187933346976,
+    "eval_loss": 2.553417444229126,
+    "eval_runtime": 1.7282,
     "eval_samples": 129,
+    "eval_samples_per_second": 74.646,
+    "eval_steps_per_second": 9.837,
+    "perplexity": 12.850946217445413,
+    "train_loss": 3.3343640817306177,
+    "train_runtime": 1458.5581,
+    "train_samples": 51585,
+    "train_samples_per_second": 35.367,
+    "train_steps_per_second": 4.421
 }

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "./core2",
   "architectures": [
     "LlamaForCausalLM"
   ],

 {
+  "_name_or_path": "./core2/",
   "architectures": [
     "LlamaForCausalLM"
   ],

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
     "epoch": 1.0,
-    "eval_accuracy": 0.40275220320231575,
-    "eval_loss": 2.7997472286224365,
-    "eval_runtime": 1.756,
     "eval_samples": 129,
-    "eval_samples_per_second": 73.461,
-    "eval_steps_per_second": 9.681,
-    "perplexity": 16.44049056038686
 }

 {
     "epoch": 1.0,
+    "eval_accuracy": 0.43297187933346976,
+    "eval_loss": 2.553417444229126,
+    "eval_runtime": 1.7282,
     "eval_samples": 129,
+    "eval_samples_per_second": 74.646,
+    "eval_steps_per_second": 9.837,
+    "perplexity": 12.850946217445413
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:32cd03779b9057848bc65624f196a82bb6be278b4cda59ee3d6b7e610feb3991
 size 929067029

 version https://git-lfs.github.com/spec/v1
+oid sha256:6dd324b6cf685a7b5f40c8fbea96175df25641cafbbe0135d2c0bd3da3ac73e3
 size 929067029

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 2.7764307147395,
-    "train_runtime": 11751.6473,
-    "train_samples": 455985,
-    "train_samples_per_second": 38.802,
-    "train_steps_per_second": 0.606
 }

 {
     "epoch": 1.0,
+    "train_loss": 3.3343640817306177,
+    "train_runtime": 1458.5581,
+    "train_samples": 51585,
+    "train_samples_per_second": 35.367,
+    "train_steps_per_second": 4.421
 }

trainer_state.json CHANGED Viewed

@@ -1,880 +1,796 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9998925403247914,
   "eval_steps": 500,
-  "global_step": 7124,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.01,
-      "learning_rate": 9.92981471083661e-05,
-      "loss": 2.9958,
       "step": 50
     },
     {
-      "epoch": 0.01,
-      "learning_rate": 9.859629421673217e-05,
-      "loss": 2.9669,
       "step": 100
     },
     {
       "epoch": 0.02,
-      "learning_rate": 9.789444132509826e-05,
-      "loss": 2.958,
       "step": 150
     },
     {
       "epoch": 0.03,
-      "learning_rate": 9.719258843346435e-05,
-      "loss": 2.9459,
       "step": 200
     },
     {
       "epoch": 0.04,
-      "learning_rate": 9.649073554183044e-05,
-      "loss": 2.9461,
       "step": 250
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 9.578888265019651e-05,
-      "loss": 2.9109,
       "step": 300
     },
     {
       "epoch": 0.05,
-      "learning_rate": 9.50870297585626e-05,
-      "loss": 2.9316,
       "step": 350
     },
     {
       "epoch": 0.06,
-      "learning_rate": 9.43851768669287e-05,
-      "loss": 2.8693,
       "step": 400
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 9.368332397529478e-05,
-      "loss": 2.8988,
       "step": 450
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 9.298147108366086e-05,
-      "loss": 2.8858,
       "step": 500
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 9.227961819202695e-05,
-      "loss": 2.8717,
       "step": 550
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 9.157776530039304e-05,
-      "loss": 2.8852,
       "step": 600
     },
     {
-      "epoch": 0.09,
-      "learning_rate": 9.087591240875913e-05,
-      "loss": 2.8702,
       "step": 650
     },
     {
-      "epoch": 0.1,
-      "learning_rate": 9.017405951712522e-05,
-      "loss": 2.8506,
       "step": 700
     },
     {
-      "epoch": 0.11,
-      "learning_rate": 8.947220662549131e-05,
-      "loss": 2.8793,
       "step": 750
     },
     {
-      "epoch": 0.11,
-      "learning_rate": 8.87703537338574e-05,
-      "loss": 2.857,
       "step": 800
     },
     {
-      "epoch": 0.12,
-      "learning_rate": 8.806850084222347e-05,
-      "loss": 2.8538,
       "step": 850
     },
     {
-      "epoch": 0.13,
-      "learning_rate": 8.736664795058956e-05,
-      "loss": 2.8592,
       "step": 900
     },
     {
-      "epoch": 0.13,
-      "learning_rate": 8.666479505895565e-05,
-      "loss": 2.859,
       "step": 950
     },
     {
-      "epoch": 0.14,
-      "learning_rate": 8.596294216732174e-05,
-      "loss": 2.8183,
       "step": 1000
     },
     {
-      "epoch": 0.15,
-      "learning_rate": 8.526108927568782e-05,
-      "loss": 2.8456,
       "step": 1050
     },
     {
-      "epoch": 0.15,
-      "learning_rate": 8.455923638405391e-05,
-      "loss": 2.803,
       "step": 1100
     },
     {
-      "epoch": 0.16,
-      "learning_rate": 8.385738349242e-05,
-      "loss": 2.8414,
       "step": 1150
     },
     {
-      "epoch": 0.17,
-      "learning_rate": 8.315553060078609e-05,
-      "loss": 2.8162,
       "step": 1200
     },
     {
-      "epoch": 0.18,
-      "learning_rate": 8.245367770915216e-05,
-      "loss": 2.8404,
       "step": 1250
     },
     {
-      "epoch": 0.18,
-      "learning_rate": 8.175182481751825e-05,
-      "loss": 2.801,
       "step": 1300
     },
     {
-      "epoch": 0.19,
-      "learning_rate": 8.104997192588434e-05,
-      "loss": 2.818,
       "step": 1350
     },
     {
-      "epoch": 0.2,
-      "learning_rate": 8.034811903425043e-05,
-      "loss": 2.8279,
       "step": 1400
     },
     {
-      "epoch": 0.2,
-      "learning_rate": 7.96462661426165e-05,
-      "loss": 2.8261,
       "step": 1450
     },
     {
-      "epoch": 0.21,
-      "learning_rate": 7.89444132509826e-05,
-      "loss": 2.7759,
       "step": 1500
     },
     {
-      "epoch": 0.22,
-      "learning_rate": 7.824256035934869e-05,
-      "loss": 2.7991,
       "step": 1550
     },
     {
-      "epoch": 0.22,
-      "learning_rate": 7.754070746771476e-05,
-      "loss": 2.7823,
       "step": 1600
     },
     {
-      "epoch": 0.23,
-      "learning_rate": 7.683885457608085e-05,
-      "loss": 2.7843,
       "step": 1650
     },
     {
-      "epoch": 0.24,
-      "learning_rate": 7.613700168444694e-05,
-      "loss": 2.7736,
       "step": 1700
     },
     {
-      "epoch": 0.25,
-      "learning_rate": 7.543514879281303e-05,
-      "loss": 2.8135,
       "step": 1750
     },
     {
-      "epoch": 0.25,
-      "learning_rate": 7.47332959011791e-05,
-      "loss": 2.7873,
       "step": 1800
     },
     {
-      "epoch": 0.26,
-      "learning_rate": 7.40314430095452e-05,
-      "loss": 2.777,
       "step": 1850
     },
     {
-      "epoch": 0.27,
-      "learning_rate": 7.332959011791129e-05,
-      "loss": 2.7542,
       "step": 1900
     },
     {
-      "epoch": 0.27,
-      "learning_rate": 7.262773722627737e-05,
-      "loss": 2.7759,
       "step": 1950
     },
     {
-      "epoch": 0.28,
-      "learning_rate": 7.192588433464346e-05,
-      "loss": 2.7772,
       "step": 2000
     },
     {
-      "epoch": 0.29,
-      "learning_rate": 7.122403144300955e-05,
-      "loss": 2.7689,
       "step": 2050
     },
     {
-      "epoch": 0.29,
-      "learning_rate": 7.052217855137564e-05,
-      "loss": 2.8015,
       "step": 2100
     },
     {
-      "epoch": 0.3,
-      "learning_rate": 6.982032565974172e-05,
-      "loss": 2.7655,
       "step": 2150
     },
     {
-      "epoch": 0.31,
-      "learning_rate": 6.911847276810781e-05,
-      "loss": 2.7728,
       "step": 2200
     },
     {
-      "epoch": 0.32,
-      "learning_rate": 6.84166198764739e-05,
-      "loss": 2.7686,
       "step": 2250
     },
     {
-      "epoch": 0.32,
-      "learning_rate": 6.771476698483999e-05,
-      "loss": 2.7651,
       "step": 2300
     },
     {
-      "epoch": 0.33,
-      "learning_rate": 6.701291409320606e-05,
-      "loss": 2.7594,
       "step": 2350
     },
     {
-      "epoch": 0.34,
-      "learning_rate": 6.631106120157215e-05,
-      "loss": 2.8137,
       "step": 2400
     },
     {
-      "epoch": 0.34,
-      "learning_rate": 6.560920830993824e-05,
-      "loss": 2.7566,
       "step": 2450
     },
     {
-      "epoch": 0.35,
-      "learning_rate": 6.490735541830433e-05,
-      "loss": 2.7705,
       "step": 2500
     },
     {
-      "epoch": 0.36,
-      "learning_rate": 6.420550252667041e-05,
-      "loss": 2.7873,
       "step": 2550
     },
     {
-      "epoch": 0.36,
-      "learning_rate": 6.35036496350365e-05,
-      "loss": 2.7841,
       "step": 2600
     },
     {
-      "epoch": 0.37,
-      "learning_rate": 6.280179674340259e-05,
-      "loss": 2.7643,
       "step": 2650
     },
     {
-      "epoch": 0.38,
-      "learning_rate": 6.209994385176868e-05,
-      "loss": 2.7838,
       "step": 2700
     },
     {
-      "epoch": 0.39,
-      "learning_rate": 6.139809096013475e-05,
-      "loss": 2.7849,
       "step": 2750
     },
     {
-      "epoch": 0.39,
-      "learning_rate": 6.069623806850084e-05,
-      "loss": 2.789,
       "step": 2800
     },
     {
-      "epoch": 0.4,
-      "learning_rate": 5.999438517686693e-05,
-      "loss": 2.7397,
       "step": 2850
     },
     {
-      "epoch": 0.41,
-      "learning_rate": 5.9292532285233015e-05,
-      "loss": 2.7426,
       "step": 2900
     },
     {
-      "epoch": 0.41,
-      "learning_rate": 5.8590679393599104e-05,
-      "loss": 2.7395,
       "step": 2950
     },
     {
-      "epoch": 0.42,
-      "learning_rate": 5.788882650196519e-05,
-      "loss": 2.7462,
       "step": 3000
     },
     {
-      "epoch": 0.43,
-      "learning_rate": 5.718697361033128e-05,
-      "loss": 2.7756,
       "step": 3050
     },
     {
-      "epoch": 0.44,
-      "learning_rate": 5.648512071869736e-05,
-      "loss": 2.7218,
       "step": 3100
     },
     {
-      "epoch": 0.44,
-      "learning_rate": 5.578326782706345e-05,
-      "loss": 2.7712,
       "step": 3150
     },
     {
-      "epoch": 0.45,
-      "learning_rate": 5.508141493542953e-05,
-      "loss": 2.768,
       "step": 3200
     },
     {
-      "epoch": 0.46,
-      "learning_rate": 5.4379562043795615e-05,
-      "loss": 2.7623,
       "step": 3250
     },
     {
-      "epoch": 0.46,
-      "learning_rate": 5.367770915216172e-05,
-      "loss": 2.7365,
       "step": 3300
     },
     {
-      "epoch": 0.47,
-      "learning_rate": 5.29758562605278e-05,
-      "loss": 2.7875,
       "step": 3350
     },
     {
-      "epoch": 0.48,
-      "learning_rate": 5.227400336889389e-05,
-      "loss": 2.6979,
       "step": 3400
     },
     {
-      "epoch": 0.48,
-      "learning_rate": 5.157215047725997e-05,
-      "loss": 2.7315,
       "step": 3450
     },
     {
-      "epoch": 0.49,
-      "learning_rate": 5.087029758562606e-05,
-      "loss": 2.7189,
       "step": 3500
     },
     {
-      "epoch": 0.5,
-      "learning_rate": 5.0168444693992145e-05,
-      "loss": 2.7283,
       "step": 3550
     },
     {
-      "epoch": 0.51,
-      "learning_rate": 4.946659180235823e-05,
-      "loss": 2.7685,
       "step": 3600
     },
     {
-      "epoch": 0.51,
-      "learning_rate": 4.876473891072432e-05,
-      "loss": 2.7724,
       "step": 3650
     },
     {
-      "epoch": 0.52,
-      "learning_rate": 4.80628860190904e-05,
-      "loss": 2.773,
       "step": 3700
     },
     {
-      "epoch": 0.53,
-      "learning_rate": 4.736103312745649e-05,
-      "loss": 2.7564,
       "step": 3750
     },
     {
-      "epoch": 0.53,
-      "learning_rate": 4.665918023582257e-05,
-      "loss": 2.769,
       "step": 3800
     },
     {
-      "epoch": 0.54,
-      "learning_rate": 4.595732734418866e-05,
-      "loss": 2.7544,
       "step": 3850
     },
     {
-      "epoch": 0.55,
-      "learning_rate": 4.5255474452554745e-05,
-      "loss": 2.742,
       "step": 3900
     },
     {
-      "epoch": 0.55,
-      "learning_rate": 4.4553621560920834e-05,
-      "loss": 2.7558,
       "step": 3950
     },
     {
-      "epoch": 0.56,
-      "learning_rate": 4.385176866928692e-05,
-      "loss": 2.752,
       "step": 4000
     },
     {
-      "epoch": 0.57,
-      "learning_rate": 4.3149915777653006e-05,
-      "loss": 2.7577,
       "step": 4050
     },
     {
-      "epoch": 0.58,
-      "learning_rate": 4.244806288601909e-05,
-      "loss": 2.7248,
       "step": 4100
     },
     {
-      "epoch": 0.58,
-      "learning_rate": 4.174620999438518e-05,
-      "loss": 2.7314,
       "step": 4150
     },
     {
-      "epoch": 0.59,
-      "learning_rate": 4.104435710275126e-05,
-      "loss": 2.7308,
       "step": 4200
     },
     {
-      "epoch": 0.6,
-      "learning_rate": 4.034250421111735e-05,
-      "loss": 2.7252,
       "step": 4250
     },
     {
-      "epoch": 0.6,
-      "learning_rate": 3.964065131948344e-05,
-      "loss": 2.7444,
       "step": 4300
     },
     {
-      "epoch": 0.61,
-      "learning_rate": 3.893879842784952e-05,
-      "loss": 2.7529,
       "step": 4350
     },
     {
-      "epoch": 0.62,
-      "learning_rate": 3.823694553621561e-05,
-      "loss": 2.7312,
       "step": 4400
     },
     {
-      "epoch": 0.62,
-      "learning_rate": 3.7535092644581696e-05,
-      "loss": 2.7471,
       "step": 4450
     },
     {
-      "epoch": 0.63,
-      "learning_rate": 3.6833239752947785e-05,
-      "loss": 2.7289,
       "step": 4500
     },
     {
-      "epoch": 0.64,
-      "learning_rate": 3.613138686131387e-05,
-      "loss": 2.7667,
       "step": 4550
     },
     {
-      "epoch": 0.65,
-      "learning_rate": 3.542953396967996e-05,
-      "loss": 2.7553,
       "step": 4600
     },
     {
-      "epoch": 0.65,
-      "learning_rate": 3.472768107804604e-05,
-      "loss": 2.7422,
       "step": 4650
     },
     {
-      "epoch": 0.66,
-      "learning_rate": 3.402582818641213e-05,
-      "loss": 2.7328,
       "step": 4700
     },
     {
-      "epoch": 0.67,
-      "learning_rate": 3.332397529477821e-05,
-      "loss": 2.7449,
       "step": 4750
     },
     {
-      "epoch": 0.67,
-      "learning_rate": 3.26221224031443e-05,
-      "loss": 2.7332,
       "step": 4800
     },
     {
-      "epoch": 0.68,
-      "learning_rate": 3.1920269511510385e-05,
-      "loss": 2.7529,
       "step": 4850
     },
     {
-      "epoch": 0.69,
-      "learning_rate": 3.1218416619876474e-05,
-      "loss": 2.7493,
       "step": 4900
     },
     {
-      "epoch": 0.69,
-      "learning_rate": 3.0516563728242564e-05,
-      "loss": 2.7525,
       "step": 4950
     },
     {
-      "epoch": 0.7,
-      "learning_rate": 2.981471083660865e-05,
-      "loss": 2.7367,
       "step": 5000
     },
     {
-      "epoch": 0.71,
-      "learning_rate": 2.9112857944974736e-05,
-      "loss": 2.726,
       "step": 5050
     },
     {
-      "epoch": 0.72,
-      "learning_rate": 2.8411005053340822e-05,
-      "loss": 2.7327,
       "step": 5100
     },
     {
-      "epoch": 0.72,
-      "learning_rate": 2.770915216170691e-05,
-      "loss": 2.7545,
       "step": 5150
     },
     {
-      "epoch": 0.73,
-      "learning_rate": 2.7007299270072995e-05,
-      "loss": 2.7682,
       "step": 5200
     },
     {
-      "epoch": 0.74,
-      "learning_rate": 2.630544637843908e-05,
-      "loss": 2.7486,
       "step": 5250
     },
     {
-      "epoch": 0.74,
-      "learning_rate": 2.5603593486805167e-05,
-      "loss": 2.7341,
       "step": 5300
     },
     {
-      "epoch": 0.75,
-      "learning_rate": 2.4901740595171253e-05,
-      "loss": 2.7423,
       "step": 5350
     },
     {
-      "epoch": 0.76,
-      "learning_rate": 2.419988770353734e-05,
-      "loss": 2.743,
       "step": 5400
     },
     {
-      "epoch": 0.76,
-      "learning_rate": 2.349803481190343e-05,
-      "loss": 2.7319,
       "step": 5450
     },
-    {
-      "epoch": 0.77,
-      "learning_rate": 2.279618192026951e-05,
-      "loss": 2.7555,
-      "step": 5500
-    },
-    {
-      "epoch": 0.78,
-      "learning_rate": 2.2094329028635598e-05,
-      "loss": 2.7349,
-      "step": 5550
-    },
-    {
-      "epoch": 0.79,
-      "learning_rate": 2.1392476137001684e-05,
-      "loss": 2.7447,
-      "step": 5600
-    },
-    {
-      "epoch": 0.79,
-      "learning_rate": 2.069062324536777e-05,
-      "loss": 2.7325,
-      "step": 5650
-    },
-    {
-      "epoch": 0.8,
-      "learning_rate": 1.9988770353733856e-05,
-      "loss": 2.7334,
-      "step": 5700
-    },
-    {
-      "epoch": 0.81,
-      "learning_rate": 1.9286917462099946e-05,
-      "loss": 2.7493,
-      "step": 5750
-    },
-    {
-      "epoch": 0.81,
-      "learning_rate": 1.8585064570466032e-05,
-      "loss": 2.7298,
-      "step": 5800
-    },
-    {
-      "epoch": 0.82,
-      "learning_rate": 1.7883211678832118e-05,
-      "loss": 2.7208,
-      "step": 5850
-    },
-    {
-      "epoch": 0.83,
-      "learning_rate": 1.7181358787198204e-05,
-      "loss": 2.7383,
-      "step": 5900
-    },
-    {
-      "epoch": 0.84,
-      "learning_rate": 1.647950589556429e-05,
-      "loss": 2.714,
-      "step": 5950
-    },
-    {
-      "epoch": 0.84,
-      "learning_rate": 1.5777653003930376e-05,
-      "loss": 2.7646,
-      "step": 6000
-    },
     {
       "epoch": 0.85,
-      "learning_rate": 1.5075800112296463e-05,
-      "loss": 2.7601,
-      "step": 6050
-    },
-    {
-      "epoch": 0.86,
-      "learning_rate": 1.437394722066255e-05,
-      "loss": 2.7473,
-      "step": 6100
     },
     {
       "epoch": 0.86,
-      "learning_rate": 1.3672094329028636e-05,
-      "loss": 2.7423,
-      "step": 6150
     },
     {
       "epoch": 0.87,
-      "learning_rate": 1.2970241437394723e-05,
-      "loss": 2.7147,
-      "step": 6200
     },
     {
       "epoch": 0.88,
-      "learning_rate": 1.2268388545760809e-05,
-      "loss": 2.7426,
-      "step": 6250
     },
     {
       "epoch": 0.88,
-      "learning_rate": 1.1566535654126895e-05,
-      "loss": 2.7496,
-      "step": 6300
     },
     {
       "epoch": 0.89,
-      "learning_rate": 1.0864682762492983e-05,
-      "loss": 2.7438,
-      "step": 6350
     },
     {
       "epoch": 0.9,
-      "learning_rate": 1.0162829870859069e-05,
-      "loss": 2.7441,
-      "step": 6400
     },
     {
       "epoch": 0.91,
-      "learning_rate": 9.460976979225155e-06,
-      "loss": 2.7426,
-      "step": 6450
     },
     {
       "epoch": 0.91,
-      "learning_rate": 8.759124087591241e-06,
-      "loss": 2.7334,
-      "step": 6500
     },
     {
       "epoch": 0.92,
-      "learning_rate": 8.057271195957327e-06,
-      "loss": 2.7512,
-      "step": 6550
-    },
-    {
-      "epoch": 0.93,
-      "learning_rate": 7.3554183043234135e-06,
-      "loss": 2.7391,
-      "step": 6600
     },
     {
       "epoch": 0.93,
-      "learning_rate": 6.653565412689501e-06,
-      "loss": 2.7737,
-      "step": 6650
     },
     {
       "epoch": 0.94,
-      "learning_rate": 5.9517125210555875e-06,
-      "loss": 2.7009,
-      "step": 6700
     },
     {
       "epoch": 0.95,
-      "learning_rate": 5.249859629421673e-06,
-      "loss": 2.7149,
-      "step": 6750
     },
     {
       "epoch": 0.95,
-      "learning_rate": 4.54800673778776e-06,
-      "loss": 2.7317,
-      "step": 6800
     },
     {
       "epoch": 0.96,
-      "learning_rate": 3.846153846153847e-06,
-      "loss": 2.7297,
-      "step": 6850
     },
     {
       "epoch": 0.97,
-      "learning_rate": 3.1443009545199325e-06,
-      "loss": 2.7356,
-      "step": 6900
     },
     {
       "epoch": 0.98,
-      "learning_rate": 2.442448062886019e-06,
-      "loss": 2.7414,
-      "step": 6950
     },
     {
       "epoch": 0.98,
-      "learning_rate": 1.7405951712521057e-06,
-      "loss": 2.7362,
-      "step": 7000
     },
     {
       "epoch": 0.99,
-      "learning_rate": 1.0387422796181922e-06,
-      "loss": 2.7303,
-      "step": 7050
-    },
-    {
-      "epoch": 1.0,
-      "learning_rate": 3.3688938798427854e-07,
-      "loss": 2.7418,
-      "step": 7100
     },
     {
       "epoch": 1.0,
-      "step": 7124,
-      "total_flos": 9.341102317413335e+17,
-      "train_loss": 2.7764307147395,
-      "train_runtime": 11751.6473,
-      "train_samples_per_second": 38.802,
-      "train_steps_per_second": 0.606
     }
   ],
   "logging_steps": 50,
-  "max_steps": 7124,
   "num_train_epochs": 1,
-  "save_steps": 2000,
-  "total_flos": 9.341102317413335e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9999806145197248,
   "eval_steps": 500,
+  "global_step": 6448,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.01,
+      "learning_rate": 0.0009922456575682382,
+      "loss": 4.0749,
       "step": 50
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 0.0009844913151364765,
+      "loss": 3.9181,
       "step": 100
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0009767369727047147,
+      "loss": 3.8669,
       "step": 150
     },
     {
       "epoch": 0.03,
+      "learning_rate": 0.0009689826302729528,
+      "loss": 3.8069,
       "step": 200
     },
     {
       "epoch": 0.04,
+      "learning_rate": 0.000961228287841191,
+      "loss": 3.7749,
       "step": 250
     },
     {
+      "epoch": 0.05,
+      "learning_rate": 0.0009534739454094294,
+      "loss": 3.7757,
       "step": 300
     },
     {
       "epoch": 0.05,
+      "learning_rate": 0.0009457196029776675,
+      "loss": 3.7511,
       "step": 350
     },
     {
       "epoch": 0.06,
+      "learning_rate": 0.0009379652605459057,
+      "loss": 3.684,
       "step": 400
     },
     {
+      "epoch": 0.07,
+      "learning_rate": 0.000930210918114144,
+      "loss": 3.6771,
       "step": 450
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 0.0009224565756823822,
+      "loss": 3.6402,
       "step": 500
     },
     {
+      "epoch": 0.09,
+      "learning_rate": 0.0009147022332506204,
+      "loss": 3.6889,
       "step": 550
     },
     {
+      "epoch": 0.09,
+      "learning_rate": 0.0009069478908188585,
+      "loss": 3.6868,
       "step": 600
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 0.0008991935483870968,
+      "loss": 3.6779,
       "step": 650
     },
     {
+      "epoch": 0.11,
+      "learning_rate": 0.000891439205955335,
+      "loss": 3.6314,
       "step": 700
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 0.0008836848635235732,
+      "loss": 3.6376,
       "step": 750
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 0.0008759305210918114,
+      "loss": 3.6291,
       "step": 800
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 0.0008681761786600497,
+      "loss": 3.629,
       "step": 850
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 0.0008604218362282879,
+      "loss": 3.5972,
       "step": 900
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 0.0008526674937965261,
+      "loss": 3.6299,
       "step": 950
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 0.0008449131513647643,
+      "loss": 3.551,
       "step": 1000
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 0.0008371588089330025,
+      "loss": 3.5943,
       "step": 1050
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 0.0008294044665012407,
+      "loss": 3.5458,
       "step": 1100
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 0.0008216501240694789,
+      "loss": 3.581,
       "step": 1150
     },
     {
+      "epoch": 0.19,
+      "learning_rate": 0.0008138957816377171,
+      "loss": 3.542,
       "step": 1200
     },
     {
+      "epoch": 0.19,
+      "learning_rate": 0.0008061414392059554,
+      "loss": 3.5666,
       "step": 1250
     },
     {
+      "epoch": 0.2,
+      "learning_rate": 0.0007983870967741935,
+      "loss": 3.5265,
       "step": 1300
     },
     {
+      "epoch": 0.21,
+      "learning_rate": 0.0007906327543424317,
+      "loss": 3.5315,
       "step": 1350
     },
     {
+      "epoch": 0.22,
+      "learning_rate": 0.00078287841191067,
+      "loss": 3.4934,
       "step": 1400
     },
     {
+      "epoch": 0.22,
+      "learning_rate": 0.0007751240694789083,
+      "loss": 3.5086,
       "step": 1450
     },
     {
+      "epoch": 0.23,
+      "learning_rate": 0.0007673697270471465,
+      "loss": 3.5028,
       "step": 1500
     },
     {
+      "epoch": 0.24,
+      "learning_rate": 0.0007596153846153846,
+      "loss": 3.4822,
       "step": 1550
     },
     {
+      "epoch": 0.25,
+      "learning_rate": 0.0007518610421836228,
+      "loss": 3.4943,
       "step": 1600
     },
     {
+      "epoch": 0.26,
+      "learning_rate": 0.0007441066997518611,
+      "loss": 3.5014,
       "step": 1650
     },
     {
+      "epoch": 0.26,
+      "learning_rate": 0.0007363523573200993,
+      "loss": 3.4705,
       "step": 1700
     },
     {
+      "epoch": 0.27,
+      "learning_rate": 0.0007285980148883374,
+      "loss": 3.4899,
       "step": 1750
     },
     {
+      "epoch": 0.28,
+      "learning_rate": 0.0007208436724565756,
+      "loss": 3.4403,
       "step": 1800
     },
     {
+      "epoch": 0.29,
+      "learning_rate": 0.0007130893300248139,
+      "loss": 3.4123,
       "step": 1850
     },
     {
+      "epoch": 0.29,
+      "learning_rate": 0.0007053349875930521,
+      "loss": 3.4231,
       "step": 1900
     },
     {
+      "epoch": 0.3,
+      "learning_rate": 0.0006975806451612903,
+      "loss": 3.3957,
       "step": 1950
     },
     {
+      "epoch": 0.31,
+      "learning_rate": 0.0006898263027295286,
+      "loss": 3.3722,
       "step": 2000
     },
     {
+      "epoch": 0.32,
+      "learning_rate": 0.0006820719602977668,
+      "loss": 3.4255,
       "step": 2050
     },
     {
+      "epoch": 0.33,
+      "learning_rate": 0.000674317617866005,
+      "loss": 3.4004,
       "step": 2100
     },
     {
+      "epoch": 0.33,
+      "learning_rate": 0.0006665632754342432,
+      "loss": 3.3749,
       "step": 2150
     },
     {
+      "epoch": 0.34,
+      "learning_rate": 0.0006588089330024815,
+      "loss": 3.3498,
       "step": 2200
     },
     {
+      "epoch": 0.35,
+      "learning_rate": 0.0006510545905707196,
+      "loss": 3.4563,
       "step": 2250
     },
     {
+      "epoch": 0.36,
+      "learning_rate": 0.0006433002481389578,
+      "loss": 3.392,
       "step": 2300
     },
     {
+      "epoch": 0.36,
+      "learning_rate": 0.000635545905707196,
+      "loss": 3.3686,
       "step": 2350
     },
     {
+      "epoch": 0.37,
+      "learning_rate": 0.0006277915632754343,
+      "loss": 3.3739,
       "step": 2400
     },
     {
+      "epoch": 0.38,
+      "learning_rate": 0.0006200372208436724,
+      "loss": 3.3357,
       "step": 2450
     },
     {
+      "epoch": 0.39,
+      "learning_rate": 0.0006122828784119106,
+      "loss": 3.3859,
       "step": 2500
     },
     {
+      "epoch": 0.4,
+      "learning_rate": 0.0006045285359801489,
+      "loss": 3.3605,
       "step": 2550
     },
     {
+      "epoch": 0.4,
+      "learning_rate": 0.0005967741935483872,
+      "loss": 3.361,
       "step": 2600
     },
     {
+      "epoch": 0.41,
+      "learning_rate": 0.0005890198511166254,
+      "loss": 3.3729,
       "step": 2650
     },
     {
+      "epoch": 0.42,
+      "learning_rate": 0.0005812655086848635,
+      "loss": 3.3592,
       "step": 2700
     },
     {
+      "epoch": 0.43,
+      "learning_rate": 0.0005735111662531017,
+      "loss": 3.3576,
       "step": 2750
     },
     {
+      "epoch": 0.43,
+      "learning_rate": 0.00056575682382134,
+      "loss": 3.3464,
       "step": 2800
     },
     {
+      "epoch": 0.44,
+      "learning_rate": 0.0005580024813895782,
+      "loss": 3.3225,
       "step": 2850
     },
     {
+      "epoch": 0.45,
+      "learning_rate": 0.0005502481389578163,
+      "loss": 3.3228,
       "step": 2900
     },
     {
+      "epoch": 0.46,
+      "learning_rate": 0.0005424937965260545,
+      "loss": 3.3369,
       "step": 2950
     },
     {
+      "epoch": 0.47,
+      "learning_rate": 0.0005347394540942928,
+      "loss": 3.2912,
       "step": 3000
     },
     {
+      "epoch": 0.47,
+      "learning_rate": 0.000526985111662531,
+      "loss": 3.2722,
       "step": 3050
     },
     {
+      "epoch": 0.48,
+      "learning_rate": 0.0005192307692307693,
+      "loss": 3.2878,
       "step": 3100
     },
     {
+      "epoch": 0.49,
+      "learning_rate": 0.0005114764267990075,
+      "loss": 3.2558,
       "step": 3150
     },
     {
+      "epoch": 0.5,
+      "learning_rate": 0.0005037220843672457,
+      "loss": 3.3018,
       "step": 3200
     },
     {
+      "epoch": 0.5,
+      "learning_rate": 0.0004959677419354839,
+      "loss": 3.2785,
       "step": 3250
     },
     {
+      "epoch": 0.51,
+      "learning_rate": 0.00048821339950372213,
+      "loss": 3.2249,
       "step": 3300
     },
     {
+      "epoch": 0.52,
+      "learning_rate": 0.0004804590570719603,
+      "loss": 3.2703,
       "step": 3350
     },
     {
+      "epoch": 0.53,
+      "learning_rate": 0.00047270471464019853,
+      "loss": 3.2871,
       "step": 3400
     },
     {
+      "epoch": 0.54,
+      "learning_rate": 0.0004649503722084367,
+      "loss": 3.2357,
       "step": 3450
     },
     {
+      "epoch": 0.54,
+      "learning_rate": 0.000457196029776675,
+      "loss": 3.2428,
       "step": 3500
     },
     {
+      "epoch": 0.55,
+      "learning_rate": 0.00044944168734491316,
+      "loss": 3.2125,
       "step": 3550
     },
     {
+      "epoch": 0.56,
+      "learning_rate": 0.0004416873449131514,
+      "loss": 3.2338,
       "step": 3600
     },
     {
+      "epoch": 0.57,
+      "learning_rate": 0.00043393300248138956,
+      "loss": 3.288,
       "step": 3650
     },
     {
+      "epoch": 0.57,
+      "learning_rate": 0.0004261786600496278,
+      "loss": 3.2564,
       "step": 3700
     },
     {
+      "epoch": 0.58,
+      "learning_rate": 0.000418424317617866,
+      "loss": 3.1859,
       "step": 3750
     },
     {
+      "epoch": 0.59,
+      "learning_rate": 0.00041066997518610424,
+      "loss": 3.2368,
       "step": 3800
     },
     {
+      "epoch": 0.6,
+      "learning_rate": 0.00040291563275434247,
+      "loss": 3.2368,
       "step": 3850
     },
     {
+      "epoch": 0.6,
+      "learning_rate": 0.00039516129032258064,
+      "loss": 3.1754,
       "step": 3900
     },
     {
+      "epoch": 0.61,
+      "learning_rate": 0.00038740694789081887,
+      "loss": 3.2392,
       "step": 3950
     },
     {
+      "epoch": 0.62,
+      "learning_rate": 0.00037965260545905704,
+      "loss": 3.2382,
       "step": 4000
     },
     {
+      "epoch": 0.63,
+      "learning_rate": 0.00037189826302729527,
+      "loss": 3.2545,
       "step": 4050
     },
     {
+      "epoch": 0.64,
+      "learning_rate": 0.00036414392059553355,
+      "loss": 3.1993,
       "step": 4100
     },
     {
+      "epoch": 0.64,
+      "learning_rate": 0.0003563895781637717,
+      "loss": 3.1565,
       "step": 4150
     },
     {
+      "epoch": 0.65,
+      "learning_rate": 0.00034863523573200995,
+      "loss": 3.2112,
       "step": 4200
     },
     {
+      "epoch": 0.66,
+      "learning_rate": 0.0003408808933002481,
+      "loss": 3.1617,
       "step": 4250
     },
     {
+      "epoch": 0.67,
+      "learning_rate": 0.00033312655086848635,
+      "loss": 3.1602,
       "step": 4300
     },
     {
+      "epoch": 0.67,
+      "learning_rate": 0.0003253722084367246,
+      "loss": 3.1477,
       "step": 4350
     },
     {
+      "epoch": 0.68,
+      "learning_rate": 0.0003176178660049628,
+      "loss": 3.1583,
       "step": 4400
     },
     {
+      "epoch": 0.69,
+      "learning_rate": 0.00030986352357320103,
+      "loss": 3.207,
       "step": 4450
     },
     {
+      "epoch": 0.7,
+      "learning_rate": 0.0003021091811414392,
+      "loss": 3.1408,
       "step": 4500
     },
     {
+      "epoch": 0.71,
+      "learning_rate": 0.00029435483870967743,
+      "loss": 3.0965,
       "step": 4550
     },
     {
+      "epoch": 0.71,
+      "learning_rate": 0.0002866004962779156,
+      "loss": 3.154,
       "step": 4600
     },
     {
+      "epoch": 0.72,
+      "learning_rate": 0.0002788461538461539,
+      "loss": 3.1413,
       "step": 4650
     },
     {
+      "epoch": 0.73,
+      "learning_rate": 0.00027109181141439205,
+      "loss": 3.1373,
       "step": 4700
     },
     {
+      "epoch": 0.74,
+      "learning_rate": 0.0002633374689826303,
+      "loss": 3.1198,
       "step": 4750
     },
     {
+      "epoch": 0.74,
+      "learning_rate": 0.0002555831265508685,
+      "loss": 3.1047,
       "step": 4800
     },
     {
+      "epoch": 0.75,
+      "learning_rate": 0.0002478287841191067,
+      "loss": 3.1728,
       "step": 4850
     },
     {
+      "epoch": 0.76,
+      "learning_rate": 0.0002400744416873449,
+      "loss": 3.1262,
       "step": 4900
     },
     {
+      "epoch": 0.77,
+      "learning_rate": 0.00023232009925558313,
+      "loss": 3.1111,
       "step": 4950
     },
     {
+      "epoch": 0.78,
+      "learning_rate": 0.00022456575682382136,
+      "loss": 3.1426,
       "step": 5000
     },
     {
+      "epoch": 0.78,
+      "learning_rate": 0.00021681141439205956,
+      "loss": 3.1709,
       "step": 5050
     },
     {
+      "epoch": 0.79,
+      "learning_rate": 0.00020905707196029776,
+      "loss": 3.1666,
       "step": 5100
     },
     {
+      "epoch": 0.8,
+      "learning_rate": 0.000201302729528536,
+      "loss": 3.0971,
       "step": 5150
     },
     {
+      "epoch": 0.81,
+      "learning_rate": 0.0001935483870967742,
+      "loss": 3.1585,
       "step": 5200
     },
     {
+      "epoch": 0.81,
+      "learning_rate": 0.00018579404466501241,
+      "loss": 3.0784,
       "step": 5250
     },
     {
+      "epoch": 0.82,
+      "learning_rate": 0.00017803970223325061,
+      "loss": 3.1064,
       "step": 5300
     },
     {
+      "epoch": 0.83,
+      "learning_rate": 0.00017028535980148884,
+      "loss": 3.1601,
       "step": 5350
     },
     {
+      "epoch": 0.84,
+      "learning_rate": 0.00016253101736972707,
+      "loss": 3.1306,
       "step": 5400
     },
     {
+      "epoch": 0.85,
+      "learning_rate": 0.00015477667493796527,
+      "loss": 3.1461,
       "step": 5450
     },
     {
       "epoch": 0.85,
+      "learning_rate": 0.00014702233250620347,
+      "loss": 3.1139,
+      "step": 5500
     },
     {
       "epoch": 0.86,
+      "learning_rate": 0.0001392679900744417,
+      "loss": 3.0884,
+      "step": 5550
     },
     {
       "epoch": 0.87,
+      "learning_rate": 0.0001315136476426799,
+      "loss": 3.1221,
+      "step": 5600
     },
     {
       "epoch": 0.88,
+      "learning_rate": 0.00012375930521091812,
+      "loss": 3.0781,
+      "step": 5650
     },
     {
       "epoch": 0.88,
+      "learning_rate": 0.00011600496277915632,
+      "loss": 3.156,
+      "step": 5700
     },
     {
       "epoch": 0.89,
+      "learning_rate": 0.00010825062034739454,
+      "loss": 3.1047,
+      "step": 5750
     },
     {
       "epoch": 0.9,
+      "learning_rate": 0.00010049627791563276,
+      "loss": 3.1811,
+      "step": 5800
     },
     {
       "epoch": 0.91,
+      "learning_rate": 9.274193548387098e-05,
+      "loss": 3.1423,
+      "step": 5850
     },
     {
       "epoch": 0.91,
+      "learning_rate": 8.498759305210918e-05,
+      "loss": 3.1057,
+      "step": 5900
     },
     {
       "epoch": 0.92,
+      "learning_rate": 7.723325062034739e-05,
+      "loss": 3.0984,
+      "step": 5950
     },
     {
       "epoch": 0.93,
+      "learning_rate": 6.947890818858562e-05,
+      "loss": 3.1098,
+      "step": 6000
     },
     {
       "epoch": 0.94,
+      "learning_rate": 6.172456575682382e-05,
+      "loss": 3.1232,
+      "step": 6050
     },
     {
       "epoch": 0.95,
+      "learning_rate": 5.3970223325062036e-05,
+      "loss": 3.129,
+      "step": 6100
     },
     {
       "epoch": 0.95,
+      "learning_rate": 4.621588089330025e-05,
+      "loss": 3.1156,
+      "step": 6150
     },
     {
       "epoch": 0.96,
+      "learning_rate": 3.846153846153846e-05,
+      "loss": 3.1295,
+      "step": 6200
     },
     {
       "epoch": 0.97,
+      "learning_rate": 3.0707196029776676e-05,
+      "loss": 3.0784,
+      "step": 6250
     },
     {
       "epoch": 0.98,
+      "learning_rate": 2.295285359801489e-05,
+      "loss": 3.1048,
+      "step": 6300
     },
     {
       "epoch": 0.98,
+      "learning_rate": 1.5198511166253101e-05,
+      "loss": 3.1145,
+      "step": 6350
     },
     {
       "epoch": 0.99,
+      "learning_rate": 7.444168734491316e-06,
+      "loss": 3.185,
+      "step": 6400
     },
     {
       "epoch": 1.0,
+      "step": 6448,
+      "total_flos": 1.0568400432109978e+17,
+      "train_loss": 3.3343640817306177,
+      "train_runtime": 1458.5581,
+      "train_samples_per_second": 35.367,
+      "train_steps_per_second": 4.421
     }
   ],
   "logging_steps": 50,
+  "max_steps": 6448,
   "num_train_epochs": 1,
+  "save_steps": -6448,
+  "total_flos": 1.0568400432109978e+17,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0be34ece13733d42cb106498be612b92d1ed5dd757900d449ecef81b9dfbb415
 size 4027

 version https://git-lfs.github.com/spec/v1
+oid sha256:164c4b37b97a054742e9ab666c8f07d9e7fda1d553be739f57042a8801d6d49b
 size 4027