Training in progress, step 1150, checkpoint

Browse files

Files changed (10) hide show

checkpoint-1150/README.md +1 -1
checkpoint-1150/adapter_config.json +3 -3
checkpoint-1150/adapter_model.safetensors +3 -0
checkpoint-1150/optimizer.pt +2 -2
checkpoint-1150/rng_state.pth +1 -1
checkpoint-1150/scheduler.pt +1 -1
checkpoint-1150/special_tokens_map.json +1 -1
checkpoint-1150/tokenizer_config.json +1 -1
checkpoint-1150/trainer_state.json +168 -168
checkpoint-1150/training_args.bin +2 -2

checkpoint-1150/README.md CHANGED Viewed

@@ -216,4 +216,4 @@ The following `bitsandbytes` quantization config was used during training:
 ### Framework versions
-- PEFT 0.6.0.dev0


216	### Framework versions
217
218
219	+ - PEFT 0.6.0

checkpoint-1150/adapter_config.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "alpha_pattern": {},
   "auto_mapping": null,
-  "base_model_name_or_path": "/kaggle/input/vietcuna-for-binary-classification/kalapa-vietcuna-3b",
   "bias": "none",
   "fan_in_fan_out": false,
   "inference_mode": true,
@@ -9,10 +9,10 @@
   "layers_pattern": null,
   "layers_to_transform": null,
   "lora_alpha": 32,
-  "lora_dropout": 0.1,
   "modules_to_save": null,
   "peft_type": "LORA",
-  "r": 8,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [

 {
   "alpha_pattern": {},
   "auto_mapping": null,
+  "base_model_name_or_path": "vietcuna-3b-v2/kalapa-vietcuna-3b/",
   "bias": "none",
   "fan_in_fan_out": false,
   "inference_mode": true,
   "layers_pattern": null,
   "layers_to_transform": null,
   "lora_alpha": 32,
+  "lora_dropout": 0.05,
   "modules_to_save": null,
   "peft_type": "LORA",
+  "r": 16,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [

checkpoint-1150/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b323717fc5e7773aaeb63b470e0d519472bc196e8386cb60f83664dc126685a4
+size 19690328

checkpoint-1150/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a6ecccc0f894808c22ec3232990665b15436f485f45fa231290b42fa87f3eebe
-size 42788

 version https://git-lfs.github.com/spec/v1
+oid sha256:3d482035de286d4e37a9306c2f9e86691e168094c126829af3380cb59467f75d
+size 38087162

checkpoint-1150/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a419d791da1489dbc9814fe938add20534d1ba9119bcaacc52823c0a78d98a84
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:8af5cf507ad23a5280619faba092b8ffb6d1585fc10f79f08ec8829060c254be
 size 14244

checkpoint-1150/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ce3ebebfb8db37896ec479600b922a7e9ad1262a12ba04574dd700472f249d06
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0fa0ae1351fb1d7782d89a7412a28765935fbe3f74b00e69499999cda1d92132
 size 1064

checkpoint-1150/special_tokens_map.json CHANGED Viewed

@@ -2,6 +2,6 @@
   "bos_token": "<s>",
   "eos_token": "</s>",
   "pad_token": "<pad>",
-  "sep_token": "[SEP]",
   "unk_token": "<unk>"
 }

   "bos_token": "<s>",
   "eos_token": "</s>",
   "pad_token": "<pad>",
+  "sep_token": "\n\n",
   "unk_token": "<unk>"
 }

checkpoint-1150/tokenizer_config.json CHANGED Viewed

@@ -39,7 +39,7 @@
   "eos_token": "</s>",
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "<pad>",
-  "sep_token": "[SEP]",
   "tokenizer_class": "BloomTokenizer",
   "unk_token": "<unk>"
 }

   "eos_token": "</s>",
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "<pad>",
+  "sep_token": "\n\n",
   "tokenizer_class": "BloomTokenizer",
   "unk_token": "<unk>"
 }

checkpoint-1150/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-  "best_metric": 0.6430063247680664,
-  "best_model_checkpoint": "output/checkpoint-50",
-  "epoch": 0.9219360657380499,
   "eval_steps": 50,
   "global_step": 1150,
   "is_hyper_param_search": false,
@@ -10,361 +10,361 @@
   "log_history": [
     {
       "epoch": 0.0,
-      "learning_rate": 4.444444444444445e-07,
-      "loss": 0.5542,
       "step": 1
     },
     {
       "epoch": 0.04,
-      "learning_rate": 2e-05,
-      "loss": 0.554,
       "step": 50
     },
     {
       "epoch": 0.04,
-      "eval_accuracy": 0.6626865671641791,
-      "eval_loss": 0.6430063247680664,
-      "eval_runtime": 61.7692,
-      "eval_samples_per_second": 5.423,
-      "eval_steps_per_second": 1.36,
       "step": 50
     },
     {
       "epoch": 0.08,
-      "learning_rate": 4.222222222222222e-05,
-      "loss": 0.5957,
       "step": 100
     },
     {
       "epoch": 0.08,
-      "eval_accuracy": 0.6686567164179105,
-      "eval_loss": 0.6705919504165649,
-      "eval_runtime": 60.4388,
-      "eval_samples_per_second": 5.543,
-      "eval_steps_per_second": 1.39,
       "step": 100
     },
     {
       "epoch": 0.12,
-      "learning_rate": 6.444444444444446e-05,
-      "loss": 0.5668,
       "step": 150
     },
     {
       "epoch": 0.12,
-      "eval_accuracy": 0.6805970149253732,
-      "eval_loss": 0.7224913835525513,
-      "eval_runtime": 56.4882,
-      "eval_samples_per_second": 5.93,
-      "eval_steps_per_second": 1.487,
       "step": 150
     },
     {
       "epoch": 0.16,
-      "learning_rate": 8.666666666666667e-05,
-      "loss": 0.5626,
       "step": 200
     },
     {
       "epoch": 0.16,
-      "eval_accuracy": 0.6746268656716418,
-      "eval_loss": 0.7115103006362915,
-      "eval_runtime": 56.506,
-      "eval_samples_per_second": 5.929,
-      "eval_steps_per_second": 1.487,
       "step": 200
     },
     {
       "epoch": 0.2,
-      "learning_rate": 9.80430528375734e-05,
-      "loss": 0.5604,
       "step": 250
     },
     {
       "epoch": 0.2,
-      "eval_accuracy": 0.6746268656716418,
-      "eval_loss": 0.700947105884552,
-      "eval_runtime": 56.4927,
-      "eval_samples_per_second": 5.93,
-      "eval_steps_per_second": 1.487,
       "step": 250
     },
     {
       "epoch": 0.24,
-      "learning_rate": 9.315068493150684e-05,
-      "loss": 0.5675,
       "step": 300
     },
     {
       "epoch": 0.24,
-      "eval_accuracy": 0.6597014925373135,
-      "eval_loss": 0.662155032157898,
-      "eval_runtime": 56.4903,
-      "eval_samples_per_second": 5.93,
-      "eval_steps_per_second": 1.487,
       "step": 300
     },
     {
       "epoch": 0.28,
-      "learning_rate": 8.825831702544032e-05,
-      "loss": 0.5725,
       "step": 350
     },
     {
       "epoch": 0.28,
-      "eval_accuracy": 0.6567164179104478,
-      "eval_loss": 0.6746364831924438,
-      "eval_runtime": 56.482,
-      "eval_samples_per_second": 5.931,
-      "eval_steps_per_second": 1.487,
       "step": 350
     },
     {
       "epoch": 0.32,
-      "learning_rate": 8.336594911937378e-05,
-      "loss": 0.5884,
       "step": 400
     },
     {
       "epoch": 0.32,
-      "eval_accuracy": 0.6656716417910448,
-      "eval_loss": 0.7047849893569946,
-      "eval_runtime": 56.4873,
-      "eval_samples_per_second": 5.931,
-      "eval_steps_per_second": 1.487,
       "step": 400
     },
     {
       "epoch": 0.36,
-      "learning_rate": 7.847358121330725e-05,
-      "loss": 0.5567,
       "step": 450
     },
     {
       "epoch": 0.36,
-      "eval_accuracy": 0.6477611940298508,
-      "eval_loss": 0.6832321286201477,
-      "eval_runtime": 56.4814,
-      "eval_samples_per_second": 5.931,
-      "eval_steps_per_second": 1.487,
       "step": 450
     },
     {
       "epoch": 0.4,
-      "learning_rate": 7.35812133072407e-05,
-      "loss": 0.5723,
       "step": 500
     },
     {
       "epoch": 0.4,
-      "eval_accuracy": 0.6955223880597015,
-      "eval_loss": 0.7437570691108704,
-      "eval_runtime": 56.4677,
-      "eval_samples_per_second": 5.933,
-      "eval_steps_per_second": 1.488,
       "step": 500
     },
     {
       "epoch": 0.44,
-      "learning_rate": 6.868884540117417e-05,
-      "loss": 0.5908,
       "step": 550
     },
     {
       "epoch": 0.44,
-      "eval_accuracy": 0.6238805970149254,
-      "eval_loss": 0.6612433791160583,
-      "eval_runtime": 56.4799,
-      "eval_samples_per_second": 5.931,
-      "eval_steps_per_second": 1.487,
       "step": 550
     },
     {
       "epoch": 0.48,
-      "learning_rate": 6.379647749510763e-05,
-      "loss": 0.5681,
       "step": 600
     },
     {
       "epoch": 0.48,
-      "eval_accuracy": 0.6507462686567164,
-      "eval_loss": 0.6833732724189758,
-      "eval_runtime": 56.4689,
-      "eval_samples_per_second": 5.932,
-      "eval_steps_per_second": 1.488,
       "step": 600
     },
     {
       "epoch": 0.52,
-      "learning_rate": 5.89041095890411e-05,
-      "loss": 0.5782,
       "step": 650
     },
     {
       "epoch": 0.52,
-      "eval_accuracy": 0.6507462686567164,
-      "eval_loss": 0.67350834608078,
-      "eval_runtime": 56.4637,
-      "eval_samples_per_second": 5.933,
-      "eval_steps_per_second": 1.488,
       "step": 650
     },
     {
       "epoch": 0.56,
-      "learning_rate": 5.401174168297456e-05,
-      "loss": 0.569,
       "step": 700
     },
     {
       "epoch": 0.56,
-      "eval_accuracy": 0.6686567164179105,
-      "eval_loss": 0.7085319757461548,
-      "eval_runtime": 56.4627,
-      "eval_samples_per_second": 5.933,
-      "eval_steps_per_second": 1.488,
       "step": 700
     },
     {
       "epoch": 0.6,
-      "learning_rate": 4.911937377690802e-05,
-      "loss": 0.5661,
       "step": 750
     },
     {
       "epoch": 0.6,
-      "eval_accuracy": 0.6835820895522388,
-      "eval_loss": 0.7564846277236938,
-      "eval_runtime": 56.4648,
-      "eval_samples_per_second": 5.933,
-      "eval_steps_per_second": 1.488,
       "step": 750
     },
     {
       "epoch": 0.64,
-      "learning_rate": 4.422700587084149e-05,
-      "loss": 0.5675,
       "step": 800
     },
     {
       "epoch": 0.64,
-      "eval_accuracy": 0.6417910447761194,
-      "eval_loss": 0.6759604215621948,
-      "eval_runtime": 56.4652,
-      "eval_samples_per_second": 5.933,
-      "eval_steps_per_second": 1.488,
       "step": 800
     },
     {
       "epoch": 0.68,
-      "learning_rate": 3.933463796477495e-05,
-      "loss": 0.5611,
       "step": 850
     },
     {
       "epoch": 0.68,
-      "eval_accuracy": 0.6477611940298508,
-      "eval_loss": 0.6798116564750671,
-      "eval_runtime": 56.4714,
-      "eval_samples_per_second": 5.932,
-      "eval_steps_per_second": 1.487,
       "step": 850
     },
     {
       "epoch": 0.72,
-      "learning_rate": 3.4442270058708414e-05,
-      "loss": 0.5664,
       "step": 900
     },
     {
       "epoch": 0.72,
-      "eval_accuracy": 0.6656716417910448,
-      "eval_loss": 0.7185413837432861,
-      "eval_runtime": 56.4811,
-      "eval_samples_per_second": 5.931,
-      "eval_steps_per_second": 1.487,
       "step": 900
     },
     {
       "epoch": 0.76,
-      "learning_rate": 2.9549902152641878e-05,
-      "loss": 0.5765,
       "step": 950
     },
     {
       "epoch": 0.76,
-      "eval_accuracy": 0.6417910447761194,
-      "eval_loss": 0.6795146465301514,
-      "eval_runtime": 56.4589,
-      "eval_samples_per_second": 5.934,
-      "eval_steps_per_second": 1.488,
       "step": 950
     },
     {
       "epoch": 0.8,
-      "learning_rate": 2.4657534246575342e-05,
-      "loss": 0.555,
       "step": 1000
     },
     {
       "epoch": 0.8,
-      "eval_accuracy": 0.6298507462686567,
-      "eval_loss": 0.677854061126709,
-      "eval_runtime": 56.4673,
-      "eval_samples_per_second": 5.933,
-      "eval_steps_per_second": 1.488,
       "step": 1000
     },
     {
       "epoch": 0.84,
-      "learning_rate": 1.9765166340508805e-05,
-      "loss": 0.5578,
       "step": 1050
     },
     {
       "epoch": 0.84,
-      "eval_accuracy": 0.6507462686567164,
-      "eval_loss": 0.6885824203491211,
-      "eval_runtime": 56.4615,
-      "eval_samples_per_second": 5.933,
-      "eval_steps_per_second": 1.488,
       "step": 1050
     },
     {
       "epoch": 0.88,
-      "learning_rate": 1.4872798434442269e-05,
-      "loss": 0.5709,
       "step": 1100
     },
     {
       "epoch": 0.88,
-      "eval_accuracy": 0.6447761194029851,
-      "eval_loss": 0.6935857534408569,
-      "eval_runtime": 56.4542,
-      "eval_samples_per_second": 5.934,
-      "eval_steps_per_second": 1.488,
       "step": 1100
     },
     {
       "epoch": 0.92,
-      "learning_rate": 9.980430528375734e-06,
-      "loss": 0.5711,
       "step": 1150
     },
     {
       "epoch": 0.92,
-      "eval_accuracy": 0.6388059701492538,
-      "eval_loss": 0.6908484101295471,
-      "eval_runtime": 56.4666,
-      "eval_samples_per_second": 5.933,
-      "eval_steps_per_second": 1.488,
       "step": 1150
     }
   ],
   "logging_steps": 50,
-  "max_steps": 1247,
   "num_train_epochs": 1,
   "save_steps": 50,
-  "total_flos": 4.2922784557756416e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.45803794264793396,
+  "best_model_checkpoint": "output/checkpoint-150",
+  "epoch": 0.9224907249573849,
   "eval_steps": 50,
   "global_step": 1150,
   "is_hyper_param_search": false,
   "log_history": [
     {
       "epoch": 0.0,
+      "learning_rate": 0.0,
+      "loss": 1.6453,
       "step": 1
     },
     {
       "epoch": 0.04,
+      "learning_rate": 9.777777777777779e-06,
+      "loss": 1.3216,
       "step": 50
     },
     {
       "epoch": 0.04,
+      "eval_accuracy": 0.8057142857142857,
+      "eval_loss": 0.6264824271202087,
+      "eval_runtime": 28.8159,
+      "eval_samples_per_second": 6.073,
+      "eval_steps_per_second": 1.527,
       "step": 50
     },
     {
       "epoch": 0.08,
+      "learning_rate": 2.088888888888889e-05,
+      "loss": 0.918,
       "step": 100
     },
     {
       "epoch": 0.08,
+      "eval_accuracy": 0.7885714285714286,
+      "eval_loss": 0.49068325757980347,
+      "eval_runtime": 26.1642,
+      "eval_samples_per_second": 6.689,
+      "eval_steps_per_second": 1.682,
       "step": 100
     },
     {
       "epoch": 0.12,
+      "learning_rate": 3.2000000000000005e-05,
+      "loss": 0.7219,
       "step": 150
     },
     {
       "epoch": 0.12,
+      "eval_accuracy": 0.7942857142857143,
+      "eval_loss": 0.45803794264793396,
+      "eval_runtime": 26.1308,
+      "eval_samples_per_second": 6.697,
+      "eval_steps_per_second": 1.684,
       "step": 150
     },
     {
       "epoch": 0.16,
+      "learning_rate": 4.311111111111111e-05,
+      "loss": 0.6619,
       "step": 200
     },
     {
       "epoch": 0.16,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.4676758646965027,
+      "eval_runtime": 26.1149,
+      "eval_samples_per_second": 6.701,
+      "eval_steps_per_second": 1.685,
       "step": 200
     },
     {
       "epoch": 0.2,
+      "learning_rate": 4.906953966699315e-05,
+      "loss": 0.633,
       "step": 250
     },
     {
       "epoch": 0.2,
+      "eval_accuracy": 0.8114285714285714,
+      "eval_loss": 0.4800652265548706,
+      "eval_runtime": 26.1161,
+      "eval_samples_per_second": 6.701,
+      "eval_steps_per_second": 1.685,
       "step": 250
     },
     {
       "epoch": 0.24,
+      "learning_rate": 4.66209598432909e-05,
+      "loss": 0.6147,
       "step": 300
     },
     {
       "epoch": 0.24,
+      "eval_accuracy": 0.7657142857142857,
+      "eval_loss": 0.5112562775611877,
+      "eval_runtime": 26.1127,
+      "eval_samples_per_second": 6.702,
+      "eval_steps_per_second": 1.685,
       "step": 300
     },
     {
       "epoch": 0.28,
+      "learning_rate": 4.4172380019588636e-05,
+      "loss": 0.6355,
       "step": 350
     },
     {
       "epoch": 0.28,
+      "eval_accuracy": 0.7828571428571428,
+      "eval_loss": 0.5210281610488892,
+      "eval_runtime": 26.1048,
+      "eval_samples_per_second": 6.704,
+      "eval_steps_per_second": 1.686,
       "step": 350
     },
     {
       "epoch": 0.32,
+      "learning_rate": 4.1723800195886386e-05,
+      "loss": 0.593,
       "step": 400
     },
     {
       "epoch": 0.32,
+      "eval_accuracy": 0.7885714285714286,
+      "eval_loss": 0.5098910927772522,
+      "eval_runtime": 26.1072,
+      "eval_samples_per_second": 6.703,
+      "eval_steps_per_second": 1.685,
       "step": 400
     },
     {
       "epoch": 0.36,
+      "learning_rate": 3.927522037218414e-05,
+      "loss": 0.6047,
       "step": 450
     },
     {
       "epoch": 0.36,
+      "eval_accuracy": 0.7314285714285714,
+      "eval_loss": 0.5602952837944031,
+      "eval_runtime": 26.1116,
+      "eval_samples_per_second": 6.702,
+      "eval_steps_per_second": 1.685,
       "step": 450
     },
     {
       "epoch": 0.4,
+      "learning_rate": 3.682664054848188e-05,
+      "loss": 0.5661,
       "step": 500
     },
     {
       "epoch": 0.4,
+      "eval_accuracy": 0.7542857142857143,
+      "eval_loss": 0.5670996904373169,
+      "eval_runtime": 26.1104,
+      "eval_samples_per_second": 6.702,
+      "eval_steps_per_second": 1.685,
       "step": 500
     },
     {
       "epoch": 0.44,
+      "learning_rate": 3.437806072477963e-05,
+      "loss": 0.6111,
       "step": 550
     },
     {
       "epoch": 0.44,
+      "eval_accuracy": 0.7714285714285715,
+      "eval_loss": 0.5074692368507385,
+      "eval_runtime": 26.1037,
+      "eval_samples_per_second": 6.704,
+      "eval_steps_per_second": 1.686,
       "step": 550
     },
     {
       "epoch": 0.48,
+      "learning_rate": 3.1929480901077375e-05,
+      "loss": 0.5788,
       "step": 600
     },
     {
       "epoch": 0.48,
+      "eval_accuracy": 0.7485714285714286,
+      "eval_loss": 0.6720603108406067,
+      "eval_runtime": 26.1036,
+      "eval_samples_per_second": 6.704,
+      "eval_steps_per_second": 1.686,
       "step": 600
     },
     {
       "epoch": 0.52,
+      "learning_rate": 2.9480901077375122e-05,
+      "loss": 0.562,
       "step": 650
     },
     {
       "epoch": 0.52,
+      "eval_accuracy": 0.7942857142857143,
+      "eval_loss": 0.5063876509666443,
+      "eval_runtime": 26.1086,
+      "eval_samples_per_second": 6.703,
+      "eval_steps_per_second": 1.685,
       "step": 650
     },
     {
       "epoch": 0.56,
+      "learning_rate": 2.7032321253672872e-05,
+      "loss": 0.5472,
       "step": 700
     },
     {
       "epoch": 0.56,
+      "eval_accuracy": 0.7371428571428571,
+      "eval_loss": 0.5650284886360168,
+      "eval_runtime": 26.1065,
+      "eval_samples_per_second": 6.703,
+      "eval_steps_per_second": 1.685,
       "step": 700
     },
     {
       "epoch": 0.6,
+      "learning_rate": 2.458374142997062e-05,
+      "loss": 0.551,
       "step": 750
     },
     {
       "epoch": 0.6,
+      "eval_accuracy": 0.8,
+      "eval_loss": 0.5052895545959473,
+      "eval_runtime": 26.1094,
+      "eval_samples_per_second": 6.703,
+      "eval_steps_per_second": 1.685,
       "step": 750
     },
     {
       "epoch": 0.64,
+      "learning_rate": 2.2135161606268366e-05,
+      "loss": 0.5259,
       "step": 800
     },
     {
       "epoch": 0.64,
+      "eval_accuracy": 0.7485714285714286,
+      "eval_loss": 0.5384859442710876,
+      "eval_runtime": 26.0891,
+      "eval_samples_per_second": 6.708,
+      "eval_steps_per_second": 1.687,
       "step": 800
     },
     {
       "epoch": 0.68,
+      "learning_rate": 1.9686581782566114e-05,
+      "loss": 0.5231,
       "step": 850
     },
     {
       "epoch": 0.68,
+      "eval_accuracy": 0.7371428571428571,
+      "eval_loss": 0.5821840763092041,
+      "eval_runtime": 26.0996,
+      "eval_samples_per_second": 6.705,
+      "eval_steps_per_second": 1.686,
       "step": 850
     },
     {
       "epoch": 0.72,
+      "learning_rate": 1.7238001958863857e-05,
+      "loss": 0.4987,
       "step": 900
     },
     {
       "epoch": 0.72,
+      "eval_accuracy": 0.7142857142857143,
+      "eval_loss": 0.5697786211967468,
+      "eval_runtime": 26.0884,
+      "eval_samples_per_second": 6.708,
+      "eval_steps_per_second": 1.687,
       "step": 900
     },
     {
       "epoch": 0.76,
+      "learning_rate": 1.4789422135161608e-05,
+      "loss": 0.5019,
       "step": 950
     },
     {
       "epoch": 0.76,
+      "eval_accuracy": 0.7657142857142857,
+      "eval_loss": 0.5529425740242004,
+      "eval_runtime": 26.1154,
+      "eval_samples_per_second": 6.701,
+      "eval_steps_per_second": 1.685,
       "step": 950
     },
     {
       "epoch": 0.8,
+      "learning_rate": 1.2340842311459353e-05,
+      "loss": 0.515,
       "step": 1000
     },
     {
       "epoch": 0.8,
+      "eval_accuracy": 0.7314285714285714,
+      "eval_loss": 0.571620762348175,
+      "eval_runtime": 26.0898,
+      "eval_samples_per_second": 6.708,
+      "eval_steps_per_second": 1.686,
       "step": 1000
     },
     {
       "epoch": 0.84,
+      "learning_rate": 9.8922624877571e-06,
+      "loss": 0.5154,
       "step": 1050
     },
     {
       "epoch": 0.84,
+      "eval_accuracy": 0.7257142857142858,
+      "eval_loss": 0.5566055774688721,
+      "eval_runtime": 26.1014,
+      "eval_samples_per_second": 6.705,
+      "eval_steps_per_second": 1.686,
       "step": 1050
     },
     {
       "epoch": 0.88,
+      "learning_rate": 7.443682664054849e-06,
+      "loss": 0.5066,
       "step": 1100
     },
     {
       "epoch": 0.88,
+      "eval_accuracy": 0.6971428571428572,
+      "eval_loss": 0.5895078778266907,
+      "eval_runtime": 26.0898,
+      "eval_samples_per_second": 6.708,
+      "eval_steps_per_second": 1.686,
       "step": 1100
     },
     {
       "epoch": 0.92,
+      "learning_rate": 4.995102840352596e-06,
+      "loss": 0.5173,
       "step": 1150
     },
     {
       "epoch": 0.92,
+      "eval_accuracy": 0.6914285714285714,
+      "eval_loss": 0.5952877402305603,
+      "eval_runtime": 26.0937,
+      "eval_samples_per_second": 6.707,
+      "eval_steps_per_second": 1.686,
       "step": 1150
     }
   ],
   "logging_steps": 50,
+  "max_steps": 1246,
   "num_train_epochs": 1,
   "save_steps": 50,
+  "total_flos": 4.267635343876915e+17,
   "trial_name": null,
   "trial_params": null
 }

checkpoint-1150/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:87bd30bd4b21b4a0c66f1fd545858ef6e2d33b5984a8d292e79011acc3affd6b
-size 4472

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b7c1677f66b49d74d914a320393e2fa29530a9670d5824a30beac9590468d16
+size 4600