Training in progress, step 4100, checkpoint

Browse files

Files changed (9) hide show

last-checkpoint/README.md +0 -7
last-checkpoint/adapter_model.bin +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/special_tokens_map.json +3 -21
last-checkpoint/tokenizer_config.json +0 -4
last-checkpoint/trainer_state.json +178 -150
last-checkpoint/training_args.bin +1 -1

last-checkpoint/README.md CHANGED Viewed

@@ -216,11 +216,4 @@ The following `bitsandbytes` quantization config was used during training:
 ### Framework versions
-- PEFT 0.6.0.dev0
-## Training procedure
-### Framework versions
 - PEFT 0.6.0.dev0


216	### Framework versions
217
218







219	- PEFT 0.6.0.dev0

last-checkpoint/adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c4f2142fbeae4dfbadd1cbea04fd1c45db2c3d583a2629ae7dbc95fef606daf9
 size 50349441

 version https://git-lfs.github.com/spec/v1
+oid sha256:a140e91ee1250dc6a7c239c9ad7b32b2cd9c29d800f4b8a0c94820057d040c38
 size 50349441

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f48ff6733dc97f2bdbdd5ecb48f0be052a4b1b694220408c6889c85dff2a54a3
-size 100691721

 version https://git-lfs.github.com/spec/v1
+oid sha256:136893073816b455bfaa757c543194be037f33f5a6e8861663a85fe3e5ed2648
+size 100693001

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:71128331774d3b754a22777700176c9e9d829274c21a3111675887d72431a159
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:be9cef20fcb5836bc994b3161e3caaa39c6412b1a8cf4e470a339da81589749a
 size 14575

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:794a0a668693664bb45fb10418080981a1873b71841f3a55ed72c5aa6d455597
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ef51ed05818f33aebca9592cb64baf0df006aad2a34a7cf944f4a48b70afce3
 size 627

last-checkpoint/special_tokens_map.json CHANGED Viewed

@@ -1,24 +1,6 @@
 {
-  "bos_token": {
-    "content": "<|endoftext|>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "eos_token": {
-    "content": "<|endoftext|>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
   "pad_token": "<|endoftext|>",
-  "unk_token": {
-    "content": "<|endoftext|>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  }
 }

 {
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
   "pad_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
 }

last-checkpoint/tokenizer_config.json CHANGED Viewed

@@ -13,12 +13,8 @@
   "bos_token": "<|endoftext|>",
   "clean_up_tokenization_spaces": true,
   "eos_token": "<|endoftext|>",
-  "max_length": 512,
   "model_max_length": 1024,
   "pad_token": "<|endoftext|>",
-  "stride": 0,
   "tokenizer_class": "GPT2Tokenizer",
-  "truncation_side": "right",
-  "truncation_strategy": "longest_first",
   "unk_token": "<|endoftext|>"
 }

   "bos_token": "<|endoftext|>",
   "clean_up_tokenization_spaces": true,
   "eos_token": "<|endoftext|>",
   "model_max_length": 1024,
   "pad_token": "<|endoftext|>",
   "tokenizer_class": "GPT2Tokenizer",
   "unk_token": "<|endoftext|>"
 }

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.2214804887771606,
-  "best_model_checkpoint": "./outputs/checkpoint-3900",
-  "epoch": 2.841530054644809,
   "eval_steps": 100,
-  "global_step": 3900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -151,415 +151,443 @@
     {
       "epoch": 0.8,
       "learning_rate": 0.0002,
-      "loss": 1.6461,
       "step": 1100
     },
     {
       "epoch": 0.8,
-      "eval_loss": 1.6240431070327759,
-      "eval_runtime": 293.5989,
-      "eval_samples_per_second": 21.369,
-      "eval_steps_per_second": 2.674,
       "step": 1100
     },
     {
       "epoch": 0.87,
       "learning_rate": 0.0002,
-      "loss": 1.5992,
       "step": 1200
     },
     {
       "epoch": 0.87,
-      "eval_loss": 1.5974311828613281,
-      "eval_runtime": 291.7,
-      "eval_samples_per_second": 21.508,
-      "eval_steps_per_second": 2.691,
       "step": 1200
     },
     {
       "epoch": 0.95,
       "learning_rate": 0.0002,
-      "loss": 1.6021,
       "step": 1300
     },
     {
       "epoch": 0.95,
-      "eval_loss": 1.5751127004623413,
-      "eval_runtime": 289.9524,
-      "eval_samples_per_second": 21.638,
-      "eval_steps_per_second": 2.707,
       "step": 1300
     },
     {
       "epoch": 1.02,
       "learning_rate": 0.0002,
-      "loss": 1.5538,
       "step": 1400
     },
     {
       "epoch": 1.02,
-      "eval_loss": 1.5539450645446777,
-      "eval_runtime": 287.8748,
-      "eval_samples_per_second": 21.794,
-      "eval_steps_per_second": 2.727,
       "step": 1400
     },
     {
       "epoch": 1.09,
       "learning_rate": 0.0002,
-      "loss": 1.5249,
       "step": 1500
     },
     {
       "epoch": 1.09,
-      "eval_loss": 1.5348094701766968,
-      "eval_runtime": 287.891,
-      "eval_samples_per_second": 21.793,
-      "eval_steps_per_second": 2.727,
       "step": 1500
     },
     {
       "epoch": 1.17,
       "learning_rate": 0.0002,
-      "loss": 1.506,
       "step": 1600
     },
     {
       "epoch": 1.17,
-      "eval_loss": 1.515953540802002,
-      "eval_runtime": 289.836,
-      "eval_samples_per_second": 21.647,
-      "eval_steps_per_second": 2.708,
       "step": 1600
     },
     {
       "epoch": 1.24,
       "learning_rate": 0.0002,
-      "loss": 1.5042,
       "step": 1700
     },
     {
       "epoch": 1.24,
-      "eval_loss": 1.4988901615142822,
-      "eval_runtime": 291.5471,
-      "eval_samples_per_second": 21.52,
-      "eval_steps_per_second": 2.693,
       "step": 1700
     },
     {
       "epoch": 1.31,
       "learning_rate": 0.0002,
-      "loss": 1.4762,
       "step": 1800
     },
     {
       "epoch": 1.31,
-      "eval_loss": 1.4844294786453247,
-      "eval_runtime": 293.6668,
-      "eval_samples_per_second": 21.364,
-      "eval_steps_per_second": 2.673,
       "step": 1800
     },
     {
       "epoch": 1.38,
       "learning_rate": 0.0002,
-      "loss": 1.4652,
       "step": 1900
     },
     {
       "epoch": 1.38,
-      "eval_loss": 1.4694663286209106,
-      "eval_runtime": 295.5867,
-      "eval_samples_per_second": 21.226,
-      "eval_steps_per_second": 2.656,
       "step": 1900
     },
     {
       "epoch": 1.46,
       "learning_rate": 0.0002,
-      "loss": 1.4481,
       "step": 2000
     },
     {
       "epoch": 1.46,
-      "eval_loss": 1.4534634351730347,
-      "eval_runtime": 296.7451,
-      "eval_samples_per_second": 21.143,
-      "eval_steps_per_second": 2.645,
       "step": 2000
     },
     {
       "epoch": 1.53,
       "learning_rate": 0.0002,
-      "loss": 1.4335,
       "step": 2100
     },
     {
       "epoch": 1.53,
-      "eval_loss": 1.4383305311203003,
-      "eval_runtime": 294.659,
-      "eval_samples_per_second": 21.292,
-      "eval_steps_per_second": 2.664,
       "step": 2100
     },
     {
       "epoch": 1.6,
       "learning_rate": 0.0002,
-      "loss": 1.4075,
       "step": 2200
     },
     {
       "epoch": 1.6,
-      "eval_loss": 1.4232139587402344,
-      "eval_runtime": 292.737,
-      "eval_samples_per_second": 21.432,
-      "eval_steps_per_second": 2.682,
       "step": 2200
     },
     {
       "epoch": 1.68,
       "learning_rate": 0.0002,
-      "loss": 1.4059,
       "step": 2300
     },
     {
       "epoch": 1.68,
-      "eval_loss": 1.411597490310669,
-      "eval_runtime": 290.6759,
-      "eval_samples_per_second": 21.584,
-      "eval_steps_per_second": 2.701,
       "step": 2300
     },
     {
       "epoch": 1.75,
       "learning_rate": 0.0002,
-      "loss": 1.4055,
       "step": 2400
     },
     {
       "epoch": 1.75,
-      "eval_loss": 1.3974188566207886,
-      "eval_runtime": 288.6807,
-      "eval_samples_per_second": 21.733,
-      "eval_steps_per_second": 2.719,
       "step": 2400
     },
     {
       "epoch": 1.82,
       "learning_rate": 0.0002,
-      "loss": 1.3772,
       "step": 2500
     },
     {
       "epoch": 1.82,
-      "eval_loss": 1.384261965751648,
-      "eval_runtime": 287.1594,
-      "eval_samples_per_second": 21.848,
-      "eval_steps_per_second": 2.734,
       "step": 2500
     },
     {
       "epoch": 1.89,
       "learning_rate": 0.0002,
-      "loss": 1.3669,
       "step": 2600
     },
     {
       "epoch": 1.89,
-      "eval_loss": 1.3715009689331055,
-      "eval_runtime": 288.6305,
-      "eval_samples_per_second": 21.737,
-      "eval_steps_per_second": 2.72,
       "step": 2600
     },
     {
       "epoch": 1.97,
       "learning_rate": 0.0002,
-      "loss": 1.3548,
       "step": 2700
     },
     {
       "epoch": 1.97,
-      "eval_loss": 1.3575737476348877,
-      "eval_runtime": 290.5389,
-      "eval_samples_per_second": 21.594,
-      "eval_steps_per_second": 2.702,
       "step": 2700
     },
     {
       "epoch": 2.04,
       "learning_rate": 0.0002,
-      "loss": 1.3266,
       "step": 2800
     },
     {
       "epoch": 2.04,
-      "eval_loss": 1.3451271057128906,
-      "eval_runtime": 292.4987,
-      "eval_samples_per_second": 21.45,
-      "eval_steps_per_second": 2.684,
       "step": 2800
     },
     {
       "epoch": 2.11,
       "learning_rate": 0.0002,
-      "loss": 1.3004,
       "step": 2900
     },
     {
       "epoch": 2.11,
-      "eval_loss": 1.333436369895935,
-      "eval_runtime": 294.3881,
-      "eval_samples_per_second": 21.312,
-      "eval_steps_per_second": 2.667,
       "step": 2900
     },
     {
       "epoch": 2.19,
       "learning_rate": 0.0002,
-      "loss": 1.3009,
       "step": 3000
     },
     {
       "epoch": 2.19,
-      "eval_loss": 1.3215913772583008,
-      "eval_runtime": 296.2165,
-      "eval_samples_per_second": 21.18,
-      "eval_steps_per_second": 2.65,
       "step": 3000
     },
     {
       "epoch": 2.26,
       "learning_rate": 0.0002,
-      "loss": 1.2822,
       "step": 3100
     },
     {
       "epoch": 2.26,
-      "eval_loss": 1.311138391494751,
-      "eval_runtime": 295.6634,
-      "eval_samples_per_second": 21.22,
-      "eval_steps_per_second": 2.655,
       "step": 3100
     },
     {
       "epoch": 2.33,
       "learning_rate": 0.0002,
-      "loss": 1.2846,
       "step": 3200
     },
     {
       "epoch": 2.33,
-      "eval_loss": 1.3013139963150024,
-      "eval_runtime": 293.7639,
-      "eval_samples_per_second": 21.357,
-      "eval_steps_per_second": 2.672,
       "step": 3200
     },
     {
       "epoch": 2.4,
       "learning_rate": 0.0002,
-      "loss": 1.2674,
       "step": 3300
     },
     {
       "epoch": 2.4,
-      "eval_loss": 1.2875950336456299,
-      "eval_runtime": 291.8744,
-      "eval_samples_per_second": 21.496,
-      "eval_steps_per_second": 2.69,
       "step": 3300
     },
     {
       "epoch": 2.48,
       "learning_rate": 0.0002,
-      "loss": 1.2485,
       "step": 3400
     },
     {
       "epoch": 2.48,
-      "eval_loss": 1.2778161764144897,
-      "eval_runtime": 289.8138,
-      "eval_samples_per_second": 21.648,
-      "eval_steps_per_second": 2.709,
       "step": 3400
     },
     {
       "epoch": 2.55,
       "learning_rate": 0.0002,
-      "loss": 1.2499,
       "step": 3500
     },
     {
       "epoch": 2.55,
-      "eval_loss": 1.2662204504013062,
-      "eval_runtime": 288.0522,
-      "eval_samples_per_second": 21.781,
-      "eval_steps_per_second": 2.725,
       "step": 3500
     },
     {
       "epoch": 2.62,
       "learning_rate": 0.0002,
-      "loss": 1.2363,
       "step": 3600
     },
     {
       "epoch": 2.62,
-      "eval_loss": 1.2541649341583252,
-      "eval_runtime": 287.6646,
-      "eval_samples_per_second": 21.81,
-      "eval_steps_per_second": 2.729,
       "step": 3600
     },
     {
       "epoch": 2.7,
       "learning_rate": 0.0002,
-      "loss": 1.22,
       "step": 3700
     },
     {
       "epoch": 2.7,
-      "eval_loss": 1.2425366640090942,
-      "eval_runtime": 289.5395,
-      "eval_samples_per_second": 21.669,
-      "eval_steps_per_second": 2.711,
       "step": 3700
     },
     {
       "epoch": 2.77,
       "learning_rate": 0.0002,
-      "loss": 1.1977,
       "step": 3800
     },
     {
       "epoch": 2.77,
-      "eval_loss": 1.2353510856628418,
-      "eval_runtime": 291.5958,
-      "eval_samples_per_second": 21.516,
-      "eval_steps_per_second": 2.692,
       "step": 3800
     },
     {
       "epoch": 2.84,
       "learning_rate": 0.0002,
-      "loss": 1.2087,
       "step": 3900
     },
     {
       "epoch": 2.84,
-      "eval_loss": 1.2214804887771606,
-      "eval_runtime": 293.3693,
-      "eval_samples_per_second": 21.386,
-      "eval_steps_per_second": 2.676,
       "step": 3900
     }
   ],
   "logging_steps": 100,
   "max_steps": 4116,
   "num_train_epochs": 3,
   "save_steps": 100,
-  "total_flos": 2.324829790449746e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 1.2027361392974854,
+  "best_model_checkpoint": "./outputs/checkpoint-4100",
+  "epoch": 2.987249544626594,
   "eval_steps": 100,
+  "global_step": 4100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.8,
       "learning_rate": 0.0002,
+      "loss": 1.6268,
       "step": 1100
     },
     {
       "epoch": 0.8,
+      "eval_loss": 1.6125303506851196,
+      "eval_runtime": 144.0648,
+      "eval_samples_per_second": 43.55,
+      "eval_steps_per_second": 5.449,
       "step": 1100
     },
     {
       "epoch": 0.87,
       "learning_rate": 0.0002,
+      "loss": 1.5911,
       "step": 1200
     },
     {
       "epoch": 0.87,
+      "eval_loss": 1.5925209522247314,
+      "eval_runtime": 144.042,
+      "eval_samples_per_second": 43.557,
+      "eval_steps_per_second": 5.45,
       "step": 1200
     },
     {
       "epoch": 0.95,
       "learning_rate": 0.0002,
+      "loss": 1.5986,
       "step": 1300
     },
     {
       "epoch": 0.95,
+      "eval_loss": 1.571681261062622,
+      "eval_runtime": 144.1746,
+      "eval_samples_per_second": 43.517,
+      "eval_steps_per_second": 5.445,
       "step": 1300
     },
     {
       "epoch": 1.02,
       "learning_rate": 0.0002,
+      "loss": 1.5514,
       "step": 1400
     },
     {
       "epoch": 1.02,
+      "eval_loss": 1.5524405241012573,
+      "eval_runtime": 183.3697,
+      "eval_samples_per_second": 34.215,
+      "eval_steps_per_second": 4.281,
       "step": 1400
     },
     {
       "epoch": 1.09,
       "learning_rate": 0.0002,
+      "loss": 1.5235,
       "step": 1500
     },
     {
       "epoch": 1.09,
+      "eval_loss": 1.534788966178894,
+      "eval_runtime": 317.3733,
+      "eval_samples_per_second": 19.769,
+      "eval_steps_per_second": 2.473,
       "step": 1500
     },
     {
       "epoch": 1.17,
       "learning_rate": 0.0002,
+      "loss": 1.5051,
       "step": 1600
     },
     {
       "epoch": 1.17,
+      "eval_loss": 1.517040491104126,
+      "eval_runtime": 315.5897,
+      "eval_samples_per_second": 19.88,
+      "eval_steps_per_second": 2.487,
       "step": 1600
     },
     {
       "epoch": 1.24,
       "learning_rate": 0.0002,
+      "loss": 1.5036,
       "step": 1700
     },
     {
       "epoch": 1.24,
+      "eval_loss": 1.500235915184021,
+      "eval_runtime": 314.1201,
+      "eval_samples_per_second": 19.973,
+      "eval_steps_per_second": 2.499,
       "step": 1700
     },
     {
       "epoch": 1.31,
       "learning_rate": 0.0002,
+      "loss": 1.4767,
       "step": 1800
     },
     {
       "epoch": 1.31,
+      "eval_loss": 1.4854458570480347,
+      "eval_runtime": 313.3904,
+      "eval_samples_per_second": 20.02,
+      "eval_steps_per_second": 2.505,
       "step": 1800
     },
     {
       "epoch": 1.38,
       "learning_rate": 0.0002,
+      "loss": 1.4665,
       "step": 1900
     },
     {
       "epoch": 1.38,
+      "eval_loss": 1.4697930812835693,
+      "eval_runtime": 314.584,
+      "eval_samples_per_second": 19.944,
+      "eval_steps_per_second": 2.495,
       "step": 1900
     },
     {
       "epoch": 1.46,
       "learning_rate": 0.0002,
+      "loss": 1.4498,
       "step": 2000
     },
     {
       "epoch": 1.46,
+      "eval_loss": 1.456108808517456,
+      "eval_runtime": 316.2748,
+      "eval_samples_per_second": 19.837,
+      "eval_steps_per_second": 2.482,
       "step": 2000
     },
     {
       "epoch": 1.53,
       "learning_rate": 0.0002,
+      "loss": 1.4358,
       "step": 2100
     },
     {
       "epoch": 1.53,
+      "eval_loss": 1.4408069849014282,
+      "eval_runtime": 317.862,
+      "eval_samples_per_second": 19.738,
+      "eval_steps_per_second": 2.47,
       "step": 2100
     },
     {
       "epoch": 1.6,
       "learning_rate": 0.0002,
+      "loss": 1.4099,
       "step": 2200
     },
     {
       "epoch": 1.6,
+      "eval_loss": 1.4274669885635376,
+      "eval_runtime": 319.6918,
+      "eval_samples_per_second": 19.625,
+      "eval_steps_per_second": 2.455,
       "step": 2200
     },
     {
       "epoch": 1.68,
       "learning_rate": 0.0002,
+      "loss": 1.409,
       "step": 2300
     },
     {
       "epoch": 1.68,
+      "eval_loss": 1.4145855903625488,
+      "eval_runtime": 320.1441,
+      "eval_samples_per_second": 19.597,
+      "eval_steps_per_second": 2.452,
       "step": 2300
     },
     {
       "epoch": 1.75,
       "learning_rate": 0.0002,
+      "loss": 1.4082,
       "step": 2400
     },
     {
       "epoch": 1.75,
+      "eval_loss": 1.4013197422027588,
+      "eval_runtime": 318.5235,
+      "eval_samples_per_second": 19.697,
+      "eval_steps_per_second": 2.464,
       "step": 2400
     },
     {
       "epoch": 1.82,
       "learning_rate": 0.0002,
+      "loss": 1.3797,
       "step": 2500
     },
     {
       "epoch": 1.82,
+      "eval_loss": 1.388313889503479,
+      "eval_runtime": 316.5542,
+      "eval_samples_per_second": 19.82,
+      "eval_steps_per_second": 2.48,
       "step": 2500
     },
     {
       "epoch": 1.89,
       "learning_rate": 0.0002,
+      "loss": 1.37,
       "step": 2600
     },
     {
       "epoch": 1.89,
+      "eval_loss": 1.3754903078079224,
+      "eval_runtime": 314.9023,
+      "eval_samples_per_second": 19.924,
+      "eval_steps_per_second": 2.493,
       "step": 2600
     },
     {
       "epoch": 1.97,
       "learning_rate": 0.0002,
+      "loss": 1.3591,
       "step": 2700
     },
     {
       "epoch": 1.97,
+      "eval_loss": 1.361141324043274,
+      "eval_runtime": 313.2121,
+      "eval_samples_per_second": 20.031,
+      "eval_steps_per_second": 2.506,
       "step": 2700
     },
     {
       "epoch": 2.04,
       "learning_rate": 0.0002,
+      "loss": 1.3293,
       "step": 2800
     },
     {
       "epoch": 2.04,
+      "eval_loss": 1.35151207447052,
+      "eval_runtime": 313.6525,
+      "eval_samples_per_second": 20.003,
+      "eval_steps_per_second": 2.503,
       "step": 2800
     },
     {
       "epoch": 2.11,
       "learning_rate": 0.0002,
+      "loss": 1.3038,
       "step": 2900
     },
     {
       "epoch": 2.11,
+      "eval_loss": 1.3370529413223267,
+      "eval_runtime": 315.5675,
+      "eval_samples_per_second": 19.882,
+      "eval_steps_per_second": 2.488,
       "step": 2900
     },
     {
       "epoch": 2.19,
       "learning_rate": 0.0002,
+      "loss": 1.3045,
       "step": 3000
     },
     {
       "epoch": 2.19,
+      "eval_loss": 1.3253566026687622,
+      "eval_runtime": 317.1772,
+      "eval_samples_per_second": 19.781,
+      "eval_steps_per_second": 2.475,
       "step": 3000
     },
     {
       "epoch": 2.26,
       "learning_rate": 0.0002,
+      "loss": 1.2858,
       "step": 3100
     },
     {
       "epoch": 2.26,
+      "eval_loss": 1.3158119916915894,
+      "eval_runtime": 318.7074,
+      "eval_samples_per_second": 19.686,
+      "eval_steps_per_second": 2.463,
       "step": 3100
     },
     {
       "epoch": 2.33,
       "learning_rate": 0.0002,
+      "loss": 1.2892,
       "step": 3200
     },
     {
       "epoch": 2.33,
+      "eval_loss": 1.3039228916168213,
+      "eval_runtime": 320.2143,
+      "eval_samples_per_second": 19.593,
+      "eval_steps_per_second": 2.451,
       "step": 3200
     },
     {
       "epoch": 2.4,
       "learning_rate": 0.0002,
+      "loss": 1.2707,
       "step": 3300
     },
     {
       "epoch": 2.4,
+      "eval_loss": 1.2919011116027832,
+      "eval_runtime": 319.3459,
+      "eval_samples_per_second": 19.646,
+      "eval_steps_per_second": 2.458,
       "step": 3300
     },
     {
       "epoch": 2.48,
       "learning_rate": 0.0002,
+      "loss": 1.2513,
       "step": 3400
     },
     {
       "epoch": 2.48,
+      "eval_loss": 1.2831082344055176,
+      "eval_runtime": 317.9367,
+      "eval_samples_per_second": 19.733,
+      "eval_steps_per_second": 2.469,
       "step": 3400
     },
     {
       "epoch": 2.55,
       "learning_rate": 0.0002,
+      "loss": 1.2533,
       "step": 3500
     },
     {
       "epoch": 2.55,
+      "eval_loss": 1.2713383436203003,
+      "eval_runtime": 316.0824,
+      "eval_samples_per_second": 19.849,
+      "eval_steps_per_second": 2.484,
       "step": 3500
     },
     {
       "epoch": 2.62,
       "learning_rate": 0.0002,
+      "loss": 1.2401,
       "step": 3600
     },
     {
       "epoch": 2.62,
+      "eval_loss": 1.2587928771972656,
+      "eval_runtime": 314.209,
+      "eval_samples_per_second": 19.968,
+      "eval_steps_per_second": 2.498,
       "step": 3600
     },
     {
       "epoch": 2.7,
       "learning_rate": 0.0002,
+      "loss": 1.2235,
       "step": 3700
     },
     {
       "epoch": 2.7,
+      "eval_loss": 1.2472882270812988,
+      "eval_runtime": 313.2806,
+      "eval_samples_per_second": 20.027,
+      "eval_steps_per_second": 2.506,
       "step": 3700
     },
     {
       "epoch": 2.77,
       "learning_rate": 0.0002,
+      "loss": 1.2008,
       "step": 3800
     },
     {
       "epoch": 2.77,
+      "eval_loss": 1.2382943630218506,
+      "eval_runtime": 314.1806,
+      "eval_samples_per_second": 19.969,
+      "eval_steps_per_second": 2.499,
       "step": 3800
     },
     {
       "epoch": 2.84,
       "learning_rate": 0.0002,
+      "loss": 1.2127,
       "step": 3900
     },
     {
       "epoch": 2.84,
+      "eval_loss": 1.2249549627304077,
+      "eval_runtime": 316.2071,
+      "eval_samples_per_second": 19.841,
+      "eval_steps_per_second": 2.483,
       "step": 3900
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 0.0002,
+      "loss": 1.1949,
+      "step": 4000
+    },
+    {
+      "epoch": 2.91,
+      "eval_loss": 1.217284917831421,
+      "eval_runtime": 317.7217,
+      "eval_samples_per_second": 19.747,
+      "eval_steps_per_second": 2.471,
+      "step": 4000
+    },
+    {
+      "epoch": 2.99,
+      "learning_rate": 0.0002,
+      "loss": 1.1924,
+      "step": 4100
+    },
+    {
+      "epoch": 2.99,
+      "eval_loss": 1.2027361392974854,
+      "eval_runtime": 319.2657,
+      "eval_samples_per_second": 19.651,
+      "eval_steps_per_second": 2.459,
+      "step": 4100
     }
   ],
   "logging_steps": 100,
   "max_steps": 4116,
   "num_train_epochs": 3,
   "save_steps": 100,
+  "total_flos": 2.444085005899776e+17,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e1ab4a714067324690a64db56d021644d50462360424c147b3e9df6b69650fa0
 size 4155

 version https://git-lfs.github.com/spec/v1
+oid sha256:435ef416a520c327b44f1a335ae059bdb8b9a978d39dfecd5bff01684de2670c
 size 4155