End of training

Browse files

Files changed (9) hide show

README.md +17 -32
adapter_config.json +4 -4
last-checkpoint/adapter_config.json +4 -4
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +51 -689
last-checkpoint/training_args.bin +1 -1
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -6,7 +6,7 @@ tags:
 - axolotl
 - generated_from_trainer
 model-index:
-- name: 922da73d-0a26-4f27-a883-0f02b8fbbb93
   results: []
 ---
@@ -18,12 +18,6 @@ should probably proofread and complete it, then remove this comment. -->
 axolotl version: `0.4.1`
 ```yaml
-accelerate_config:
-  dynamo_backend: inductor
-  mixed_precision: bf16
-  num_machines: 1
-  num_processes: auto
-  use_cpu: false
 adapter: lora
 base_model: fxmarty/tiny-random-GemmaForCausalLM
 bf16: auto
@@ -44,7 +38,6 @@ datasets:
     system_prompt: ''
 debug: null
 deepspeed: null
-device_map: auto
 early_stopping_patience: null
 eval_max_new_tokens: 128
 eval_table_size: null
@@ -53,14 +46,16 @@ flash_attention: false
 fp16: null
 fsdp: null
 fsdp_config: null
-gradient_accumulation_steps: 16
-gradient_checkpointing: true
 group_by_length: false
 hub_model_id: null
 hub_repo: null
 hub_strategy: checkpoint
 hub_token: null
-learning_rate: 0.0001
 local_rank: null
 logging_steps: 1
 lora_alpha: 16
@@ -69,13 +64,8 @@ lora_fan_in_fan_out: null
 lora_model_dir: null
 lora_r: 8
 lora_target_linear: true
-lora_target_modules:
-- q_proj
-- v_proj
 lr_scheduler: cosine
-max_memory:
-  0: 70GiB
-max_steps: 100
 micro_batch_size: 2
 mlflow_experiment_name: /tmp/9845ef35490c4ed8_train_data.json
 model_type: AutoModelForCausalLM
@@ -83,9 +73,6 @@ num_epochs: 1
 optimizer: adamw_bnb_8bit
 output_dir: miner_id_24
 pad_to_sequence_len: true
-quantization_config:
-  llm_int8_enable_fp32_cpu_offload: true
-  load_in_8bit: true
 resume_from_checkpoint: null
 s2_attention: null
 sample_packing: false
@@ -94,14 +81,13 @@ sequence_len: 512
 strict: false
 tf32: false
 tokenizer_type: AutoTokenizer
-torch_compile: true
 train_on_inputs: false
 trust_remote_code: true
 val_set_size: 0.05
 wandb_entity: null
 wandb_mode: online
 wandb_name: 922da73d-0a26-4f27-a883-0f02b8fbbb93
-wandb_project: Gradients-On-Demand
 wandb_run: your_name
 wandb_runid: 922da73d-0a26-4f27-a883-0f02b8fbbb93
 warmup_steps: 10
@@ -112,7 +98,7 @@ xformers_attention: null
 </details><br>
-# 922da73d-0a26-4f27-a883-0f02b8fbbb93
 This model is a fine-tuned version of [fxmarty/tiny-random-GemmaForCausalLM](https://huggingface.co/fxmarty/tiny-random-GemmaForCausalLM) on the None dataset.
 It achieves the following results on the evaluation set:
@@ -135,26 +121,25 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 0.0001
 - train_batch_size: 2
 - eval_batch_size: 2
 - seed: 42
-- gradient_accumulation_steps: 16
-- total_train_batch_size: 32
 - optimizer: Use OptimizerNames.ADAMW_BNB with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 10
-- training_steps: 100
 ### Training results
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
-| 0.0           | 0.0004 | 1    | nan             |
-| 0.0           | 0.0112 | 25   | nan             |
-| 0.0           | 0.0225 | 50   | nan             |
-| 0.0           | 0.0337 | 75   | nan             |
-| 0.0           | 0.0450 | 100  | nan             |
 ### Framework versions

 - axolotl
 - generated_from_trainer
 model-index:
+- name: 93c52fbb-53ce-4004-8ccc-12e99bc530fe
   results: []
 ---
 axolotl version: `0.4.1`
 ```yaml
 adapter: lora
 base_model: fxmarty/tiny-random-GemmaForCausalLM
 bf16: auto
     system_prompt: ''
 debug: null
 deepspeed: null
 early_stopping_patience: null
 eval_max_new_tokens: 128
 eval_table_size: null
 fp16: null
 fsdp: null
 fsdp_config: null
+gradient_accumulation_steps: 4
+gradient_checkpointing: false
 group_by_length: false
 hub_model_id: null
 hub_repo: null
 hub_strategy: checkpoint
 hub_token: null
+learning_rate: 0.0002
+load_in_4bit: false
+load_in_8bit: false
 local_rank: null
 logging_steps: 1
 lora_alpha: 16
 lora_model_dir: null
 lora_r: 8
 lora_target_linear: true
 lr_scheduler: cosine
+max_steps: 10
 micro_batch_size: 2
 mlflow_experiment_name: /tmp/9845ef35490c4ed8_train_data.json
 model_type: AutoModelForCausalLM
 optimizer: adamw_bnb_8bit
 output_dir: miner_id_24
 pad_to_sequence_len: true
 resume_from_checkpoint: null
 s2_attention: null
 sample_packing: false
 strict: false
 tf32: false
 tokenizer_type: AutoTokenizer
 train_on_inputs: false
 trust_remote_code: true
 val_set_size: 0.05
 wandb_entity: null
 wandb_mode: online
 wandb_name: 922da73d-0a26-4f27-a883-0f02b8fbbb93
+wandb_project: Birthday-SN56-11-Gradients-On-Demand
 wandb_run: your_name
 wandb_runid: 922da73d-0a26-4f27-a883-0f02b8fbbb93
 warmup_steps: 10
 </details><br>
+# 93c52fbb-53ce-4004-8ccc-12e99bc530fe
 This model is a fine-tuned version of [fxmarty/tiny-random-GemmaForCausalLM](https://huggingface.co/fxmarty/tiny-random-GemmaForCausalLM) on the None dataset.
 It achieves the following results on the evaluation set:
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 0.0002
 - train_batch_size: 2
 - eval_batch_size: 2
 - seed: 42
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 8
 - optimizer: Use OptimizerNames.ADAMW_BNB with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 10
+- training_steps: 10
 ### Training results
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
+| 0.0           | 0.0001 | 1    | nan             |
+| 0.0           | 0.0003 | 3    | nan             |
+| 0.0           | 0.0007 | 6    | nan             |
+| 0.0           | 0.0010 | 9    | nan             |
 ### Framework versions

adapter_config.json CHANGED Viewed

@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "k_proj",
     "q_proj",
-    "gate_proj",
     "v_proj",
     "up_proj",
-    "o_proj",
-    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "q_proj",
+    "down_proj",
+    "k_proj",
     "v_proj",
+    "gate_proj",
     "up_proj",
+    "o_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "k_proj",
     "q_proj",
-    "gate_proj",
     "v_proj",
     "up_proj",
-    "o_proj",
-    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "q_proj",
+    "down_proj",
+    "k_proj",
     "v_proj",
+    "gate_proj",
     "up_proj",
+    "o_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c7fb16a3af30e4d341b749cc7197d9b94b3ed1a9aaf643e8d767177d3ac2a8cd
-size 26498

 version https://git-lfs.github.com/spec/v1
+oid sha256:82fedc521b22f7161ab3611d76e7c81304b7cc24627d50a72854bbfbae2f8dda
+size 26562

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:04d908c46d108238ef38ce2d6b400da8ee470558ac3166d90b6b5a4ef218316d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d53389285e1a574b35c681421511ed4fd865190d0dbcc7ca577aba5847d929e5
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:49d60a69e2379be2053e816cbaff31e6c931b5922dd86c71c9eaf473299cbf62
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:bb578e75c11a81e85dda67a691f96ba4793a02960f1409fd3e1511aac873491a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,759 +1,121 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.04496023828926293,
-  "eval_steps": 25,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.00044960238289262934,
       "grad_norm": NaN,
-      "learning_rate": 1e-05,
       "loss": 0.0,
       "step": 1
     },
     {
-      "epoch": 0.00044960238289262934,
       "eval_loss": NaN,
-      "eval_runtime": 38.0764,
-      "eval_samples_per_second": 98.407,
-      "eval_steps_per_second": 49.217,
       "step": 1
     },
     {
-      "epoch": 0.0008992047657852587,
-      "grad_norm": NaN,
-      "learning_rate": 2e-05,
-      "loss": 0.0,
-      "step": 2
-    },
-    {
-      "epoch": 0.001348807148677888,
-      "grad_norm": NaN,
-      "learning_rate": 3e-05,
-      "loss": 0.0,
-      "step": 3
-    },
-    {
-      "epoch": 0.0017984095315705174,
       "grad_norm": NaN,
       "learning_rate": 4e-05,
       "loss": 0.0,
-      "step": 4
-    },
-    {
-      "epoch": 0.0022480119144631465,
-      "grad_norm": NaN,
-      "learning_rate": 5e-05,
-      "loss": 0.0,
-      "step": 5
     },
     {
-      "epoch": 0.002697614297355776,
       "grad_norm": NaN,
       "learning_rate": 6e-05,
       "loss": 0.0,
-      "step": 6
     },
     {
-      "epoch": 0.0031472166802484053,
-      "grad_norm": NaN,
-      "learning_rate": 7e-05,
-      "loss": 0.0,
-      "step": 7
     },
     {
-      "epoch": 0.0035968190631410347,
       "grad_norm": NaN,
       "learning_rate": 8e-05,
       "loss": 0.0,
-      "step": 8
-    },
-    {
-      "epoch": 0.004046421446033664,
-      "grad_norm": NaN,
-      "learning_rate": 9e-05,
-      "loss": 0.0,
-      "step": 9
     },
     {
-      "epoch": 0.004496023828926293,
       "grad_norm": NaN,
       "learning_rate": 0.0001,
       "loss": 0.0,
-      "step": 10
-    },
-    {
-      "epoch": 0.0049456262118189225,
-      "grad_norm": NaN,
-      "learning_rate": 9.99695413509548e-05,
-      "loss": 0.0,
-      "step": 11
-    },
-    {
-      "epoch": 0.005395228594711552,
-      "grad_norm": NaN,
-      "learning_rate": 9.987820251299122e-05,
-      "loss": 0.0,
-      "step": 12
-    },
-    {
-      "epoch": 0.005844830977604181,
-      "grad_norm": NaN,
-      "learning_rate": 9.972609476841367e-05,
-      "loss": 0.0,
-      "step": 13
-    },
-    {
-      "epoch": 0.006294433360496811,
-      "grad_norm": NaN,
-      "learning_rate": 9.951340343707852e-05,
-      "loss": 0.0,
-      "step": 14
-    },
-    {
-      "epoch": 0.00674403574338944,
-      "grad_norm": NaN,
-      "learning_rate": 9.924038765061042e-05,
-      "loss": 0.0,
-      "step": 15
-    },
-    {
-      "epoch": 0.0071936381262820695,
-      "grad_norm": NaN,
-      "learning_rate": 9.890738003669029e-05,
-      "loss": 0.0,
-      "step": 16
-    },
-    {
-      "epoch": 0.007643240509174699,
-      "grad_norm": NaN,
-      "learning_rate": 9.851478631379982e-05,
-      "loss": 0.0,
-      "step": 17
-    },
-    {
-      "epoch": 0.008092842892067327,
-      "grad_norm": NaN,
-      "learning_rate": 9.806308479691595e-05,
-      "loss": 0.0,
-      "step": 18
-    },
-    {
-      "epoch": 0.008542445274959957,
-      "grad_norm": NaN,
-      "learning_rate": 9.755282581475769e-05,
-      "loss": 0.0,
-      "step": 19
-    },
-    {
-      "epoch": 0.008992047657852586,
-      "grad_norm": NaN,
-      "learning_rate": 9.698463103929542e-05,
-      "loss": 0.0,
-      "step": 20
-    },
-    {
-      "epoch": 0.009441650040745216,
-      "grad_norm": NaN,
-      "learning_rate": 9.635919272833938e-05,
-      "loss": 0.0,
-      "step": 21
-    },
-    {
-      "epoch": 0.009891252423637845,
-      "grad_norm": NaN,
-      "learning_rate": 9.567727288213005e-05,
-      "loss": 0.0,
-      "step": 22
-    },
-    {
-      "epoch": 0.010340854806530474,
-      "grad_norm": NaN,
-      "learning_rate": 9.493970231495835e-05,
-      "loss": 0.0,
-      "step": 23
-    },
-    {
-      "epoch": 0.010790457189423104,
-      "grad_norm": NaN,
-      "learning_rate": 9.414737964294636e-05,
-      "loss": 0.0,
-      "step": 24
-    },
-    {
-      "epoch": 0.011240059572315733,
-      "grad_norm": NaN,
-      "learning_rate": 9.330127018922194e-05,
-      "loss": 0.0,
-      "step": 25
-    },
-    {
-      "epoch": 0.011240059572315733,
-      "eval_loss": NaN,
-      "eval_runtime": 13.6049,
-      "eval_samples_per_second": 275.415,
-      "eval_steps_per_second": 137.744,
-      "step": 25
-    },
-    {
-      "epoch": 0.011689661955208363,
-      "grad_norm": NaN,
-      "learning_rate": 9.24024048078213e-05,
-      "loss": 0.0,
-      "step": 26
-    },
-    {
-      "epoch": 0.012139264338100992,
-      "grad_norm": NaN,
-      "learning_rate": 9.145187862775209e-05,
-      "loss": 0.0,
-      "step": 27
-    },
-    {
-      "epoch": 0.012588866720993621,
-      "grad_norm": NaN,
-      "learning_rate": 9.045084971874738e-05,
-      "loss": 0.0,
-      "step": 28
-    },
-    {
-      "epoch": 0.01303846910388625,
-      "grad_norm": NaN,
-      "learning_rate": 8.940053768033609e-05,
-      "loss": 0.0,
-      "step": 29
-    },
-    {
-      "epoch": 0.01348807148677888,
-      "grad_norm": NaN,
-      "learning_rate": 8.83022221559489e-05,
-      "loss": 0.0,
-      "step": 30
-    },
-    {
-      "epoch": 0.01393767386967151,
-      "grad_norm": NaN,
-      "learning_rate": 8.715724127386972e-05,
-      "loss": 0.0,
-      "step": 31
-    },
-    {
-      "epoch": 0.014387276252564139,
-      "grad_norm": NaN,
-      "learning_rate": 8.596699001693255e-05,
-      "loss": 0.0,
-      "step": 32
-    },
-    {
-      "epoch": 0.014836878635456768,
-      "grad_norm": NaN,
-      "learning_rate": 8.473291852294987e-05,
-      "loss": 0.0,
-      "step": 33
-    },
-    {
-      "epoch": 0.015286481018349398,
-      "grad_norm": NaN,
-      "learning_rate": 8.345653031794292e-05,
-      "loss": 0.0,
-      "step": 34
-    },
-    {
-      "epoch": 0.015736083401242027,
-      "grad_norm": NaN,
-      "learning_rate": 8.213938048432697e-05,
-      "loss": 0.0,
-      "step": 35
-    },
-    {
-      "epoch": 0.016185685784134655,
-      "grad_norm": NaN,
-      "learning_rate": 8.07830737662829e-05,
-      "loss": 0.0,
-      "step": 36
-    },
-    {
-      "epoch": 0.016635288167027286,
-      "grad_norm": NaN,
-      "learning_rate": 7.938926261462366e-05,
-      "loss": 0.0,
-      "step": 37
-    },
-    {
-      "epoch": 0.017084890549919914,
-      "grad_norm": NaN,
-      "learning_rate": 7.795964517353735e-05,
-      "loss": 0.0,
-      "step": 38
-    },
-    {
-      "epoch": 0.017534492932812545,
-      "grad_norm": NaN,
-      "learning_rate": 7.649596321166024e-05,
-      "loss": 0.0,
-      "step": 39
-    },
-    {
-      "epoch": 0.017984095315705172,
-      "grad_norm": NaN,
-      "learning_rate": 7.500000000000001e-05,
-      "loss": 0.0,
-      "step": 40
-    },
-    {
-      "epoch": 0.018433697698597803,
-      "grad_norm": NaN,
-      "learning_rate": 7.347357813929454e-05,
-      "loss": 0.0,
-      "step": 41
-    },
-    {
-      "epoch": 0.01888330008149043,
-      "grad_norm": NaN,
-      "learning_rate": 7.191855733945387e-05,
-      "loss": 0.0,
-      "step": 42
-    },
-    {
-      "epoch": 0.019332902464383062,
-      "grad_norm": NaN,
-      "learning_rate": 7.033683215379002e-05,
-      "loss": 0.0,
-      "step": 43
-    },
-    {
-      "epoch": 0.01978250484727569,
-      "grad_norm": NaN,
-      "learning_rate": 6.873032967079561e-05,
-      "loss": 0.0,
-      "step": 44
-    },
-    {
-      "epoch": 0.02023210723016832,
-      "grad_norm": NaN,
-      "learning_rate": 6.710100716628344e-05,
-      "loss": 0.0,
-      "step": 45
-    },
-    {
-      "epoch": 0.02068170961306095,
-      "grad_norm": NaN,
-      "learning_rate": 6.545084971874738e-05,
-      "loss": 0.0,
-      "step": 46
-    },
-    {
-      "epoch": 0.02113131199595358,
-      "grad_norm": NaN,
-      "learning_rate": 6.378186779084995e-05,
-      "loss": 0.0,
-      "step": 47
-    },
-    {
-      "epoch": 0.021580914378846208,
-      "grad_norm": NaN,
-      "learning_rate": 6.209609477998338e-05,
-      "loss": 0.0,
-      "step": 48
-    },
-    {
-      "epoch": 0.02203051676173884,
-      "grad_norm": NaN,
-      "learning_rate": 6.0395584540887963e-05,
-      "loss": 0.0,
-      "step": 49
     },
     {
-      "epoch": 0.022480119144631466,
       "grad_norm": NaN,
-      "learning_rate": 5.868240888334653e-05,
       "loss": 0.0,
-      "step": 50
     },
     {
-      "epoch": 0.022480119144631466,
       "eval_loss": NaN,
-      "eval_runtime": 13.5404,
-      "eval_samples_per_second": 276.728,
-      "eval_steps_per_second": 138.401,
-      "step": 50
-    },
-    {
-      "epoch": 0.022929721527524097,
-      "grad_norm": NaN,
-      "learning_rate": 5.695865504800327e-05,
-      "loss": 0.0,
-      "step": 51
-    },
-    {
-      "epoch": 0.023379323910416725,
-      "grad_norm": NaN,
-      "learning_rate": 5.522642316338268e-05,
-      "loss": 0.0,
-      "step": 52
-    },
-    {
-      "epoch": 0.023828926293309356,
-      "grad_norm": NaN,
-      "learning_rate": 5.348782368720626e-05,
-      "loss": 0.0,
-      "step": 53
-    },
-    {
-      "epoch": 0.024278528676201984,
-      "grad_norm": NaN,
-      "learning_rate": 5.174497483512506e-05,
-      "loss": 0.0,
-      "step": 54
-    },
-    {
-      "epoch": 0.02472813105909461,
-      "grad_norm": NaN,
-      "learning_rate": 5e-05,
-      "loss": 0.0,
-      "step": 55
-    },
-    {
-      "epoch": 0.025177733441987243,
-      "grad_norm": NaN,
-      "learning_rate": 4.825502516487497e-05,
-      "loss": 0.0,
-      "step": 56
-    },
-    {
-      "epoch": 0.02562733582487987,
-      "grad_norm": NaN,
-      "learning_rate": 4.6512176312793736e-05,
-      "loss": 0.0,
-      "step": 57
-    },
-    {
-      "epoch": 0.0260769382077725,
-      "grad_norm": NaN,
-      "learning_rate": 4.477357683661734e-05,
-      "loss": 0.0,
-      "step": 58
-    },
-    {
-      "epoch": 0.02652654059066513,
-      "grad_norm": NaN,
-      "learning_rate": 4.3041344951996746e-05,
-      "loss": 0.0,
-      "step": 59
-    },
-    {
-      "epoch": 0.02697614297355776,
-      "grad_norm": NaN,
-      "learning_rate": 4.131759111665349e-05,
-      "loss": 0.0,
-      "step": 60
-    },
-    {
-      "epoch": 0.027425745356450388,
-      "grad_norm": NaN,
-      "learning_rate": 3.960441545911204e-05,
-      "loss": 0.0,
-      "step": 61
-    },
-    {
-      "epoch": 0.02787534773934302,
-      "grad_norm": NaN,
-      "learning_rate": 3.790390522001662e-05,
-      "loss": 0.0,
-      "step": 62
-    },
-    {
-      "epoch": 0.028324950122235647,
-      "grad_norm": NaN,
-      "learning_rate": 3.6218132209150045e-05,
-      "loss": 0.0,
-      "step": 63
-    },
-    {
-      "epoch": 0.028774552505128278,
-      "grad_norm": NaN,
-      "learning_rate": 3.4549150281252636e-05,
-      "loss": 0.0,
-      "step": 64
-    },
-    {
-      "epoch": 0.029224154888020906,
-      "grad_norm": NaN,
-      "learning_rate": 3.289899283371657e-05,
-      "loss": 0.0,
-      "step": 65
-    },
-    {
-      "epoch": 0.029673757270913537,
-      "grad_norm": NaN,
-      "learning_rate": 3.12696703292044e-05,
-      "loss": 0.0,
-      "step": 66
-    },
-    {
-      "epoch": 0.030123359653806164,
-      "grad_norm": NaN,
-      "learning_rate": 2.9663167846209998e-05,
-      "loss": 0.0,
-      "step": 67
-    },
-    {
-      "epoch": 0.030572962036698795,
-      "grad_norm": NaN,
-      "learning_rate": 2.8081442660546125e-05,
-      "loss": 0.0,
-      "step": 68
-    },
-    {
-      "epoch": 0.031022564419591423,
-      "grad_norm": NaN,
-      "learning_rate": 2.6526421860705473e-05,
-      "loss": 0.0,
-      "step": 69
-    },
-    {
-      "epoch": 0.031472166802484054,
-      "grad_norm": NaN,
-      "learning_rate": 2.500000000000001e-05,
-      "loss": 0.0,
-      "step": 70
-    },
-    {
-      "epoch": 0.03192176918537668,
-      "grad_norm": NaN,
-      "learning_rate": 2.350403678833976e-05,
-      "loss": 0.0,
-      "step": 71
-    },
-    {
-      "epoch": 0.03237137156826931,
-      "grad_norm": NaN,
-      "learning_rate": 2.2040354826462668e-05,
-      "loss": 0.0,
-      "step": 72
     },
     {
-      "epoch": 0.032820973951161944,
       "grad_norm": NaN,
-      "learning_rate": 2.061073738537635e-05,
       "loss": 0.0,
-      "step": 73
     },
     {
-      "epoch": 0.03327057633405457,
       "grad_norm": NaN,
-      "learning_rate": 1.9216926233717085e-05,
       "loss": 0.0,
-      "step": 74
     },
     {
-      "epoch": 0.0337201787169472,
       "grad_norm": NaN,
-      "learning_rate": 1.7860619515673033e-05,
       "loss": 0.0,
-      "step": 75
     },
     {
-      "epoch": 0.0337201787169472,
       "eval_loss": NaN,
-      "eval_runtime": 10.0776,
-      "eval_samples_per_second": 371.813,
-      "eval_steps_per_second": 185.956,
-      "step": 75
-    },
-    {
-      "epoch": 0.03416978109983983,
-      "grad_norm": NaN,
-      "learning_rate": 1.6543469682057106e-05,
-      "loss": 0.0,
-      "step": 76
-    },
-    {
-      "epoch": 0.03461938348273246,
-      "grad_norm": NaN,
-      "learning_rate": 1.526708147705013e-05,
-      "loss": 0.0,
-      "step": 77
-    },
-    {
-      "epoch": 0.03506898586562509,
-      "grad_norm": NaN,
-      "learning_rate": 1.4033009983067452e-05,
-      "loss": 0.0,
-      "step": 78
-    },
-    {
-      "epoch": 0.03551858824851772,
-      "grad_norm": NaN,
-      "learning_rate": 1.2842758726130283e-05,
-      "loss": 0.0,
-      "step": 79
-    },
-    {
-      "epoch": 0.035968190631410345,
-      "grad_norm": NaN,
-      "learning_rate": 1.1697777844051105e-05,
-      "loss": 0.0,
-      "step": 80
-    },
-    {
-      "epoch": 0.03641779301430297,
-      "grad_norm": NaN,
-      "learning_rate": 1.0599462319663905e-05,
-      "loss": 0.0,
-      "step": 81
-    },
-    {
-      "epoch": 0.03686739539719561,
-      "grad_norm": NaN,
-      "learning_rate": 9.549150281252633e-06,
-      "loss": 0.0,
-      "step": 82
-    },
-    {
-      "epoch": 0.037316997780088235,
-      "grad_norm": NaN,
-      "learning_rate": 8.548121372247918e-06,
-      "loss": 0.0,
-      "step": 83
-    },
-    {
-      "epoch": 0.03776660016298086,
-      "grad_norm": NaN,
-      "learning_rate": 7.597595192178702e-06,
-      "loss": 0.0,
-      "step": 84
-    },
-    {
-      "epoch": 0.03821620254587349,
-      "grad_norm": NaN,
-      "learning_rate": 6.698729810778065e-06,
-      "loss": 0.0,
-      "step": 85
-    },
-    {
-      "epoch": 0.038665804928766125,
-      "grad_norm": NaN,
-      "learning_rate": 5.852620357053651e-06,
-      "loss": 0.0,
-      "step": 86
-    },
-    {
-      "epoch": 0.03911540731165875,
-      "grad_norm": NaN,
-      "learning_rate": 5.060297685041659e-06,
-      "loss": 0.0,
-      "step": 87
-    },
-    {
-      "epoch": 0.03956500969455138,
-      "grad_norm": NaN,
-      "learning_rate": 4.322727117869951e-06,
-      "loss": 0.0,
-      "step": 88
-    },
-    {
-      "epoch": 0.04001461207744401,
-      "grad_norm": NaN,
-      "learning_rate": 3.6408072716606346e-06,
-      "loss": 0.0,
-      "step": 89
-    },
-    {
-      "epoch": 0.04046421446033664,
-      "grad_norm": NaN,
-      "learning_rate": 3.0153689607045845e-06,
-      "loss": 0.0,
-      "step": 90
-    },
-    {
-      "epoch": 0.04091381684322927,
-      "grad_norm": NaN,
-      "learning_rate": 2.4471741852423237e-06,
-      "loss": 0.0,
-      "step": 91
-    },
-    {
-      "epoch": 0.0413634192261219,
-      "grad_norm": NaN,
-      "learning_rate": 1.9369152030840556e-06,
-      "loss": 0.0,
-      "step": 92
-    },
-    {
-      "epoch": 0.041813021609014525,
-      "grad_norm": NaN,
-      "learning_rate": 1.4852136862001764e-06,
-      "loss": 0.0,
-      "step": 93
-    },
-    {
-      "epoch": 0.04226262399190716,
-      "grad_norm": NaN,
-      "learning_rate": 1.0926199633097157e-06,
-      "loss": 0.0,
-      "step": 94
-    },
-    {
-      "epoch": 0.04271222637479979,
-      "grad_norm": NaN,
-      "learning_rate": 7.596123493895991e-07,
-      "loss": 0.0,
-      "step": 95
-    },
-    {
-      "epoch": 0.043161828757692415,
-      "grad_norm": NaN,
-      "learning_rate": 4.865965629214819e-07,
-      "loss": 0.0,
-      "step": 96
-    },
-    {
-      "epoch": 0.04361143114058504,
-      "grad_norm": NaN,
-      "learning_rate": 2.7390523158633554e-07,
-      "loss": 0.0,
-      "step": 97
-    },
-    {
-      "epoch": 0.04406103352347768,
-      "grad_norm": NaN,
-      "learning_rate": 1.2179748700879012e-07,
-      "loss": 0.0,
-      "step": 98
-    },
-    {
-      "epoch": 0.044510635906370305,
-      "grad_norm": NaN,
-      "learning_rate": 3.04586490452119e-08,
-      "loss": 0.0,
-      "step": 99
     },
     {
-      "epoch": 0.04496023828926293,
       "grad_norm": NaN,
-      "learning_rate": 0.0,
       "loss": 0.0,
-      "step": 100
-    },
-    {
-      "epoch": 0.04496023828926293,
-      "eval_loss": NaN,
-      "eval_runtime": 6.0311,
-      "eval_samples_per_second": 621.278,
-      "eval_steps_per_second": 310.722,
-      "step": 100
     }
   ],
   "logging_steps": 1,
-  "max_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
-  "save_steps": 25,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -766,7 +128,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 51433046016.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.0011240059572315733,
+  "eval_steps": 3,
+  "global_step": 10,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.00011240059572315734,
       "grad_norm": NaN,
+      "learning_rate": 2e-05,
       "loss": 0.0,
       "step": 1
     },
     {
+      "epoch": 0.00011240059572315734,
       "eval_loss": NaN,
+      "eval_runtime": 18.5088,
+      "eval_samples_per_second": 202.445,
+      "eval_steps_per_second": 101.249,
       "step": 1
     },
     {
+      "epoch": 0.00022480119144631467,
       "grad_norm": NaN,
       "learning_rate": 4e-05,
       "loss": 0.0,
+      "step": 2
     },
     {
+      "epoch": 0.000337201787169472,
       "grad_norm": NaN,
       "learning_rate": 6e-05,
       "loss": 0.0,
+      "step": 3
     },
     {
+      "epoch": 0.000337201787169472,
+      "eval_loss": NaN,
+      "eval_runtime": 17.2302,
+      "eval_samples_per_second": 217.467,
+      "eval_steps_per_second": 108.762,
+      "step": 3
     },
     {
+      "epoch": 0.00044960238289262934,
       "grad_norm": NaN,
       "learning_rate": 8e-05,
       "loss": 0.0,
+      "step": 4
     },
     {
+      "epoch": 0.0005620029786157866,
       "grad_norm": NaN,
       "learning_rate": 0.0001,
       "loss": 0.0,
+      "step": 5
     },
     {
+      "epoch": 0.000674403574338944,
       "grad_norm": NaN,
+      "learning_rate": 0.00012,
       "loss": 0.0,
+      "step": 6
     },
     {
+      "epoch": 0.000674403574338944,
       "eval_loss": NaN,
+      "eval_runtime": 17.4401,
+      "eval_samples_per_second": 214.85,
+      "eval_steps_per_second": 107.453,
+      "step": 6
     },
     {
+      "epoch": 0.0007868041700621013,
       "grad_norm": NaN,
+      "learning_rate": 0.00014,
       "loss": 0.0,
+      "step": 7
     },
     {
+      "epoch": 0.0008992047657852587,
       "grad_norm": NaN,
+      "learning_rate": 0.00016,
       "loss": 0.0,
+      "step": 8
     },
     {
+      "epoch": 0.001011605361508416,
       "grad_norm": NaN,
+      "learning_rate": 0.00018,
       "loss": 0.0,
+      "step": 9
     },
     {
+      "epoch": 0.001011605361508416,
       "eval_loss": NaN,
+      "eval_runtime": 17.3807,
+      "eval_samples_per_second": 215.584,
+      "eval_steps_per_second": 107.821,
+      "step": 9
     },
     {
+      "epoch": 0.0011240059572315733,
       "grad_norm": NaN,
+      "learning_rate": 0.0002,
       "loss": 0.0,
+      "step": 10
     }
   ],
   "logging_steps": 1,
+  "max_steps": 10,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
+  "save_steps": 3,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
       "attributes": {}
     }
   },
+  "total_flos": 1392771072.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c0e6c58b0e91a062fb2c395c9030842fd543bce0abddf7bede1cdd2db06fcbe
 size 6776

 version https://git-lfs.github.com/spec/v1
+oid sha256:da8d4b8596323039091b12417dccd4a38b26dbcf81aa9432ceb95bb9b73f1251
 size 6776

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c0e6c58b0e91a062fb2c395c9030842fd543bce0abddf7bede1cdd2db06fcbe
 size 6776

 version https://git-lfs.github.com/spec/v1
+oid sha256:da8d4b8596323039091b12417dccd4a38b26dbcf81aa9432ceb95bb9b73f1251
 size 6776