andrk9 commited on Apr 17, 2024

Commit

190eb1c

verified ·

1 Parent(s): 7b7578f

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

README.md +357 -0
adapter_config.json +21 -0
adapter_model.bin +3 -0
checkpoint-290/README.md +23 -0
checkpoint-290/adapter_config.json +21 -0
checkpoint-290/adapter_model.safetensors +3 -0
checkpoint-290/optimizer.pt +3 -0
checkpoint-290/rng_state.pth +3 -0
checkpoint-290/scheduler.pt +3 -0
checkpoint-290/trainer_state.json +891 -0
checkpoint-290/training_args.bin +3 -0
checkpoint-320/README.md +23 -0
checkpoint-320/adapter_config.json +21 -0
checkpoint-320/adapter_model.safetensors +3 -0
checkpoint-320/optimizer.pt +3 -0
checkpoint-320/rng_state.pth +3 -0
checkpoint-320/scheduler.pt +3 -0
checkpoint-320/trainer_state.json +981 -0
checkpoint-320/training_args.bin +3 -0
checkpoint-330/README.md +23 -0
checkpoint-330/adapter_config.json +21 -0
checkpoint-330/adapter_model.safetensors +3 -0
checkpoint-330/optimizer.pt +3 -0
checkpoint-330/rng_state.pth +3 -0
checkpoint-330/scheduler.pt +3 -0
checkpoint-330/trainer_state.json +1011 -0
checkpoint-330/training_args.bin +3 -0
checkpoint-340/README.md +23 -0
checkpoint-340/adapter_config.json +21 -0
checkpoint-340/adapter_model.safetensors +3 -0
checkpoint-340/optimizer.pt +3 -0
checkpoint-340/rng_state.pth +3 -0
checkpoint-340/scheduler.pt +3 -0
checkpoint-340/trainer_state.json +1041 -0
checkpoint-340/training_args.bin +3 -0
checkpoint-350/README.md +23 -0
checkpoint-350/adapter_config.json +21 -0
checkpoint-350/adapter_model.safetensors +3 -0
checkpoint-350/optimizer.pt +3 -0
checkpoint-350/rng_state.pth +3 -0
checkpoint-350/scheduler.pt +3 -0
checkpoint-350/trainer_state.json +1071 -0
checkpoint-350/training_args.bin +3 -0
config.json +42 -0
logs/events.out.tfevents.1699989718.node0370.palmetto.clemson.edu.1119956.2 +3 -0
logs/events.out.tfevents.1699989813.node0370.palmetto.clemson.edu.1119956.4 +3 -0
logs/events.out.tfevents.1699994287.node0370.palmetto.clemson.edu.1126403.1 +3 -0
logs/events.out.tfevents.1699995040.node0370.palmetto.clemson.edu.1127435.1 +3 -0
logs/events.out.tfevents.1700064888.node0277.palmetto.clemson.edu.1971495.1 +3 -0
logs/events.out.tfevents.1700066157.node0277.palmetto.clemson.edu.1973537.1 +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,357 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- _load_in_8bit: False
+- _load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+- load_in_4bit: False
+- load_in_8bit: False
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- _load_in_8bit: False
+- _load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+- load_in_4bit: False
+- load_in_8bit: False
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- _load_in_8bit: False
+- _load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+- load_in_4bit: False
+- load_in_8bit: False
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- _load_in_8bit: False
+- _load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+- load_in_4bit: False
+- load_in_8bit: False
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- _load_in_8bit: False
+- _load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+- load_in_4bit: False
+- load_in_8bit: False
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- _load_in_8bit: False
+- _load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+- load_in_4bit: False
+- load_in_8bit: False
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- _load_in_8bit: False
+- _load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+- load_in_4bit: False
+- load_in_8bit: False
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- _load_in_8bit: False
+- _load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+- load_in_4bit: False
+- load_in_8bit: False
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- _load_in_8bit: False
+- _load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+- load_in_4bit: False
+- load_in_8bit: False
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- _load_in_8bit: False
+- _load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+- load_in_4bit: False
+- load_in_8bit: False
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- _load_in_8bit: False
+- _load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+- load_in_4bit: False
+- load_in_8bit: False
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- _load_in_8bit: False
+- _load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+- load_in_4bit: False
+- load_in_8bit: False
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+### Framework versions
+- PEFT 0.5.0
+- PEFT 0.5.0
+- PEFT 0.5.0
+- PEFT 0.5.0
+- PEFT 0.5.0
+- PEFT 0.5.0
+- PEFT 0.5.0
+- PEFT 0.5.0
+- PEFT 0.5.0
+- PEFT 0.5.0
+- PEFT 0.5.0
+- PEFT 0.5.0
+- PEFT 0.5.0
+- PEFT 0.5.0
+- PEFT 0.5.0
+- PEFT 0.5.0
+- PEFT 0.5.0
+- PEFT 0.5.0
+- PEFT 0.5.0
+- PEFT 0.5.0
+- PEFT 0.5.0
+- PEFT 0.5.0
+- PEFT 0.5.0
+- PEFT 0.5.0
+- PEFT 0.5.0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "meta-llama/Llama-2-70b-hf",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 32,
+  "lora_dropout": 0.05,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:120826b59370d1320fc855be8a66bc4ed0018b13167789cf4c4bdc57459bc50d
+size 65652106

checkpoint-290/README.md ADDED Viewed

	@@ -0,0 +1,23 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- _load_in_8bit: False
+- _load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+- load_in_4bit: False
+- load_in_8bit: False
+### Framework versions
+- PEFT 0.5.0

checkpoint-290/adapter_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "meta-llama/Llama-2-70b-hf",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 32,
+  "lora_dropout": 0.05,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoint-290/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:33b52e7f27a554af95df693aebd9a2193c06c2b8b5b11c5550cfcb897cec6d90
+size 65578776

checkpoint-290/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:63e609378f34d3612474ffc8b5abd122c6d145243a1294dd6cda2a1067d8e0ec
+size 131345914

checkpoint-290/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dde7e0fcf5e900fab5c1d3d8900eb1c1683390e863c7d5842d9b61d44f86a207
+size 14244

checkpoint-290/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:de03e6c88bd8caf4db5520e8793fef794ac2af1f927ce3195c6aac84b5dec25c
+size 1064

checkpoint-290/trainer_state.json ADDED Viewed

	@@ -0,0 +1,891 @@

+{
+  "best_metric": 0.9927281737327576,
+  "best_model_checkpoint": "/scratch/kwamea/llama-output/checkpoint-290",
+  "epoch": 38.666666666666664,
+  "eval_steps": 5,
+  "global_step": 290,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.67,
+      "grad_norm": 0.243179589509964,
+      "learning_rate": 9.857142857142858e-05,
+      "loss": 1.9956,
+      "step": 5
+    },
+    {
+      "epoch": 0.67,
+      "eval_loss": 1.9701930284500122,
+      "eval_runtime": 17.115,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 5
+    },
+    {
+      "epoch": 1.33,
+      "grad_norm": 0.34590908885002136,
+      "learning_rate": 9.714285714285715e-05,
+      "loss": 1.9758,
+      "step": 10
+    },
+    {
+      "epoch": 1.33,
+      "eval_loss": 1.8941271305084229,
+      "eval_runtime": 17.0912,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 10
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.31595832109451294,
+      "learning_rate": 9.571428571428573e-05,
+      "loss": 1.849,
+      "step": 15
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 1.8046789169311523,
+      "eval_runtime": 17.098,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 15
+    },
+    {
+      "epoch": 2.67,
+      "grad_norm": 0.3428090512752533,
+      "learning_rate": 9.428571428571429e-05,
+      "loss": 1.789,
+      "step": 20
+    },
+    {
+      "epoch": 2.67,
+      "eval_loss": 1.7658358812332153,
+      "eval_runtime": 17.0734,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 20
+    },
+    {
+      "epoch": 3.33,
+      "grad_norm": 0.3102028965950012,
+      "learning_rate": 9.285714285714286e-05,
+      "loss": 1.7789,
+      "step": 25
+    },
+    {
+      "epoch": 3.33,
+      "eval_loss": 1.7225048542022705,
+      "eval_runtime": 17.0972,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 25
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.38602885603904724,
+      "learning_rate": 9.142857142857143e-05,
+      "loss": 1.7003,
+      "step": 30
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 1.6749440431594849,
+      "eval_runtime": 17.1034,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 30
+    },
+    {
+      "epoch": 4.67,
+      "grad_norm": 0.37120407819747925,
+      "learning_rate": 9e-05,
+      "loss": 1.6424,
+      "step": 35
+    },
+    {
+      "epoch": 4.67,
+      "eval_loss": 1.6231099367141724,
+      "eval_runtime": 17.1067,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 35
+    },
+    {
+      "epoch": 5.33,
+      "grad_norm": 0.4633428454399109,
+      "learning_rate": 8.857142857142857e-05,
+      "loss": 1.6023,
+      "step": 40
+    },
+    {
+      "epoch": 5.33,
+      "eval_loss": 1.5727053880691528,
+      "eval_runtime": 17.1002,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 40
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.5034663081169128,
+      "learning_rate": 8.714285714285715e-05,
+      "loss": 1.5322,
+      "step": 45
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 1.5312587022781372,
+      "eval_runtime": 17.1159,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 45
+    },
+    {
+      "epoch": 6.67,
+      "grad_norm": 0.5549929141998291,
+      "learning_rate": 8.571428571428571e-05,
+      "loss": 1.4788,
+      "step": 50
+    },
+    {
+      "epoch": 6.67,
+      "eval_loss": 1.492464303970337,
+      "eval_runtime": 17.0823,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 50
+    },
+    {
+      "epoch": 7.33,
+      "grad_norm": 0.49194690585136414,
+      "learning_rate": 8.428571428571429e-05,
+      "loss": 1.4632,
+      "step": 55
+    },
+    {
+      "epoch": 7.33,
+      "eval_loss": 1.4622489213943481,
+      "eval_runtime": 17.1022,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 55
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 0.5866131782531738,
+      "learning_rate": 8.285714285714287e-05,
+      "loss": 1.3951,
+      "step": 60
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 1.435951828956604,
+      "eval_runtime": 17.1087,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 60
+    },
+    {
+      "epoch": 8.67,
+      "grad_norm": 0.6252542734146118,
+      "learning_rate": 8.142857142857143e-05,
+      "loss": 1.3796,
+      "step": 65
+    },
+    {
+      "epoch": 8.67,
+      "eval_loss": 1.413227915763855,
+      "eval_runtime": 17.0914,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 65
+    },
+    {
+      "epoch": 9.33,
+      "grad_norm": 0.6751863360404968,
+      "learning_rate": 8e-05,
+      "loss": 1.3257,
+      "step": 70
+    },
+    {
+      "epoch": 9.33,
+      "eval_loss": 1.395649790763855,
+      "eval_runtime": 17.0885,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 70
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.8878222703933716,
+      "learning_rate": 7.857142857142858e-05,
+      "loss": 1.2795,
+      "step": 75
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 1.3699487447738647,
+      "eval_runtime": 17.1031,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 75
+    },
+    {
+      "epoch": 10.67,
+      "grad_norm": 0.8470121026039124,
+      "learning_rate": 7.714285714285715e-05,
+      "loss": 1.2449,
+      "step": 80
+    },
+    {
+      "epoch": 10.67,
+      "eval_loss": 1.347831130027771,
+      "eval_runtime": 17.0985,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 80
+    },
+    {
+      "epoch": 11.33,
+      "grad_norm": 1.0655425786972046,
+      "learning_rate": 7.571428571428571e-05,
+      "loss": 1.1983,
+      "step": 85
+    },
+    {
+      "epoch": 11.33,
+      "eval_loss": 1.3311971426010132,
+      "eval_runtime": 17.0784,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 85
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 1.2651888132095337,
+      "learning_rate": 7.428571428571429e-05,
+      "loss": 1.1467,
+      "step": 90
+    },
+    {
+      "epoch": 12.0,
+      "eval_loss": 1.3095277547836304,
+      "eval_runtime": 17.0903,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 90
+    },
+    {
+      "epoch": 12.67,
+      "grad_norm": 1.248926043510437,
+      "learning_rate": 7.285714285714286e-05,
+      "loss": 1.0922,
+      "step": 95
+    },
+    {
+      "epoch": 12.67,
+      "eval_loss": 1.2942878007888794,
+      "eval_runtime": 17.0947,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 95
+    },
+    {
+      "epoch": 13.33,
+      "grad_norm": 1.896952509880066,
+      "learning_rate": 7.142857142857143e-05,
+      "loss": 1.0403,
+      "step": 100
+    },
+    {
+      "epoch": 13.33,
+      "eval_loss": 1.2803159952163696,
+      "eval_runtime": 17.0819,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 100
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 1.862244725227356,
+      "learning_rate": 7e-05,
+      "loss": 1.0049,
+      "step": 105
+    },
+    {
+      "epoch": 14.0,
+      "eval_loss": 1.2643567323684692,
+      "eval_runtime": 17.0849,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 105
+    },
+    {
+      "epoch": 14.67,
+      "grad_norm": 1.7487821578979492,
+      "learning_rate": 6.857142857142858e-05,
+      "loss": 0.9262,
+      "step": 110
+    },
+    {
+      "epoch": 14.67,
+      "eval_loss": 1.2471646070480347,
+      "eval_runtime": 17.1278,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 110
+    },
+    {
+      "epoch": 15.33,
+      "grad_norm": 1.838605284690857,
+      "learning_rate": 6.714285714285714e-05,
+      "loss": 0.8965,
+      "step": 115
+    },
+    {
+      "epoch": 15.33,
+      "eval_loss": 1.2377034425735474,
+      "eval_runtime": 17.0731,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 115
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 3.117398977279663,
+      "learning_rate": 6.571428571428571e-05,
+      "loss": 0.8581,
+      "step": 120
+    },
+    {
+      "epoch": 16.0,
+      "eval_loss": 1.2083133459091187,
+      "eval_runtime": 17.1304,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 120
+    },
+    {
+      "epoch": 16.67,
+      "grad_norm": 2.5655250549316406,
+      "learning_rate": 6.428571428571429e-05,
+      "loss": 0.7929,
+      "step": 125
+    },
+    {
+      "epoch": 16.67,
+      "eval_loss": 1.1945828199386597,
+      "eval_runtime": 17.104,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 125
+    },
+    {
+      "epoch": 17.33,
+      "grad_norm": 2.168546199798584,
+      "learning_rate": 6.285714285714286e-05,
+      "loss": 0.7543,
+      "step": 130
+    },
+    {
+      "epoch": 17.33,
+      "eval_loss": 1.1876276731491089,
+      "eval_runtime": 17.1046,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 130
+    },
+    {
+      "epoch": 18.0,
+      "grad_norm": 2.5984208583831787,
+      "learning_rate": 6.142857142857143e-05,
+      "loss": 0.716,
+      "step": 135
+    },
+    {
+      "epoch": 18.0,
+      "eval_loss": 1.1714750528335571,
+      "eval_runtime": 17.0807,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 135
+    },
+    {
+      "epoch": 18.67,
+      "grad_norm": 3.479024887084961,
+      "learning_rate": 6e-05,
+      "loss": 0.6681,
+      "step": 140
+    },
+    {
+      "epoch": 18.67,
+      "eval_loss": 1.169895052909851,
+      "eval_runtime": 17.0681,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 140
+    },
+    {
+      "epoch": 19.33,
+      "grad_norm": 2.563386917114258,
+      "learning_rate": 5.8571428571428575e-05,
+      "loss": 0.6306,
+      "step": 145
+    },
+    {
+      "epoch": 19.33,
+      "eval_loss": 1.1741083860397339,
+      "eval_runtime": 17.0568,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 145
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 2.96592116355896,
+      "learning_rate": 5.714285714285714e-05,
+      "loss": 0.6183,
+      "step": 150
+    },
+    {
+      "epoch": 20.0,
+      "eval_loss": 1.1455965042114258,
+      "eval_runtime": 17.073,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 150
+    },
+    {
+      "epoch": 20.67,
+      "grad_norm": 2.6751275062561035,
+      "learning_rate": 5.571428571428572e-05,
+      "loss": 0.5464,
+      "step": 155
+    },
+    {
+      "epoch": 20.67,
+      "eval_loss": 1.131102204322815,
+      "eval_runtime": 17.0578,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 155
+    },
+    {
+      "epoch": 21.33,
+      "grad_norm": 2.3700051307678223,
+      "learning_rate": 5.428571428571428e-05,
+      "loss": 0.551,
+      "step": 160
+    },
+    {
+      "epoch": 21.33,
+      "eval_loss": 1.127384066581726,
+      "eval_runtime": 17.0546,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 160
+    },
+    {
+      "epoch": 22.0,
+      "grad_norm": 3.3827567100524902,
+      "learning_rate": 5.285714285714286e-05,
+      "loss": 0.5179,
+      "step": 165
+    },
+    {
+      "epoch": 22.0,
+      "eval_loss": 1.111584186553955,
+      "eval_runtime": 17.0812,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 165
+    },
+    {
+      "epoch": 22.67,
+      "grad_norm": 3.55790114402771,
+      "learning_rate": 5.142857142857143e-05,
+      "loss": 0.4831,
+      "step": 170
+    },
+    {
+      "epoch": 22.67,
+      "eval_loss": 1.0948525667190552,
+      "eval_runtime": 17.0547,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 170
+    },
+    {
+      "epoch": 23.33,
+      "grad_norm": 3.0782699584960938,
+      "learning_rate": 5e-05,
+      "loss": 0.4587,
+      "step": 175
+    },
+    {
+      "epoch": 23.33,
+      "eval_loss": 1.0906586647033691,
+      "eval_runtime": 17.0666,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 175
+    },
+    {
+      "epoch": 24.0,
+      "grad_norm": 3.3993167877197266,
+      "learning_rate": 4.8571428571428576e-05,
+      "loss": 0.4203,
+      "step": 180
+    },
+    {
+      "epoch": 24.0,
+      "eval_loss": 1.0688152313232422,
+      "eval_runtime": 17.0721,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 180
+    },
+    {
+      "epoch": 24.67,
+      "grad_norm": 3.319303035736084,
+      "learning_rate": 4.714285714285714e-05,
+      "loss": 0.3975,
+      "step": 185
+    },
+    {
+      "epoch": 24.67,
+      "eval_loss": 1.0746583938598633,
+      "eval_runtime": 17.0709,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 185
+    },
+    {
+      "epoch": 25.33,
+      "grad_norm": 2.4532127380371094,
+      "learning_rate": 4.5714285714285716e-05,
+      "loss": 0.3832,
+      "step": 190
+    },
+    {
+      "epoch": 25.33,
+      "eval_loss": 1.0772522687911987,
+      "eval_runtime": 17.0619,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 190
+    },
+    {
+      "epoch": 26.0,
+      "grad_norm": 3.956822156906128,
+      "learning_rate": 4.428571428571428e-05,
+      "loss": 0.3725,
+      "step": 195
+    },
+    {
+      "epoch": 26.0,
+      "eval_loss": 1.0638784170150757,
+      "eval_runtime": 17.0807,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 195
+    },
+    {
+      "epoch": 26.67,
+      "grad_norm": 2.76033353805542,
+      "learning_rate": 4.2857142857142856e-05,
+      "loss": 0.3473,
+      "step": 200
+    },
+    {
+      "epoch": 26.67,
+      "eval_loss": 1.04669988155365,
+      "eval_runtime": 17.0774,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 200
+    },
+    {
+      "epoch": 27.33,
+      "grad_norm": 3.8683507442474365,
+      "learning_rate": 4.1428571428571437e-05,
+      "loss": 0.3243,
+      "step": 205
+    },
+    {
+      "epoch": 27.33,
+      "eval_loss": 1.0470303297042847,
+      "eval_runtime": 17.0718,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 205
+    },
+    {
+      "epoch": 28.0,
+      "grad_norm": 4.535538196563721,
+      "learning_rate": 4e-05,
+      "loss": 0.3202,
+      "step": 210
+    },
+    {
+      "epoch": 28.0,
+      "eval_loss": 1.025539517402649,
+      "eval_runtime": 17.0604,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 210
+    },
+    {
+      "epoch": 28.67,
+      "grad_norm": 2.6224355697631836,
+      "learning_rate": 3.857142857142858e-05,
+      "loss": 0.2958,
+      "step": 215
+    },
+    {
+      "epoch": 28.67,
+      "eval_loss": 1.0192126035690308,
+      "eval_runtime": 17.0657,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 215
+    },
+    {
+      "epoch": 29.33,
+      "grad_norm": 2.5870041847229004,
+      "learning_rate": 3.7142857142857143e-05,
+      "loss": 0.2783,
+      "step": 220
+    },
+    {
+      "epoch": 29.33,
+      "eval_loss": 1.0211580991744995,
+      "eval_runtime": 17.0857,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 220
+    },
+    {
+      "epoch": 30.0,
+      "grad_norm": 3.4565751552581787,
+      "learning_rate": 3.571428571428572e-05,
+      "loss": 0.2773,
+      "step": 225
+    },
+    {
+      "epoch": 30.0,
+      "eval_loss": 1.006419062614441,
+      "eval_runtime": 17.0807,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 225
+    },
+    {
+      "epoch": 30.67,
+      "grad_norm": 2.4756500720977783,
+      "learning_rate": 3.428571428571429e-05,
+      "loss": 0.2482,
+      "step": 230
+    },
+    {
+      "epoch": 30.67,
+      "eval_loss": 1.0081219673156738,
+      "eval_runtime": 17.0576,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 230
+    },
+    {
+      "epoch": 31.33,
+      "grad_norm": 2.38002610206604,
+      "learning_rate": 3.285714285714286e-05,
+      "loss": 0.2464,
+      "step": 235
+    },
+    {
+      "epoch": 31.33,
+      "eval_loss": 1.0151804685592651,
+      "eval_runtime": 17.0587,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 235
+    },
+    {
+      "epoch": 32.0,
+      "grad_norm": 3.7081105709075928,
+      "learning_rate": 3.142857142857143e-05,
+      "loss": 0.2442,
+      "step": 240
+    },
+    {
+      "epoch": 32.0,
+      "eval_loss": 1.0032445192337036,
+      "eval_runtime": 17.1613,
+      "eval_samples_per_second": 0.408,
+      "eval_steps_per_second": 0.058,
+      "step": 240
+    },
+    {
+      "epoch": 32.67,
+      "grad_norm": 2.55924391746521,
+      "learning_rate": 3e-05,
+      "loss": 0.2193,
+      "step": 245
+    },
+    {
+      "epoch": 32.67,
+      "eval_loss": 0.9989615082740784,
+      "eval_runtime": 17.0447,
+      "eval_samples_per_second": 0.411,
+      "eval_steps_per_second": 0.059,
+      "step": 245
+    },
+    {
+      "epoch": 33.33,
+      "grad_norm": 1.9451407194137573,
+      "learning_rate": 2.857142857142857e-05,
+      "loss": 0.2101,
+      "step": 250
+    },
+    {
+      "epoch": 33.33,
+      "eval_loss": 1.0029457807540894,
+      "eval_runtime": 17.0816,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 250
+    },
+    {
+      "epoch": 34.0,
+      "grad_norm": 2.713731527328491,
+      "learning_rate": 2.714285714285714e-05,
+      "loss": 0.2194,
+      "step": 255
+    },
+    {
+      "epoch": 34.0,
+      "eval_loss": 0.9959421753883362,
+      "eval_runtime": 17.0747,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 255
+    },
+    {
+      "epoch": 34.67,
+      "grad_norm": 2.1633846759796143,
+      "learning_rate": 2.5714285714285714e-05,
+      "loss": 0.1958,
+      "step": 260
+    },
+    {
+      "epoch": 34.67,
+      "eval_loss": 0.9989770650863647,
+      "eval_runtime": 17.0821,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 260
+    },
+    {
+      "epoch": 35.33,
+      "grad_norm": 3.9233529567718506,
+      "learning_rate": 2.4285714285714288e-05,
+      "loss": 0.1831,
+      "step": 265
+    },
+    {
+      "epoch": 35.33,
+      "eval_loss": 1.0072578191757202,
+      "eval_runtime": 17.0564,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 265
+    },
+    {
+      "epoch": 36.0,
+      "grad_norm": 2.4143056869506836,
+      "learning_rate": 2.2857142857142858e-05,
+      "loss": 0.1753,
+      "step": 270
+    },
+    {
+      "epoch": 36.0,
+      "eval_loss": 0.9938892722129822,
+      "eval_runtime": 17.0668,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 270
+    },
+    {
+      "epoch": 36.67,
+      "grad_norm": 2.706679582595825,
+      "learning_rate": 2.1428571428571428e-05,
+      "loss": 0.1698,
+      "step": 275
+    },
+    {
+      "epoch": 36.67,
+      "eval_loss": 0.9969200491905212,
+      "eval_runtime": 17.0643,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 275
+    },
+    {
+      "epoch": 37.33,
+      "grad_norm": 1.872753620147705,
+      "learning_rate": 2e-05,
+      "loss": 0.16,
+      "step": 280
+    },
+    {
+      "epoch": 37.33,
+      "eval_loss": 0.9940390586853027,
+      "eval_runtime": 17.0728,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 280
+    },
+    {
+      "epoch": 38.0,
+      "grad_norm": 2.7510581016540527,
+      "learning_rate": 1.8571428571428572e-05,
+      "loss": 0.1614,
+      "step": 285
+    },
+    {
+      "epoch": 38.0,
+      "eval_loss": 1.0066231489181519,
+      "eval_runtime": 17.072,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 285
+    },
+    {
+      "epoch": 38.67,
+      "grad_norm": 1.8461092710494995,
+      "learning_rate": 1.7142857142857145e-05,
+      "loss": 0.1506,
+      "step": 290
+    },
+    {
+      "epoch": 38.67,
+      "eval_loss": 0.9927281737327576,
+      "eval_runtime": 17.0481,
+      "eval_samples_per_second": 0.411,
+      "eval_steps_per_second": 0.059,
+      "step": 290
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 350,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 50,
+  "save_steps": 10,
+  "total_flos": 1.9272976816637215e+18,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-290/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1ed0ba6fb9a88dad56f61d9306f17b4e66e8767d898772faa97871a1388e82cf
+size 4920

checkpoint-320/README.md ADDED Viewed

	@@ -0,0 +1,23 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- _load_in_8bit: False
+- _load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+- load_in_4bit: False
+- load_in_8bit: False
+### Framework versions
+- PEFT 0.5.0

checkpoint-320/adapter_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "meta-llama/Llama-2-70b-hf",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 32,
+  "lora_dropout": 0.05,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoint-320/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:503d1844ac09449a9022937fd6160c557504e89ac035c55bc1efe99d8474e6f2
+size 65578776

checkpoint-320/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f932a7f6af7ecf22ed10ae5ef43e3515ce5ae8605087025bef91b87a52248bc5
+size 131345914

checkpoint-320/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:33a70333a4fc39389b0589b00a370500b36754db76577b913a7a9f856a3ef8df
+size 14244

checkpoint-320/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e41504e9cc891d7299640b1d039f4351835f3de1fa7153a1118aece45c9f2c20
+size 1064

checkpoint-320/trainer_state.json ADDED Viewed

	@@ -0,0 +1,981 @@

+{
+  "best_metric": 0.9927281737327576,
+  "best_model_checkpoint": "/scratch/kwamea/llama-output/checkpoint-290",
+  "epoch": 42.666666666666664,
+  "eval_steps": 5,
+  "global_step": 320,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.67,
+      "grad_norm": 0.243179589509964,
+      "learning_rate": 9.857142857142858e-05,
+      "loss": 1.9956,
+      "step": 5
+    },
+    {
+      "epoch": 0.67,
+      "eval_loss": 1.9701930284500122,
+      "eval_runtime": 17.115,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 5
+    },
+    {
+      "epoch": 1.33,
+      "grad_norm": 0.34590908885002136,
+      "learning_rate": 9.714285714285715e-05,
+      "loss": 1.9758,
+      "step": 10
+    },
+    {
+      "epoch": 1.33,
+      "eval_loss": 1.8941271305084229,
+      "eval_runtime": 17.0912,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 10
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.31595832109451294,
+      "learning_rate": 9.571428571428573e-05,
+      "loss": 1.849,
+      "step": 15
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 1.8046789169311523,
+      "eval_runtime": 17.098,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 15
+    },
+    {
+      "epoch": 2.67,
+      "grad_norm": 0.3428090512752533,
+      "learning_rate": 9.428571428571429e-05,
+      "loss": 1.789,
+      "step": 20
+    },
+    {
+      "epoch": 2.67,
+      "eval_loss": 1.7658358812332153,
+      "eval_runtime": 17.0734,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 20
+    },
+    {
+      "epoch": 3.33,
+      "grad_norm": 0.3102028965950012,
+      "learning_rate": 9.285714285714286e-05,
+      "loss": 1.7789,
+      "step": 25
+    },
+    {
+      "epoch": 3.33,
+      "eval_loss": 1.7225048542022705,
+      "eval_runtime": 17.0972,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 25
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.38602885603904724,
+      "learning_rate": 9.142857142857143e-05,
+      "loss": 1.7003,
+      "step": 30
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 1.6749440431594849,
+      "eval_runtime": 17.1034,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 30
+    },
+    {
+      "epoch": 4.67,
+      "grad_norm": 0.37120407819747925,
+      "learning_rate": 9e-05,
+      "loss": 1.6424,
+      "step": 35
+    },
+    {
+      "epoch": 4.67,
+      "eval_loss": 1.6231099367141724,
+      "eval_runtime": 17.1067,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 35
+    },
+    {
+      "epoch": 5.33,
+      "grad_norm": 0.4633428454399109,
+      "learning_rate": 8.857142857142857e-05,
+      "loss": 1.6023,
+      "step": 40
+    },
+    {
+      "epoch": 5.33,
+      "eval_loss": 1.5727053880691528,
+      "eval_runtime": 17.1002,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 40
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.5034663081169128,
+      "learning_rate": 8.714285714285715e-05,
+      "loss": 1.5322,
+      "step": 45
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 1.5312587022781372,
+      "eval_runtime": 17.1159,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 45
+    },
+    {
+      "epoch": 6.67,
+      "grad_norm": 0.5549929141998291,
+      "learning_rate": 8.571428571428571e-05,
+      "loss": 1.4788,
+      "step": 50
+    },
+    {
+      "epoch": 6.67,
+      "eval_loss": 1.492464303970337,
+      "eval_runtime": 17.0823,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 50
+    },
+    {
+      "epoch": 7.33,
+      "grad_norm": 0.49194690585136414,
+      "learning_rate": 8.428571428571429e-05,
+      "loss": 1.4632,
+      "step": 55
+    },
+    {
+      "epoch": 7.33,
+      "eval_loss": 1.4622489213943481,
+      "eval_runtime": 17.1022,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 55
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 0.5866131782531738,
+      "learning_rate": 8.285714285714287e-05,
+      "loss": 1.3951,
+      "step": 60
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 1.435951828956604,
+      "eval_runtime": 17.1087,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 60
+    },
+    {
+      "epoch": 8.67,
+      "grad_norm": 0.6252542734146118,
+      "learning_rate": 8.142857142857143e-05,
+      "loss": 1.3796,
+      "step": 65
+    },
+    {
+      "epoch": 8.67,
+      "eval_loss": 1.413227915763855,
+      "eval_runtime": 17.0914,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 65
+    },
+    {
+      "epoch": 9.33,
+      "grad_norm": 0.6751863360404968,
+      "learning_rate": 8e-05,
+      "loss": 1.3257,
+      "step": 70
+    },
+    {
+      "epoch": 9.33,
+      "eval_loss": 1.395649790763855,
+      "eval_runtime": 17.0885,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 70
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.8878222703933716,
+      "learning_rate": 7.857142857142858e-05,
+      "loss": 1.2795,
+      "step": 75
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 1.3699487447738647,
+      "eval_runtime": 17.1031,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 75
+    },
+    {
+      "epoch": 10.67,
+      "grad_norm": 0.8470121026039124,
+      "learning_rate": 7.714285714285715e-05,
+      "loss": 1.2449,
+      "step": 80
+    },
+    {
+      "epoch": 10.67,
+      "eval_loss": 1.347831130027771,
+      "eval_runtime": 17.0985,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 80
+    },
+    {
+      "epoch": 11.33,
+      "grad_norm": 1.0655425786972046,
+      "learning_rate": 7.571428571428571e-05,
+      "loss": 1.1983,
+      "step": 85
+    },
+    {
+      "epoch": 11.33,
+      "eval_loss": 1.3311971426010132,
+      "eval_runtime": 17.0784,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 85
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 1.2651888132095337,
+      "learning_rate": 7.428571428571429e-05,
+      "loss": 1.1467,
+      "step": 90
+    },
+    {
+      "epoch": 12.0,
+      "eval_loss": 1.3095277547836304,
+      "eval_runtime": 17.0903,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 90
+    },
+    {
+      "epoch": 12.67,
+      "grad_norm": 1.248926043510437,
+      "learning_rate": 7.285714285714286e-05,
+      "loss": 1.0922,
+      "step": 95
+    },
+    {
+      "epoch": 12.67,
+      "eval_loss": 1.2942878007888794,
+      "eval_runtime": 17.0947,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 95
+    },
+    {
+      "epoch": 13.33,
+      "grad_norm": 1.896952509880066,
+      "learning_rate": 7.142857142857143e-05,
+      "loss": 1.0403,
+      "step": 100
+    },
+    {
+      "epoch": 13.33,
+      "eval_loss": 1.2803159952163696,
+      "eval_runtime": 17.0819,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 100
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 1.862244725227356,
+      "learning_rate": 7e-05,
+      "loss": 1.0049,
+      "step": 105
+    },
+    {
+      "epoch": 14.0,
+      "eval_loss": 1.2643567323684692,
+      "eval_runtime": 17.0849,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 105
+    },
+    {
+      "epoch": 14.67,
+      "grad_norm": 1.7487821578979492,
+      "learning_rate": 6.857142857142858e-05,
+      "loss": 0.9262,
+      "step": 110
+    },
+    {
+      "epoch": 14.67,
+      "eval_loss": 1.2471646070480347,
+      "eval_runtime": 17.1278,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 110
+    },
+    {
+      "epoch": 15.33,
+      "grad_norm": 1.838605284690857,
+      "learning_rate": 6.714285714285714e-05,
+      "loss": 0.8965,
+      "step": 115
+    },
+    {
+      "epoch": 15.33,
+      "eval_loss": 1.2377034425735474,
+      "eval_runtime": 17.0731,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 115
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 3.117398977279663,
+      "learning_rate": 6.571428571428571e-05,
+      "loss": 0.8581,
+      "step": 120
+    },
+    {
+      "epoch": 16.0,
+      "eval_loss": 1.2083133459091187,
+      "eval_runtime": 17.1304,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 120
+    },
+    {
+      "epoch": 16.67,
+      "grad_norm": 2.5655250549316406,
+      "learning_rate": 6.428571428571429e-05,
+      "loss": 0.7929,
+      "step": 125
+    },
+    {
+      "epoch": 16.67,
+      "eval_loss": 1.1945828199386597,
+      "eval_runtime": 17.104,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 125
+    },
+    {
+      "epoch": 17.33,
+      "grad_norm": 2.168546199798584,
+      "learning_rate": 6.285714285714286e-05,
+      "loss": 0.7543,
+      "step": 130
+    },
+    {
+      "epoch": 17.33,
+      "eval_loss": 1.1876276731491089,
+      "eval_runtime": 17.1046,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 130
+    },
+    {
+      "epoch": 18.0,
+      "grad_norm": 2.5984208583831787,
+      "learning_rate": 6.142857142857143e-05,
+      "loss": 0.716,
+      "step": 135
+    },
+    {
+      "epoch": 18.0,
+      "eval_loss": 1.1714750528335571,
+      "eval_runtime": 17.0807,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 135
+    },
+    {
+      "epoch": 18.67,
+      "grad_norm": 3.479024887084961,
+      "learning_rate": 6e-05,
+      "loss": 0.6681,
+      "step": 140
+    },
+    {
+      "epoch": 18.67,
+      "eval_loss": 1.169895052909851,
+      "eval_runtime": 17.0681,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 140
+    },
+    {
+      "epoch": 19.33,
+      "grad_norm": 2.563386917114258,
+      "learning_rate": 5.8571428571428575e-05,
+      "loss": 0.6306,
+      "step": 145
+    },
+    {
+      "epoch": 19.33,
+      "eval_loss": 1.1741083860397339,
+      "eval_runtime": 17.0568,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 145
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 2.96592116355896,
+      "learning_rate": 5.714285714285714e-05,
+      "loss": 0.6183,
+      "step": 150
+    },
+    {
+      "epoch": 20.0,
+      "eval_loss": 1.1455965042114258,
+      "eval_runtime": 17.073,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 150
+    },
+    {
+      "epoch": 20.67,
+      "grad_norm": 2.6751275062561035,
+      "learning_rate": 5.571428571428572e-05,
+      "loss": 0.5464,
+      "step": 155
+    },
+    {
+      "epoch": 20.67,
+      "eval_loss": 1.131102204322815,
+      "eval_runtime": 17.0578,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 155
+    },
+    {
+      "epoch": 21.33,
+      "grad_norm": 2.3700051307678223,
+      "learning_rate": 5.428571428571428e-05,
+      "loss": 0.551,
+      "step": 160
+    },
+    {
+      "epoch": 21.33,
+      "eval_loss": 1.127384066581726,
+      "eval_runtime": 17.0546,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 160
+    },
+    {
+      "epoch": 22.0,
+      "grad_norm": 3.3827567100524902,
+      "learning_rate": 5.285714285714286e-05,
+      "loss": 0.5179,
+      "step": 165
+    },
+    {
+      "epoch": 22.0,
+      "eval_loss": 1.111584186553955,
+      "eval_runtime": 17.0812,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 165
+    },
+    {
+      "epoch": 22.67,
+      "grad_norm": 3.55790114402771,
+      "learning_rate": 5.142857142857143e-05,
+      "loss": 0.4831,
+      "step": 170
+    },
+    {
+      "epoch": 22.67,
+      "eval_loss": 1.0948525667190552,
+      "eval_runtime": 17.0547,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 170
+    },
+    {
+      "epoch": 23.33,
+      "grad_norm": 3.0782699584960938,
+      "learning_rate": 5e-05,
+      "loss": 0.4587,
+      "step": 175
+    },
+    {
+      "epoch": 23.33,
+      "eval_loss": 1.0906586647033691,
+      "eval_runtime": 17.0666,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 175
+    },
+    {
+      "epoch": 24.0,
+      "grad_norm": 3.3993167877197266,
+      "learning_rate": 4.8571428571428576e-05,
+      "loss": 0.4203,
+      "step": 180
+    },
+    {
+      "epoch": 24.0,
+      "eval_loss": 1.0688152313232422,
+      "eval_runtime": 17.0721,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 180
+    },
+    {
+      "epoch": 24.67,
+      "grad_norm": 3.319303035736084,
+      "learning_rate": 4.714285714285714e-05,
+      "loss": 0.3975,
+      "step": 185
+    },
+    {
+      "epoch": 24.67,
+      "eval_loss": 1.0746583938598633,
+      "eval_runtime": 17.0709,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 185
+    },
+    {
+      "epoch": 25.33,
+      "grad_norm": 2.4532127380371094,
+      "learning_rate": 4.5714285714285716e-05,
+      "loss": 0.3832,
+      "step": 190
+    },
+    {
+      "epoch": 25.33,
+      "eval_loss": 1.0772522687911987,
+      "eval_runtime": 17.0619,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 190
+    },
+    {
+      "epoch": 26.0,
+      "grad_norm": 3.956822156906128,
+      "learning_rate": 4.428571428571428e-05,
+      "loss": 0.3725,
+      "step": 195
+    },
+    {
+      "epoch": 26.0,
+      "eval_loss": 1.0638784170150757,
+      "eval_runtime": 17.0807,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 195
+    },
+    {
+      "epoch": 26.67,
+      "grad_norm": 2.76033353805542,
+      "learning_rate": 4.2857142857142856e-05,
+      "loss": 0.3473,
+      "step": 200
+    },
+    {
+      "epoch": 26.67,
+      "eval_loss": 1.04669988155365,
+      "eval_runtime": 17.0774,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 200
+    },
+    {
+      "epoch": 27.33,
+      "grad_norm": 3.8683507442474365,
+      "learning_rate": 4.1428571428571437e-05,
+      "loss": 0.3243,
+      "step": 205
+    },
+    {
+      "epoch": 27.33,
+      "eval_loss": 1.0470303297042847,
+      "eval_runtime": 17.0718,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 205
+    },
+    {
+      "epoch": 28.0,
+      "grad_norm": 4.535538196563721,
+      "learning_rate": 4e-05,
+      "loss": 0.3202,
+      "step": 210
+    },
+    {
+      "epoch": 28.0,
+      "eval_loss": 1.025539517402649,
+      "eval_runtime": 17.0604,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 210
+    },
+    {
+      "epoch": 28.67,
+      "grad_norm": 2.6224355697631836,
+      "learning_rate": 3.857142857142858e-05,
+      "loss": 0.2958,
+      "step": 215
+    },
+    {
+      "epoch": 28.67,
+      "eval_loss": 1.0192126035690308,
+      "eval_runtime": 17.0657,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 215
+    },
+    {
+      "epoch": 29.33,
+      "grad_norm": 2.5870041847229004,
+      "learning_rate": 3.7142857142857143e-05,
+      "loss": 0.2783,
+      "step": 220
+    },
+    {
+      "epoch": 29.33,
+      "eval_loss": 1.0211580991744995,
+      "eval_runtime": 17.0857,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 220
+    },
+    {
+      "epoch": 30.0,
+      "grad_norm": 3.4565751552581787,
+      "learning_rate": 3.571428571428572e-05,
+      "loss": 0.2773,
+      "step": 225
+    },
+    {
+      "epoch": 30.0,
+      "eval_loss": 1.006419062614441,
+      "eval_runtime": 17.0807,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 225
+    },
+    {
+      "epoch": 30.67,
+      "grad_norm": 2.4756500720977783,
+      "learning_rate": 3.428571428571429e-05,
+      "loss": 0.2482,
+      "step": 230
+    },
+    {
+      "epoch": 30.67,
+      "eval_loss": 1.0081219673156738,
+      "eval_runtime": 17.0576,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 230
+    },
+    {
+      "epoch": 31.33,
+      "grad_norm": 2.38002610206604,
+      "learning_rate": 3.285714285714286e-05,
+      "loss": 0.2464,
+      "step": 235
+    },
+    {
+      "epoch": 31.33,
+      "eval_loss": 1.0151804685592651,
+      "eval_runtime": 17.0587,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 235
+    },
+    {
+      "epoch": 32.0,
+      "grad_norm": 3.7081105709075928,
+      "learning_rate": 3.142857142857143e-05,
+      "loss": 0.2442,
+      "step": 240
+    },
+    {
+      "epoch": 32.0,
+      "eval_loss": 1.0032445192337036,
+      "eval_runtime": 17.1613,
+      "eval_samples_per_second": 0.408,
+      "eval_steps_per_second": 0.058,
+      "step": 240
+    },
+    {
+      "epoch": 32.67,
+      "grad_norm": 2.55924391746521,
+      "learning_rate": 3e-05,
+      "loss": 0.2193,
+      "step": 245
+    },
+    {
+      "epoch": 32.67,
+      "eval_loss": 0.9989615082740784,
+      "eval_runtime": 17.0447,
+      "eval_samples_per_second": 0.411,
+      "eval_steps_per_second": 0.059,
+      "step": 245
+    },
+    {
+      "epoch": 33.33,
+      "grad_norm": 1.9451407194137573,
+      "learning_rate": 2.857142857142857e-05,
+      "loss": 0.2101,
+      "step": 250
+    },
+    {
+      "epoch": 33.33,
+      "eval_loss": 1.0029457807540894,
+      "eval_runtime": 17.0816,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 250
+    },
+    {
+      "epoch": 34.0,
+      "grad_norm": 2.713731527328491,
+      "learning_rate": 2.714285714285714e-05,
+      "loss": 0.2194,
+      "step": 255
+    },
+    {
+      "epoch": 34.0,
+      "eval_loss": 0.9959421753883362,
+      "eval_runtime": 17.0747,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 255
+    },
+    {
+      "epoch": 34.67,
+      "grad_norm": 2.1633846759796143,
+      "learning_rate": 2.5714285714285714e-05,
+      "loss": 0.1958,
+      "step": 260
+    },
+    {
+      "epoch": 34.67,
+      "eval_loss": 0.9989770650863647,
+      "eval_runtime": 17.0821,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 260
+    },
+    {
+      "epoch": 35.33,
+      "grad_norm": 3.9233529567718506,
+      "learning_rate": 2.4285714285714288e-05,
+      "loss": 0.1831,
+      "step": 265
+    },
+    {
+      "epoch": 35.33,
+      "eval_loss": 1.0072578191757202,
+      "eval_runtime": 17.0564,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 265
+    },
+    {
+      "epoch": 36.0,
+      "grad_norm": 2.4143056869506836,
+      "learning_rate": 2.2857142857142858e-05,
+      "loss": 0.1753,
+      "step": 270
+    },
+    {
+      "epoch": 36.0,
+      "eval_loss": 0.9938892722129822,
+      "eval_runtime": 17.0668,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 270
+    },
+    {
+      "epoch": 36.67,
+      "grad_norm": 2.706679582595825,
+      "learning_rate": 2.1428571428571428e-05,
+      "loss": 0.1698,
+      "step": 275
+    },
+    {
+      "epoch": 36.67,
+      "eval_loss": 0.9969200491905212,
+      "eval_runtime": 17.0643,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 275
+    },
+    {
+      "epoch": 37.33,
+      "grad_norm": 1.872753620147705,
+      "learning_rate": 2e-05,
+      "loss": 0.16,
+      "step": 280
+    },
+    {
+      "epoch": 37.33,
+      "eval_loss": 0.9940390586853027,
+      "eval_runtime": 17.0728,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 280
+    },
+    {
+      "epoch": 38.0,
+      "grad_norm": 2.7510581016540527,
+      "learning_rate": 1.8571428571428572e-05,
+      "loss": 0.1614,
+      "step": 285
+    },
+    {
+      "epoch": 38.0,
+      "eval_loss": 1.0066231489181519,
+      "eval_runtime": 17.072,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 285
+    },
+    {
+      "epoch": 38.67,
+      "grad_norm": 1.8461092710494995,
+      "learning_rate": 1.7142857142857145e-05,
+      "loss": 0.1506,
+      "step": 290
+    },
+    {
+      "epoch": 38.67,
+      "eval_loss": 0.9927281737327576,
+      "eval_runtime": 17.0481,
+      "eval_samples_per_second": 0.411,
+      "eval_steps_per_second": 0.059,
+      "step": 290
+    },
+    {
+      "epoch": 39.33,
+      "grad_norm": 1.8425017595291138,
+      "learning_rate": 1.5714285714285715e-05,
+      "loss": 0.1419,
+      "step": 295
+    },
+    {
+      "epoch": 39.33,
+      "eval_loss": 1.0133570432662964,
+      "eval_runtime": 17.0642,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 295
+    },
+    {
+      "epoch": 40.0,
+      "grad_norm": 2.0457987785339355,
+      "learning_rate": 1.4285714285714285e-05,
+      "loss": 0.1459,
+      "step": 300
+    },
+    {
+      "epoch": 40.0,
+      "eval_loss": 1.0127934217453003,
+      "eval_runtime": 17.0581,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 300
+    },
+    {
+      "epoch": 40.67,
+      "grad_norm": 1.5630775690078735,
+      "learning_rate": 1.2857142857142857e-05,
+      "loss": 0.1225,
+      "step": 305
+    },
+    {
+      "epoch": 40.67,
+      "eval_loss": 1.0092624425888062,
+      "eval_runtime": 17.0483,
+      "eval_samples_per_second": 0.411,
+      "eval_steps_per_second": 0.059,
+      "step": 305
+    },
+    {
+      "epoch": 41.33,
+      "grad_norm": 1.37598717212677,
+      "learning_rate": 1.1428571428571429e-05,
+      "loss": 0.146,
+      "step": 310
+    },
+    {
+      "epoch": 41.33,
+      "eval_loss": 1.0083317756652832,
+      "eval_runtime": 17.0804,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 310
+    },
+    {
+      "epoch": 42.0,
+      "grad_norm": 1.8867217302322388,
+      "learning_rate": 1e-05,
+      "loss": 0.13,
+      "step": 315
+    },
+    {
+      "epoch": 42.0,
+      "eval_loss": 1.0165104866027832,
+      "eval_runtime": 17.0621,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 315
+    },
+    {
+      "epoch": 42.67,
+      "grad_norm": 1.4643555879592896,
+      "learning_rate": 8.571428571428573e-06,
+      "loss": 0.131,
+      "step": 320
+    },
+    {
+      "epoch": 42.67,
+      "eval_loss": 1.0264887809753418,
+      "eval_runtime": 17.0554,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 320
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 350,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 50,
+  "save_steps": 10,
+  "total_flos": 2.1266150580320993e+18,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-320/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1ed0ba6fb9a88dad56f61d9306f17b4e66e8767d898772faa97871a1388e82cf
+size 4920

checkpoint-330/README.md ADDED Viewed

	@@ -0,0 +1,23 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- _load_in_8bit: False
+- _load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+- load_in_4bit: False
+- load_in_8bit: False
+### Framework versions
+- PEFT 0.5.0

checkpoint-330/adapter_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "meta-llama/Llama-2-70b-hf",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 32,
+  "lora_dropout": 0.05,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoint-330/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5505e257fa18af21b6af22ca968df21297c4fb92614c82743718e81cf858cf9c
+size 65578776

checkpoint-330/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8098efa09a64b1fcc8326dd62e171a71ab1c0f95e20015654d914ad8fbfb5880
+size 131345914

checkpoint-330/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:42b24e02a21b68f4542793debee790ccdfacee8b8c9cad8a58a3c5770a53b720
+size 14244

checkpoint-330/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aa7302be973ca42b6ea8fae42686b6439278ad5d7647a75f6503a767b9e0f09c
+size 1064

checkpoint-330/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1011 @@

+{
+  "best_metric": 0.9927281737327576,
+  "best_model_checkpoint": "/scratch/kwamea/llama-output/checkpoint-290",
+  "epoch": 44.0,
+  "eval_steps": 5,
+  "global_step": 330,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.67,
+      "grad_norm": 0.243179589509964,
+      "learning_rate": 9.857142857142858e-05,
+      "loss": 1.9956,
+      "step": 5
+    },
+    {
+      "epoch": 0.67,
+      "eval_loss": 1.9701930284500122,
+      "eval_runtime": 17.115,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 5
+    },
+    {
+      "epoch": 1.33,
+      "grad_norm": 0.34590908885002136,
+      "learning_rate": 9.714285714285715e-05,
+      "loss": 1.9758,
+      "step": 10
+    },
+    {
+      "epoch": 1.33,
+      "eval_loss": 1.8941271305084229,
+      "eval_runtime": 17.0912,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 10
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.31595832109451294,
+      "learning_rate": 9.571428571428573e-05,
+      "loss": 1.849,
+      "step": 15
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 1.8046789169311523,
+      "eval_runtime": 17.098,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 15
+    },
+    {
+      "epoch": 2.67,
+      "grad_norm": 0.3428090512752533,
+      "learning_rate": 9.428571428571429e-05,
+      "loss": 1.789,
+      "step": 20
+    },
+    {
+      "epoch": 2.67,
+      "eval_loss": 1.7658358812332153,
+      "eval_runtime": 17.0734,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 20
+    },
+    {
+      "epoch": 3.33,
+      "grad_norm": 0.3102028965950012,
+      "learning_rate": 9.285714285714286e-05,
+      "loss": 1.7789,
+      "step": 25
+    },
+    {
+      "epoch": 3.33,
+      "eval_loss": 1.7225048542022705,
+      "eval_runtime": 17.0972,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 25
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.38602885603904724,
+      "learning_rate": 9.142857142857143e-05,
+      "loss": 1.7003,
+      "step": 30
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 1.6749440431594849,
+      "eval_runtime": 17.1034,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 30
+    },
+    {
+      "epoch": 4.67,
+      "grad_norm": 0.37120407819747925,
+      "learning_rate": 9e-05,
+      "loss": 1.6424,
+      "step": 35
+    },
+    {
+      "epoch": 4.67,
+      "eval_loss": 1.6231099367141724,
+      "eval_runtime": 17.1067,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 35
+    },
+    {
+      "epoch": 5.33,
+      "grad_norm": 0.4633428454399109,
+      "learning_rate": 8.857142857142857e-05,
+      "loss": 1.6023,
+      "step": 40
+    },
+    {
+      "epoch": 5.33,
+      "eval_loss": 1.5727053880691528,
+      "eval_runtime": 17.1002,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 40
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.5034663081169128,
+      "learning_rate": 8.714285714285715e-05,
+      "loss": 1.5322,
+      "step": 45
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 1.5312587022781372,
+      "eval_runtime": 17.1159,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 45
+    },
+    {
+      "epoch": 6.67,
+      "grad_norm": 0.5549929141998291,
+      "learning_rate": 8.571428571428571e-05,
+      "loss": 1.4788,
+      "step": 50
+    },
+    {
+      "epoch": 6.67,
+      "eval_loss": 1.492464303970337,
+      "eval_runtime": 17.0823,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 50
+    },
+    {
+      "epoch": 7.33,
+      "grad_norm": 0.49194690585136414,
+      "learning_rate": 8.428571428571429e-05,
+      "loss": 1.4632,
+      "step": 55
+    },
+    {
+      "epoch": 7.33,
+      "eval_loss": 1.4622489213943481,
+      "eval_runtime": 17.1022,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 55
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 0.5866131782531738,
+      "learning_rate": 8.285714285714287e-05,
+      "loss": 1.3951,
+      "step": 60
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 1.435951828956604,
+      "eval_runtime": 17.1087,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 60
+    },
+    {
+      "epoch": 8.67,
+      "grad_norm": 0.6252542734146118,
+      "learning_rate": 8.142857142857143e-05,
+      "loss": 1.3796,
+      "step": 65
+    },
+    {
+      "epoch": 8.67,
+      "eval_loss": 1.413227915763855,
+      "eval_runtime": 17.0914,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 65
+    },
+    {
+      "epoch": 9.33,
+      "grad_norm": 0.6751863360404968,
+      "learning_rate": 8e-05,
+      "loss": 1.3257,
+      "step": 70
+    },
+    {
+      "epoch": 9.33,
+      "eval_loss": 1.395649790763855,
+      "eval_runtime": 17.0885,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 70
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.8878222703933716,
+      "learning_rate": 7.857142857142858e-05,
+      "loss": 1.2795,
+      "step": 75
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 1.3699487447738647,
+      "eval_runtime": 17.1031,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 75
+    },
+    {
+      "epoch": 10.67,
+      "grad_norm": 0.8470121026039124,
+      "learning_rate": 7.714285714285715e-05,
+      "loss": 1.2449,
+      "step": 80
+    },
+    {
+      "epoch": 10.67,
+      "eval_loss": 1.347831130027771,
+      "eval_runtime": 17.0985,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 80
+    },
+    {
+      "epoch": 11.33,
+      "grad_norm": 1.0655425786972046,
+      "learning_rate": 7.571428571428571e-05,
+      "loss": 1.1983,
+      "step": 85
+    },
+    {
+      "epoch": 11.33,
+      "eval_loss": 1.3311971426010132,
+      "eval_runtime": 17.0784,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 85
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 1.2651888132095337,
+      "learning_rate": 7.428571428571429e-05,
+      "loss": 1.1467,
+      "step": 90
+    },
+    {
+      "epoch": 12.0,
+      "eval_loss": 1.3095277547836304,
+      "eval_runtime": 17.0903,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 90
+    },
+    {
+      "epoch": 12.67,
+      "grad_norm": 1.248926043510437,
+      "learning_rate": 7.285714285714286e-05,
+      "loss": 1.0922,
+      "step": 95
+    },
+    {
+      "epoch": 12.67,
+      "eval_loss": 1.2942878007888794,
+      "eval_runtime": 17.0947,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 95
+    },
+    {
+      "epoch": 13.33,
+      "grad_norm": 1.896952509880066,
+      "learning_rate": 7.142857142857143e-05,
+      "loss": 1.0403,
+      "step": 100
+    },
+    {
+      "epoch": 13.33,
+      "eval_loss": 1.2803159952163696,
+      "eval_runtime": 17.0819,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 100
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 1.862244725227356,
+      "learning_rate": 7e-05,
+      "loss": 1.0049,
+      "step": 105
+    },
+    {
+      "epoch": 14.0,
+      "eval_loss": 1.2643567323684692,
+      "eval_runtime": 17.0849,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 105
+    },
+    {
+      "epoch": 14.67,
+      "grad_norm": 1.7487821578979492,
+      "learning_rate": 6.857142857142858e-05,
+      "loss": 0.9262,
+      "step": 110
+    },
+    {
+      "epoch": 14.67,
+      "eval_loss": 1.2471646070480347,
+      "eval_runtime": 17.1278,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 110
+    },
+    {
+      "epoch": 15.33,
+      "grad_norm": 1.838605284690857,
+      "learning_rate": 6.714285714285714e-05,
+      "loss": 0.8965,
+      "step": 115
+    },
+    {
+      "epoch": 15.33,
+      "eval_loss": 1.2377034425735474,
+      "eval_runtime": 17.0731,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 115
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 3.117398977279663,
+      "learning_rate": 6.571428571428571e-05,
+      "loss": 0.8581,
+      "step": 120
+    },
+    {
+      "epoch": 16.0,
+      "eval_loss": 1.2083133459091187,
+      "eval_runtime": 17.1304,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 120
+    },
+    {
+      "epoch": 16.67,
+      "grad_norm": 2.5655250549316406,
+      "learning_rate": 6.428571428571429e-05,
+      "loss": 0.7929,
+      "step": 125
+    },
+    {
+      "epoch": 16.67,
+      "eval_loss": 1.1945828199386597,
+      "eval_runtime": 17.104,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 125
+    },
+    {
+      "epoch": 17.33,
+      "grad_norm": 2.168546199798584,
+      "learning_rate": 6.285714285714286e-05,
+      "loss": 0.7543,
+      "step": 130
+    },
+    {
+      "epoch": 17.33,
+      "eval_loss": 1.1876276731491089,
+      "eval_runtime": 17.1046,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 130
+    },
+    {
+      "epoch": 18.0,
+      "grad_norm": 2.5984208583831787,
+      "learning_rate": 6.142857142857143e-05,
+      "loss": 0.716,
+      "step": 135
+    },
+    {
+      "epoch": 18.0,
+      "eval_loss": 1.1714750528335571,
+      "eval_runtime": 17.0807,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 135
+    },
+    {
+      "epoch": 18.67,
+      "grad_norm": 3.479024887084961,
+      "learning_rate": 6e-05,
+      "loss": 0.6681,
+      "step": 140
+    },
+    {
+      "epoch": 18.67,
+      "eval_loss": 1.169895052909851,
+      "eval_runtime": 17.0681,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 140
+    },
+    {
+      "epoch": 19.33,
+      "grad_norm": 2.563386917114258,
+      "learning_rate": 5.8571428571428575e-05,
+      "loss": 0.6306,
+      "step": 145
+    },
+    {
+      "epoch": 19.33,
+      "eval_loss": 1.1741083860397339,
+      "eval_runtime": 17.0568,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 145
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 2.96592116355896,
+      "learning_rate": 5.714285714285714e-05,
+      "loss": 0.6183,
+      "step": 150
+    },
+    {
+      "epoch": 20.0,
+      "eval_loss": 1.1455965042114258,
+      "eval_runtime": 17.073,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 150
+    },
+    {
+      "epoch": 20.67,
+      "grad_norm": 2.6751275062561035,
+      "learning_rate": 5.571428571428572e-05,
+      "loss": 0.5464,
+      "step": 155
+    },
+    {
+      "epoch": 20.67,
+      "eval_loss": 1.131102204322815,
+      "eval_runtime": 17.0578,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 155
+    },
+    {
+      "epoch": 21.33,
+      "grad_norm": 2.3700051307678223,
+      "learning_rate": 5.428571428571428e-05,
+      "loss": 0.551,
+      "step": 160
+    },
+    {
+      "epoch": 21.33,
+      "eval_loss": 1.127384066581726,
+      "eval_runtime": 17.0546,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 160
+    },
+    {
+      "epoch": 22.0,
+      "grad_norm": 3.3827567100524902,
+      "learning_rate": 5.285714285714286e-05,
+      "loss": 0.5179,
+      "step": 165
+    },
+    {
+      "epoch": 22.0,
+      "eval_loss": 1.111584186553955,
+      "eval_runtime": 17.0812,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 165
+    },
+    {
+      "epoch": 22.67,
+      "grad_norm": 3.55790114402771,
+      "learning_rate": 5.142857142857143e-05,
+      "loss": 0.4831,
+      "step": 170
+    },
+    {
+      "epoch": 22.67,
+      "eval_loss": 1.0948525667190552,
+      "eval_runtime": 17.0547,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 170
+    },
+    {
+      "epoch": 23.33,
+      "grad_norm": 3.0782699584960938,
+      "learning_rate": 5e-05,
+      "loss": 0.4587,
+      "step": 175
+    },
+    {
+      "epoch": 23.33,
+      "eval_loss": 1.0906586647033691,
+      "eval_runtime": 17.0666,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 175
+    },
+    {
+      "epoch": 24.0,
+      "grad_norm": 3.3993167877197266,
+      "learning_rate": 4.8571428571428576e-05,
+      "loss": 0.4203,
+      "step": 180
+    },
+    {
+      "epoch": 24.0,
+      "eval_loss": 1.0688152313232422,
+      "eval_runtime": 17.0721,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 180
+    },
+    {
+      "epoch": 24.67,
+      "grad_norm": 3.319303035736084,
+      "learning_rate": 4.714285714285714e-05,
+      "loss": 0.3975,
+      "step": 185
+    },
+    {
+      "epoch": 24.67,
+      "eval_loss": 1.0746583938598633,
+      "eval_runtime": 17.0709,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 185
+    },
+    {
+      "epoch": 25.33,
+      "grad_norm": 2.4532127380371094,
+      "learning_rate": 4.5714285714285716e-05,
+      "loss": 0.3832,
+      "step": 190
+    },
+    {
+      "epoch": 25.33,
+      "eval_loss": 1.0772522687911987,
+      "eval_runtime": 17.0619,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 190
+    },
+    {
+      "epoch": 26.0,
+      "grad_norm": 3.956822156906128,
+      "learning_rate": 4.428571428571428e-05,
+      "loss": 0.3725,
+      "step": 195
+    },
+    {
+      "epoch": 26.0,
+      "eval_loss": 1.0638784170150757,
+      "eval_runtime": 17.0807,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 195
+    },
+    {
+      "epoch": 26.67,
+      "grad_norm": 2.76033353805542,
+      "learning_rate": 4.2857142857142856e-05,
+      "loss": 0.3473,
+      "step": 200
+    },
+    {
+      "epoch": 26.67,
+      "eval_loss": 1.04669988155365,
+      "eval_runtime": 17.0774,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 200
+    },
+    {
+      "epoch": 27.33,
+      "grad_norm": 3.8683507442474365,
+      "learning_rate": 4.1428571428571437e-05,
+      "loss": 0.3243,
+      "step": 205
+    },
+    {
+      "epoch": 27.33,
+      "eval_loss": 1.0470303297042847,
+      "eval_runtime": 17.0718,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 205
+    },
+    {
+      "epoch": 28.0,
+      "grad_norm": 4.535538196563721,
+      "learning_rate": 4e-05,
+      "loss": 0.3202,
+      "step": 210
+    },
+    {
+      "epoch": 28.0,
+      "eval_loss": 1.025539517402649,
+      "eval_runtime": 17.0604,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 210
+    },
+    {
+      "epoch": 28.67,
+      "grad_norm": 2.6224355697631836,
+      "learning_rate": 3.857142857142858e-05,
+      "loss": 0.2958,
+      "step": 215
+    },
+    {
+      "epoch": 28.67,
+      "eval_loss": 1.0192126035690308,
+      "eval_runtime": 17.0657,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 215
+    },
+    {
+      "epoch": 29.33,
+      "grad_norm": 2.5870041847229004,
+      "learning_rate": 3.7142857142857143e-05,
+      "loss": 0.2783,
+      "step": 220
+    },
+    {
+      "epoch": 29.33,
+      "eval_loss": 1.0211580991744995,
+      "eval_runtime": 17.0857,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 220
+    },
+    {
+      "epoch": 30.0,
+      "grad_norm": 3.4565751552581787,
+      "learning_rate": 3.571428571428572e-05,
+      "loss": 0.2773,
+      "step": 225
+    },
+    {
+      "epoch": 30.0,
+      "eval_loss": 1.006419062614441,
+      "eval_runtime": 17.0807,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 225
+    },
+    {
+      "epoch": 30.67,
+      "grad_norm": 2.4756500720977783,
+      "learning_rate": 3.428571428571429e-05,
+      "loss": 0.2482,
+      "step": 230
+    },
+    {
+      "epoch": 30.67,
+      "eval_loss": 1.0081219673156738,
+      "eval_runtime": 17.0576,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 230
+    },
+    {
+      "epoch": 31.33,
+      "grad_norm": 2.38002610206604,
+      "learning_rate": 3.285714285714286e-05,
+      "loss": 0.2464,
+      "step": 235
+    },
+    {
+      "epoch": 31.33,
+      "eval_loss": 1.0151804685592651,
+      "eval_runtime": 17.0587,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 235
+    },
+    {
+      "epoch": 32.0,
+      "grad_norm": 3.7081105709075928,
+      "learning_rate": 3.142857142857143e-05,
+      "loss": 0.2442,
+      "step": 240
+    },
+    {
+      "epoch": 32.0,
+      "eval_loss": 1.0032445192337036,
+      "eval_runtime": 17.1613,
+      "eval_samples_per_second": 0.408,
+      "eval_steps_per_second": 0.058,
+      "step": 240
+    },
+    {
+      "epoch": 32.67,
+      "grad_norm": 2.55924391746521,
+      "learning_rate": 3e-05,
+      "loss": 0.2193,
+      "step": 245
+    },
+    {
+      "epoch": 32.67,
+      "eval_loss": 0.9989615082740784,
+      "eval_runtime": 17.0447,
+      "eval_samples_per_second": 0.411,
+      "eval_steps_per_second": 0.059,
+      "step": 245
+    },
+    {
+      "epoch": 33.33,
+      "grad_norm": 1.9451407194137573,
+      "learning_rate": 2.857142857142857e-05,
+      "loss": 0.2101,
+      "step": 250
+    },
+    {
+      "epoch": 33.33,
+      "eval_loss": 1.0029457807540894,
+      "eval_runtime": 17.0816,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 250
+    },
+    {
+      "epoch": 34.0,
+      "grad_norm": 2.713731527328491,
+      "learning_rate": 2.714285714285714e-05,
+      "loss": 0.2194,
+      "step": 255
+    },
+    {
+      "epoch": 34.0,
+      "eval_loss": 0.9959421753883362,
+      "eval_runtime": 17.0747,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 255
+    },
+    {
+      "epoch": 34.67,
+      "grad_norm": 2.1633846759796143,
+      "learning_rate": 2.5714285714285714e-05,
+      "loss": 0.1958,
+      "step": 260
+    },
+    {
+      "epoch": 34.67,
+      "eval_loss": 0.9989770650863647,
+      "eval_runtime": 17.0821,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 260
+    },
+    {
+      "epoch": 35.33,
+      "grad_norm": 3.9233529567718506,
+      "learning_rate": 2.4285714285714288e-05,
+      "loss": 0.1831,
+      "step": 265
+    },
+    {
+      "epoch": 35.33,
+      "eval_loss": 1.0072578191757202,
+      "eval_runtime": 17.0564,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 265
+    },
+    {
+      "epoch": 36.0,
+      "grad_norm": 2.4143056869506836,
+      "learning_rate": 2.2857142857142858e-05,
+      "loss": 0.1753,
+      "step": 270
+    },
+    {
+      "epoch": 36.0,
+      "eval_loss": 0.9938892722129822,
+      "eval_runtime": 17.0668,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 270
+    },
+    {
+      "epoch": 36.67,
+      "grad_norm": 2.706679582595825,
+      "learning_rate": 2.1428571428571428e-05,
+      "loss": 0.1698,
+      "step": 275
+    },
+    {
+      "epoch": 36.67,
+      "eval_loss": 0.9969200491905212,
+      "eval_runtime": 17.0643,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 275
+    },
+    {
+      "epoch": 37.33,
+      "grad_norm": 1.872753620147705,
+      "learning_rate": 2e-05,
+      "loss": 0.16,
+      "step": 280
+    },
+    {
+      "epoch": 37.33,
+      "eval_loss": 0.9940390586853027,
+      "eval_runtime": 17.0728,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 280
+    },
+    {
+      "epoch": 38.0,
+      "grad_norm": 2.7510581016540527,
+      "learning_rate": 1.8571428571428572e-05,
+      "loss": 0.1614,
+      "step": 285
+    },
+    {
+      "epoch": 38.0,
+      "eval_loss": 1.0066231489181519,
+      "eval_runtime": 17.072,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 285
+    },
+    {
+      "epoch": 38.67,
+      "grad_norm": 1.8461092710494995,
+      "learning_rate": 1.7142857142857145e-05,
+      "loss": 0.1506,
+      "step": 290
+    },
+    {
+      "epoch": 38.67,
+      "eval_loss": 0.9927281737327576,
+      "eval_runtime": 17.0481,
+      "eval_samples_per_second": 0.411,
+      "eval_steps_per_second": 0.059,
+      "step": 290
+    },
+    {
+      "epoch": 39.33,
+      "grad_norm": 1.8425017595291138,
+      "learning_rate": 1.5714285714285715e-05,
+      "loss": 0.1419,
+      "step": 295
+    },
+    {
+      "epoch": 39.33,
+      "eval_loss": 1.0133570432662964,
+      "eval_runtime": 17.0642,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 295
+    },
+    {
+      "epoch": 40.0,
+      "grad_norm": 2.0457987785339355,
+      "learning_rate": 1.4285714285714285e-05,
+      "loss": 0.1459,
+      "step": 300
+    },
+    {
+      "epoch": 40.0,
+      "eval_loss": 1.0127934217453003,
+      "eval_runtime": 17.0581,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 300
+    },
+    {
+      "epoch": 40.67,
+      "grad_norm": 1.5630775690078735,
+      "learning_rate": 1.2857142857142857e-05,
+      "loss": 0.1225,
+      "step": 305
+    },
+    {
+      "epoch": 40.67,
+      "eval_loss": 1.0092624425888062,
+      "eval_runtime": 17.0483,
+      "eval_samples_per_second": 0.411,
+      "eval_steps_per_second": 0.059,
+      "step": 305
+    },
+    {
+      "epoch": 41.33,
+      "grad_norm": 1.37598717212677,
+      "learning_rate": 1.1428571428571429e-05,
+      "loss": 0.146,
+      "step": 310
+    },
+    {
+      "epoch": 41.33,
+      "eval_loss": 1.0083317756652832,
+      "eval_runtime": 17.0804,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 310
+    },
+    {
+      "epoch": 42.0,
+      "grad_norm": 1.8867217302322388,
+      "learning_rate": 1e-05,
+      "loss": 0.13,
+      "step": 315
+    },
+    {
+      "epoch": 42.0,
+      "eval_loss": 1.0165104866027832,
+      "eval_runtime": 17.0621,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 315
+    },
+    {
+      "epoch": 42.67,
+      "grad_norm": 1.4643555879592896,
+      "learning_rate": 8.571428571428573e-06,
+      "loss": 0.131,
+      "step": 320
+    },
+    {
+      "epoch": 42.67,
+      "eval_loss": 1.0264887809753418,
+      "eval_runtime": 17.0554,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 320
+    },
+    {
+      "epoch": 43.33,
+      "grad_norm": 1.4163501262664795,
+      "learning_rate": 7.142857142857143e-06,
+      "loss": 0.1205,
+      "step": 325
+    },
+    {
+      "epoch": 43.33,
+      "eval_loss": 1.0175670385360718,
+      "eval_runtime": 17.0692,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 325
+    },
+    {
+      "epoch": 44.0,
+      "grad_norm": 1.730556607246399,
+      "learning_rate": 5.7142857142857145e-06,
+      "loss": 0.1143,
+      "step": 330
+    },
+    {
+      "epoch": 44.0,
+      "eval_loss": 1.0272893905639648,
+      "eval_runtime": 17.0651,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 330
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 350,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 50,
+  "save_steps": 10,
+  "total_flos": 2.1924911400521564e+18,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-330/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1ed0ba6fb9a88dad56f61d9306f17b4e66e8767d898772faa97871a1388e82cf
+size 4920

checkpoint-340/README.md ADDED Viewed

	@@ -0,0 +1,23 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- _load_in_8bit: False
+- _load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+- load_in_4bit: False
+- load_in_8bit: False
+### Framework versions
+- PEFT 0.5.0

checkpoint-340/adapter_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "meta-llama/Llama-2-70b-hf",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 32,
+  "lora_dropout": 0.05,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoint-340/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c897d7f97d7cfce98fed482198deb963e7ba374c7a773a5a3c57015ba333f55c
+size 65578776

checkpoint-340/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d4b41aaa2ff189b2a834053ad096c135f5c88ccb616ee466390cb9b512c7a6cc
+size 131345914

checkpoint-340/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b33e7788fe74a32e8025c78f1eaeeb839f4a42077f639cc8f0ccaaa0cc2a8f5e
+size 14244

checkpoint-340/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6ace13ef9060efed9fdf80fb5c7e28a065010d0a88cfc05a35d53c0b45da76b6
+size 1064

checkpoint-340/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1041 @@

+{
+  "best_metric": 0.9927281737327576,
+  "best_model_checkpoint": "/scratch/kwamea/llama-output/checkpoint-290",
+  "epoch": 45.333333333333336,
+  "eval_steps": 5,
+  "global_step": 340,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.67,
+      "grad_norm": 0.243179589509964,
+      "learning_rate": 9.857142857142858e-05,
+      "loss": 1.9956,
+      "step": 5
+    },
+    {
+      "epoch": 0.67,
+      "eval_loss": 1.9701930284500122,
+      "eval_runtime": 17.115,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 5
+    },
+    {
+      "epoch": 1.33,
+      "grad_norm": 0.34590908885002136,
+      "learning_rate": 9.714285714285715e-05,
+      "loss": 1.9758,
+      "step": 10
+    },
+    {
+      "epoch": 1.33,
+      "eval_loss": 1.8941271305084229,
+      "eval_runtime": 17.0912,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 10
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.31595832109451294,
+      "learning_rate": 9.571428571428573e-05,
+      "loss": 1.849,
+      "step": 15
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 1.8046789169311523,
+      "eval_runtime": 17.098,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 15
+    },
+    {
+      "epoch": 2.67,
+      "grad_norm": 0.3428090512752533,
+      "learning_rate": 9.428571428571429e-05,
+      "loss": 1.789,
+      "step": 20
+    },
+    {
+      "epoch": 2.67,
+      "eval_loss": 1.7658358812332153,
+      "eval_runtime": 17.0734,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 20
+    },
+    {
+      "epoch": 3.33,
+      "grad_norm": 0.3102028965950012,
+      "learning_rate": 9.285714285714286e-05,
+      "loss": 1.7789,
+      "step": 25
+    },
+    {
+      "epoch": 3.33,
+      "eval_loss": 1.7225048542022705,
+      "eval_runtime": 17.0972,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 25
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.38602885603904724,
+      "learning_rate": 9.142857142857143e-05,
+      "loss": 1.7003,
+      "step": 30
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 1.6749440431594849,
+      "eval_runtime": 17.1034,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 30
+    },
+    {
+      "epoch": 4.67,
+      "grad_norm": 0.37120407819747925,
+      "learning_rate": 9e-05,
+      "loss": 1.6424,
+      "step": 35
+    },
+    {
+      "epoch": 4.67,
+      "eval_loss": 1.6231099367141724,
+      "eval_runtime": 17.1067,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 35
+    },
+    {
+      "epoch": 5.33,
+      "grad_norm": 0.4633428454399109,
+      "learning_rate": 8.857142857142857e-05,
+      "loss": 1.6023,
+      "step": 40
+    },
+    {
+      "epoch": 5.33,
+      "eval_loss": 1.5727053880691528,
+      "eval_runtime": 17.1002,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 40
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.5034663081169128,
+      "learning_rate": 8.714285714285715e-05,
+      "loss": 1.5322,
+      "step": 45
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 1.5312587022781372,
+      "eval_runtime": 17.1159,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 45
+    },
+    {
+      "epoch": 6.67,
+      "grad_norm": 0.5549929141998291,
+      "learning_rate": 8.571428571428571e-05,
+      "loss": 1.4788,
+      "step": 50
+    },
+    {
+      "epoch": 6.67,
+      "eval_loss": 1.492464303970337,
+      "eval_runtime": 17.0823,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 50
+    },
+    {
+      "epoch": 7.33,
+      "grad_norm": 0.49194690585136414,
+      "learning_rate": 8.428571428571429e-05,
+      "loss": 1.4632,
+      "step": 55
+    },
+    {
+      "epoch": 7.33,
+      "eval_loss": 1.4622489213943481,
+      "eval_runtime": 17.1022,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 55
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 0.5866131782531738,
+      "learning_rate": 8.285714285714287e-05,
+      "loss": 1.3951,
+      "step": 60
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 1.435951828956604,
+      "eval_runtime": 17.1087,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 60
+    },
+    {
+      "epoch": 8.67,
+      "grad_norm": 0.6252542734146118,
+      "learning_rate": 8.142857142857143e-05,
+      "loss": 1.3796,
+      "step": 65
+    },
+    {
+      "epoch": 8.67,
+      "eval_loss": 1.413227915763855,
+      "eval_runtime": 17.0914,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 65
+    },
+    {
+      "epoch": 9.33,
+      "grad_norm": 0.6751863360404968,
+      "learning_rate": 8e-05,
+      "loss": 1.3257,
+      "step": 70
+    },
+    {
+      "epoch": 9.33,
+      "eval_loss": 1.395649790763855,
+      "eval_runtime": 17.0885,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 70
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.8878222703933716,
+      "learning_rate": 7.857142857142858e-05,
+      "loss": 1.2795,
+      "step": 75
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 1.3699487447738647,
+      "eval_runtime": 17.1031,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 75
+    },
+    {
+      "epoch": 10.67,
+      "grad_norm": 0.8470121026039124,
+      "learning_rate": 7.714285714285715e-05,
+      "loss": 1.2449,
+      "step": 80
+    },
+    {
+      "epoch": 10.67,
+      "eval_loss": 1.347831130027771,
+      "eval_runtime": 17.0985,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 80
+    },
+    {
+      "epoch": 11.33,
+      "grad_norm": 1.0655425786972046,
+      "learning_rate": 7.571428571428571e-05,
+      "loss": 1.1983,
+      "step": 85
+    },
+    {
+      "epoch": 11.33,
+      "eval_loss": 1.3311971426010132,
+      "eval_runtime": 17.0784,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 85
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 1.2651888132095337,
+      "learning_rate": 7.428571428571429e-05,
+      "loss": 1.1467,
+      "step": 90
+    },
+    {
+      "epoch": 12.0,
+      "eval_loss": 1.3095277547836304,
+      "eval_runtime": 17.0903,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 90
+    },
+    {
+      "epoch": 12.67,
+      "grad_norm": 1.248926043510437,
+      "learning_rate": 7.285714285714286e-05,
+      "loss": 1.0922,
+      "step": 95
+    },
+    {
+      "epoch": 12.67,
+      "eval_loss": 1.2942878007888794,
+      "eval_runtime": 17.0947,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 95
+    },
+    {
+      "epoch": 13.33,
+      "grad_norm": 1.896952509880066,
+      "learning_rate": 7.142857142857143e-05,
+      "loss": 1.0403,
+      "step": 100
+    },
+    {
+      "epoch": 13.33,
+      "eval_loss": 1.2803159952163696,
+      "eval_runtime": 17.0819,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 100
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 1.862244725227356,
+      "learning_rate": 7e-05,
+      "loss": 1.0049,
+      "step": 105
+    },
+    {
+      "epoch": 14.0,
+      "eval_loss": 1.2643567323684692,
+      "eval_runtime": 17.0849,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 105
+    },
+    {
+      "epoch": 14.67,
+      "grad_norm": 1.7487821578979492,
+      "learning_rate": 6.857142857142858e-05,
+      "loss": 0.9262,
+      "step": 110
+    },
+    {
+      "epoch": 14.67,
+      "eval_loss": 1.2471646070480347,
+      "eval_runtime": 17.1278,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 110
+    },
+    {
+      "epoch": 15.33,
+      "grad_norm": 1.838605284690857,
+      "learning_rate": 6.714285714285714e-05,
+      "loss": 0.8965,
+      "step": 115
+    },
+    {
+      "epoch": 15.33,
+      "eval_loss": 1.2377034425735474,
+      "eval_runtime": 17.0731,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 115
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 3.117398977279663,
+      "learning_rate": 6.571428571428571e-05,
+      "loss": 0.8581,
+      "step": 120
+    },
+    {
+      "epoch": 16.0,
+      "eval_loss": 1.2083133459091187,
+      "eval_runtime": 17.1304,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 120
+    },
+    {
+      "epoch": 16.67,
+      "grad_norm": 2.5655250549316406,
+      "learning_rate": 6.428571428571429e-05,
+      "loss": 0.7929,
+      "step": 125
+    },
+    {
+      "epoch": 16.67,
+      "eval_loss": 1.1945828199386597,
+      "eval_runtime": 17.104,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 125
+    },
+    {
+      "epoch": 17.33,
+      "grad_norm": 2.168546199798584,
+      "learning_rate": 6.285714285714286e-05,
+      "loss": 0.7543,
+      "step": 130
+    },
+    {
+      "epoch": 17.33,
+      "eval_loss": 1.1876276731491089,
+      "eval_runtime": 17.1046,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 130
+    },
+    {
+      "epoch": 18.0,
+      "grad_norm": 2.5984208583831787,
+      "learning_rate": 6.142857142857143e-05,
+      "loss": 0.716,
+      "step": 135
+    },
+    {
+      "epoch": 18.0,
+      "eval_loss": 1.1714750528335571,
+      "eval_runtime": 17.0807,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 135
+    },
+    {
+      "epoch": 18.67,
+      "grad_norm": 3.479024887084961,
+      "learning_rate": 6e-05,
+      "loss": 0.6681,
+      "step": 140
+    },
+    {
+      "epoch": 18.67,
+      "eval_loss": 1.169895052909851,
+      "eval_runtime": 17.0681,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 140
+    },
+    {
+      "epoch": 19.33,
+      "grad_norm": 2.563386917114258,
+      "learning_rate": 5.8571428571428575e-05,
+      "loss": 0.6306,
+      "step": 145
+    },
+    {
+      "epoch": 19.33,
+      "eval_loss": 1.1741083860397339,
+      "eval_runtime": 17.0568,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 145
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 2.96592116355896,
+      "learning_rate": 5.714285714285714e-05,
+      "loss": 0.6183,
+      "step": 150
+    },
+    {
+      "epoch": 20.0,
+      "eval_loss": 1.1455965042114258,
+      "eval_runtime": 17.073,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 150
+    },
+    {
+      "epoch": 20.67,
+      "grad_norm": 2.6751275062561035,
+      "learning_rate": 5.571428571428572e-05,
+      "loss": 0.5464,
+      "step": 155
+    },
+    {
+      "epoch": 20.67,
+      "eval_loss": 1.131102204322815,
+      "eval_runtime": 17.0578,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 155
+    },
+    {
+      "epoch": 21.33,
+      "grad_norm": 2.3700051307678223,
+      "learning_rate": 5.428571428571428e-05,
+      "loss": 0.551,
+      "step": 160
+    },
+    {
+      "epoch": 21.33,
+      "eval_loss": 1.127384066581726,
+      "eval_runtime": 17.0546,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 160
+    },
+    {
+      "epoch": 22.0,
+      "grad_norm": 3.3827567100524902,
+      "learning_rate": 5.285714285714286e-05,
+      "loss": 0.5179,
+      "step": 165
+    },
+    {
+      "epoch": 22.0,
+      "eval_loss": 1.111584186553955,
+      "eval_runtime": 17.0812,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 165
+    },
+    {
+      "epoch": 22.67,
+      "grad_norm": 3.55790114402771,
+      "learning_rate": 5.142857142857143e-05,
+      "loss": 0.4831,
+      "step": 170
+    },
+    {
+      "epoch": 22.67,
+      "eval_loss": 1.0948525667190552,
+      "eval_runtime": 17.0547,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 170
+    },
+    {
+      "epoch": 23.33,
+      "grad_norm": 3.0782699584960938,
+      "learning_rate": 5e-05,
+      "loss": 0.4587,
+      "step": 175
+    },
+    {
+      "epoch": 23.33,
+      "eval_loss": 1.0906586647033691,
+      "eval_runtime": 17.0666,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 175
+    },
+    {
+      "epoch": 24.0,
+      "grad_norm": 3.3993167877197266,
+      "learning_rate": 4.8571428571428576e-05,
+      "loss": 0.4203,
+      "step": 180
+    },
+    {
+      "epoch": 24.0,
+      "eval_loss": 1.0688152313232422,
+      "eval_runtime": 17.0721,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 180
+    },
+    {
+      "epoch": 24.67,
+      "grad_norm": 3.319303035736084,
+      "learning_rate": 4.714285714285714e-05,
+      "loss": 0.3975,
+      "step": 185
+    },
+    {
+      "epoch": 24.67,
+      "eval_loss": 1.0746583938598633,
+      "eval_runtime": 17.0709,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 185
+    },
+    {
+      "epoch": 25.33,
+      "grad_norm": 2.4532127380371094,
+      "learning_rate": 4.5714285714285716e-05,
+      "loss": 0.3832,
+      "step": 190
+    },
+    {
+      "epoch": 25.33,
+      "eval_loss": 1.0772522687911987,
+      "eval_runtime": 17.0619,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 190
+    },
+    {
+      "epoch": 26.0,
+      "grad_norm": 3.956822156906128,
+      "learning_rate": 4.428571428571428e-05,
+      "loss": 0.3725,
+      "step": 195
+    },
+    {
+      "epoch": 26.0,
+      "eval_loss": 1.0638784170150757,
+      "eval_runtime": 17.0807,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 195
+    },
+    {
+      "epoch": 26.67,
+      "grad_norm": 2.76033353805542,
+      "learning_rate": 4.2857142857142856e-05,
+      "loss": 0.3473,
+      "step": 200
+    },
+    {
+      "epoch": 26.67,
+      "eval_loss": 1.04669988155365,
+      "eval_runtime": 17.0774,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 200
+    },
+    {
+      "epoch": 27.33,
+      "grad_norm": 3.8683507442474365,
+      "learning_rate": 4.1428571428571437e-05,
+      "loss": 0.3243,
+      "step": 205
+    },
+    {
+      "epoch": 27.33,
+      "eval_loss": 1.0470303297042847,
+      "eval_runtime": 17.0718,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 205
+    },
+    {
+      "epoch": 28.0,
+      "grad_norm": 4.535538196563721,
+      "learning_rate": 4e-05,
+      "loss": 0.3202,
+      "step": 210
+    },
+    {
+      "epoch": 28.0,
+      "eval_loss": 1.025539517402649,
+      "eval_runtime": 17.0604,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 210
+    },
+    {
+      "epoch": 28.67,
+      "grad_norm": 2.6224355697631836,
+      "learning_rate": 3.857142857142858e-05,
+      "loss": 0.2958,
+      "step": 215
+    },
+    {
+      "epoch": 28.67,
+      "eval_loss": 1.0192126035690308,
+      "eval_runtime": 17.0657,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 215
+    },
+    {
+      "epoch": 29.33,
+      "grad_norm": 2.5870041847229004,
+      "learning_rate": 3.7142857142857143e-05,
+      "loss": 0.2783,
+      "step": 220
+    },
+    {
+      "epoch": 29.33,
+      "eval_loss": 1.0211580991744995,
+      "eval_runtime": 17.0857,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 220
+    },
+    {
+      "epoch": 30.0,
+      "grad_norm": 3.4565751552581787,
+      "learning_rate": 3.571428571428572e-05,
+      "loss": 0.2773,
+      "step": 225
+    },
+    {
+      "epoch": 30.0,
+      "eval_loss": 1.006419062614441,
+      "eval_runtime": 17.0807,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 225
+    },
+    {
+      "epoch": 30.67,
+      "grad_norm": 2.4756500720977783,
+      "learning_rate": 3.428571428571429e-05,
+      "loss": 0.2482,
+      "step": 230
+    },
+    {
+      "epoch": 30.67,
+      "eval_loss": 1.0081219673156738,
+      "eval_runtime": 17.0576,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 230
+    },
+    {
+      "epoch": 31.33,
+      "grad_norm": 2.38002610206604,
+      "learning_rate": 3.285714285714286e-05,
+      "loss": 0.2464,
+      "step": 235
+    },
+    {
+      "epoch": 31.33,
+      "eval_loss": 1.0151804685592651,
+      "eval_runtime": 17.0587,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 235
+    },
+    {
+      "epoch": 32.0,
+      "grad_norm": 3.7081105709075928,
+      "learning_rate": 3.142857142857143e-05,
+      "loss": 0.2442,
+      "step": 240
+    },
+    {
+      "epoch": 32.0,
+      "eval_loss": 1.0032445192337036,
+      "eval_runtime": 17.1613,
+      "eval_samples_per_second": 0.408,
+      "eval_steps_per_second": 0.058,
+      "step": 240
+    },
+    {
+      "epoch": 32.67,
+      "grad_norm": 2.55924391746521,
+      "learning_rate": 3e-05,
+      "loss": 0.2193,
+      "step": 245
+    },
+    {
+      "epoch": 32.67,
+      "eval_loss": 0.9989615082740784,
+      "eval_runtime": 17.0447,
+      "eval_samples_per_second": 0.411,
+      "eval_steps_per_second": 0.059,
+      "step": 245
+    },
+    {
+      "epoch": 33.33,
+      "grad_norm": 1.9451407194137573,
+      "learning_rate": 2.857142857142857e-05,
+      "loss": 0.2101,
+      "step": 250
+    },
+    {
+      "epoch": 33.33,
+      "eval_loss": 1.0029457807540894,
+      "eval_runtime": 17.0816,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 250
+    },
+    {
+      "epoch": 34.0,
+      "grad_norm": 2.713731527328491,
+      "learning_rate": 2.714285714285714e-05,
+      "loss": 0.2194,
+      "step": 255
+    },
+    {
+      "epoch": 34.0,
+      "eval_loss": 0.9959421753883362,
+      "eval_runtime": 17.0747,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 255
+    },
+    {
+      "epoch": 34.67,
+      "grad_norm": 2.1633846759796143,
+      "learning_rate": 2.5714285714285714e-05,
+      "loss": 0.1958,
+      "step": 260
+    },
+    {
+      "epoch": 34.67,
+      "eval_loss": 0.9989770650863647,
+      "eval_runtime": 17.0821,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 260
+    },
+    {
+      "epoch": 35.33,
+      "grad_norm": 3.9233529567718506,
+      "learning_rate": 2.4285714285714288e-05,
+      "loss": 0.1831,
+      "step": 265
+    },
+    {
+      "epoch": 35.33,
+      "eval_loss": 1.0072578191757202,
+      "eval_runtime": 17.0564,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 265
+    },
+    {
+      "epoch": 36.0,
+      "grad_norm": 2.4143056869506836,
+      "learning_rate": 2.2857142857142858e-05,
+      "loss": 0.1753,
+      "step": 270
+    },
+    {
+      "epoch": 36.0,
+      "eval_loss": 0.9938892722129822,
+      "eval_runtime": 17.0668,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 270
+    },
+    {
+      "epoch": 36.67,
+      "grad_norm": 2.706679582595825,
+      "learning_rate": 2.1428571428571428e-05,
+      "loss": 0.1698,
+      "step": 275
+    },
+    {
+      "epoch": 36.67,
+      "eval_loss": 0.9969200491905212,
+      "eval_runtime": 17.0643,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 275
+    },
+    {
+      "epoch": 37.33,
+      "grad_norm": 1.872753620147705,
+      "learning_rate": 2e-05,
+      "loss": 0.16,
+      "step": 280
+    },
+    {
+      "epoch": 37.33,
+      "eval_loss": 0.9940390586853027,
+      "eval_runtime": 17.0728,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 280
+    },
+    {
+      "epoch": 38.0,
+      "grad_norm": 2.7510581016540527,
+      "learning_rate": 1.8571428571428572e-05,
+      "loss": 0.1614,
+      "step": 285
+    },
+    {
+      "epoch": 38.0,
+      "eval_loss": 1.0066231489181519,
+      "eval_runtime": 17.072,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 285
+    },
+    {
+      "epoch": 38.67,
+      "grad_norm": 1.8461092710494995,
+      "learning_rate": 1.7142857142857145e-05,
+      "loss": 0.1506,
+      "step": 290
+    },
+    {
+      "epoch": 38.67,
+      "eval_loss": 0.9927281737327576,
+      "eval_runtime": 17.0481,
+      "eval_samples_per_second": 0.411,
+      "eval_steps_per_second": 0.059,
+      "step": 290
+    },
+    {
+      "epoch": 39.33,
+      "grad_norm": 1.8425017595291138,
+      "learning_rate": 1.5714285714285715e-05,
+      "loss": 0.1419,
+      "step": 295
+    },
+    {
+      "epoch": 39.33,
+      "eval_loss": 1.0133570432662964,
+      "eval_runtime": 17.0642,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 295
+    },
+    {
+      "epoch": 40.0,
+      "grad_norm": 2.0457987785339355,
+      "learning_rate": 1.4285714285714285e-05,
+      "loss": 0.1459,
+      "step": 300
+    },
+    {
+      "epoch": 40.0,
+      "eval_loss": 1.0127934217453003,
+      "eval_runtime": 17.0581,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 300
+    },
+    {
+      "epoch": 40.67,
+      "grad_norm": 1.5630775690078735,
+      "learning_rate": 1.2857142857142857e-05,
+      "loss": 0.1225,
+      "step": 305
+    },
+    {
+      "epoch": 40.67,
+      "eval_loss": 1.0092624425888062,
+      "eval_runtime": 17.0483,
+      "eval_samples_per_second": 0.411,
+      "eval_steps_per_second": 0.059,
+      "step": 305
+    },
+    {
+      "epoch": 41.33,
+      "grad_norm": 1.37598717212677,
+      "learning_rate": 1.1428571428571429e-05,
+      "loss": 0.146,
+      "step": 310
+    },
+    {
+      "epoch": 41.33,
+      "eval_loss": 1.0083317756652832,
+      "eval_runtime": 17.0804,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 310
+    },
+    {
+      "epoch": 42.0,
+      "grad_norm": 1.8867217302322388,
+      "learning_rate": 1e-05,
+      "loss": 0.13,
+      "step": 315
+    },
+    {
+      "epoch": 42.0,
+      "eval_loss": 1.0165104866027832,
+      "eval_runtime": 17.0621,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 315
+    },
+    {
+      "epoch": 42.67,
+      "grad_norm": 1.4643555879592896,
+      "learning_rate": 8.571428571428573e-06,
+      "loss": 0.131,
+      "step": 320
+    },
+    {
+      "epoch": 42.67,
+      "eval_loss": 1.0264887809753418,
+      "eval_runtime": 17.0554,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 320
+    },
+    {
+      "epoch": 43.33,
+      "grad_norm": 1.4163501262664795,
+      "learning_rate": 7.142857142857143e-06,
+      "loss": 0.1205,
+      "step": 325
+    },
+    {
+      "epoch": 43.33,
+      "eval_loss": 1.0175670385360718,
+      "eval_runtime": 17.0692,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 325
+    },
+    {
+      "epoch": 44.0,
+      "grad_norm": 1.730556607246399,
+      "learning_rate": 5.7142857142857145e-06,
+      "loss": 0.1143,
+      "step": 330
+    },
+    {
+      "epoch": 44.0,
+      "eval_loss": 1.0272893905639648,
+      "eval_runtime": 17.0651,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 330
+    },
+    {
+      "epoch": 44.67,
+      "grad_norm": 1.451904058456421,
+      "learning_rate": 4.285714285714286e-06,
+      "loss": 0.1087,
+      "step": 335
+    },
+    {
+      "epoch": 44.67,
+      "eval_loss": 1.0272446870803833,
+      "eval_runtime": 17.0604,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 335
+    },
+    {
+      "epoch": 45.33,
+      "grad_norm": 1.1883801221847534,
+      "learning_rate": 2.8571428571428573e-06,
+      "loss": 0.1173,
+      "step": 340
+    },
+    {
+      "epoch": 45.33,
+      "eval_loss": 1.0314446687698364,
+      "eval_runtime": 17.0652,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 340
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 350,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 50,
+  "save_steps": 10,
+  "total_flos": 2.2592117872263168e+18,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-340/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1ed0ba6fb9a88dad56f61d9306f17b4e66e8767d898772faa97871a1388e82cf
+size 4920

checkpoint-350/README.md ADDED Viewed

	@@ -0,0 +1,23 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- _load_in_8bit: False
+- _load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+- load_in_4bit: False
+- load_in_8bit: False
+### Framework versions
+- PEFT 0.5.0

checkpoint-350/adapter_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "meta-llama/Llama-2-70b-hf",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 32,
+  "lora_dropout": 0.05,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoint-350/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:67eccf78fe003c69b69f04b1f9b9a6e6a1978840cc4a849f3af0d407627c47d6
+size 65578776

checkpoint-350/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4d76e77636c4237df069f3fc007ebc0115869843959146b38c8e52ae3e0864fa
+size 131345914

checkpoint-350/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:72b00dace87f5d813f1a45a5136e238b8c42ac9391260f621c6e60ffca2a1a3b
+size 14244

checkpoint-350/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:70732dec4f14211b78555ce1acfc091b59c12a05595924c42e5da10d3a62cd6d
+size 1064

checkpoint-350/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1071 @@

+{
+  "best_metric": 0.9927281737327576,
+  "best_model_checkpoint": "/scratch/kwamea/llama-output/checkpoint-290",
+  "epoch": 46.666666666666664,
+  "eval_steps": 5,
+  "global_step": 350,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.67,
+      "grad_norm": 0.243179589509964,
+      "learning_rate": 9.857142857142858e-05,
+      "loss": 1.9956,
+      "step": 5
+    },
+    {
+      "epoch": 0.67,
+      "eval_loss": 1.9701930284500122,
+      "eval_runtime": 17.115,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 5
+    },
+    {
+      "epoch": 1.33,
+      "grad_norm": 0.34590908885002136,
+      "learning_rate": 9.714285714285715e-05,
+      "loss": 1.9758,
+      "step": 10
+    },
+    {
+      "epoch": 1.33,
+      "eval_loss": 1.8941271305084229,
+      "eval_runtime": 17.0912,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 10
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.31595832109451294,
+      "learning_rate": 9.571428571428573e-05,
+      "loss": 1.849,
+      "step": 15
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 1.8046789169311523,
+      "eval_runtime": 17.098,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 15
+    },
+    {
+      "epoch": 2.67,
+      "grad_norm": 0.3428090512752533,
+      "learning_rate": 9.428571428571429e-05,
+      "loss": 1.789,
+      "step": 20
+    },
+    {
+      "epoch": 2.67,
+      "eval_loss": 1.7658358812332153,
+      "eval_runtime": 17.0734,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 20
+    },
+    {
+      "epoch": 3.33,
+      "grad_norm": 0.3102028965950012,
+      "learning_rate": 9.285714285714286e-05,
+      "loss": 1.7789,
+      "step": 25
+    },
+    {
+      "epoch": 3.33,
+      "eval_loss": 1.7225048542022705,
+      "eval_runtime": 17.0972,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 25
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.38602885603904724,
+      "learning_rate": 9.142857142857143e-05,
+      "loss": 1.7003,
+      "step": 30
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 1.6749440431594849,
+      "eval_runtime": 17.1034,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 30
+    },
+    {
+      "epoch": 4.67,
+      "grad_norm": 0.37120407819747925,
+      "learning_rate": 9e-05,
+      "loss": 1.6424,
+      "step": 35
+    },
+    {
+      "epoch": 4.67,
+      "eval_loss": 1.6231099367141724,
+      "eval_runtime": 17.1067,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 35
+    },
+    {
+      "epoch": 5.33,
+      "grad_norm": 0.4633428454399109,
+      "learning_rate": 8.857142857142857e-05,
+      "loss": 1.6023,
+      "step": 40
+    },
+    {
+      "epoch": 5.33,
+      "eval_loss": 1.5727053880691528,
+      "eval_runtime": 17.1002,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 40
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.5034663081169128,
+      "learning_rate": 8.714285714285715e-05,
+      "loss": 1.5322,
+      "step": 45
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 1.5312587022781372,
+      "eval_runtime": 17.1159,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 45
+    },
+    {
+      "epoch": 6.67,
+      "grad_norm": 0.5549929141998291,
+      "learning_rate": 8.571428571428571e-05,
+      "loss": 1.4788,
+      "step": 50
+    },
+    {
+      "epoch": 6.67,
+      "eval_loss": 1.492464303970337,
+      "eval_runtime": 17.0823,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 50
+    },
+    {
+      "epoch": 7.33,
+      "grad_norm": 0.49194690585136414,
+      "learning_rate": 8.428571428571429e-05,
+      "loss": 1.4632,
+      "step": 55
+    },
+    {
+      "epoch": 7.33,
+      "eval_loss": 1.4622489213943481,
+      "eval_runtime": 17.1022,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 55
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 0.5866131782531738,
+      "learning_rate": 8.285714285714287e-05,
+      "loss": 1.3951,
+      "step": 60
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 1.435951828956604,
+      "eval_runtime": 17.1087,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 60
+    },
+    {
+      "epoch": 8.67,
+      "grad_norm": 0.6252542734146118,
+      "learning_rate": 8.142857142857143e-05,
+      "loss": 1.3796,
+      "step": 65
+    },
+    {
+      "epoch": 8.67,
+      "eval_loss": 1.413227915763855,
+      "eval_runtime": 17.0914,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 65
+    },
+    {
+      "epoch": 9.33,
+      "grad_norm": 0.6751863360404968,
+      "learning_rate": 8e-05,
+      "loss": 1.3257,
+      "step": 70
+    },
+    {
+      "epoch": 9.33,
+      "eval_loss": 1.395649790763855,
+      "eval_runtime": 17.0885,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 70
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.8878222703933716,
+      "learning_rate": 7.857142857142858e-05,
+      "loss": 1.2795,
+      "step": 75
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 1.3699487447738647,
+      "eval_runtime": 17.1031,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 75
+    },
+    {
+      "epoch": 10.67,
+      "grad_norm": 0.8470121026039124,
+      "learning_rate": 7.714285714285715e-05,
+      "loss": 1.2449,
+      "step": 80
+    },
+    {
+      "epoch": 10.67,
+      "eval_loss": 1.347831130027771,
+      "eval_runtime": 17.0985,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 80
+    },
+    {
+      "epoch": 11.33,
+      "grad_norm": 1.0655425786972046,
+      "learning_rate": 7.571428571428571e-05,
+      "loss": 1.1983,
+      "step": 85
+    },
+    {
+      "epoch": 11.33,
+      "eval_loss": 1.3311971426010132,
+      "eval_runtime": 17.0784,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 85
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 1.2651888132095337,
+      "learning_rate": 7.428571428571429e-05,
+      "loss": 1.1467,
+      "step": 90
+    },
+    {
+      "epoch": 12.0,
+      "eval_loss": 1.3095277547836304,
+      "eval_runtime": 17.0903,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 90
+    },
+    {
+      "epoch": 12.67,
+      "grad_norm": 1.248926043510437,
+      "learning_rate": 7.285714285714286e-05,
+      "loss": 1.0922,
+      "step": 95
+    },
+    {
+      "epoch": 12.67,
+      "eval_loss": 1.2942878007888794,
+      "eval_runtime": 17.0947,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 95
+    },
+    {
+      "epoch": 13.33,
+      "grad_norm": 1.896952509880066,
+      "learning_rate": 7.142857142857143e-05,
+      "loss": 1.0403,
+      "step": 100
+    },
+    {
+      "epoch": 13.33,
+      "eval_loss": 1.2803159952163696,
+      "eval_runtime": 17.0819,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 100
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 1.862244725227356,
+      "learning_rate": 7e-05,
+      "loss": 1.0049,
+      "step": 105
+    },
+    {
+      "epoch": 14.0,
+      "eval_loss": 1.2643567323684692,
+      "eval_runtime": 17.0849,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 105
+    },
+    {
+      "epoch": 14.67,
+      "grad_norm": 1.7487821578979492,
+      "learning_rate": 6.857142857142858e-05,
+      "loss": 0.9262,
+      "step": 110
+    },
+    {
+      "epoch": 14.67,
+      "eval_loss": 1.2471646070480347,
+      "eval_runtime": 17.1278,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 110
+    },
+    {
+      "epoch": 15.33,
+      "grad_norm": 1.838605284690857,
+      "learning_rate": 6.714285714285714e-05,
+      "loss": 0.8965,
+      "step": 115
+    },
+    {
+      "epoch": 15.33,
+      "eval_loss": 1.2377034425735474,
+      "eval_runtime": 17.0731,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 115
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 3.117398977279663,
+      "learning_rate": 6.571428571428571e-05,
+      "loss": 0.8581,
+      "step": 120
+    },
+    {
+      "epoch": 16.0,
+      "eval_loss": 1.2083133459091187,
+      "eval_runtime": 17.1304,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 120
+    },
+    {
+      "epoch": 16.67,
+      "grad_norm": 2.5655250549316406,
+      "learning_rate": 6.428571428571429e-05,
+      "loss": 0.7929,
+      "step": 125
+    },
+    {
+      "epoch": 16.67,
+      "eval_loss": 1.1945828199386597,
+      "eval_runtime": 17.104,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 125
+    },
+    {
+      "epoch": 17.33,
+      "grad_norm": 2.168546199798584,
+      "learning_rate": 6.285714285714286e-05,
+      "loss": 0.7543,
+      "step": 130
+    },
+    {
+      "epoch": 17.33,
+      "eval_loss": 1.1876276731491089,
+      "eval_runtime": 17.1046,
+      "eval_samples_per_second": 0.409,
+      "eval_steps_per_second": 0.058,
+      "step": 130
+    },
+    {
+      "epoch": 18.0,
+      "grad_norm": 2.5984208583831787,
+      "learning_rate": 6.142857142857143e-05,
+      "loss": 0.716,
+      "step": 135
+    },
+    {
+      "epoch": 18.0,
+      "eval_loss": 1.1714750528335571,
+      "eval_runtime": 17.0807,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 135
+    },
+    {
+      "epoch": 18.67,
+      "grad_norm": 3.479024887084961,
+      "learning_rate": 6e-05,
+      "loss": 0.6681,
+      "step": 140
+    },
+    {
+      "epoch": 18.67,
+      "eval_loss": 1.169895052909851,
+      "eval_runtime": 17.0681,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 140
+    },
+    {
+      "epoch": 19.33,
+      "grad_norm": 2.563386917114258,
+      "learning_rate": 5.8571428571428575e-05,
+      "loss": 0.6306,
+      "step": 145
+    },
+    {
+      "epoch": 19.33,
+      "eval_loss": 1.1741083860397339,
+      "eval_runtime": 17.0568,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 145
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 2.96592116355896,
+      "learning_rate": 5.714285714285714e-05,
+      "loss": 0.6183,
+      "step": 150
+    },
+    {
+      "epoch": 20.0,
+      "eval_loss": 1.1455965042114258,
+      "eval_runtime": 17.073,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 150
+    },
+    {
+      "epoch": 20.67,
+      "grad_norm": 2.6751275062561035,
+      "learning_rate": 5.571428571428572e-05,
+      "loss": 0.5464,
+      "step": 155
+    },
+    {
+      "epoch": 20.67,
+      "eval_loss": 1.131102204322815,
+      "eval_runtime": 17.0578,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 155
+    },
+    {
+      "epoch": 21.33,
+      "grad_norm": 2.3700051307678223,
+      "learning_rate": 5.428571428571428e-05,
+      "loss": 0.551,
+      "step": 160
+    },
+    {
+      "epoch": 21.33,
+      "eval_loss": 1.127384066581726,
+      "eval_runtime": 17.0546,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 160
+    },
+    {
+      "epoch": 22.0,
+      "grad_norm": 3.3827567100524902,
+      "learning_rate": 5.285714285714286e-05,
+      "loss": 0.5179,
+      "step": 165
+    },
+    {
+      "epoch": 22.0,
+      "eval_loss": 1.111584186553955,
+      "eval_runtime": 17.0812,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 165
+    },
+    {
+      "epoch": 22.67,
+      "grad_norm": 3.55790114402771,
+      "learning_rate": 5.142857142857143e-05,
+      "loss": 0.4831,
+      "step": 170
+    },
+    {
+      "epoch": 22.67,
+      "eval_loss": 1.0948525667190552,
+      "eval_runtime": 17.0547,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 170
+    },
+    {
+      "epoch": 23.33,
+      "grad_norm": 3.0782699584960938,
+      "learning_rate": 5e-05,
+      "loss": 0.4587,
+      "step": 175
+    },
+    {
+      "epoch": 23.33,
+      "eval_loss": 1.0906586647033691,
+      "eval_runtime": 17.0666,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 175
+    },
+    {
+      "epoch": 24.0,
+      "grad_norm": 3.3993167877197266,
+      "learning_rate": 4.8571428571428576e-05,
+      "loss": 0.4203,
+      "step": 180
+    },
+    {
+      "epoch": 24.0,
+      "eval_loss": 1.0688152313232422,
+      "eval_runtime": 17.0721,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 180
+    },
+    {
+      "epoch": 24.67,
+      "grad_norm": 3.319303035736084,
+      "learning_rate": 4.714285714285714e-05,
+      "loss": 0.3975,
+      "step": 185
+    },
+    {
+      "epoch": 24.67,
+      "eval_loss": 1.0746583938598633,
+      "eval_runtime": 17.0709,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 185
+    },
+    {
+      "epoch": 25.33,
+      "grad_norm": 2.4532127380371094,
+      "learning_rate": 4.5714285714285716e-05,
+      "loss": 0.3832,
+      "step": 190
+    },
+    {
+      "epoch": 25.33,
+      "eval_loss": 1.0772522687911987,
+      "eval_runtime": 17.0619,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 190
+    },
+    {
+      "epoch": 26.0,
+      "grad_norm": 3.956822156906128,
+      "learning_rate": 4.428571428571428e-05,
+      "loss": 0.3725,
+      "step": 195
+    },
+    {
+      "epoch": 26.0,
+      "eval_loss": 1.0638784170150757,
+      "eval_runtime": 17.0807,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 195
+    },
+    {
+      "epoch": 26.67,
+      "grad_norm": 2.76033353805542,
+      "learning_rate": 4.2857142857142856e-05,
+      "loss": 0.3473,
+      "step": 200
+    },
+    {
+      "epoch": 26.67,
+      "eval_loss": 1.04669988155365,
+      "eval_runtime": 17.0774,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 200
+    },
+    {
+      "epoch": 27.33,
+      "grad_norm": 3.8683507442474365,
+      "learning_rate": 4.1428571428571437e-05,
+      "loss": 0.3243,
+      "step": 205
+    },
+    {
+      "epoch": 27.33,
+      "eval_loss": 1.0470303297042847,
+      "eval_runtime": 17.0718,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 205
+    },
+    {
+      "epoch": 28.0,
+      "grad_norm": 4.535538196563721,
+      "learning_rate": 4e-05,
+      "loss": 0.3202,
+      "step": 210
+    },
+    {
+      "epoch": 28.0,
+      "eval_loss": 1.025539517402649,
+      "eval_runtime": 17.0604,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 210
+    },
+    {
+      "epoch": 28.67,
+      "grad_norm": 2.6224355697631836,
+      "learning_rate": 3.857142857142858e-05,
+      "loss": 0.2958,
+      "step": 215
+    },
+    {
+      "epoch": 28.67,
+      "eval_loss": 1.0192126035690308,
+      "eval_runtime": 17.0657,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 215
+    },
+    {
+      "epoch": 29.33,
+      "grad_norm": 2.5870041847229004,
+      "learning_rate": 3.7142857142857143e-05,
+      "loss": 0.2783,
+      "step": 220
+    },
+    {
+      "epoch": 29.33,
+      "eval_loss": 1.0211580991744995,
+      "eval_runtime": 17.0857,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 220
+    },
+    {
+      "epoch": 30.0,
+      "grad_norm": 3.4565751552581787,
+      "learning_rate": 3.571428571428572e-05,
+      "loss": 0.2773,
+      "step": 225
+    },
+    {
+      "epoch": 30.0,
+      "eval_loss": 1.006419062614441,
+      "eval_runtime": 17.0807,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 225
+    },
+    {
+      "epoch": 30.67,
+      "grad_norm": 2.4756500720977783,
+      "learning_rate": 3.428571428571429e-05,
+      "loss": 0.2482,
+      "step": 230
+    },
+    {
+      "epoch": 30.67,
+      "eval_loss": 1.0081219673156738,
+      "eval_runtime": 17.0576,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 230
+    },
+    {
+      "epoch": 31.33,
+      "grad_norm": 2.38002610206604,
+      "learning_rate": 3.285714285714286e-05,
+      "loss": 0.2464,
+      "step": 235
+    },
+    {
+      "epoch": 31.33,
+      "eval_loss": 1.0151804685592651,
+      "eval_runtime": 17.0587,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 235
+    },
+    {
+      "epoch": 32.0,
+      "grad_norm": 3.7081105709075928,
+      "learning_rate": 3.142857142857143e-05,
+      "loss": 0.2442,
+      "step": 240
+    },
+    {
+      "epoch": 32.0,
+      "eval_loss": 1.0032445192337036,
+      "eval_runtime": 17.1613,
+      "eval_samples_per_second": 0.408,
+      "eval_steps_per_second": 0.058,
+      "step": 240
+    },
+    {
+      "epoch": 32.67,
+      "grad_norm": 2.55924391746521,
+      "learning_rate": 3e-05,
+      "loss": 0.2193,
+      "step": 245
+    },
+    {
+      "epoch": 32.67,
+      "eval_loss": 0.9989615082740784,
+      "eval_runtime": 17.0447,
+      "eval_samples_per_second": 0.411,
+      "eval_steps_per_second": 0.059,
+      "step": 245
+    },
+    {
+      "epoch": 33.33,
+      "grad_norm": 1.9451407194137573,
+      "learning_rate": 2.857142857142857e-05,
+      "loss": 0.2101,
+      "step": 250
+    },
+    {
+      "epoch": 33.33,
+      "eval_loss": 1.0029457807540894,
+      "eval_runtime": 17.0816,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 250
+    },
+    {
+      "epoch": 34.0,
+      "grad_norm": 2.713731527328491,
+      "learning_rate": 2.714285714285714e-05,
+      "loss": 0.2194,
+      "step": 255
+    },
+    {
+      "epoch": 34.0,
+      "eval_loss": 0.9959421753883362,
+      "eval_runtime": 17.0747,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 255
+    },
+    {
+      "epoch": 34.67,
+      "grad_norm": 2.1633846759796143,
+      "learning_rate": 2.5714285714285714e-05,
+      "loss": 0.1958,
+      "step": 260
+    },
+    {
+      "epoch": 34.67,
+      "eval_loss": 0.9989770650863647,
+      "eval_runtime": 17.0821,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 260
+    },
+    {
+      "epoch": 35.33,
+      "grad_norm": 3.9233529567718506,
+      "learning_rate": 2.4285714285714288e-05,
+      "loss": 0.1831,
+      "step": 265
+    },
+    {
+      "epoch": 35.33,
+      "eval_loss": 1.0072578191757202,
+      "eval_runtime": 17.0564,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 265
+    },
+    {
+      "epoch": 36.0,
+      "grad_norm": 2.4143056869506836,
+      "learning_rate": 2.2857142857142858e-05,
+      "loss": 0.1753,
+      "step": 270
+    },
+    {
+      "epoch": 36.0,
+      "eval_loss": 0.9938892722129822,
+      "eval_runtime": 17.0668,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 270
+    },
+    {
+      "epoch": 36.67,
+      "grad_norm": 2.706679582595825,
+      "learning_rate": 2.1428571428571428e-05,
+      "loss": 0.1698,
+      "step": 275
+    },
+    {
+      "epoch": 36.67,
+      "eval_loss": 0.9969200491905212,
+      "eval_runtime": 17.0643,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 275
+    },
+    {
+      "epoch": 37.33,
+      "grad_norm": 1.872753620147705,
+      "learning_rate": 2e-05,
+      "loss": 0.16,
+      "step": 280
+    },
+    {
+      "epoch": 37.33,
+      "eval_loss": 0.9940390586853027,
+      "eval_runtime": 17.0728,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 280
+    },
+    {
+      "epoch": 38.0,
+      "grad_norm": 2.7510581016540527,
+      "learning_rate": 1.8571428571428572e-05,
+      "loss": 0.1614,
+      "step": 285
+    },
+    {
+      "epoch": 38.0,
+      "eval_loss": 1.0066231489181519,
+      "eval_runtime": 17.072,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 285
+    },
+    {
+      "epoch": 38.67,
+      "grad_norm": 1.8461092710494995,
+      "learning_rate": 1.7142857142857145e-05,
+      "loss": 0.1506,
+      "step": 290
+    },
+    {
+      "epoch": 38.67,
+      "eval_loss": 0.9927281737327576,
+      "eval_runtime": 17.0481,
+      "eval_samples_per_second": 0.411,
+      "eval_steps_per_second": 0.059,
+      "step": 290
+    },
+    {
+      "epoch": 39.33,
+      "grad_norm": 1.8425017595291138,
+      "learning_rate": 1.5714285714285715e-05,
+      "loss": 0.1419,
+      "step": 295
+    },
+    {
+      "epoch": 39.33,
+      "eval_loss": 1.0133570432662964,
+      "eval_runtime": 17.0642,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 295
+    },
+    {
+      "epoch": 40.0,
+      "grad_norm": 2.0457987785339355,
+      "learning_rate": 1.4285714285714285e-05,
+      "loss": 0.1459,
+      "step": 300
+    },
+    {
+      "epoch": 40.0,
+      "eval_loss": 1.0127934217453003,
+      "eval_runtime": 17.0581,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 300
+    },
+    {
+      "epoch": 40.67,
+      "grad_norm": 1.5630775690078735,
+      "learning_rate": 1.2857142857142857e-05,
+      "loss": 0.1225,
+      "step": 305
+    },
+    {
+      "epoch": 40.67,
+      "eval_loss": 1.0092624425888062,
+      "eval_runtime": 17.0483,
+      "eval_samples_per_second": 0.411,
+      "eval_steps_per_second": 0.059,
+      "step": 305
+    },
+    {
+      "epoch": 41.33,
+      "grad_norm": 1.37598717212677,
+      "learning_rate": 1.1428571428571429e-05,
+      "loss": 0.146,
+      "step": 310
+    },
+    {
+      "epoch": 41.33,
+      "eval_loss": 1.0083317756652832,
+      "eval_runtime": 17.0804,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 310
+    },
+    {
+      "epoch": 42.0,
+      "grad_norm": 1.8867217302322388,
+      "learning_rate": 1e-05,
+      "loss": 0.13,
+      "step": 315
+    },
+    {
+      "epoch": 42.0,
+      "eval_loss": 1.0165104866027832,
+      "eval_runtime": 17.0621,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 315
+    },
+    {
+      "epoch": 42.67,
+      "grad_norm": 1.4643555879592896,
+      "learning_rate": 8.571428571428573e-06,
+      "loss": 0.131,
+      "step": 320
+    },
+    {
+      "epoch": 42.67,
+      "eval_loss": 1.0264887809753418,
+      "eval_runtime": 17.0554,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 320
+    },
+    {
+      "epoch": 43.33,
+      "grad_norm": 1.4163501262664795,
+      "learning_rate": 7.142857142857143e-06,
+      "loss": 0.1205,
+      "step": 325
+    },
+    {
+      "epoch": 43.33,
+      "eval_loss": 1.0175670385360718,
+      "eval_runtime": 17.0692,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 325
+    },
+    {
+      "epoch": 44.0,
+      "grad_norm": 1.730556607246399,
+      "learning_rate": 5.7142857142857145e-06,
+      "loss": 0.1143,
+      "step": 330
+    },
+    {
+      "epoch": 44.0,
+      "eval_loss": 1.0272893905639648,
+      "eval_runtime": 17.0651,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 330
+    },
+    {
+      "epoch": 44.67,
+      "grad_norm": 1.451904058456421,
+      "learning_rate": 4.285714285714286e-06,
+      "loss": 0.1087,
+      "step": 335
+    },
+    {
+      "epoch": 44.67,
+      "eval_loss": 1.0272446870803833,
+      "eval_runtime": 17.0604,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 335
+    },
+    {
+      "epoch": 45.33,
+      "grad_norm": 1.1883801221847534,
+      "learning_rate": 2.8571428571428573e-06,
+      "loss": 0.1173,
+      "step": 340
+    },
+    {
+      "epoch": 45.33,
+      "eval_loss": 1.0314446687698364,
+      "eval_runtime": 17.0652,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 340
+    },
+    {
+      "epoch": 46.0,
+      "grad_norm": 1.514420747756958,
+      "learning_rate": 1.4285714285714286e-06,
+      "loss": 0.1227,
+      "step": 345
+    },
+    {
+      "epoch": 46.0,
+      "eval_loss": 1.0313900709152222,
+      "eval_runtime": 17.0795,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 345
+    },
+    {
+      "epoch": 46.67,
+      "grad_norm": 1.1168299913406372,
+      "learning_rate": 0.0,
+      "loss": 0.1133,
+      "step": 350
+    },
+    {
+      "epoch": 46.67,
+      "eval_loss": 1.032753586769104,
+      "eval_runtime": 17.0596,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.059,
+      "step": 350
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 350,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 50,
+  "save_steps": 10,
+  "total_flos": 2.325932434400477e+18,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-350/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1ed0ba6fb9a88dad56f61d9306f17b4e66e8767d898772faa97871a1388e82cf
+size 4920

config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "_name_or_path": "meta-llama/Llama-2-70b-hf",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 8192,
+  "initializer_range": 0.02,
+  "intermediate_size": 28672,
+  "max_position_embeddings": 4096,
+  "model_type": "llama",
+  "num_attention_heads": 64,
+  "num_hidden_layers": 80,
+  "num_key_value_heads": 8,
+  "pretraining_tp": 1,
+  "quantization_config": {
+    "_load_in_4bit": false,
+    "_load_in_8bit": false,
+    "bnb_4bit_compute_dtype": "float32",
+    "bnb_4bit_quant_type": "fp4",
+    "bnb_4bit_use_double_quant": false,
+    "llm_int8_enable_fp32_cpu_offload": false,
+    "llm_int8_has_fp16_weight": false,
+    "llm_int8_skip_modules": null,
+    "llm_int8_threshold": 6.0,
+    "load_in_4bit": false,
+    "load_in_8bit": false,
+    "quant_method": "bitsandbytes"
+  },
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float16",
+  "transformers_version": "4.38.1",
+  "use_cache": true,
+  "vocab_size": 32000
+}

logs/events.out.tfevents.1699989718.node0370.palmetto.clemson.edu.1119956.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a8338f7ab492bb36430b90fde21a7822be3a5f94276aa93f72ad83aeaf872e40
+size 4868

logs/events.out.tfevents.1699989813.node0370.palmetto.clemson.edu.1119956.4 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4773b11c0e593bac1fe819e5c6324bb2a3542c475a7d375bb608e46408b2b009
+size 4602

logs/events.out.tfevents.1699994287.node0370.palmetto.clemson.edu.1126403.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:edff87033b1a80ab70d0a0af49d7943790a698e659a0875f929d78a3299c699d
+size 7962

logs/events.out.tfevents.1699995040.node0370.palmetto.clemson.edu.1127435.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f054998bd37e1977597fdb66e495fb58c70a3b0042fa2ef4428756252ee49a4c
+size 33937

logs/events.out.tfevents.1700064888.node0277.palmetto.clemson.edu.1971495.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:587a2145d6c92f9cbc7c114d9b2d452e13239b0a925f3bdcaa5631c48bdca19a
+size 9908

logs/events.out.tfevents.1700066157.node0277.palmetto.clemson.edu.1973537.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5fcffea7a0e86207d5c20daaabb71040aa71cb529a4bbddc4a309e37d9666f12
+size 14528