nvan15 commited on Jan 15

Commit

9cf4652

verified ·

1 Parent(s): e6dd826

Batch upload part 17

Browse files

Files changed (50) hide show

nl_tasks/exp100/run_ex02/ft/adapter_config.json +18 -0
nl_tasks/exp100/run_ex02/ft/special_tokens_map.json +24 -0
nl_tasks/exp100/run_ex02/ft/tokenizer.json +0 -0
nl_tasks/exp100/run_ex02/ft/tokenizer.model +3 -0
nl_tasks/exp100/run_ex02/ft/tokenizer_config.json +43 -0
nl_tasks/exp100/run_ex02/ft2/adapter_config.json +18 -0
nl_tasks/exp100/run_ex02/ft2/adapter_model.bin +3 -0
nl_tasks/exp100/run_ex03/ft/adapter_config.json +18 -0
nl_tasks/exp100/run_ex03/ft/special_tokens_map.json +24 -0
nl_tasks/exp100/run_ex03/ft/tokenizer.json +0 -0
nl_tasks/exp100/run_ex03/ft/tokenizer.model +3 -0
nl_tasks/exp100/run_ex03/ft/tokenizer_config.json +43 -0
nl_tasks/exp100/run_ex03/ft2/adapter_config.json +18 -0
nl_tasks/exp100/run_ex03/ft2/adapter_model.bin +3 -0
nl_tasks/exp100/run_ex03/trainer_state.json +260 -0
nl_tasks/exp100/run_ex04/ft/adapter_config.json +18 -0
nl_tasks/exp100/run_ex04/ft/special_tokens_map.json +24 -0
nl_tasks/exp100/run_ex04/ft/tokenizer.json +0 -0
nl_tasks/exp100/run_ex04/ft/tokenizer.model +3 -0
nl_tasks/exp100/run_ex04/ft/tokenizer_config.json +43 -0
nl_tasks/exp100/run_ex04/ft2/adapter_config.json +18 -0
nl_tasks/exp100/run_ex04/ft2/adapter_model.bin +3 -0
nl_tasks/exp100/run_ex04/trainer_state.json +260 -0
nl_tasks/exp100/run_ex05/ft/adapter_config.json +18 -0
nl_tasks/exp100/run_ex05/ft/special_tokens_map.json +24 -0
nl_tasks/exp100/run_ex05/ft/tokenizer.json +0 -0
nl_tasks/exp100/run_ex05/ft/tokenizer.model +3 -0
nl_tasks/exp100/run_ex05/ft/tokenizer_config.json +43 -0
nl_tasks/exp100/run_ex05/ft2/adapter_config.json +18 -0
nl_tasks/exp100/run_ex05/ft2/adapter_model.bin +3 -0
nl_tasks/exp100/run_ex05/trainer_state.json +365 -0
nl_tasks/exp100/run_ex06/ft/adapter_config.json +18 -0
nl_tasks/exp100/run_ex06/ft/special_tokens_map.json +24 -0
nl_tasks/exp100/run_ex06/ft/tokenizer.json +0 -0
nl_tasks/exp100/run_ex06/ft/tokenizer.model +3 -0
nl_tasks/exp100/run_ex06/ft/tokenizer_config.json +43 -0
nl_tasks/exp100/run_ex06/ft2/adapter_config.json +18 -0
nl_tasks/exp100/run_ex06/ft2/adapter_model.bin +3 -0
nl_tasks/exp100/run_ex06/trainer_state.json +183 -0
nl_tasks/exp100/run_ex07/ft/adapter_config.json +18 -0
nl_tasks/exp100/run_ex07/ft/special_tokens_map.json +24 -0
nl_tasks/exp100/run_ex07/ft/tokenizer.json +0 -0
nl_tasks/exp100/run_ex07/ft/tokenizer.model +3 -0
nl_tasks/exp100/run_ex07/ft/tokenizer_config.json +43 -0
nl_tasks/exp100/run_ex07/ft2/adapter_config.json +18 -0
nl_tasks/exp100/run_ex07/ft2/adapter_model.bin +3 -0
nl_tasks/exp100/run_ex07/trainer_state.json +260 -0
nl_tasks/exp100/run_ex08/ft/special_tokens_map.json +24 -0
nl_tasks/exp100/run_ex08/ft/tokenizer_config.json +43 -0
nl_tasks/exp100/run_ex08/trainer_state.json +183 -0

nl_tasks/exp100/run_ex02/ft/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": false,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/exp100/run_ex02/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<unk>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

nl_tasks/exp100/run_ex02/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

nl_tasks/exp100/run_ex02/ft/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

nl_tasks/exp100/run_ex02/ft/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 512,
+  "pad_token": "<unk>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

nl_tasks/exp100/run_ex02/ft2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": true,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/exp100/run_ex02/ft2/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:02608c9a9b5b0dcbf11d02401bcc8d4e1fd5f0bd460dee7c3adc0605897bd4e4
+size 33602915

nl_tasks/exp100/run_ex03/ft/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": false,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/exp100/run_ex03/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<unk>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

nl_tasks/exp100/run_ex03/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

nl_tasks/exp100/run_ex03/ft/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

nl_tasks/exp100/run_ex03/ft/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 512,
+  "pad_token": "<unk>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

nl_tasks/exp100/run_ex03/ft2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": true,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/exp100/run_ex03/ft2/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f6d4bcfd74a9f9c4a5ca4334bde6a2536a60517a9efc3aa1ff8e80f64d3159d0
+size 33602915

nl_tasks/exp100/run_ex03/trainer_state.json ADDED Viewed

	@@ -0,0 +1,260 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 6250,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.064,
+      "grad_norm": 0.11334197223186493,
+      "learning_rate": 0.009988082511541485,
+      "loss": 0.5559,
+      "step": 200
+    },
+    {
+      "epoch": 0.128,
+      "grad_norm": 0.061305977404117584,
+      "learning_rate": 0.00992740539380525,
+      "loss": 0.2971,
+      "step": 400
+    },
+    {
+      "epoch": 0.192,
+      "grad_norm": 0.06917975842952728,
+      "learning_rate": 0.00981595390941903,
+      "loss": 0.2748,
+      "step": 600
+    },
+    {
+      "epoch": 0.256,
+      "grad_norm": 0.06461716443300247,
+      "learning_rate": 0.009654876508343738,
+      "loss": 0.2628,
+      "step": 800
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 0.04892360046505928,
+      "learning_rate": 0.00944583300997063,
+      "loss": 0.2518,
+      "step": 1000
+    },
+    {
+      "epoch": 0.384,
+      "grad_norm": 0.03902921453118324,
+      "learning_rate": 0.00919097749954009,
+      "loss": 0.244,
+      "step": 1200
+    },
+    {
+      "epoch": 0.448,
+      "grad_norm": 0.042787957936525345,
+      "learning_rate": 0.008892936131406222,
+      "loss": 0.2388,
+      "step": 1400
+    },
+    {
+      "epoch": 0.512,
+      "grad_norm": 0.03384287655353546,
+      "learning_rate": 0.008554780067873127,
+      "loss": 0.2374,
+      "step": 1600
+    },
+    {
+      "epoch": 0.576,
+      "grad_norm": 0.03241891786456108,
+      "learning_rate": 0.008179993832454205,
+      "loss": 0.234,
+      "step": 1800
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 0.028277236968278885,
+      "learning_rate": 0.007772439403657747,
+      "loss": 0.2328,
+      "step": 2000
+    },
+    {
+      "epoch": 0.704,
+      "grad_norm": 0.03353444114327431,
+      "learning_rate": 0.007336316419293858,
+      "loss": 0.2262,
+      "step": 2200
+    },
+    {
+      "epoch": 0.768,
+      "grad_norm": 0.026780247688293457,
+      "learning_rate": 0.006876118901376725,
+      "loss": 0.2233,
+      "step": 2400
+    },
+    {
+      "epoch": 0.832,
+      "grad_norm": 0.027920261025428772,
+      "learning_rate": 0.006396588947549764,
+      "loss": 0.2206,
+      "step": 2600
+    },
+    {
+      "epoch": 0.896,
+      "grad_norm": 0.026285970583558083,
+      "learning_rate": 0.005902667866219604,
+      "loss": 0.2173,
+      "step": 2800
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 0.027279643341898918,
+      "learning_rate": 0.005399445258926061,
+      "loss": 0.2156,
+      "step": 3000
+    },
+    {
+      "epoch": 1.024,
+      "grad_norm": 0.02697896584868431,
+      "learning_rate": 0.004892106574628014,
+      "loss": 0.2049,
+      "step": 3200
+    },
+    {
+      "epoch": 1.088,
+      "grad_norm": 0.027274351567029953,
+      "learning_rate": 0.004385879676331144,
+      "loss": 0.1914,
+      "step": 3400
+    },
+    {
+      "epoch": 1.152,
+      "grad_norm": 0.02400428242981434,
+      "learning_rate": 0.003885980970660839,
+      "loss": 0.1937,
+      "step": 3600
+    },
+    {
+      "epoch": 1.216,
+      "grad_norm": 0.02517438866198063,
+      "learning_rate": 0.0033975616554871714,
+      "loss": 0.1913,
+      "step": 3800
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 0.022209836170077324,
+      "learning_rate": 0.0029256546394924123,
+      "loss": 0.1883,
+      "step": 4000
+    },
+    {
+      "epoch": 1.3439999999999999,
+      "grad_norm": 0.021254699677228928,
+      "learning_rate": 0.0024751226806475142,
+      "loss": 0.1868,
+      "step": 4200
+    },
+    {
+      "epoch": 1.408,
+      "grad_norm": 0.021861741319298744,
+      "learning_rate": 0.002050608278003736,
+      "loss": 0.1848,
+      "step": 4400
+    },
+    {
+      "epoch": 1.472,
+      "grad_norm": 0.02483428828418255,
+      "learning_rate": 0.0016564858331386562,
+      "loss": 0.1848,
+      "step": 4600
+    },
+    {
+      "epoch": 1.536,
+      "grad_norm": 0.01872268132865429,
+      "learning_rate": 0.0012968165742081217,
+      "loss": 0.1775,
+      "step": 4800
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 0.0213455967605114,
+      "learning_rate": 0.0009753067070884736,
+      "loss": 0.182,
+      "step": 5000
+    },
+    {
+      "epoch": 1.6640000000000001,
+      "grad_norm": 0.025262294337153435,
+      "learning_rate": 0.0006952692248399689,
+      "loss": 0.1778,
+      "step": 5200
+    },
+    {
+      "epoch": 1.728,
+      "grad_norm": 0.023666556924581528,
+      "learning_rate": 0.0004595897690250567,
+      "loss": 0.1763,
+      "step": 5400
+    },
+    {
+      "epoch": 1.792,
+      "grad_norm": 0.020242227241396904,
+      "learning_rate": 0.0002706968946630728,
+      "loss": 0.1744,
+      "step": 5600
+    },
+    {
+      "epoch": 1.8559999999999999,
+      "grad_norm": 0.020292259752750397,
+      "learning_rate": 0.00013053704522556165,
+      "loss": 0.1776,
+      "step": 5800
+    },
+    {
+      "epoch": 1.92,
+      "grad_norm": 0.024162383750081062,
+      "learning_rate": 4.055449554200896e-05,
+      "loss": 0.1721,
+      "step": 6000
+    },
+    {
+      "epoch": 1.984,
+      "grad_norm": 0.02264169603586197,
+      "learning_rate": 1.6764692939641446e-06,
+      "loss": 0.1728,
+      "step": 6200
+    },
+    {
+      "epoch": 2.0,
+      "step": 6250,
+      "total_flos": 4.0647058784256e+18,
+      "train_loss": 0.22118227462768555,
+      "train_runtime": 5603.7872,
+      "train_samples_per_second": 35.69,
+      "train_steps_per_second": 1.115
+    }
+  ],
+  "logging_steps": 200,
+  "max_steps": 6250,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 0,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.0647058784256e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

nl_tasks/exp100/run_ex04/ft/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": false,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/exp100/run_ex04/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<unk>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

nl_tasks/exp100/run_ex04/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

nl_tasks/exp100/run_ex04/ft/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

nl_tasks/exp100/run_ex04/ft/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 512,
+  "pad_token": "<unk>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

nl_tasks/exp100/run_ex04/ft2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": true,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/exp100/run_ex04/ft2/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8f3ae0266c1a6651903cc003f29f14607c131c865fab0338ef1685771b547d6b
+size 33602915

nl_tasks/exp100/run_ex04/trainer_state.json ADDED Viewed

	@@ -0,0 +1,260 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 6250,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.064,
+      "grad_norm": 0.04368972033262253,
+      "learning_rate": 0.049940412557707425,
+      "loss": 0.869,
+      "step": 200
+    },
+    {
+      "epoch": 0.128,
+      "grad_norm": 0.028173571452498436,
+      "learning_rate": 0.049637026969026256,
+      "loss": 0.2959,
+      "step": 400
+    },
+    {
+      "epoch": 0.192,
+      "grad_norm": 0.023793907836079597,
+      "learning_rate": 0.049079769547095156,
+      "loss": 0.2789,
+      "step": 600
+    },
+    {
+      "epoch": 0.256,
+      "grad_norm": 0.029163537546992302,
+      "learning_rate": 0.048274382541718695,
+      "loss": 0.2695,
+      "step": 800
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 0.026763763278722763,
+      "learning_rate": 0.047229165049853146,
+      "loss": 0.2608,
+      "step": 1000
+    },
+    {
+      "epoch": 0.384,
+      "grad_norm": 0.020129157230257988,
+      "learning_rate": 0.04595488749770045,
+      "loss": 0.2529,
+      "step": 1200
+    },
+    {
+      "epoch": 0.448,
+      "grad_norm": 0.02349601686000824,
+      "learning_rate": 0.0444646806570311,
+      "loss": 0.2478,
+      "step": 1400
+    },
+    {
+      "epoch": 0.512,
+      "grad_norm": 0.017336582764983177,
+      "learning_rate": 0.042773900339365636,
+      "loss": 0.2475,
+      "step": 1600
+    },
+    {
+      "epoch": 0.576,
+      "grad_norm": 0.017148617655038834,
+      "learning_rate": 0.040899969162271024,
+      "loss": 0.2448,
+      "step": 1800
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 0.014803516678512096,
+      "learning_rate": 0.03886219701828874,
+      "loss": 0.2445,
+      "step": 2000
+    },
+    {
+      "epoch": 0.704,
+      "grad_norm": 0.012438619509339333,
+      "learning_rate": 0.03668158209646929,
+      "loss": 0.238,
+      "step": 2200
+    },
+    {
+      "epoch": 0.768,
+      "grad_norm": 0.014171008951961994,
+      "learning_rate": 0.034380594506883626,
+      "loss": 0.2348,
+      "step": 2400
+    },
+    {
+      "epoch": 0.832,
+      "grad_norm": 0.01251581683754921,
+      "learning_rate": 0.03198294473774882,
+      "loss": 0.2325,
+      "step": 2600
+    },
+    {
+      "epoch": 0.896,
+      "grad_norm": 0.011021828278899193,
+      "learning_rate": 0.029513339331098024,
+      "loss": 0.2287,
+      "step": 2800
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 0.011575430631637573,
+      "learning_rate": 0.026997226294630305,
+      "loss": 0.2273,
+      "step": 3000
+    },
+    {
+      "epoch": 1.024,
+      "grad_norm": 0.011999037116765976,
+      "learning_rate": 0.024460532873140067,
+      "loss": 0.2178,
+      "step": 3200
+    },
+    {
+      "epoch": 1.088,
+      "grad_norm": 0.012413745746016502,
+      "learning_rate": 0.021929398381655724,
+      "loss": 0.2063,
+      "step": 3400
+    },
+    {
+      "epoch": 1.152,
+      "grad_norm": 0.012539232149720192,
+      "learning_rate": 0.019429904853304196,
+      "loss": 0.2096,
+      "step": 3600
+    },
+    {
+      "epoch": 1.216,
+      "grad_norm": 0.011288085952401161,
+      "learning_rate": 0.016987808277435856,
+      "loss": 0.2062,
+      "step": 3800
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 0.01744219847023487,
+      "learning_rate": 0.014628273197462061,
+      "loss": 0.2029,
+      "step": 4000
+    },
+    {
+      "epoch": 1.3439999999999999,
+      "grad_norm": 0.011675246991217136,
+      "learning_rate": 0.01237561340323757,
+      "loss": 0.2011,
+      "step": 4200
+    },
+    {
+      "epoch": 1.408,
+      "grad_norm": 0.01028984971344471,
+      "learning_rate": 0.010253041390018681,
+      "loss": 0.1981,
+      "step": 4400
+    },
+    {
+      "epoch": 1.472,
+      "grad_norm": 0.009951326064765453,
+      "learning_rate": 0.008282429165693281,
+      "loss": 0.1974,
+      "step": 4600
+    },
+    {
+      "epoch": 1.536,
+      "grad_norm": 0.00813743844628334,
+      "learning_rate": 0.006484082871040609,
+      "loss": 0.1889,
+      "step": 4800
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 0.009917319752275944,
+      "learning_rate": 0.004876533535442368,
+      "loss": 0.1921,
+      "step": 5000
+    },
+    {
+      "epoch": 1.6640000000000001,
+      "grad_norm": 0.010274921543896198,
+      "learning_rate": 0.003476346124199845,
+      "loss": 0.1873,
+      "step": 5200
+    },
+    {
+      "epoch": 1.728,
+      "grad_norm": 0.011271242052316666,
+      "learning_rate": 0.0022979488451252833,
+      "loss": 0.1844,
+      "step": 5400
+    },
+    {
+      "epoch": 1.792,
+      "grad_norm": 0.009762358851730824,
+      "learning_rate": 0.001353484473315364,
+      "loss": 0.1814,
+      "step": 5600
+    },
+    {
+      "epoch": 1.8559999999999999,
+      "grad_norm": 0.00860436912626028,
+      "learning_rate": 0.0006526852261278083,
+      "loss": 0.1838,
+      "step": 5800
+    },
+    {
+      "epoch": 1.92,
+      "grad_norm": 0.010398217476904392,
+      "learning_rate": 0.00020277247771004482,
+      "loss": 0.1775,
+      "step": 6000
+    },
+    {
+      "epoch": 1.984,
+      "grad_norm": 0.010314074344933033,
+      "learning_rate": 8.382346469820723e-06,
+      "loss": 0.1783,
+      "step": 6200
+    },
+    {
+      "epoch": 2.0,
+      "step": 6250,
+      "total_flos": 4.0647058784256e+18,
+      "train_loss": 0.2409750535583496,
+      "train_runtime": 5596.8758,
+      "train_samples_per_second": 35.734,
+      "train_steps_per_second": 1.117
+    }
+  ],
+  "logging_steps": 200,
+  "max_steps": 6250,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 0,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.0647058784256e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

nl_tasks/exp100/run_ex05/ft/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": false,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/exp100/run_ex05/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<unk>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

nl_tasks/exp100/run_ex05/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

nl_tasks/exp100/run_ex05/ft/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

nl_tasks/exp100/run_ex05/ft/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 512,
+  "pad_token": "<unk>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

nl_tasks/exp100/run_ex05/ft2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": true,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/exp100/run_ex05/ft2/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:92a6b1824b00e9dee64d31ee13cebccc364da375813e22cd7363a5dba7c0f92d
+size 33602915

nl_tasks/exp100/run_ex05/trainer_state.json ADDED Viewed

	@@ -0,0 +1,365 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 9375,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.064,
+      "grad_norm": 0.1212976798415184,
+      "learning_rate": 0.00999684221114305,
+      "loss": 0.6038,
+      "step": 200
+    },
+    {
+      "epoch": 0.128,
+      "grad_norm": 0.065467968583107,
+      "learning_rate": 0.009973376564462873,
+      "loss": 0.2948,
+      "step": 400
+    },
+    {
+      "epoch": 0.192,
+      "grad_norm": 0.06629683822393417,
+      "learning_rate": 0.009927125570277145,
+      "loss": 0.2742,
+      "step": 600
+    },
+    {
+      "epoch": 0.256,
+      "grad_norm": 0.06881999224424362,
+      "learning_rate": 0.009858301125867589,
+      "loss": 0.2629,
+      "step": 800
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 0.14311932027339935,
+      "learning_rate": 0.009767218547973728,
+      "loss": 0.253,
+      "step": 1000
+    },
+    {
+      "epoch": 0.384,
+      "grad_norm": 0.052844878286123276,
+      "learning_rate": 0.009654295128180494,
+      "loss": 0.2444,
+      "step": 1200
+    },
+    {
+      "epoch": 0.448,
+      "grad_norm": 0.045355528593063354,
+      "learning_rate": 0.009520048221111679,
+      "loss": 0.2394,
+      "step": 1400
+    },
+    {
+      "epoch": 0.512,
+      "grad_norm": 0.03619716316461563,
+      "learning_rate": 0.009365092874188177,
+      "loss": 0.2379,
+      "step": 1600
+    },
+    {
+      "epoch": 0.576,
+      "grad_norm": 0.03572649136185646,
+      "learning_rate": 0.00919013900981014,
+      "loss": 0.2351,
+      "step": 1800
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 0.02887910045683384,
+      "learning_rate": 0.008995988172872798,
+      "loss": 0.2343,
+      "step": 2000
+    },
+    {
+      "epoch": 0.704,
+      "grad_norm": 0.030390536412596703,
+      "learning_rate": 0.008783529858517077,
+      "loss": 0.2281,
+      "step": 2200
+    },
+    {
+      "epoch": 0.768,
+      "grad_norm": 0.02559584006667137,
+      "learning_rate": 0.008553737436939324,
+      "loss": 0.226,
+      "step": 2400
+    },
+    {
+      "epoch": 0.832,
+      "grad_norm": 0.028384791687130928,
+      "learning_rate": 0.008307663693930425,
+      "loss": 0.2239,
+      "step": 2600
+    },
+    {
+      "epoch": 0.896,
+      "grad_norm": 0.022031353786587715,
+      "learning_rate": 0.00804643600757522,
+      "loss": 0.2205,
+      "step": 2800
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 0.02517508529126644,
+      "learning_rate": 0.007771251183209993,
+      "loss": 0.2194,
+      "step": 3000
+    },
+    {
+      "epoch": 1.024,
+      "grad_norm": 0.02236510068178177,
+      "learning_rate": 0.007483369970301455,
+      "loss": 0.2098,
+      "step": 3200
+    },
+    {
+      "epoch": 1.088,
+      "grad_norm": 0.02561621367931366,
+      "learning_rate": 0.0071841112863680005,
+      "loss": 0.1984,
+      "step": 3400
+    },
+    {
+      "epoch": 1.152,
+      "grad_norm": 0.024599742144346237,
+      "learning_rate": 0.006874846174406093,
+      "loss": 0.2025,
+      "step": 3600
+    },
+    {
+      "epoch": 1.216,
+      "grad_norm": 0.02521314099431038,
+      "learning_rate": 0.006556991521505633,
+      "loss": 0.2005,
+      "step": 3800
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 0.019666949287056923,
+      "learning_rate": 0.006232003567432242,
+      "loss": 0.1988,
+      "step": 4000
+    },
+    {
+      "epoch": 1.3439999999999999,
+      "grad_norm": 0.020948218181729317,
+      "learning_rate": 0.005901371232916675,
+      "loss": 0.1985,
+      "step": 4200
+    },
+    {
+      "epoch": 1.408,
+      "grad_norm": 0.022395219653844833,
+      "learning_rate": 0.005566609298217553,
+      "loss": 0.1972,
+      "step": 4400
+    },
+    {
+      "epoch": 1.472,
+      "grad_norm": 0.020159346982836723,
+      "learning_rate": 0.005229251463209568,
+      "loss": 0.198,
+      "step": 4600
+    },
+    {
+      "epoch": 1.536,
+      "grad_norm": 0.016137801110744476,
+      "learning_rate": 0.004890843320792184,
+      "loss": 0.1915,
+      "step": 4800
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 0.017183274030685425,
+      "learning_rate": 0.004552935275810833,
+      "loss": 0.1971,
+      "step": 5000
+    },
+    {
+      "epoch": 1.6640000000000001,
+      "grad_norm": 0.01746981218457222,
+      "learning_rate": 0.004217075441932357,
+      "loss": 0.1929,
+      "step": 5200
+    },
+    {
+      "epoch": 1.728,
+      "grad_norm": 0.01835208386182785,
+      "learning_rate": 0.0038848025490174254,
+      "loss": 0.191,
+      "step": 5400
+    },
+    {
+      "epoch": 1.792,
+      "grad_norm": 0.017558401450514793,
+      "learning_rate": 0.0035576388934845005,
+      "loss": 0.1889,
+      "step": 5600
+    },
+    {
+      "epoch": 1.8559999999999999,
+      "grad_norm": 0.016855215653777122,
+      "learning_rate": 0.003237083363963042,
+      "loss": 0.1914,
+      "step": 5800
+    },
+    {
+      "epoch": 1.92,
+      "grad_norm": 0.01803995855152607,
+      "learning_rate": 0.0029246045741886696,
+      "loss": 0.185,
+      "step": 6000
+    },
+    {
+      "epoch": 1.984,
+      "grad_norm": 0.019782407209277153,
+      "learning_rate": 0.0026216341346016613,
+      "loss": 0.1845,
+      "step": 6200
+    },
+    {
+      "epoch": 2.048,
+      "grad_norm": 0.018053608015179634,
+      "learning_rate": 0.0023295600934747397,
+      "loss": 0.1674,
+      "step": 6400
+    },
+    {
+      "epoch": 2.112,
+      "grad_norm": 0.021936679258942604,
+      "learning_rate": 0.002049720577619374,
+      "loss": 0.1611,
+      "step": 6600
+    },
+    {
+      "epoch": 2.176,
+      "grad_norm": 0.01545505877584219,
+      "learning_rate": 0.0017833976618054676,
+      "loss": 0.1611,
+      "step": 6800
+    },
+    {
+      "epoch": 2.24,
+      "grad_norm": 0.018597135320305824,
+      "learning_rate": 0.001531811494981501,
+      "loss": 0.1582,
+      "step": 7000
+    },
+    {
+      "epoch": 2.304,
+      "grad_norm": 0.01862194575369358,
+      "learning_rate": 0.001296114710205592,
+      "loss": 0.1617,
+      "step": 7200
+    },
+    {
+      "epoch": 2.368,
+      "grad_norm": 0.017578421160578728,
+      "learning_rate": 0.0010773871438982197,
+      "loss": 0.1546,
+      "step": 7400
+    },
+    {
+      "epoch": 2.432,
+      "grad_norm": 0.01894843764603138,
+      "learning_rate": 0.0008766308886101404,
+      "loss": 0.1593,
+      "step": 7600
+    },
+    {
+      "epoch": 2.496,
+      "grad_norm": 0.01759357750415802,
+      "learning_rate": 0.0006947657019710795,
+      "loss": 0.1569,
+      "step": 7800
+    },
+    {
+      "epoch": 2.56,
+      "grad_norm": 0.0183447003364563,
+      "learning_rate": 0.0005326247928529187,
+      "loss": 0.1597,
+      "step": 8000
+    },
+    {
+      "epoch": 2.624,
+      "grad_norm": 0.01979999430477619,
+      "learning_rate": 0.000390951004052949,
+      "loss": 0.1559,
+      "step": 8200
+    },
+    {
+      "epoch": 2.6879999999999997,
+      "grad_norm": 0.01742800511419773,
+      "learning_rate": 0.0002703934089860627,
+      "loss": 0.1531,
+      "step": 8400
+    },
+    {
+      "epoch": 2.752,
+      "grad_norm": 0.018611254170536995,
+      "learning_rate": 0.00017150433797803011,
+      "loss": 0.1532,
+      "step": 8600
+    },
+    {
+      "epoch": 2.816,
+      "grad_norm": 0.019568437710404396,
+      "learning_rate": 9.473684778379676e-05,
+      "loss": 0.1549,
+      "step": 8800
+    },
+    {
+      "epoch": 2.88,
+      "grad_norm": 0.01714991219341755,
+      "learning_rate": 4.04426459241064e-05,
+      "loss": 0.1533,
+      "step": 9000
+    },
+    {
+      "epoch": 2.944,
+      "grad_norm": 0.02003113366663456,
+      "learning_rate": 8.87047935002272e-06,
+      "loss": 0.1541,
+      "step": 9200
+    },
+    {
+      "epoch": 3.0,
+      "step": 9375,
+      "total_flos": 6.0970588176384e+18,
+      "train_loss": 0.2053676788330078,
+      "train_runtime": 8368.9804,
+      "train_samples_per_second": 35.847,
+      "train_steps_per_second": 1.12
+    }
+  ],
+  "logging_steps": 200,
+  "max_steps": 9375,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 0,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6.0970588176384e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

nl_tasks/exp100/run_ex06/ft/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": false,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/exp100/run_ex06/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<unk>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

nl_tasks/exp100/run_ex06/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

nl_tasks/exp100/run_ex06/ft/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

nl_tasks/exp100/run_ex06/ft/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 512,
+  "pad_token": "<unk>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

nl_tasks/exp100/run_ex06/ft2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": true,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/exp100/run_ex06/ft2/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8b6eff2d5fa7579af4e75d06b790b1a0331b1bcb1e9d1a3259da889964fbf273
+size 33602915

nl_tasks/exp100/run_ex06/trainer_state.json ADDED Viewed

	@@ -0,0 +1,183 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 4168,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.09596928982725528,
+      "grad_norm": 0.6366388201713562,
+      "learning_rate": 0.009964316835038782,
+      "loss": 5.3796,
+      "step": 200
+    },
+    {
+      "epoch": 0.19193857965451055,
+      "grad_norm": 0.05433971807360649,
+      "learning_rate": 0.00981641298054017,
+      "loss": 2.1242,
+      "step": 400
+    },
+    {
+      "epoch": 0.28790786948176583,
+      "grad_norm": 0.05430266633629799,
+      "learning_rate": 0.00955703204967729,
+      "loss": 0.2875,
+      "step": 600
+    },
+    {
+      "epoch": 0.3838771593090211,
+      "grad_norm": 0.042459528893232346,
+      "learning_rate": 0.009192177478607726,
+      "loss": 0.2663,
+      "step": 800
+    },
+    {
+      "epoch": 0.4798464491362764,
+      "grad_norm": 0.038593146950006485,
+      "learning_rate": 0.008730293917124864,
+      "loss": 0.251,
+      "step": 1000
+    },
+    {
+      "epoch": 0.5758157389635317,
+      "grad_norm": 0.04011659324169159,
+      "learning_rate": 0.008182071775138081,
+      "loss": 0.2465,
+      "step": 1200
+    },
+    {
+      "epoch": 0.6717850287907869,
+      "grad_norm": 0.0388704277575016,
+      "learning_rate": 0.007560199790476499,
+      "loss": 0.241,
+      "step": 1400
+    },
+    {
+      "epoch": 0.7677543186180422,
+      "grad_norm": 0.03452278673648834,
+      "learning_rate": 0.006879071344895999,
+      "loss": 0.2317,
+      "step": 1600
+    },
+    {
+      "epoch": 0.8637236084452975,
+      "grad_norm": 0.035173822194337845,
+      "learning_rate": 0.006154451325678603,
+      "loss": 0.2279,
+      "step": 1800
+    },
+    {
+      "epoch": 0.9596928982725528,
+      "grad_norm": 0.03411315754055977,
+      "learning_rate": 0.005403111243395296,
+      "loss": 0.2222,
+      "step": 2000
+    },
+    {
+      "epoch": 1.055662188099808,
+      "grad_norm": 0.03330094739794731,
+      "learning_rate": 0.004642441051122492,
+      "loss": 0.2085,
+      "step": 2200
+    },
+    {
+      "epoch": 1.1516314779270633,
+      "grad_norm": 0.03454425185918808,
+      "learning_rate": 0.003890046649652885,
+      "loss": 0.202,
+      "step": 2400
+    },
+    {
+      "epoch": 1.2476007677543186,
+      "grad_norm": 0.031027931720018387,
+      "learning_rate": 0.0031633423945426832,
+      "loss": 0.1988,
+      "step": 2600
+    },
+    {
+      "epoch": 1.3435700575815739,
+      "grad_norm": 0.028650769963860512,
+      "learning_rate": 0.002479148036521003,
+      "loss": 0.1959,
+      "step": 2800
+    },
+    {
+      "epoch": 1.4395393474088292,
+      "grad_norm": 0.031158311292529106,
+      "learning_rate": 0.0018532994241758595,
+      "loss": 0.1933,
+      "step": 3000
+    },
+    {
+      "epoch": 1.5355086372360844,
+      "grad_norm": 0.031318724155426025,
+      "learning_rate": 0.0013002819792999314,
+      "loss": 0.1882,
+      "step": 3200
+    },
+    {
+      "epoch": 1.6314779270633397,
+      "grad_norm": 0.03243976831436157,
+      "learning_rate": 0.0008328954282003914,
+      "loss": 0.1887,
+      "step": 3400
+    },
+    {
+      "epoch": 1.727447216890595,
+      "grad_norm": 0.031175516545772552,
+      "learning_rate": 0.00046195754884998665,
+      "loss": 0.1856,
+      "step": 3600
+    },
+    {
+      "epoch": 1.8234165067178503,
+      "grad_norm": 0.028726134449243546,
+      "learning_rate": 0.00019605379072529185,
+      "loss": 0.1848,
+      "step": 3800
+    },
+    {
+      "epoch": 1.9193857965451055,
+      "grad_norm": 0.034339435398578644,
+      "learning_rate": 4.133856244321388e-05,
+      "loss": 0.1809,
+      "step": 4000
+    },
+    {
+      "epoch": 2.0,
+      "step": 4168,
+      "total_flos": 4.0647058784256e+18,
+      "train_loss": 0.5545519496566275,
+      "train_runtime": 5547.6753,
+      "train_samples_per_second": 36.051,
+      "train_steps_per_second": 0.751
+    }
+  ],
+  "logging_steps": 200,
+  "max_steps": 4168,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 0,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.0647058784256e+18,
+  "train_batch_size": 48,
+  "trial_name": null,
+  "trial_params": null
+}

nl_tasks/exp100/run_ex07/ft/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": false,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/exp100/run_ex07/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<unk>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

nl_tasks/exp100/run_ex07/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

nl_tasks/exp100/run_ex07/ft/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

nl_tasks/exp100/run_ex07/ft/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 512,
+  "pad_token": "<unk>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

nl_tasks/exp100/run_ex07/ft2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": true,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/exp100/run_ex07/ft2/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:463d7e91ab4fbd7f09a9bbaff1bf0cc91021c6cd2d4cb0c851d89a72c5e61e13
+size 33602915

nl_tasks/exp100/run_ex07/trainer_state.json ADDED Viewed

	@@ -0,0 +1,260 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 6252,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.09596928982725528,
+      "grad_norm": 0.08396021276712418,
+      "learning_rate": 0.009988090209605933,
+      "loss": 6.13,
+      "step": 200
+    },
+    {
+      "epoch": 0.19193857965451055,
+      "grad_norm": 0.5583938956260681,
+      "learning_rate": 0.009927452190923135,
+      "loss": 4.905,
+      "step": 400
+    },
+    {
+      "epoch": 0.28790786948176583,
+      "grad_norm": 0.04631821811199188,
+      "learning_rate": 0.009816072106071381,
+      "loss": 0.8658,
+      "step": 600
+    },
+    {
+      "epoch": 0.3838771593090211,
+      "grad_norm": 0.04276253283023834,
+      "learning_rate": 0.00965509692825639,
+      "loss": 0.283,
+      "step": 800
+    },
+    {
+      "epoch": 0.4798464491362764,
+      "grad_norm": 0.03793822228908539,
+      "learning_rate": 0.009446184352531868,
+      "loss": 0.2622,
+      "step": 1000
+    },
+    {
+      "epoch": 0.5758157389635317,
+      "grad_norm": 0.03757239133119583,
+      "learning_rate": 0.009191485725137248,
+      "loss": 0.2549,
+      "step": 1200
+    },
+    {
+      "epoch": 0.6717850287907869,
+      "grad_norm": 0.03672794625163078,
+      "learning_rate": 0.00889362388929934,
+      "loss": 0.2488,
+      "step": 1400
+    },
+    {
+      "epoch": 0.7677543186180422,
+      "grad_norm": 0.03426536172628403,
+      "learning_rate": 0.008555666175638042,
+      "loss": 0.2386,
+      "step": 1600
+    },
+    {
+      "epoch": 0.8637236084452975,
+      "grad_norm": 0.0342838317155838,
+      "learning_rate": 0.008181092815316326,
+      "loss": 0.2349,
+      "step": 1800
+    },
+    {
+      "epoch": 0.9596928982725528,
+      "grad_norm": 0.03222282603383064,
+      "learning_rate": 0.007773761101210539,
+      "loss": 0.2294,
+      "step": 2000
+    },
+    {
+      "epoch": 1.055662188099808,
+      "grad_norm": 0.033653076738119125,
+      "learning_rate": 0.0073378656661631705,
+      "loss": 0.2174,
+      "step": 2200
+    },
+    {
+      "epoch": 1.1516314779270633,
+      "grad_norm": 0.037820011377334595,
+      "learning_rate": 0.006877895287365947,
+      "loss": 0.2128,
+      "step": 2400
+    },
+    {
+      "epoch": 1.2476007677543186,
+      "grad_norm": 0.03313204646110535,
+      "learning_rate": 0.006398586661694321,
+      "loss": 0.211,
+      "step": 2600
+    },
+    {
+      "epoch": 1.3435700575815739,
+      "grad_norm": 0.038085468113422394,
+      "learning_rate": 0.0059048756280071606,
+      "loss": 0.2086,
+      "step": 2800
+    },
+    {
+      "epoch": 1.4395393474088292,
+      "grad_norm": 0.027709227055311203,
+      "learning_rate": 0.0054018463387160995,
+      "loss": 0.2073,
+      "step": 3000
+    },
+    {
+      "epoch": 1.5355086372360844,
+      "grad_norm": 0.03159138932824135,
+      "learning_rate": 0.004894678904047102,
+      "loss": 0.2028,
+      "step": 3200
+    },
+    {
+      "epoch": 1.6314779270633397,
+      "grad_norm": 0.032402586191892624,
+      "learning_rate": 0.004388596048144727,
+      "loss": 0.2047,
+      "step": 3400
+    },
+    {
+      "epoch": 1.727447216890595,
+      "grad_norm": 0.028337595984339714,
+      "learning_rate": 0.003888809326345519,
+      "loss": 0.2012,
+      "step": 3600
+    },
+    {
+      "epoch": 1.8234165067178503,
+      "grad_norm": 0.026909947395324707,
+      "learning_rate": 0.0034004654574658734,
+      "loss": 0.1998,
+      "step": 3800
+    },
+    {
+      "epoch": 1.9193857965451055,
+      "grad_norm": 0.031789738684892654,
+      "learning_rate": 0.002928593323765374,
+      "loss": 0.195,
+      "step": 4000
+    },
+    {
+      "epoch": 2.015355086372361,
+      "grad_norm": 0.029551630839705467,
+      "learning_rate": 0.002478052184371007,
+      "loss": 0.1912,
+      "step": 4200
+    },
+    {
+      "epoch": 2.111324376199616,
+      "grad_norm": 0.03310905396938324,
+      "learning_rate": 0.002053481635451576,
+      "loss": 0.1712,
+      "step": 4400
+    },
+    {
+      "epoch": 2.2072936660268714,
+      "grad_norm": 0.02764611691236496,
+      "learning_rate": 0.0016592538324439927,
+      "loss": 0.1706,
+      "step": 4600
+    },
+    {
+      "epoch": 2.3032629558541267,
+      "grad_norm": 0.027012605220079422,
+      "learning_rate": 0.0012994284663388062,
+      "loss": 0.1718,
+      "step": 4800
+    },
+    {
+      "epoch": 2.399232245681382,
+      "grad_norm": 0.028096886351704597,
+      "learning_rate": 0.0009777109576715644,
+      "loss": 0.1659,
+      "step": 5000
+    },
+    {
+      "epoch": 2.495201535508637,
+      "grad_norm": 0.030632272362709045,
+      "learning_rate": 0.0006974142987311794,
+      "loss": 0.169,
+      "step": 5200
+    },
+    {
+      "epoch": 2.5911708253358925,
+      "grad_norm": 0.028473207727074623,
+      "learning_rate": 0.0004614249369277501,
+      "loss": 0.1681,
+      "step": 5400
+    },
+    {
+      "epoch": 2.6871401151631478,
+      "grad_norm": 0.03663257881999016,
+      "learning_rate": 0.0002721730506471498,
+      "loss": 0.1651,
+      "step": 5600
+    },
+    {
+      "epoch": 2.783109404990403,
+      "grad_norm": 0.02837834507226944,
+      "learning_rate": 0.00013160752368655492,
+      "loss": 0.1629,
+      "step": 5800
+    },
+    {
+      "epoch": 2.8790786948176583,
+      "grad_norm": 0.03114727884531021,
+      "learning_rate": 4.11758759799491e-05,
+      "loss": 0.1642,
+      "step": 6000
+    },
+    {
+      "epoch": 2.9750479846449136,
+      "grad_norm": 0.028946418315172195,
+      "learning_rate": 1.809357283573676e-06,
+      "loss": 0.1653,
+      "step": 6200
+    },
+    {
+      "epoch": 3.0,
+      "step": 6252,
+      "total_flos": 6.0970588176384e+18,
+      "train_loss": 0.5637188162166037,
+      "train_runtime": 8208.1422,
+      "train_samples_per_second": 36.549,
+      "train_steps_per_second": 0.762
+    }
+  ],
+  "logging_steps": 200,
+  "max_steps": 6252,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 0,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6.0970588176384e+18,
+  "train_batch_size": 48,
+  "trial_name": null,
+  "trial_params": null
+}

nl_tasks/exp100/run_ex08/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<unk>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

nl_tasks/exp100/run_ex08/ft/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 512,
+  "pad_token": "<unk>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

nl_tasks/exp100/run_ex08/trainer_state.json ADDED Viewed

	@@ -0,0 +1,183 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 4168,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.09596928982725528,
+      "grad_norm": 0.05143404379487038,
+      "learning_rate": 0.019928633670077564,
+      "loss": 0.7492,
+      "step": 200
+    },
+    {
+      "epoch": 0.19193857965451055,
+      "grad_norm": 0.049090251326560974,
+      "learning_rate": 0.01963282596108034,
+      "loss": 0.2822,
+      "step": 400
+    },
+    {
+      "epoch": 0.28790786948176583,
+      "grad_norm": 0.03802068158984184,
+      "learning_rate": 0.01911406409935458,
+      "loss": 0.2606,
+      "step": 600
+    },
+    {
+      "epoch": 0.3838771593090211,
+      "grad_norm": 0.03355047479271889,
+      "learning_rate": 0.01838435495721545,
+      "loss": 0.2506,
+      "step": 800
+    },
+    {
+      "epoch": 0.4798464491362764,
+      "grad_norm": 0.03283309563994408,
+      "learning_rate": 0.017460587834249728,
+      "loss": 0.2402,
+      "step": 1000
+    },
+    {
+      "epoch": 0.5758157389635317,
+      "grad_norm": 0.028441881760954857,
+      "learning_rate": 0.016364143550276163,
+      "loss": 0.2378,
+      "step": 1200
+    },
+    {
+      "epoch": 0.6717850287907869,
+      "grad_norm": 0.025979651138186455,
+      "learning_rate": 0.015120399580952997,
+      "loss": 0.2336,
+      "step": 1400
+    },
+    {
+      "epoch": 0.7677543186180422,
+      "grad_norm": 0.023276863619685173,
+      "learning_rate": 0.013758142689791999,
+      "loss": 0.2249,
+      "step": 1600
+    },
+    {
+      "epoch": 0.8637236084452975,
+      "grad_norm": 0.02259671501815319,
+      "learning_rate": 0.012308902651357206,
+      "loss": 0.2221,
+      "step": 1800
+    },
+    {
+      "epoch": 0.9596928982725528,
+      "grad_norm": 0.01977524533867836,
+      "learning_rate": 0.010806222486790591,
+      "loss": 0.2172,
+      "step": 2000
+    },
+    {
+      "epoch": 1.055662188099808,
+      "grad_norm": 0.02073797583580017,
+      "learning_rate": 0.009284882102244985,
+      "loss": 0.2027,
+      "step": 2200
+    },
+    {
+      "epoch": 1.1516314779270633,
+      "grad_norm": 0.020284440368413925,
+      "learning_rate": 0.00778009329930577,
+      "loss": 0.1956,
+      "step": 2400
+    },
+    {
+      "epoch": 1.2476007677543186,
+      "grad_norm": 0.02195167914032936,
+      "learning_rate": 0.0063266847890853664,
+      "loss": 0.1924,
+      "step": 2600
+    },
+    {
+      "epoch": 1.3435700575815739,
+      "grad_norm": 0.01651054248213768,
+      "learning_rate": 0.004958296073042006,
+      "loss": 0.1901,
+      "step": 2800
+    },
+    {
+      "epoch": 1.4395393474088292,
+      "grad_norm": 0.021048910915851593,
+      "learning_rate": 0.003706598848351719,
+      "loss": 0.1877,
+      "step": 3000
+    },
+    {
+      "epoch": 1.5355086372360844,
+      "grad_norm": 0.01921105571091175,
+      "learning_rate": 0.002600563958599863,
+      "loss": 0.1824,
+      "step": 3200
+    },
+    {
+      "epoch": 1.6314779270633397,
+      "grad_norm": 0.02395492233335972,
+      "learning_rate": 0.0016657908564007829,
+      "loss": 0.1825,
+      "step": 3400
+    },
+    {
+      "epoch": 1.727447216890595,
+      "grad_norm": 0.01738915778696537,
+      "learning_rate": 0.0009239150976999733,
+      "loss": 0.1793,
+      "step": 3600
+    },
+    {
+      "epoch": 1.8234165067178503,
+      "grad_norm": 0.018468189984560013,
+      "learning_rate": 0.0003921075814505837,
+      "loss": 0.1784,
+      "step": 3800
+    },
+    {
+      "epoch": 1.9193857965451055,
+      "grad_norm": 0.017226792871952057,
+      "learning_rate": 8.267712488642776e-05,
+      "loss": 0.1743,
+      "step": 4000
+    },
+    {
+      "epoch": 2.0,
+      "step": 4168,
+      "total_flos": 4.0647058784256e+18,
+      "train_loss": 0.2365957404738882,
+      "train_runtime": 5474.4546,
+      "train_samples_per_second": 36.533,
+      "train_steps_per_second": 0.761
+    }
+  ],
+  "logging_steps": 200,
+  "max_steps": 4168,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 0,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.0647058784256e+18,
+  "train_batch_size": 48,
+  "trial_name": null,
+  "trial_params": null
+}