ParagonLight commited on Jun 26

Commit

c6dd428

•

1 Parent(s): 33f3da9

update 28 tasks lora adapters

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

llama2_13b_peft/linguistics_puzzles/README.md +74 -0
llama2_13b_peft/linguistics_puzzles/adapter_config.json +34 -0
llama2_13b_peft/linguistics_puzzles/adapter_model.safetensors +3 -0
llama2_13b_peft/linguistics_puzzles/all_results.json +12 -0
llama2_13b_peft/linguistics_puzzles/eval_results.json +7 -0
llama2_13b_peft/linguistics_puzzles/special_tokens_map.json +24 -0
llama2_13b_peft/linguistics_puzzles/tokenizer.model +3 -0
llama2_13b_peft/linguistics_puzzles/tokenizer_config.json +45 -0
llama2_13b_peft/linguistics_puzzles/train_results.json +8 -0
llama2_13b_peft/linguistics_puzzles/trainer_log.jsonl +106 -0
llama2_13b_peft/linguistics_puzzles/trainer_state.json +767 -0
llama2_13b_peft/linguistics_puzzles/training_args.bin +3 -0
llama2_13b_peft/linguistics_puzzles/training_eval_loss.png +0 -0
llama2_13b_peft/linguistics_puzzles/training_loss.png +0 -0
llama2_13b_peft/news_commentary_de/README.md +85 -0
llama2_13b_peft/news_commentary_de/adapter_config.json +33 -0
llama2_13b_peft/news_commentary_de/adapter_model.safetensors +3 -0
llama2_13b_peft/news_commentary_de/all_results.json +11 -0
llama2_13b_peft/news_commentary_de/eval_results.json +7 -0
llama2_13b_peft/news_commentary_de/special_tokens_map.json +24 -0
llama2_13b_peft/news_commentary_de/tokenizer.model +3 -0
llama2_13b_peft/news_commentary_de/tokenizer_config.json +45 -0
llama2_13b_peft/news_commentary_de/train_results.json +7 -0
llama2_13b_peft/news_commentary_de/trainer_log.jsonl +0 -0
llama2_13b_peft/news_commentary_de/trainer_state.json +2990 -0
llama2_13b_peft/news_commentary_de/training_args.bin +3 -0
llama2_13b_peft/news_commentary_de/training_eval_loss.png +0 -0
llama2_13b_peft/news_commentary_de/training_loss.png +0 -0
llama2_13b_peft/news_commentary_it/README.md +67 -0
llama2_13b_peft/news_commentary_it/adapter_config.json +34 -0
llama2_13b_peft/news_commentary_it/adapter_model.safetensors +3 -0
llama2_13b_peft/news_commentary_it/all_results.json +12 -0
llama2_13b_peft/news_commentary_it/eval_results.json +7 -0
llama2_13b_peft/news_commentary_it/special_tokens_map.json +24 -0
llama2_13b_peft/news_commentary_it/tokenizer.model +3 -0
llama2_13b_peft/news_commentary_it/tokenizer_config.json +45 -0
llama2_13b_peft/news_commentary_it/train_results.json +8 -0
llama2_13b_peft/news_commentary_it/trainer_log.jsonl +0 -0
llama2_13b_peft/news_commentary_it/trainer_state.json +0 -0
llama2_13b_peft/news_commentary_it/training_args.bin +3 -0
llama2_13b_peft/news_commentary_it/training_eval_loss.png +0 -0
llama2_13b_peft/news_commentary_it/training_loss.png +0 -0
llama2_13b_peft/topical_chat/README.md +89 -0
llama2_13b_peft/topical_chat/adapter_config.json +34 -0
llama2_13b_peft/topical_chat/adapter_model.safetensors +3 -0
llama2_13b_peft/topical_chat/all_results.json +12 -0
llama2_13b_peft/topical_chat/eval_results.json +7 -0
llama2_13b_peft/topical_chat/special_tokens_map.json +24 -0
llama2_13b_peft/topical_chat/tokenizer.model +3 -0
llama2_13b_peft/topical_chat/tokenizer_config.json +45 -0

llama2_13b_peft/linguistics_puzzles/README.md ADDED Viewed

	@@ -0,0 +1,74 @@

+---
+license: other
+library_name: peft
+tags:
+- llama-factory
+- lora
+- generated_from_trainer
+base_model: /data1/model/llama2/meta-llama/Llama2-13b
+model-index:
+- name: linguistics_puzzles_no_sys
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# linguistics_puzzles_no_sys
+This model is a fine-tuned version of [/data1/model/llama2/meta-llama/Llama2-13b](https://huggingface.co//data1/model/llama2/meta-llama/Llama2-13b) on the linguistics_puzzles_no_sys dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.5924
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 4
+- eval_batch_size: 4
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 2
+- total_train_batch_size: 8
+- total_eval_batch_size: 8
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_steps: 20
+- num_epochs: 5.0
+### Training results
+| Training Loss | Epoch  | Step | Validation Loss |
+|:-------------:|:------:|:----:|:---------------:|
+| 1.1276        | 0.5263 | 100  | 1.0876          |
+| 0.8128        | 1.0526 | 200  | 0.8153          |
+| 0.6705        | 1.5789 | 300  | 0.6892          |
+| 0.4876        | 2.1053 | 400  | 0.6225          |
+| 0.4435        | 2.6316 | 500  | 0.5924          |
+| 0.2743        | 3.1579 | 600  | 0.6151          |
+| 0.2846        | 3.6842 | 700  | 0.6084          |
+| 0.2069        | 4.2105 | 800  | 0.6427          |
+| 0.172         | 4.7368 | 900  | 0.6495          |
+### Framework versions
+- PEFT 0.10.0
+- Transformers 4.40.0
+- Pytorch 2.2.1
+- Datasets 2.18.0
+- Tokenizers 0.19.1

llama2_13b_peft/linguistics_puzzles/adapter_config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "/data1/model/llama2/meta-llama/Llama2-13b",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.0,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "o_proj",
+    "k_proj",
+    "q_proj",
+    "up_proj",
+    "gate_proj",
+    "v_proj",
+    "down_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_dora": false,
+  "use_rslora": false
+}

llama2_13b_peft/linguistics_puzzles/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef6dff2a000b0e4ef6a4db9d169cbaa257c1423e45fae8ef4f428ba9852e00f5
+size 125248064

llama2_13b_peft/linguistics_puzzles/all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 5.0,
+    "eval_loss": 0.5924356579780579,
+    "eval_runtime": 1.9025,
+    "eval_samples_per_second": 42.05,
+    "eval_steps_per_second": 5.256,
+    "total_flos": 2.0275085174217114e+17,
+    "train_loss": 0.5822552880487945,
+    "train_runtime": 660.0352,
+    "train_samples_per_second": 11.515,
+    "train_steps_per_second": 1.439
+}

llama2_13b_peft/linguistics_puzzles/eval_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 5.0,
+    "eval_loss": 0.5924356579780579,
+    "eval_runtime": 1.9025,
+    "eval_samples_per_second": 42.05,
+    "eval_steps_per_second": 5.256
+}

llama2_13b_peft/linguistics_puzzles/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

llama2_13b_peft/linguistics_puzzles/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

llama2_13b_peft/linguistics_puzzles/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,45 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": true,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "chat_template": "{% if messages[0]['role'] == 'system' %}{% set system_message = messages[0]['content'] %}{% endif %}{% if system_message is defined %}{{ system_message }}{% endif %}{% for message in messages %}{% set content = message['content'] %}{% if message['role'] == 'user' %}{{ content }}{% elif message['role'] == 'assistant' %}{{ content + '\\n' }}{% endif %}{% endfor %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": true,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "</s>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "split_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

llama2_13b_peft/linguistics_puzzles/train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 5.0,
+    "total_flos": 2.0275085174217114e+17,
+    "train_loss": 0.5822552880487945,
+    "train_runtime": 660.0352,
+    "train_samples_per_second": 11.515,
+    "train_steps_per_second": 1.439
+}

llama2_13b_peft/linguistics_puzzles/trainer_log.jsonl ADDED Viewed

	@@ -0,0 +1,106 @@

+{"current_steps": 10, "total_steps": 950, "loss": 2.5922, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 2.5e-05, "epoch": 0.05263157894736842, "percentage": 1.05, "elapsed_time": "0:00:07", "remaining_time": "0:12:31"}
+{"current_steps": 20, "total_steps": 950, "loss": 2.3206, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 5e-05, "epoch": 0.10526315789473684, "percentage": 2.11, "elapsed_time": "0:00:14", "remaining_time": "0:11:00"}
+{"current_steps": 30, "total_steps": 950, "loss": 1.7229, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 4.998573727324295e-05, "epoch": 0.15789473684210525, "percentage": 3.16, "elapsed_time": "0:00:20", "remaining_time": "0:10:32"}
+{"current_steps": 40, "total_steps": 950, "loss": 1.3729, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 4.994296536700177e-05, "epoch": 0.21052631578947367, "percentage": 4.21, "elapsed_time": "0:00:26", "remaining_time": "0:10:14"}
+{"current_steps": 50, "total_steps": 950, "loss": 1.3635, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 4.987173308479738e-05, "epoch": 0.2631578947368421, "percentage": 5.26, "elapsed_time": "0:00:33", "remaining_time": "0:10:10"}
+{"current_steps": 60, "total_steps": 950, "loss": 1.3315, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 4.977212170395598e-05, "epoch": 0.3157894736842105, "percentage": 6.32, "elapsed_time": "0:00:40", "remaining_time": "0:10:00"}
+{"current_steps": 70, "total_steps": 950, "loss": 1.2515, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 4.964424488287009e-05, "epoch": 0.3684210526315789, "percentage": 7.37, "elapsed_time": "0:00:46", "remaining_time": "0:09:49"}
+{"current_steps": 80, "total_steps": 950, "loss": 1.1872, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 4.948824853131236e-05, "epoch": 0.42105263157894735, "percentage": 8.42, "elapsed_time": "0:00:53", "remaining_time": "0:09:43"}
+{"current_steps": 90, "total_steps": 950, "loss": 1.1552, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 4.930431064394977e-05, "epoch": 0.47368421052631576, "percentage": 9.47, "elapsed_time": "0:01:00", "remaining_time": "0:09:34"}
+{"current_steps": 100, "total_steps": 950, "loss": 1.1276, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 4.909264109724853e-05, "epoch": 0.5263157894736842, "percentage": 10.53, "elapsed_time": "0:01:06", "remaining_time": "0:09:27"}
+{"current_steps": 100, "total_steps": 950, "loss": null, "eval_loss": 1.0876480340957642, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": null, "epoch": 0.5263157894736842, "percentage": 10.53, "elapsed_time": "0:01:06", "remaining_time": "0:09:27"}
+{"current_steps": 110, "total_steps": 950, "loss": 1.1756, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 4.885348141000122e-05, "epoch": 0.5789473684210527, "percentage": 11.58, "elapsed_time": "0:01:15", "remaining_time": "0:09:37"}
+{"current_steps": 120, "total_steps": 950, "loss": 1.1106, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 4.858710446774951e-05, "epoch": 0.631578947368421, "percentage": 12.63, "elapsed_time": "0:01:22", "remaining_time": "0:09:29"}
+{"current_steps": 130, "total_steps": 950, "loss": 1.0175, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 4.829381421141671e-05, "epoch": 0.6842105263157895, "percentage": 13.68, "elapsed_time": "0:01:28", "remaining_time": "0:09:19"}
+{"current_steps": 140, "total_steps": 950, "loss": 0.9733, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 4.7973945290505766e-05, "epoch": 0.7368421052631579, "percentage": 14.74, "elapsed_time": "0:01:35", "remaining_time": "0:09:10"}
+{"current_steps": 150, "total_steps": 950, "loss": 0.9907, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 4.7627862681258037e-05, "epoch": 0.7894736842105263, "percentage": 15.79, "elapsed_time": "0:01:41", "remaining_time": "0:09:03"}
+{"current_steps": 160, "total_steps": 950, "loss": 0.9312, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 4.725596127020879e-05, "epoch": 0.8421052631578947, "percentage": 16.84, "elapsed_time": "0:01:48", "remaining_time": "0:08:54"}
+{"current_steps": 170, "total_steps": 950, "loss": 0.9586, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 4.685866540361456e-05, "epoch": 0.8947368421052632, "percentage": 17.89, "elapsed_time": "0:01:55", "remaining_time": "0:08:47"}
+{"current_steps": 180, "total_steps": 950, "loss": 0.9595, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 4.643642840326627e-05, "epoch": 0.9473684210526315, "percentage": 18.95, "elapsed_time": "0:02:01", "remaining_time": "0:08:39"}
+{"current_steps": 190, "total_steps": 950, "loss": 0.8331, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 4.598973204924097e-05, "epoch": 1.0, "percentage": 20.0, "elapsed_time": "0:02:08", "remaining_time": "0:08:32"}
+{"current_steps": 200, "total_steps": 950, "loss": 0.8128, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 4.551908603018191e-05, "epoch": 1.0526315789473684, "percentage": 21.05, "elapsed_time": "0:02:14", "remaining_time": "0:08:25"}
+{"current_steps": 200, "total_steps": 950, "loss": null, "eval_loss": 0.8153461217880249, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": null, "epoch": 1.0526315789473684, "percentage": 21.05, "elapsed_time": "0:02:14", "remaining_time": "0:08:25"}
+{"current_steps": 210, "total_steps": 950, "loss": 0.8186, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 4.502502736173462e-05, "epoch": 1.1052631578947367, "percentage": 22.11, "elapsed_time": "0:02:23", "remaining_time": "0:08:26"}
+{"current_steps": 220, "total_steps": 950, "loss": 0.6895, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 4.45081197738023e-05, "epoch": 1.1578947368421053, "percentage": 23.16, "elapsed_time": "0:02:30", "remaining_time": "0:08:18"}
+{"current_steps": 230, "total_steps": 950, "loss": 0.7901, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 4.3968953067319777e-05, "epoch": 1.2105263157894737, "percentage": 24.21, "elapsed_time": "0:02:36", "remaining_time": "0:08:10"}
+{"current_steps": 240, "total_steps": 950, "loss": 0.704, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 4.340814244127993e-05, "epoch": 1.263157894736842, "percentage": 25.26, "elapsed_time": "0:02:43", "remaining_time": "0:08:03"}
+{"current_steps": 250, "total_steps": 950, "loss": 0.6879, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 4.282632779078051e-05, "epoch": 1.3157894736842106, "percentage": 26.32, "elapsed_time": "0:02:49", "remaining_time": "0:07:55"}
+{"current_steps": 260, "total_steps": 950, "loss": 0.7563, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 4.222417297689217e-05, "epoch": 1.368421052631579, "percentage": 27.37, "elapsed_time": "0:02:56", "remaining_time": "0:07:48"}
+{"current_steps": 270, "total_steps": 950, "loss": 0.6846, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 4.160236506918098e-05, "epoch": 1.4210526315789473, "percentage": 28.42, "elapsed_time": "0:03:03", "remaining_time": "0:07:41"}
+{"current_steps": 280, "total_steps": 950, "loss": 0.7155, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 4.096161356174959e-05, "epoch": 1.4736842105263157, "percentage": 29.47, "elapsed_time": "0:03:09", "remaining_time": "0:07:34"}
+{"current_steps": 290, "total_steps": 950, "loss": 0.8037, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 4.030264956369157e-05, "epoch": 1.526315789473684, "percentage": 30.53, "elapsed_time": "0:03:16", "remaining_time": "0:07:26"}
+{"current_steps": 300, "total_steps": 950, "loss": 0.6705, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 3.962622496488269e-05, "epoch": 1.5789473684210527, "percentage": 31.58, "elapsed_time": "0:03:22", "remaining_time": "0:07:19"}
+{"current_steps": 300, "total_steps": 950, "loss": null, "eval_loss": 0.6891714930534363, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": null, "epoch": 1.5789473684210527, "percentage": 31.58, "elapsed_time": "0:03:22", "remaining_time": "0:07:19"}
+{"current_steps": 310, "total_steps": 950, "loss": 0.6389, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 3.893311157806091e-05, "epoch": 1.631578947368421, "percentage": 32.63, "elapsed_time": "0:03:31", "remaining_time": "0:07:17"}
+{"current_steps": 320, "total_steps": 950, "loss": 0.7223, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 3.822410025817406e-05, "epoch": 1.6842105263157894, "percentage": 33.68, "elapsed_time": "0:03:38", "remaining_time": "0:07:10"}
+{"current_steps": 330, "total_steps": 950, "loss": 0.6948, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 3.7500000000000003e-05, "epoch": 1.736842105263158, "percentage": 34.74, "elapsed_time": "0:03:45", "remaining_time": "0:07:03"}
+{"current_steps": 340, "total_steps": 950, "loss": 0.6658, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 3.67616370150689e-05, "epoch": 1.7894736842105263, "percentage": 35.79, "elapsed_time": "0:03:51", "remaining_time": "0:06:55"}
+{"current_steps": 350, "total_steps": 950, "loss": 0.643, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 3.600985378894086e-05, "epoch": 1.8421052631578947, "percentage": 36.84, "elapsed_time": "0:03:58", "remaining_time": "0:06:48"}
+{"current_steps": 360, "total_steps": 950, "loss": 0.6537, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 3.5245508119914687e-05, "epoch": 1.8947368421052633, "percentage": 37.89, "elapsed_time": "0:04:05", "remaining_time": "0:06:41"}
+{"current_steps": 370, "total_steps": 950, "loss": 0.641, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 3.44694721402644e-05, "epoch": 1.9473684210526314, "percentage": 38.95, "elapsed_time": "0:04:12", "remaining_time": "0:06:35"}
+{"current_steps": 380, "total_steps": 950, "loss": 0.6708, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 3.3682631321120504e-05, "epoch": 2.0, "percentage": 40.0, "elapsed_time": "0:04:18", "remaining_time": "0:06:27"}
+{"current_steps": 390, "total_steps": 950, "loss": 0.5061, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 3.2885883462131394e-05, "epoch": 2.0526315789473686, "percentage": 41.05, "elapsed_time": "0:04:24", "remaining_time": "0:06:20"}
+{"current_steps": 400, "total_steps": 950, "loss": 0.4876, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 3.2080137667057595e-05, "epoch": 2.1052631578947367, "percentage": 42.11, "elapsed_time": "0:04:31", "remaining_time": "0:06:13"}
+{"current_steps": 400, "total_steps": 950, "loss": null, "eval_loss": 0.6224929690361023, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": null, "epoch": 2.1052631578947367, "percentage": 42.11, "elapsed_time": "0:04:31", "remaining_time": "0:06:13"}
+{"current_steps": 410, "total_steps": 950, "loss": 0.485, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 3.126631330646802e-05, "epoch": 2.1578947368421053, "percentage": 43.16, "elapsed_time": "0:04:40", "remaining_time": "0:06:09"}
+{"current_steps": 420, "total_steps": 950, "loss": 0.536, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 3.0445338968721287e-05, "epoch": 2.2105263157894735, "percentage": 44.21, "elapsed_time": "0:04:47", "remaining_time": "0:06:02"}
+{"current_steps": 430, "total_steps": 950, "loss": 0.4493, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 2.961815140042974e-05, "epoch": 2.263157894736842, "percentage": 45.26, "elapsed_time": "0:04:53", "remaining_time": "0:05:55"}
+{"current_steps": 440, "total_steps": 950, "loss": 0.4806, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 2.878569443761442e-05, "epoch": 2.3157894736842106, "percentage": 46.32, "elapsed_time": "0:05:00", "remaining_time": "0:05:48"}
+{"current_steps": 450, "total_steps": 950, "loss": 0.4642, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 2.7948917928771158e-05, "epoch": 2.3684210526315788, "percentage": 47.37, "elapsed_time": "0:05:07", "remaining_time": "0:05:41"}
+{"current_steps": 460, "total_steps": 950, "loss": 0.4857, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 2.7108776651076118e-05, "epoch": 2.4210526315789473, "percentage": 48.42, "elapsed_time": "0:05:13", "remaining_time": "0:05:34"}
+{"current_steps": 470, "total_steps": 950, "loss": 0.4604, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 2.6266229220967818e-05, "epoch": 2.473684210526316, "percentage": 49.47, "elapsed_time": "0:05:20", "remaining_time": "0:05:27"}
+{"current_steps": 480, "total_steps": 950, "loss": 0.4294, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 2.5422237000348276e-05, "epoch": 2.526315789473684, "percentage": 50.53, "elapsed_time": "0:05:27", "remaining_time": "0:05:20"}
+{"current_steps": 490, "total_steps": 950, "loss": 0.436, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 2.4577762999651726e-05, "epoch": 2.5789473684210527, "percentage": 51.58, "elapsed_time": "0:05:34", "remaining_time": "0:05:13"}
+{"current_steps": 500, "total_steps": 950, "loss": 0.4435, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 2.3733770779032184e-05, "epoch": 2.6315789473684212, "percentage": 52.63, "elapsed_time": "0:05:40", "remaining_time": "0:05:06"}
+{"current_steps": 500, "total_steps": 950, "loss": null, "eval_loss": 0.5924356579780579, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": null, "epoch": 2.6315789473684212, "percentage": 52.63, "elapsed_time": "0:05:40", "remaining_time": "0:05:06"}
+{"current_steps": 510, "total_steps": 950, "loss": 0.4128, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 2.2891223348923884e-05, "epoch": 2.6842105263157894, "percentage": 53.68, "elapsed_time": "0:05:49", "remaining_time": "0:05:01"}
+{"current_steps": 520, "total_steps": 950, "loss": 0.4201, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 2.2051082071228854e-05, "epoch": 2.736842105263158, "percentage": 54.74, "elapsed_time": "0:05:55", "remaining_time": "0:04:54"}
+{"current_steps": 530, "total_steps": 950, "loss": 0.4144, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 2.1214305562385592e-05, "epoch": 2.7894736842105265, "percentage": 55.79, "elapsed_time": "0:06:02", "remaining_time": "0:04:47"}
+{"current_steps": 540, "total_steps": 950, "loss": 0.4325, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 2.0381848599570276e-05, "epoch": 2.8421052631578947, "percentage": 56.84, "elapsed_time": "0:06:09", "remaining_time": "0:04:40"}
+{"current_steps": 550, "total_steps": 950, "loss": 0.4539, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 1.9554661031278712e-05, "epoch": 2.8947368421052633, "percentage": 57.89, "elapsed_time": "0:06:15", "remaining_time": "0:04:33"}
+{"current_steps": 560, "total_steps": 950, "loss": 0.3898, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 1.8733686693531985e-05, "epoch": 2.9473684210526314, "percentage": 58.95, "elapsed_time": "0:06:22", "remaining_time": "0:04:26"}
+{"current_steps": 570, "total_steps": 950, "loss": 0.4347, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 1.79198623329424e-05, "epoch": 3.0, "percentage": 60.0, "elapsed_time": "0:06:28", "remaining_time": "0:04:19"}
+{"current_steps": 580, "total_steps": 950, "loss": 0.2771, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 1.711411653786861e-05, "epoch": 3.0526315789473686, "percentage": 61.05, "elapsed_time": "0:06:35", "remaining_time": "0:04:12"}
+{"current_steps": 590, "total_steps": 950, "loss": 0.2786, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 1.6317368678879495e-05, "epoch": 3.1052631578947367, "percentage": 62.11, "elapsed_time": "0:06:41", "remaining_time": "0:04:05"}
+{"current_steps": 600, "total_steps": 950, "loss": 0.2743, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 1.55305278597356e-05, "epoch": 3.1578947368421053, "percentage": 63.16, "elapsed_time": "0:06:48", "remaining_time": "0:03:58"}
+{"current_steps": 600, "total_steps": 950, "loss": null, "eval_loss": 0.6151354908943176, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": null, "epoch": 3.1578947368421053, "percentage": 63.16, "elapsed_time": "0:06:48", "remaining_time": "0:03:58"}
+{"current_steps": 610, "total_steps": 950, "loss": 0.2611, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 1.475449188008532e-05, "epoch": 3.2105263157894735, "percentage": 64.21, "elapsed_time": "0:06:57", "remaining_time": "0:03:52"}
+{"current_steps": 620, "total_steps": 950, "loss": 0.237, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 1.399014621105914e-05, "epoch": 3.263157894736842, "percentage": 65.26, "elapsed_time": "0:07:03", "remaining_time": "0:03:45"}
+{"current_steps": 630, "total_steps": 950, "loss": 0.2319, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 1.3238362984931113e-05, "epoch": 3.3157894736842106, "percentage": 66.32, "elapsed_time": "0:07:10", "remaining_time": "0:03:38"}
+{"current_steps": 640, "total_steps": 950, "loss": 0.2785, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 1.2500000000000006e-05, "epoch": 3.3684210526315788, "percentage": 67.37, "elapsed_time": "0:07:17", "remaining_time": "0:03:31"}
+{"current_steps": 650, "total_steps": 950, "loss": 0.3323, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 1.1775899741825947e-05, "epoch": 3.4210526315789473, "percentage": 68.42, "elapsed_time": "0:07:23", "remaining_time": "0:03:24"}
+{"current_steps": 660, "total_steps": 950, "loss": 0.2762, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 1.1066888421939093e-05, "epoch": 3.473684210526316, "percentage": 69.47, "elapsed_time": "0:07:30", "remaining_time": "0:03:17"}
+{"current_steps": 670, "total_steps": 950, "loss": 0.2982, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 1.0373775035117305e-05, "epoch": 3.526315789473684, "percentage": 70.53, "elapsed_time": "0:07:37", "remaining_time": "0:03:11"}
+{"current_steps": 680, "total_steps": 950, "loss": 0.2338, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 9.697350436308427e-06, "epoch": 3.5789473684210527, "percentage": 71.58, "elapsed_time": "0:07:43", "remaining_time": "0:03:04"}
+{"current_steps": 690, "total_steps": 950, "loss": 0.2962, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 9.038386438250415e-06, "epoch": 3.6315789473684212, "percentage": 72.63, "elapsed_time": "0:07:50", "remaining_time": "0:02:57"}
+{"current_steps": 700, "total_steps": 950, "loss": 0.2846, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 8.397634930819021e-06, "epoch": 3.6842105263157894, "percentage": 73.68, "elapsed_time": "0:07:57", "remaining_time": "0:02:50"}
+{"current_steps": 700, "total_steps": 950, "loss": null, "eval_loss": 0.6083844900131226, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": null, "epoch": 3.6842105263157894, "percentage": 73.68, "elapsed_time": "0:07:57", "remaining_time": "0:02:50"}
+{"current_steps": 710, "total_steps": 950, "loss": 0.2895, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 7.775827023107835e-06, "epoch": 3.736842105263158, "percentage": 74.74, "elapsed_time": "0:08:06", "remaining_time": "0:02:44"}
+{"current_steps": 720, "total_steps": 950, "loss": 0.3261, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 7.173672209219495e-06, "epoch": 3.7894736842105265, "percentage": 75.79, "elapsed_time": "0:08:13", "remaining_time": "0:02:37"}
+{"current_steps": 730, "total_steps": 950, "loss": 0.2358, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 6.591857558720071e-06, "epoch": 3.8421052631578947, "percentage": 76.84, "elapsed_time": "0:08:20", "remaining_time": "0:02:30"}
+{"current_steps": 740, "total_steps": 950, "loss": 0.2723, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 6.031046932680229e-06, "epoch": 3.8947368421052633, "percentage": 77.89, "elapsed_time": "0:08:26", "remaining_time": "0:02:23"}
+{"current_steps": 750, "total_steps": 950, "loss": 0.2941, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 5.491880226197707e-06, "epoch": 3.9473684210526314, "percentage": 78.95, "elapsed_time": "0:08:33", "remaining_time": "0:02:16"}
+{"current_steps": 760, "total_steps": 950, "loss": 0.2721, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 4.9749726382653905e-06, "epoch": 4.0, "percentage": 80.0, "elapsed_time": "0:08:39", "remaining_time": "0:02:09"}
+{"current_steps": 770, "total_steps": 950, "loss": 0.1677, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 4.480913969818098e-06, "epoch": 4.052631578947368, "percentage": 81.05, "elapsed_time": "0:08:46", "remaining_time": "0:02:03"}
+{"current_steps": 780, "total_steps": 950, "loss": 0.2291, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 4.010267950759025e-06, "epoch": 4.105263157894737, "percentage": 82.11, "elapsed_time": "0:08:53", "remaining_time": "0:01:56"}
+{"current_steps": 790, "total_steps": 950, "loss": 0.1991, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 3.5635715967337223e-06, "epoch": 4.157894736842105, "percentage": 83.16, "elapsed_time": "0:09:00", "remaining_time": "0:01:49"}
+{"current_steps": 800, "total_steps": 950, "loss": 0.2069, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 3.141334596385448e-06, "epoch": 4.2105263157894735, "percentage": 84.21, "elapsed_time": "0:09:06", "remaining_time": "0:01:42"}
+{"current_steps": 800, "total_steps": 950, "loss": null, "eval_loss": 0.6427180767059326, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": null, "epoch": 4.2105263157894735, "percentage": 84.21, "elapsed_time": "0:09:06", "remaining_time": "0:01:42"}
+{"current_steps": 810, "total_steps": 950, "loss": 0.2213, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 2.7440387297912123e-06, "epoch": 4.2631578947368425, "percentage": 85.26, "elapsed_time": "0:09:15", "remaining_time": "0:01:36"}
+{"current_steps": 820, "total_steps": 950, "loss": 0.2008, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 2.372137318741968e-06, "epoch": 4.315789473684211, "percentage": 86.32, "elapsed_time": "0:09:22", "remaining_time": "0:01:29"}
+{"current_steps": 830, "total_steps": 950, "loss": 0.2178, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 2.026054709494235e-06, "epoch": 4.368421052631579, "percentage": 87.37, "elapsed_time": "0:09:28", "remaining_time": "0:01:22"}
+{"current_steps": 840, "total_steps": 950, "loss": 0.1878, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 1.7061857885832893e-06, "epoch": 4.421052631578947, "percentage": 88.42, "elapsed_time": "0:09:35", "remaining_time": "0:01:15"}
+{"current_steps": 850, "total_steps": 950, "loss": 0.1733, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 1.4128955322504966e-06, "epoch": 4.473684210526316, "percentage": 89.47, "elapsed_time": "0:09:41", "remaining_time": "0:01:08"}
+{"current_steps": 860, "total_steps": 950, "loss": 0.193, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 1.1465185899987797e-06, "epoch": 4.526315789473684, "percentage": 90.53, "elapsed_time": "0:09:48", "remaining_time": "0:01:01"}
+{"current_steps": 870, "total_steps": 950, "loss": 0.1802, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 9.073589027514789e-07, "epoch": 4.578947368421053, "percentage": 91.58, "elapsed_time": "0:09:55", "remaining_time": "0:00:54"}
+{"current_steps": 880, "total_steps": 950, "loss": 0.1736, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 6.956893560502359e-07, "epoch": 4.631578947368421, "percentage": 92.63, "elapsed_time": "0:10:01", "remaining_time": "0:00:47"}
+{"current_steps": 890, "total_steps": 950, "loss": 0.1761, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 5.117514686876379e-07, "epoch": 4.684210526315789, "percentage": 93.68, "elapsed_time": "0:10:08", "remaining_time": "0:00:41"}
+{"current_steps": 900, "total_steps": 950, "loss": 0.172, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 3.557551171299051e-07, "epoch": 4.7368421052631575, "percentage": 94.74, "elapsed_time": "0:10:14", "remaining_time": "0:00:34"}
+{"current_steps": 900, "total_steps": 950, "loss": null, "eval_loss": 0.6494551301002502, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": null, "epoch": 4.7368421052631575, "percentage": 94.74, "elapsed_time": "0:10:14", "remaining_time": "0:00:34"}
+{"current_steps": 910, "total_steps": 950, "loss": 0.1734, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 2.27878296044029e-07, "epoch": 4.7894736842105265, "percentage": 95.79, "elapsed_time": "0:10:23", "remaining_time": "0:00:27"}
+{"current_steps": 920, "total_steps": 950, "loss": 0.1954, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 1.2826691520262114e-07, "epoch": 4.842105263157895, "percentage": 96.84, "elapsed_time": "0:10:30", "remaining_time": "0:00:20"}
+{"current_steps": 930, "total_steps": 950, "loss": 0.1744, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 5.7034632998231865e-08, "epoch": 4.894736842105263, "percentage": 97.89, "elapsed_time": "0:10:37", "remaining_time": "0:00:13"}
+{"current_steps": 940, "total_steps": 950, "loss": 0.1778, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 1.4262726757049982e-08, "epoch": 4.947368421052632, "percentage": 98.95, "elapsed_time": "0:10:43", "remaining_time": "0:00:06"}
+{"current_steps": 950, "total_steps": 950, "loss": 0.1836, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": 0.0, "epoch": 5.0, "percentage": 100.0, "elapsed_time": "0:10:50", "remaining_time": "0:00:00"}
+{"current_steps": 950, "total_steps": 950, "loss": null, "eval_loss": null, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": null, "epoch": 5.0, "percentage": 100.0, "elapsed_time": "0:10:50", "remaining_time": "0:00:00"}
+{"current_steps": 10, "total_steps": 10, "loss": null, "eval_loss": 0.5924356579780579, "predict_loss": null, "reward": null, "accuracy": null, "learning_rate": null, "epoch": 5.0, "percentage": 100.0, "elapsed_time": "0:11:00", "remaining_time": "0:00:00"}

llama2_13b_peft/linguistics_puzzles/trainer_state.json ADDED Viewed

	@@ -0,0 +1,767 @@

+{
+  "best_metric": 0.5924356579780579,
+  "best_model_checkpoint": "ckpt/llama2_13b_other/linguistics_puzzles_no_sys/checkpoint-500",
+  "epoch": 5.0,
+  "eval_steps": 100,
+  "global_step": 950,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.05263157894736842,
+      "grad_norm": 1.5050264596939087,
+      "learning_rate": 2.5e-05,
+      "loss": 2.5922,
+      "step": 10
+    },
+    {
+      "epoch": 0.10526315789473684,
+      "grad_norm": 1.5525988340377808,
+      "learning_rate": 5e-05,
+      "loss": 2.3206,
+      "step": 20
+    },
+    {
+      "epoch": 0.15789473684210525,
+      "grad_norm": 1.7404705286026,
+      "learning_rate": 4.998573727324295e-05,
+      "loss": 1.7229,
+      "step": 30
+    },
+    {
+      "epoch": 0.21052631578947367,
+      "grad_norm": 1.8962088823318481,
+      "learning_rate": 4.994296536700177e-05,
+      "loss": 1.3729,
+      "step": 40
+    },
+    {
+      "epoch": 0.2631578947368421,
+      "grad_norm": 1.776729941368103,
+      "learning_rate": 4.987173308479738e-05,
+      "loss": 1.3635,
+      "step": 50
+    },
+    {
+      "epoch": 0.3157894736842105,
+      "grad_norm": 11.020795822143555,
+      "learning_rate": 4.977212170395598e-05,
+      "loss": 1.3315,
+      "step": 60
+    },
+    {
+      "epoch": 0.3684210526315789,
+      "grad_norm": 2.192176580429077,
+      "learning_rate": 4.964424488287009e-05,
+      "loss": 1.2515,
+      "step": 70
+    },
+    {
+      "epoch": 0.42105263157894735,
+      "grad_norm": 2.4063496589660645,
+      "learning_rate": 4.948824853131236e-05,
+      "loss": 1.1872,
+      "step": 80
+    },
+    {
+      "epoch": 0.47368421052631576,
+      "grad_norm": 2.7862613201141357,
+      "learning_rate": 4.930431064394977e-05,
+      "loss": 1.1552,
+      "step": 90
+    },
+    {
+      "epoch": 0.5263157894736842,
+      "grad_norm": 3.5330026149749756,
+      "learning_rate": 4.909264109724853e-05,
+      "loss": 1.1276,
+      "step": 100
+    },
+    {
+      "epoch": 0.5263157894736842,
+      "eval_loss": 1.0876480340957642,
+      "eval_runtime": 1.9022,
+      "eval_samples_per_second": 42.057,
+      "eval_steps_per_second": 5.257,
+      "step": 100
+    },
+    {
+      "epoch": 0.5789473684210527,
+      "grad_norm": 2.4774415493011475,
+      "learning_rate": 4.885348141000122e-05,
+      "loss": 1.1756,
+      "step": 110
+    },
+    {
+      "epoch": 0.631578947368421,
+      "grad_norm": 2.380500555038452,
+      "learning_rate": 4.858710446774951e-05,
+      "loss": 1.1106,
+      "step": 120
+    },
+    {
+      "epoch": 0.6842105263157895,
+      "grad_norm": 3.0656540393829346,
+      "learning_rate": 4.829381421141671e-05,
+      "loss": 1.0175,
+      "step": 130
+    },
+    {
+      "epoch": 0.7368421052631579,
+      "grad_norm": 5.256251811981201,
+      "learning_rate": 4.7973945290505766e-05,
+      "loss": 0.9733,
+      "step": 140
+    },
+    {
+      "epoch": 0.7894736842105263,
+      "grad_norm": 2.674135446548462,
+      "learning_rate": 4.7627862681258037e-05,
+      "loss": 0.9907,
+      "step": 150
+    },
+    {
+      "epoch": 0.8421052631578947,
+      "grad_norm": 3.5206069946289062,
+      "learning_rate": 4.725596127020879e-05,
+      "loss": 0.9312,
+      "step": 160
+    },
+    {
+      "epoch": 0.8947368421052632,
+      "grad_norm": 3.4086978435516357,
+      "learning_rate": 4.685866540361456e-05,
+      "loss": 0.9586,
+      "step": 170
+    },
+    {
+      "epoch": 0.9473684210526315,
+      "grad_norm": 4.591642379760742,
+      "learning_rate": 4.643642840326627e-05,
+      "loss": 0.9595,
+      "step": 180
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 2.8823249340057373,
+      "learning_rate": 4.598973204924097e-05,
+      "loss": 0.8331,
+      "step": 190
+    },
+    {
+      "epoch": 1.0526315789473684,
+      "grad_norm": 3.7064428329467773,
+      "learning_rate": 4.551908603018191e-05,
+      "loss": 0.8128,
+      "step": 200
+    },
+    {
+      "epoch": 1.0526315789473684,
+      "eval_loss": 0.8153461217880249,
+      "eval_runtime": 1.9192,
+      "eval_samples_per_second": 41.684,
+      "eval_steps_per_second": 5.21,
+      "step": 200
+    },
+    {
+      "epoch": 1.1052631578947367,
+      "grad_norm": 4.2386274337768555,
+      "learning_rate": 4.502502736173462e-05,
+      "loss": 0.8186,
+      "step": 210
+    },
+    {
+      "epoch": 1.1578947368421053,
+      "grad_norm": 3.1767256259918213,
+      "learning_rate": 4.45081197738023e-05,
+      "loss": 0.6895,
+      "step": 220
+    },
+    {
+      "epoch": 1.2105263157894737,
+      "grad_norm": 3.748518466949463,
+      "learning_rate": 4.3968953067319777e-05,
+      "loss": 0.7901,
+      "step": 230
+    },
+    {
+      "epoch": 1.263157894736842,
+      "grad_norm": 3.807053565979004,
+      "learning_rate": 4.340814244127993e-05,
+      "loss": 0.704,
+      "step": 240
+    },
+    {
+      "epoch": 1.3157894736842106,
+      "grad_norm": 5.013542175292969,
+      "learning_rate": 4.282632779078051e-05,
+      "loss": 0.6879,
+      "step": 250
+    },
+    {
+      "epoch": 1.368421052631579,
+      "grad_norm": 4.752715110778809,
+      "learning_rate": 4.222417297689217e-05,
+      "loss": 0.7563,
+      "step": 260
+    },
+    {
+      "epoch": 1.4210526315789473,
+      "grad_norm": 3.6476950645446777,
+      "learning_rate": 4.160236506918098e-05,
+      "loss": 0.6846,
+      "step": 270
+    },
+    {
+      "epoch": 1.4736842105263157,
+      "grad_norm": 3.8758108615875244,
+      "learning_rate": 4.096161356174959e-05,
+      "loss": 0.7155,
+      "step": 280
+    },
+    {
+      "epoch": 1.526315789473684,
+      "grad_norm": 4.166601657867432,
+      "learning_rate": 4.030264956369157e-05,
+      "loss": 0.8037,
+      "step": 290
+    },
+    {
+      "epoch": 1.5789473684210527,
+      "grad_norm": 4.603171348571777,
+      "learning_rate": 3.962622496488269e-05,
+      "loss": 0.6705,
+      "step": 300
+    },
+    {
+      "epoch": 1.5789473684210527,
+      "eval_loss": 0.6891714930534363,
+      "eval_runtime": 1.9174,
+      "eval_samples_per_second": 41.724,
+      "eval_steps_per_second": 5.216,
+      "step": 300
+    },
+    {
+      "epoch": 1.631578947368421,
+      "grad_norm": 3.820142984390259,
+      "learning_rate": 3.893311157806091e-05,
+      "loss": 0.6389,
+      "step": 310
+    },
+    {
+      "epoch": 1.6842105263157894,
+      "grad_norm": 5.900814533233643,
+      "learning_rate": 3.822410025817406e-05,
+      "loss": 0.7223,
+      "step": 320
+    },
+    {
+      "epoch": 1.736842105263158,
+      "grad_norm": 4.315140724182129,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 0.6948,
+      "step": 330
+    },
+    {
+      "epoch": 1.7894736842105263,
+      "grad_norm": 4.747324466705322,
+      "learning_rate": 3.67616370150689e-05,
+      "loss": 0.6658,
+      "step": 340
+    },
+    {
+      "epoch": 1.8421052631578947,
+      "grad_norm": 3.504014492034912,
+      "learning_rate": 3.600985378894086e-05,
+      "loss": 0.643,
+      "step": 350
+    },
+    {
+      "epoch": 1.8947368421052633,
+      "grad_norm": 5.181077480316162,
+      "learning_rate": 3.5245508119914687e-05,
+      "loss": 0.6537,
+      "step": 360
+    },
+    {
+      "epoch": 1.9473684210526314,
+      "grad_norm": 5.073149681091309,
+      "learning_rate": 3.44694721402644e-05,
+      "loss": 0.641,
+      "step": 370
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 5.070895671844482,
+      "learning_rate": 3.3682631321120504e-05,
+      "loss": 0.6708,
+      "step": 380
+    },
+    {
+      "epoch": 2.0526315789473686,
+      "grad_norm": 5.305852890014648,
+      "learning_rate": 3.2885883462131394e-05,
+      "loss": 0.5061,
+      "step": 390
+    },
+    {
+      "epoch": 2.1052631578947367,
+      "grad_norm": 6.452213287353516,
+      "learning_rate": 3.2080137667057595e-05,
+      "loss": 0.4876,
+      "step": 400
+    },
+    {
+      "epoch": 2.1052631578947367,
+      "eval_loss": 0.6224929690361023,
+      "eval_runtime": 1.9167,
+      "eval_samples_per_second": 41.739,
+      "eval_steps_per_second": 5.217,
+      "step": 400
+    },
+    {
+      "epoch": 2.1578947368421053,
+      "grad_norm": 3.6080775260925293,
+      "learning_rate": 3.126631330646802e-05,
+      "loss": 0.485,
+      "step": 410
+    },
+    {
+      "epoch": 2.2105263157894735,
+      "grad_norm": 2.2630574703216553,
+      "learning_rate": 3.0445338968721287e-05,
+      "loss": 0.536,
+      "step": 420
+    },
+    {
+      "epoch": 2.263157894736842,
+      "grad_norm": 4.616273880004883,
+      "learning_rate": 2.961815140042974e-05,
+      "loss": 0.4493,
+      "step": 430
+    },
+    {
+      "epoch": 2.3157894736842106,
+      "grad_norm": 4.5297956466674805,
+      "learning_rate": 2.878569443761442e-05,
+      "loss": 0.4806,
+      "step": 440
+    },
+    {
+      "epoch": 2.3684210526315788,
+      "grad_norm": 4.910376071929932,
+      "learning_rate": 2.7948917928771158e-05,
+      "loss": 0.4642,
+      "step": 450
+    },
+    {
+      "epoch": 2.4210526315789473,
+      "grad_norm": 4.3276801109313965,
+      "learning_rate": 2.7108776651076118e-05,
+      "loss": 0.4857,
+      "step": 460
+    },
+    {
+      "epoch": 2.473684210526316,
+      "grad_norm": 3.657116413116455,
+      "learning_rate": 2.6266229220967818e-05,
+      "loss": 0.4604,
+      "step": 470
+    },
+    {
+      "epoch": 2.526315789473684,
+      "grad_norm": 4.7539896965026855,
+      "learning_rate": 2.5422237000348276e-05,
+      "loss": 0.4294,
+      "step": 480
+    },
+    {
+      "epoch": 2.5789473684210527,
+      "grad_norm": 4.227921962738037,
+      "learning_rate": 2.4577762999651726e-05,
+      "loss": 0.436,
+      "step": 490
+    },
+    {
+      "epoch": 2.6315789473684212,
+      "grad_norm": 6.821872234344482,
+      "learning_rate": 2.3733770779032184e-05,
+      "loss": 0.4435,
+      "step": 500
+    },
+    {
+      "epoch": 2.6315789473684212,
+      "eval_loss": 0.5924356579780579,
+      "eval_runtime": 1.9193,
+      "eval_samples_per_second": 41.683,
+      "eval_steps_per_second": 5.21,
+      "step": 500
+    },
+    {
+      "epoch": 2.6842105263157894,
+      "grad_norm": 4.023755073547363,
+      "learning_rate": 2.2891223348923884e-05,
+      "loss": 0.4128,
+      "step": 510
+    },
+    {
+      "epoch": 2.736842105263158,
+      "grad_norm": 4.245009899139404,
+      "learning_rate": 2.2051082071228854e-05,
+      "loss": 0.4201,
+      "step": 520
+    },
+    {
+      "epoch": 2.7894736842105265,
+      "grad_norm": 7.485212326049805,
+      "learning_rate": 2.1214305562385592e-05,
+      "loss": 0.4144,
+      "step": 530
+    },
+    {
+      "epoch": 2.8421052631578947,
+      "grad_norm": 3.890044689178467,
+      "learning_rate": 2.0381848599570276e-05,
+      "loss": 0.4325,
+      "step": 540
+    },
+    {
+      "epoch": 2.8947368421052633,
+      "grad_norm": 5.785126686096191,
+      "learning_rate": 1.9554661031278712e-05,
+      "loss": 0.4539,
+      "step": 550
+    },
+    {
+      "epoch": 2.9473684210526314,
+      "grad_norm": 3.959681272506714,
+      "learning_rate": 1.8733686693531985e-05,
+      "loss": 0.3898,
+      "step": 560
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 6.1470160484313965,
+      "learning_rate": 1.79198623329424e-05,
+      "loss": 0.4347,
+      "step": 570
+    },
+    {
+      "epoch": 3.0526315789473686,
+      "grad_norm": 6.080893039703369,
+      "learning_rate": 1.711411653786861e-05,
+      "loss": 0.2771,
+      "step": 580
+    },
+    {
+      "epoch": 3.1052631578947367,
+      "grad_norm": 3.995936155319214,
+      "learning_rate": 1.6317368678879495e-05,
+      "loss": 0.2786,
+      "step": 590
+    },
+    {
+      "epoch": 3.1578947368421053,
+      "grad_norm": 4.9943084716796875,
+      "learning_rate": 1.55305278597356e-05,
+      "loss": 0.2743,
+      "step": 600
+    },
+    {
+      "epoch": 3.1578947368421053,
+      "eval_loss": 0.6151354908943176,
+      "eval_runtime": 1.9185,
+      "eval_samples_per_second": 41.7,
+      "eval_steps_per_second": 5.212,
+      "step": 600
+    },
+    {
+      "epoch": 3.2105263157894735,
+      "grad_norm": 3.650193452835083,
+      "learning_rate": 1.475449188008532e-05,
+      "loss": 0.2611,
+      "step": 610
+    },
+    {
+      "epoch": 3.263157894736842,
+      "grad_norm": 3.5425643920898438,
+      "learning_rate": 1.399014621105914e-05,
+      "loss": 0.237,
+      "step": 620
+    },
+    {
+      "epoch": 3.3157894736842106,
+      "grad_norm": 4.187167644500732,
+      "learning_rate": 1.3238362984931113e-05,
+      "loss": 0.2319,
+      "step": 630
+    },
+    {
+      "epoch": 3.3684210526315788,
+      "grad_norm": 3.7174108028411865,
+      "learning_rate": 1.2500000000000006e-05,
+      "loss": 0.2785,
+      "step": 640
+    },
+    {
+      "epoch": 3.4210526315789473,
+      "grad_norm": 4.665218353271484,
+      "learning_rate": 1.1775899741825947e-05,
+      "loss": 0.3323,
+      "step": 650
+    },
+    {
+      "epoch": 3.473684210526316,
+      "grad_norm": 6.711315631866455,
+      "learning_rate": 1.1066888421939093e-05,
+      "loss": 0.2762,
+      "step": 660
+    },
+    {
+      "epoch": 3.526315789473684,
+      "grad_norm": 4.101406097412109,
+      "learning_rate": 1.0373775035117305e-05,
+      "loss": 0.2982,
+      "step": 670
+    },
+    {
+      "epoch": 3.5789473684210527,
+      "grad_norm": 3.3571157455444336,
+      "learning_rate": 9.697350436308427e-06,
+      "loss": 0.2338,
+      "step": 680
+    },
+    {
+      "epoch": 3.6315789473684212,
+      "grad_norm": 7.152629852294922,
+      "learning_rate": 9.038386438250415e-06,
+      "loss": 0.2962,
+      "step": 690
+    },
+    {
+      "epoch": 3.6842105263157894,
+      "grad_norm": 5.147871971130371,
+      "learning_rate": 8.397634930819021e-06,
+      "loss": 0.2846,
+      "step": 700
+    },
+    {
+      "epoch": 3.6842105263157894,
+      "eval_loss": 0.6083844900131226,
+      "eval_runtime": 1.9199,
+      "eval_samples_per_second": 41.67,
+      "eval_steps_per_second": 5.209,
+      "step": 700
+    },
+    {
+      "epoch": 3.736842105263158,
+      "grad_norm": 3.984264373779297,
+      "learning_rate": 7.775827023107835e-06,
+      "loss": 0.2895,
+      "step": 710
+    },
+    {
+      "epoch": 3.7894736842105265,
+      "grad_norm": 6.230710983276367,
+      "learning_rate": 7.173672209219495e-06,
+      "loss": 0.3261,
+      "step": 720
+    },
+    {
+      "epoch": 3.8421052631578947,
+      "grad_norm": 3.685063362121582,
+      "learning_rate": 6.591857558720071e-06,
+      "loss": 0.2358,
+      "step": 730
+    },
+    {
+      "epoch": 3.8947368421052633,
+      "grad_norm": 4.337435245513916,
+      "learning_rate": 6.031046932680229e-06,
+      "loss": 0.2723,
+      "step": 740
+    },
+    {
+      "epoch": 3.9473684210526314,
+      "grad_norm": 4.504445552825928,
+      "learning_rate": 5.491880226197707e-06,
+      "loss": 0.2941,
+      "step": 750
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 4.7959442138671875,
+      "learning_rate": 4.9749726382653905e-06,
+      "loss": 0.2721,
+      "step": 760
+    },
+    {
+      "epoch": 4.052631578947368,
+      "grad_norm": 2.663322925567627,
+      "learning_rate": 4.480913969818098e-06,
+      "loss": 0.1677,
+      "step": 770
+    },
+    {
+      "epoch": 4.105263157894737,
+      "grad_norm": 5.704188346862793,
+      "learning_rate": 4.010267950759025e-06,
+      "loss": 0.2291,
+      "step": 780
+    },
+    {
+      "epoch": 4.157894736842105,
+      "grad_norm": 4.857370853424072,
+      "learning_rate": 3.5635715967337223e-06,
+      "loss": 0.1991,
+      "step": 790
+    },
+    {
+      "epoch": 4.2105263157894735,
+      "grad_norm": 2.6290528774261475,
+      "learning_rate": 3.141334596385448e-06,
+      "loss": 0.2069,
+      "step": 800
+    },
+    {
+      "epoch": 4.2105263157894735,
+      "eval_loss": 0.6427180767059326,
+      "eval_runtime": 1.9195,
+      "eval_samples_per_second": 41.677,
+      "eval_steps_per_second": 5.21,
+      "step": 800
+    },
+    {
+      "epoch": 4.2631578947368425,
+      "grad_norm": 6.7939558029174805,
+      "learning_rate": 2.7440387297912123e-06,
+      "loss": 0.2213,
+      "step": 810
+    },
+    {
+      "epoch": 4.315789473684211,
+      "grad_norm": 5.425328731536865,
+      "learning_rate": 2.372137318741968e-06,
+      "loss": 0.2008,
+      "step": 820
+    },
+    {
+      "epoch": 4.368421052631579,
+      "grad_norm": 3.0159809589385986,
+      "learning_rate": 2.026054709494235e-06,
+      "loss": 0.2178,
+      "step": 830
+    },
+    {
+      "epoch": 4.421052631578947,
+      "grad_norm": 4.54276704788208,
+      "learning_rate": 1.7061857885832893e-06,
+      "loss": 0.1878,
+      "step": 840
+    },
+    {
+      "epoch": 4.473684210526316,
+      "grad_norm": 4.1157755851745605,
+      "learning_rate": 1.4128955322504966e-06,
+      "loss": 0.1733,
+      "step": 850
+    },
+    {
+      "epoch": 4.526315789473684,
+      "grad_norm": 4.860106945037842,
+      "learning_rate": 1.1465185899987797e-06,
+      "loss": 0.193,
+      "step": 860
+    },
+    {
+      "epoch": 4.578947368421053,
+      "grad_norm": 4.945047378540039,
+      "learning_rate": 9.073589027514789e-07,
+      "loss": 0.1802,
+      "step": 870
+    },
+    {
+      "epoch": 4.631578947368421,
+      "grad_norm": 2.316741943359375,
+      "learning_rate": 6.956893560502359e-07,
+      "loss": 0.1736,
+      "step": 880
+    },
+    {
+      "epoch": 4.684210526315789,
+      "grad_norm": 4.012813091278076,
+      "learning_rate": 5.117514686876379e-07,
+      "loss": 0.1761,
+      "step": 890
+    },
+    {
+      "epoch": 4.7368421052631575,
+      "grad_norm": 5.301681995391846,
+      "learning_rate": 3.557551171299051e-07,
+      "loss": 0.172,
+      "step": 900
+    },
+    {
+      "epoch": 4.7368421052631575,
+      "eval_loss": 0.6494551301002502,
+      "eval_runtime": 1.9201,
+      "eval_samples_per_second": 41.665,
+      "eval_steps_per_second": 5.208,
+      "step": 900
+    },
+    {
+      "epoch": 4.7894736842105265,
+      "grad_norm": 3.559140205383301,
+      "learning_rate": 2.27878296044029e-07,
+      "loss": 0.1734,
+      "step": 910
+    },
+    {
+      "epoch": 4.842105263157895,
+      "grad_norm": 7.743849277496338,
+      "learning_rate": 1.2826691520262114e-07,
+      "loss": 0.1954,
+      "step": 920
+    },
+    {
+      "epoch": 4.894736842105263,
+      "grad_norm": 3.5408854484558105,
+      "learning_rate": 5.7034632998231865e-08,
+      "loss": 0.1744,
+      "step": 930
+    },
+    {
+      "epoch": 4.947368421052632,
+      "grad_norm": 2.413121461868286,
+      "learning_rate": 1.4262726757049982e-08,
+      "loss": 0.1778,
+      "step": 940
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 2.56962513923645,
+      "learning_rate": 0.0,
+      "loss": 0.1836,
+      "step": 950
+    },
+    {
+      "epoch": 5.0,
+      "step": 950,
+      "total_flos": 2.0275085174217114e+17,
+      "train_loss": 0.5822552880487945,
+      "train_runtime": 660.0352,
+      "train_samples_per_second": 11.515,
+      "train_steps_per_second": 1.439
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 950,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 100,
+  "total_flos": 2.0275085174217114e+17,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

llama2_13b_peft/linguistics_puzzles/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:67ac58d8b967dcc701c74de72e5e18349db160299022d297808b6aa2f75860a0
+size 5176

llama2_13b_peft/linguistics_puzzles/training_eval_loss.png ADDED Viewed

llama2_13b_peft/linguistics_puzzles/training_loss.png ADDED Viewed

llama2_13b_peft/news_commentary_de/README.md ADDED Viewed

	@@ -0,0 +1,85 @@

+---
+license: other
+library_name: peft
+tags:
+- llama-factory
+- lora
+- generated_from_trainer
+base_model: /data1/model/llama2/meta-llama/Llama2-13b
+model-index:
+- name: news_commentary_de_no_sys
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# news_commentary_de_no_sys
+This model is a fine-tuned version of [/data1/model/llama2/meta-llama/Llama2-13b](https://huggingface.co//data1/model/llama2/meta-llama/Llama2-13b) on the news_commentary_de_no_sys dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.6944
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 1e-05
+- train_batch_size: 8
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 2
+- total_train_batch_size: 16
+- total_eval_batch_size: 16
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_steps: 20
+- num_epochs: 10.0
+### Training results
+| Training Loss | Epoch | Step | Validation Loss |
+|:-------------:|:-----:|:----:|:---------------:|
+| 0.7429        | 0.13  | 200  | 0.7712          |
+| 0.7549        | 0.25  | 400  | 0.7434          |
+| 0.7552        | 0.38  | 600  | 0.7330          |
+| 0.7265        | 0.5   | 800  | 0.7256          |
+| 0.7524        | 0.63  | 1000 | 0.7200          |
+| 0.6976        | 0.75  | 1200 | 0.7151          |
+| 0.7408        | 0.88  | 1400 | 0.7116          |
+| 0.701         | 1.0   | 1600 | 0.7085          |
+| 0.7084        | 1.13  | 1800 | 0.7059          |
+| 0.6999        | 1.25  | 2000 | 0.7040          |
+| 0.7182        | 1.38  | 2200 | 0.7022          |
+| 0.7267        | 1.51  | 2400 | 0.6994          |
+| 0.6912        | 1.63  | 2600 | 0.6972          |
+| 0.6821        | 1.76  | 2800 | 0.6954          |
+| 0.7104        | 1.88  | 3000 | 0.6944          |
+| 0.6222        | 2.01  | 3200 | 0.6934          |
+| 0.6383        | 2.13  | 3400 | 0.6974          |
+| 0.6436        | 2.26  | 3600 | 0.6981          |
+| 0.6444        | 2.38  | 3800 | 0.6968          |
+| 0.6368        | 2.51  | 4000 | 0.6987          |
+### Framework versions
+- PEFT 0.9.0
+- Transformers 4.38.2
+- Pytorch 2.2.1
+- Datasets 2.18.0
+- Tokenizers 0.15.2

llama2_13b_peft/news_commentary_de/adapter_config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "/data1/model/llama2/meta-llama/Llama2-13b",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.0,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "up_proj",
+    "down_proj",
+    "v_proj",
+    "k_proj",
+    "o_proj",
+    "gate_proj",
+    "q_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_dora": false,
+  "use_rslora": false
+}

llama2_13b_peft/news_commentary_de/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:44a2422055e9542643288a7443b823001443ae5a402e2cff85e691f7121a6398
+size 125248064

llama2_13b_peft/news_commentary_de/all_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 2.51,
+    "eval_loss": 0.6943792104721069,
+    "eval_runtime": 64.8294,
+    "eval_samples_per_second": 69.413,
+    "eval_steps_per_second": 4.35,
+    "train_loss": 0.7081527805328369,
+    "train_runtime": 4312.5386,
+    "train_samples_per_second": 59.13,
+    "train_steps_per_second": 3.696
+}

llama2_13b_peft/news_commentary_de/eval_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 2.51,
+    "eval_loss": 0.6943792104721069,
+    "eval_runtime": 64.8294,
+    "eval_samples_per_second": 69.413,
+    "eval_steps_per_second": 4.35
+}

llama2_13b_peft/news_commentary_de/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

llama2_13b_peft/news_commentary_de/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

llama2_13b_peft/news_commentary_de/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,45 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": true,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "chat_template": "{% if messages[0]['role'] == 'system' %}{% set system_message = messages[0]['content'] %}{% endif %}{% if system_message is defined %}{{ system_message }}{% endif %}{% for message in messages %}{% set content = message['content'] %}{% if message['role'] == 'user' %}{{ content }}{% elif message['role'] == 'assistant' %}{{ content + '\\n' }}{% endif %}{% endfor %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": true,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "</s>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "split_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

llama2_13b_peft/news_commentary_de/train_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 2.51,
+    "train_loss": 0.7081527805328369,
+    "train_runtime": 4312.5386,
+    "train_samples_per_second": 59.13,
+    "train_steps_per_second": 3.696
+}

llama2_13b_peft/news_commentary_de/trainer_log.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

llama2_13b_peft/news_commentary_de/trainer_state.json ADDED Viewed

	@@ -0,0 +1,2990 @@

+{
+  "best_metric": 0.6943792104721069,
+  "best_model_checkpoint": "ckpt/llama2_13b_fuze30_no_sys/news_commentary_de_no_sys/checkpoint-3000",
+  "epoch": 2.509410288582183,
+  "eval_steps": 200,
+  "global_step": 4000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "grad_norm": 0.5409977436065674,
+      "learning_rate": 5e-06,
+      "loss": 1.3994,
+      "step": 10
+    },
+    {
+      "epoch": 0.01,
+      "grad_norm": 0.850004255771637,
+      "learning_rate": 1e-05,
+      "loss": 1.4561,
+      "step": 20
+    },
+    {
+      "epoch": 0.02,
+      "grad_norm": 0.8501812219619751,
+      "learning_rate": 9.999990264607035e-06,
+      "loss": 1.3697,
+      "step": 30
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 0.6338475346565247,
+      "learning_rate": 9.999961058466052e-06,
+      "loss": 1.3627,
+      "step": 40
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 0.7430967688560486,
+      "learning_rate": 9.999912381690781e-06,
+      "loss": 1.1155,
+      "step": 50
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 0.5487976670265198,
+      "learning_rate": 9.999844234470782e-06,
+      "loss": 0.9492,
+      "step": 60
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 0.3653506934642792,
+      "learning_rate": 9.999756617071427e-06,
+      "loss": 0.9067,
+      "step": 70
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 0.38920339941978455,
+      "learning_rate": 9.999649529833915e-06,
+      "loss": 0.8848,
+      "step": 80
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 0.4155251979827881,
+      "learning_rate": 9.999522973175257e-06,
+      "loss": 0.798,
+      "step": 90
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 0.4156494438648224,
+      "learning_rate": 9.999376947588288e-06,
+      "loss": 0.8782,
+      "step": 100
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 0.4306489825248718,
+      "learning_rate": 9.99921145364165e-06,
+      "loss": 0.8124,
+      "step": 110
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 0.39355072379112244,
+      "learning_rate": 9.999026491979809e-06,
+      "loss": 0.838,
+      "step": 120
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 0.4246688783168793,
+      "learning_rate": 9.99882206332303e-06,
+      "loss": 0.8383,
+      "step": 130
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 0.47585156559944153,
+      "learning_rate": 9.99859816846739e-06,
+      "loss": 0.8705,
+      "step": 140
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 0.48569419980049133,
+      "learning_rate": 9.998354808284774e-06,
+      "loss": 0.7872,
+      "step": 150
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 0.5107733011245728,
+      "learning_rate": 9.998091983722862e-06,
+      "loss": 0.789,
+      "step": 160
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 0.5669977068901062,
+      "learning_rate": 9.997809695805136e-06,
+      "loss": 0.7749,
+      "step": 170
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 0.49600809812545776,
+      "learning_rate": 9.99750794563087e-06,
+      "loss": 0.7935,
+      "step": 180
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 0.45251163840293884,
+      "learning_rate": 9.997186734375124e-06,
+      "loss": 0.7817,
+      "step": 190
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 0.46742165088653564,
+      "learning_rate": 9.996846063288746e-06,
+      "loss": 0.7429,
+      "step": 200
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 0.7712445855140686,
+      "eval_runtime": 64.6782,
+      "eval_samples_per_second": 69.575,
+      "eval_steps_per_second": 4.36,
+      "step": 200
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 0.5643576383590698,
+      "learning_rate": 9.996485933698364e-06,
+      "loss": 0.7636,
+      "step": 210
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 0.4915783405303955,
+      "learning_rate": 9.996106347006378e-06,
+      "loss": 0.7856,
+      "step": 220
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 0.3926757574081421,
+      "learning_rate": 9.99570730469096e-06,
+      "loss": 0.7529,
+      "step": 230
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 0.3297576606273651,
+      "learning_rate": 9.995288808306041e-06,
+      "loss": 0.7671,
+      "step": 240
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 0.45379459857940674,
+      "learning_rate": 9.994850859481312e-06,
+      "loss": 0.7231,
+      "step": 250
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 0.5688673853874207,
+      "learning_rate": 9.994393459922219e-06,
+      "loss": 0.7694,
+      "step": 260
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 0.6590914130210876,
+      "learning_rate": 9.993916611409941e-06,
+      "loss": 0.7661,
+      "step": 270
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 0.4207383692264557,
+      "learning_rate": 9.993420315801406e-06,
+      "loss": 0.7952,
+      "step": 280
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 0.47460174560546875,
+      "learning_rate": 9.992904575029265e-06,
+      "loss": 0.7966,
+      "step": 290
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 0.6118924617767334,
+      "learning_rate": 9.992369391101895e-06,
+      "loss": 0.8167,
+      "step": 300
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 0.44934767484664917,
+      "learning_rate": 9.991814766103386e-06,
+      "loss": 0.7368,
+      "step": 310
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 0.5106733441352844,
+      "learning_rate": 9.991240702193532e-06,
+      "loss": 0.7796,
+      "step": 320
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 0.4405980706214905,
+      "learning_rate": 9.99064720160783e-06,
+      "loss": 0.7727,
+      "step": 330
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 0.6010485887527466,
+      "learning_rate": 9.990034266657468e-06,
+      "loss": 0.7604,
+      "step": 340
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 0.6098916530609131,
+      "learning_rate": 9.989401899729307e-06,
+      "loss": 0.7399,
+      "step": 350
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 0.5837363004684448,
+      "learning_rate": 9.988750103285883e-06,
+      "loss": 0.7715,
+      "step": 360
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 0.49089643359184265,
+      "learning_rate": 9.988078879865396e-06,
+      "loss": 0.738,
+      "step": 370
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 0.508166491985321,
+      "learning_rate": 9.987388232081694e-06,
+      "loss": 0.8025,
+      "step": 380
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 0.6415013074874878,
+      "learning_rate": 9.98667816262427e-06,
+      "loss": 0.7561,
+      "step": 390
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 0.5850837230682373,
+      "learning_rate": 9.985948674258243e-06,
+      "loss": 0.7549,
+      "step": 400
+    },
+    {
+      "epoch": 0.25,
+      "eval_loss": 0.743410587310791,
+      "eval_runtime": 64.8376,
+      "eval_samples_per_second": 69.404,
+      "eval_steps_per_second": 4.349,
+      "step": 400
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 0.627358615398407,
+      "learning_rate": 9.985199769824359e-06,
+      "loss": 0.7694,
+      "step": 410
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 0.7586867213249207,
+      "learning_rate": 9.984431452238968e-06,
+      "loss": 0.7353,
+      "step": 420
+    },
+    {
+      "epoch": 0.27,
+      "grad_norm": 0.5713008642196655,
+      "learning_rate": 9.983643724494017e-06,
+      "loss": 0.7299,
+      "step": 430
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 0.5664968490600586,
+      "learning_rate": 9.982836589657043e-06,
+      "loss": 0.754,
+      "step": 440
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 0.4575900435447693,
+      "learning_rate": 9.98201005087116e-06,
+      "loss": 0.7355,
+      "step": 450
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 0.6498897075653076,
+      "learning_rate": 9.981164111355036e-06,
+      "loss": 0.7543,
+      "step": 460
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 0.6509144306182861,
+      "learning_rate": 9.98029877440289e-06,
+      "loss": 0.7568,
+      "step": 470
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 0.44653260707855225,
+      "learning_rate": 9.979414043384485e-06,
+      "loss": 0.7313,
+      "step": 480
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 0.7275229096412659,
+      "learning_rate": 9.978509921745101e-06,
+      "loss": 0.7456,
+      "step": 490
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 0.4918762147426605,
+      "learning_rate": 9.97758641300553e-06,
+      "loss": 0.7585,
+      "step": 500
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 0.5181304216384888,
+      "learning_rate": 9.97664352076206e-06,
+      "loss": 0.7311,
+      "step": 510
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 0.5354281663894653,
+      "learning_rate": 9.97568124868646e-06,
+      "loss": 0.7173,
+      "step": 520
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 0.47694316506385803,
+      "learning_rate": 9.974699600525972e-06,
+      "loss": 0.7408,
+      "step": 530
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 0.5888867974281311,
+      "learning_rate": 9.973698580103286e-06,
+      "loss": 0.757,
+      "step": 540
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 0.7656754851341248,
+      "learning_rate": 9.972678191316533e-06,
+      "loss": 0.7717,
+      "step": 550
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 0.5808092355728149,
+      "learning_rate": 9.971638438139266e-06,
+      "loss": 0.7314,
+      "step": 560
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 0.5002965331077576,
+      "learning_rate": 9.97057932462045e-06,
+      "loss": 0.7112,
+      "step": 570
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 0.6044530272483826,
+      "learning_rate": 9.96950085488444e-06,
+      "loss": 0.7802,
+      "step": 580
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 0.48741769790649414,
+      "learning_rate": 9.968403033130963e-06,
+      "loss": 0.7472,
+      "step": 590
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 0.4956966042518616,
+      "learning_rate": 9.967285863635112e-06,
+      "loss": 0.7552,
+      "step": 600
+    },
+    {
+      "epoch": 0.38,
+      "eval_loss": 0.733000636100769,
+      "eval_runtime": 65.6052,
+      "eval_samples_per_second": 68.592,
+      "eval_steps_per_second": 4.298,
+      "step": 600
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 0.528469979763031,
+      "learning_rate": 9.966149350747321e-06,
+      "loss": 0.7274,
+      "step": 610
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 0.5717535614967346,
+      "learning_rate": 9.964993498893349e-06,
+      "loss": 0.7734,
+      "step": 620
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 0.5049377083778381,
+      "learning_rate": 9.963818312574265e-06,
+      "loss": 0.7117,
+      "step": 630
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 0.7002434134483337,
+      "learning_rate": 9.962623796366428e-06,
+      "loss": 0.7256,
+      "step": 640
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 0.6600221991539001,
+      "learning_rate": 9.961409954921472e-06,
+      "loss": 0.764,
+      "step": 650
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 0.5288920402526855,
+      "learning_rate": 9.96017679296629e-06,
+      "loss": 0.7385,
+      "step": 660
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 0.6407844424247742,
+      "learning_rate": 9.958924315303005e-06,
+      "loss": 0.7386,
+      "step": 670
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 0.6425316333770752,
+      "learning_rate": 9.95765252680896e-06,
+      "loss": 0.7013,
+      "step": 680
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 0.6219075918197632,
+      "learning_rate": 9.956361432436705e-06,
+      "loss": 0.7104,
+      "step": 690
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 0.5872789621353149,
+      "learning_rate": 9.95505103721396e-06,
+      "loss": 0.6988,
+      "step": 700
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 0.8937903642654419,
+      "learning_rate": 9.953721346243613e-06,
+      "loss": 0.7177,
+      "step": 710
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 0.5471718311309814,
+      "learning_rate": 9.952372364703688e-06,
+      "loss": 0.6804,
+      "step": 720
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 0.7264242172241211,
+      "learning_rate": 9.95100409784733e-06,
+      "loss": 0.7432,
+      "step": 730
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 0.7826697826385498,
+      "learning_rate": 9.949616551002787e-06,
+      "loss": 0.7521,
+      "step": 740
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 0.6297461986541748,
+      "learning_rate": 9.948209729573384e-06,
+      "loss": 0.7624,
+      "step": 750
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 0.7424671053886414,
+      "learning_rate": 9.946783639037503e-06,
+      "loss": 0.7619,
+      "step": 760
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 0.5803889632225037,
+      "learning_rate": 9.945338284948568e-06,
+      "loss": 0.7159,
+      "step": 770
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 0.895115077495575,
+      "learning_rate": 9.943873672935014e-06,
+      "loss": 0.7621,
+      "step": 780
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 0.5325012803077698,
+      "learning_rate": 9.94238980870027e-06,
+      "loss": 0.6923,
+      "step": 790
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 0.7378474473953247,
+      "learning_rate": 9.940886698022733e-06,
+      "loss": 0.7265,
+      "step": 800
+    },
+    {
+      "epoch": 0.5,
+      "eval_loss": 0.7256230711936951,
+      "eval_runtime": 70.6462,
+      "eval_samples_per_second": 63.698,
+      "eval_steps_per_second": 3.992,
+      "step": 800
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 0.6454309225082397,
+      "learning_rate": 9.93936434675576e-06,
+      "loss": 0.6976,
+      "step": 810
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 0.7399590015411377,
+      "learning_rate": 9.93782276082762e-06,
+      "loss": 0.7028,
+      "step": 820
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 0.6661127209663391,
+      "learning_rate": 9.936261946241492e-06,
+      "loss": 0.7253,
+      "step": 830
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 0.5480040907859802,
+      "learning_rate": 9.934681909075434e-06,
+      "loss": 0.7096,
+      "step": 840
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 0.6889688968658447,
+      "learning_rate": 9.93308265548236e-06,
+      "loss": 0.745,
+      "step": 850
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 0.6629202961921692,
+      "learning_rate": 9.931464191690015e-06,
+      "loss": 0.7111,
+      "step": 860
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 0.5166647434234619,
+      "learning_rate": 9.929826524000948e-06,
+      "loss": 0.7296,
+      "step": 870
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 0.6730151772499084,
+      "learning_rate": 9.928169658792498e-06,
+      "loss": 0.7387,
+      "step": 880
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 0.6847391724586487,
+      "learning_rate": 9.926493602516758e-06,
+      "loss": 0.7156,
+      "step": 890
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 0.7915560007095337,
+      "learning_rate": 9.924798361700554e-06,
+      "loss": 0.7956,
+      "step": 900
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 0.5927907824516296,
+      "learning_rate": 9.923083942945419e-06,
+      "loss": 0.7361,
+      "step": 910
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 0.7477264404296875,
+      "learning_rate": 9.92135035292757e-06,
+      "loss": 0.7091,
+      "step": 920
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 0.7492902278900146,
+      "learning_rate": 9.919597598397882e-06,
+      "loss": 0.6967,
+      "step": 930
+    },
+    {
+      "epoch": 0.59,
+      "grad_norm": 0.7357175350189209,
+      "learning_rate": 9.91782568618185e-06,
+      "loss": 0.7509,
+      "step": 940
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 0.6629440188407898,
+      "learning_rate": 9.916034623179584e-06,
+      "loss": 0.6999,
+      "step": 950
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 0.5954321026802063,
+      "learning_rate": 9.914224416365765e-06,
+      "loss": 0.7194,
+      "step": 960
+    },
+    {
+      "epoch": 0.61,
+      "grad_norm": 0.9139691591262817,
+      "learning_rate": 9.91239507278962e-06,
+      "loss": 0.705,
+      "step": 970
+    },
+    {
+      "epoch": 0.61,
+      "grad_norm": 0.9337642788887024,
+      "learning_rate": 9.910546599574903e-06,
+      "loss": 0.7314,
+      "step": 980
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 0.6616548299789429,
+      "learning_rate": 9.908679003919856e-06,
+      "loss": 0.7549,
+      "step": 990
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 0.6958469152450562,
+      "learning_rate": 9.906792293097194e-06,
+      "loss": 0.7524,
+      "step": 1000
+    },
+    {
+      "epoch": 0.63,
+      "eval_loss": 0.7200015187263489,
+      "eval_runtime": 68.2079,
+      "eval_samples_per_second": 65.975,
+      "eval_steps_per_second": 4.134,
+      "step": 1000
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 0.5352278351783752,
+      "learning_rate": 9.904886474454063e-06,
+      "loss": 0.7218,
+      "step": 1010
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 0.6772333979606628,
+      "learning_rate": 9.90296155541202e-06,
+      "loss": 0.7171,
+      "step": 1020
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 0.7102545499801636,
+      "learning_rate": 9.901017543467005e-06,
+      "loss": 0.758,
+      "step": 1030
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 0.5379916429519653,
+      "learning_rate": 9.899054446189305e-06,
+      "loss": 0.7121,
+      "step": 1040
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 0.6267510056495667,
+      "learning_rate": 9.897072271223526e-06,
+      "loss": 0.7088,
+      "step": 1050
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 0.9392660856246948,
+      "learning_rate": 9.895071026288574e-06,
+      "loss": 0.7804,
+      "step": 1060
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 0.9270221590995789,
+      "learning_rate": 9.893050719177608e-06,
+      "loss": 0.6935,
+      "step": 1070
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 0.722115159034729,
+      "learning_rate": 9.891011357758022e-06,
+      "loss": 0.6894,
+      "step": 1080
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 0.7055147886276245,
+      "learning_rate": 9.888952949971411e-06,
+      "loss": 0.7244,
+      "step": 1090
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 0.7774051427841187,
+      "learning_rate": 9.886875503833537e-06,
+      "loss": 0.8156,
+      "step": 1100
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 0.7965037226676941,
+      "learning_rate": 9.884779027434304e-06,
+      "loss": 0.7478,
+      "step": 1110
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 0.8204682469367981,
+      "learning_rate": 9.882663528937716e-06,
+      "loss": 0.7187,
+      "step": 1120
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 0.63904869556427,
+      "learning_rate": 9.880529016581863e-06,
+      "loss": 0.7145,
+      "step": 1130
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 0.6523028612136841,
+      "learning_rate": 9.878375498678869e-06,
+      "loss": 0.731,
+      "step": 1140
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 0.7148768901824951,
+      "learning_rate": 9.876202983614868e-06,
+      "loss": 0.7323,
+      "step": 1150
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 0.6108402013778687,
+      "learning_rate": 9.874011479849981e-06,
+      "loss": 0.6757,
+      "step": 1160
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 0.6056957244873047,
+      "learning_rate": 9.871800995918264e-06,
+      "loss": 0.7258,
+      "step": 1170
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 0.7671077847480774,
+      "learning_rate": 9.86957154042769e-06,
+      "loss": 0.7334,
+      "step": 1180
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.8327913880348206,
+      "learning_rate": 9.867323122060108e-06,
+      "loss": 0.7358,
+      "step": 1190
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.7025701999664307,
+      "learning_rate": 9.865055749571215e-06,
+      "loss": 0.6976,
+      "step": 1200
+    },
+    {
+      "epoch": 0.75,
+      "eval_loss": 0.7151169180870056,
+      "eval_runtime": 64.9708,
+      "eval_samples_per_second": 69.262,
+      "eval_steps_per_second": 4.34,
+      "step": 1200
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.8391425609588623,
+      "learning_rate": 9.862769431790513e-06,
+      "loss": 0.6983,
+      "step": 1210
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 0.7243052124977112,
+      "learning_rate": 9.860464177621286e-06,
+      "loss": 0.7171,
+      "step": 1220
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 0.6501705050468445,
+      "learning_rate": 9.858139996040554e-06,
+      "loss": 0.7206,
+      "step": 1230
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.8618900179862976,
+      "learning_rate": 9.855796896099044e-06,
+      "loss": 0.7368,
+      "step": 1240
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.826347291469574,
+      "learning_rate": 9.85343488692116e-06,
+      "loss": 0.7372,
+      "step": 1250
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 0.8590556383132935,
+      "learning_rate": 9.851053977704931e-06,
+      "loss": 0.7373,
+      "step": 1260
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.8719233274459839,
+      "learning_rate": 9.848654177721999e-06,
+      "loss": 0.7608,
+      "step": 1270
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.7729814052581787,
+      "learning_rate": 9.846235496317556e-06,
+      "loss": 0.7227,
+      "step": 1280
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 0.801908016204834,
+      "learning_rate": 9.843797942910328e-06,
+      "loss": 0.7415,
+      "step": 1290
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 0.9884589910507202,
+      "learning_rate": 9.841341526992536e-06,
+      "loss": 0.7206,
+      "step": 1300
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 0.7067356705665588,
+      "learning_rate": 9.838866258129847e-06,
+      "loss": 0.6704,
+      "step": 1310
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.7258339524269104,
+      "learning_rate": 9.836372145961346e-06,
+      "loss": 0.7159,
+      "step": 1320
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.8512592315673828,
+      "learning_rate": 9.833859200199498e-06,
+      "loss": 0.6916,
+      "step": 1330
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.7856159210205078,
+      "learning_rate": 9.83132743063011e-06,
+      "loss": 0.7568,
+      "step": 1340
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 0.7149519324302673,
+      "learning_rate": 9.82877684711229e-06,
+      "loss": 0.7017,
+      "step": 1350
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 1.0214589834213257,
+      "learning_rate": 9.826207459578412e-06,
+      "loss": 0.7127,
+      "step": 1360
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 1.0295792818069458,
+      "learning_rate": 9.823619278034073e-06,
+      "loss": 0.7013,
+      "step": 1370
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 0.8674212694168091,
+      "learning_rate": 9.821012312558059e-06,
+      "loss": 0.6942,
+      "step": 1380
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 0.7604880332946777,
+      "learning_rate": 9.818386573302305e-06,
+      "loss": 0.7013,
+      "step": 1390
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 0.7863268852233887,
+      "learning_rate": 9.815742070491852e-06,
+      "loss": 0.7408,
+      "step": 1400
+    },
+    {
+      "epoch": 0.88,
+      "eval_loss": 0.7116020917892456,
+      "eval_runtime": 64.7496,
+      "eval_samples_per_second": 69.498,
+      "eval_steps_per_second": 4.355,
+      "step": 1400
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 0.7451047301292419,
+      "learning_rate": 9.81307881442481e-06,
+      "loss": 0.7105,
+      "step": 1410
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 0.8191768527030945,
+      "learning_rate": 9.810396815472316e-06,
+      "loss": 0.6994,
+      "step": 1420
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 0.5049307942390442,
+      "learning_rate": 9.807696084078494e-06,
+      "loss": 0.7459,
+      "step": 1430
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 0.762649416923523,
+      "learning_rate": 9.804976630760419e-06,
+      "loss": 0.7048,
+      "step": 1440
+    },
+    {
+      "epoch": 0.91,
+      "grad_norm": 0.8065420985221863,
+      "learning_rate": 9.802238466108068e-06,
+      "loss": 0.6975,
+      "step": 1450
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 0.899728000164032,
+      "learning_rate": 9.799481600784286e-06,
+      "loss": 0.737,
+      "step": 1460
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 0.7029632925987244,
+      "learning_rate": 9.796706045524738e-06,
+      "loss": 0.7236,
+      "step": 1470
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 0.7470441460609436,
+      "learning_rate": 9.793911811137874e-06,
+      "loss": 0.6984,
+      "step": 1480
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 0.8542289137840271,
+      "learning_rate": 9.791098908504884e-06,
+      "loss": 0.8019,
+      "step": 1490
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 0.749045193195343,
+      "learning_rate": 9.788267348579649e-06,
+      "loss": 0.7114,
+      "step": 1500
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 0.7834633588790894,
+      "learning_rate": 9.78541714238871e-06,
+      "loss": 0.7222,
+      "step": 1510
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 0.8488750457763672,
+      "learning_rate": 9.782548301031218e-06,
+      "loss": 0.7434,
+      "step": 1520
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 0.7018651962280273,
+      "learning_rate": 9.77966083567889e-06,
+      "loss": 0.7193,
+      "step": 1530
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 0.8260754346847534,
+      "learning_rate": 9.776754757575975e-06,
+      "loss": 0.7763,
+      "step": 1540
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 0.8732118010520935,
+      "learning_rate": 9.773830078039193e-06,
+      "loss": 0.7494,
+      "step": 1550
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 0.9026480317115784,
+      "learning_rate": 9.77088680845771e-06,
+      "loss": 0.7078,
+      "step": 1560
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 0.7559505105018616,
+      "learning_rate": 9.767924960293076e-06,
+      "loss": 0.7468,
+      "step": 1570
+    },
+    {
+      "epoch": 0.99,
+      "grad_norm": 0.8832489848136902,
+      "learning_rate": 9.764944545079197e-06,
+      "loss": 0.7502,
+      "step": 1580
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.8065813183784485,
+      "learning_rate": 9.761945574422276e-06,
+      "loss": 0.7337,
+      "step": 1590
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.6966451406478882,
+      "learning_rate": 9.758928060000779e-06,
+      "loss": 0.701,
+      "step": 1600
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.7084596157073975,
+      "eval_runtime": 64.9175,
+      "eval_samples_per_second": 69.319,
+      "eval_steps_per_second": 4.344,
+      "step": 1600
+    },
+    {
+      "epoch": 1.01,
+      "grad_norm": 0.8769924640655518,
+      "learning_rate": 9.755892013565377e-06,
+      "loss": 0.7014,
+      "step": 1610
+    },
+    {
+      "epoch": 1.02,
+      "grad_norm": 0.8940397500991821,
+      "learning_rate": 9.752837446938915e-06,
+      "loss": 0.7256,
+      "step": 1620
+    },
+    {
+      "epoch": 1.02,
+      "grad_norm": 0.7818279266357422,
+      "learning_rate": 9.749764372016355e-06,
+      "loss": 0.7268,
+      "step": 1630
+    },
+    {
+      "epoch": 1.03,
+      "grad_norm": 0.7369450330734253,
+      "learning_rate": 9.746672800764734e-06,
+      "loss": 0.6968,
+      "step": 1640
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 0.8924703001976013,
+      "learning_rate": 9.743562745223118e-06,
+      "loss": 0.7087,
+      "step": 1650
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 1.0398907661437988,
+      "learning_rate": 9.740434217502549e-06,
+      "loss": 0.7199,
+      "step": 1660
+    },
+    {
+      "epoch": 1.05,
+      "grad_norm": 0.7427188754081726,
+      "learning_rate": 9.737287229786007e-06,
+      "loss": 0.687,
+      "step": 1670
+    },
+    {
+      "epoch": 1.05,
+      "grad_norm": 0.9230946898460388,
+      "learning_rate": 9.734121794328358e-06,
+      "loss": 0.7003,
+      "step": 1680
+    },
+    {
+      "epoch": 1.06,
+      "grad_norm": 0.8461260795593262,
+      "learning_rate": 9.730937923456303e-06,
+      "loss": 0.7329,
+      "step": 1690
+    },
+    {
+      "epoch": 1.07,
+      "grad_norm": 0.783156156539917,
+      "learning_rate": 9.727735629568335e-06,
+      "loss": 0.6924,
+      "step": 1700
+    },
+    {
+      "epoch": 1.07,
+      "grad_norm": 0.8659111261367798,
+      "learning_rate": 9.724514925134696e-06,
+      "loss": 0.7219,
+      "step": 1710
+    },
+    {
+      "epoch": 1.08,
+      "grad_norm": 0.8218225240707397,
+      "learning_rate": 9.721275822697307e-06,
+      "loss": 0.6741,
+      "step": 1720
+    },
+    {
+      "epoch": 1.09,
+      "grad_norm": 0.8807560205459595,
+      "learning_rate": 9.718018334869748e-06,
+      "loss": 0.7047,
+      "step": 1730
+    },
+    {
+      "epoch": 1.09,
+      "grad_norm": 0.9925751090049744,
+      "learning_rate": 9.714742474337187e-06,
+      "loss": 0.7156,
+      "step": 1740
+    },
+    {
+      "epoch": 1.1,
+      "grad_norm": 0.7675251364707947,
+      "learning_rate": 9.711448253856336e-06,
+      "loss": 0.6887,
+      "step": 1750
+    },
+    {
+      "epoch": 1.1,
+      "grad_norm": 0.783015251159668,
+      "learning_rate": 9.708135686255415e-06,
+      "loss": 0.7373,
+      "step": 1760
+    },
+    {
+      "epoch": 1.11,
+      "grad_norm": 0.8704028129577637,
+      "learning_rate": 9.704804784434077e-06,
+      "loss": 0.6652,
+      "step": 1770
+    },
+    {
+      "epoch": 1.12,
+      "grad_norm": 0.9532449245452881,
+      "learning_rate": 9.701455561363378e-06,
+      "loss": 0.682,
+      "step": 1780
+    },
+    {
+      "epoch": 1.12,
+      "grad_norm": 0.9703534245491028,
+      "learning_rate": 9.698088030085721e-06,
+      "loss": 0.6844,
+      "step": 1790
+    },
+    {
+      "epoch": 1.13,
+      "grad_norm": 1.031153678894043,
+      "learning_rate": 9.694702203714801e-06,
+      "loss": 0.7084,
+      "step": 1800
+    },
+    {
+      "epoch": 1.13,
+      "eval_loss": 0.705936074256897,
+      "eval_runtime": 64.9167,
+      "eval_samples_per_second": 69.32,
+      "eval_steps_per_second": 4.344,
+      "step": 1800
+    },
+    {
+      "epoch": 1.14,
+      "grad_norm": 0.8839524388313293,
+      "learning_rate": 9.691298095435559e-06,
+      "loss": 0.6897,
+      "step": 1810
+    },
+    {
+      "epoch": 1.14,
+      "grad_norm": 1.0173550844192505,
+      "learning_rate": 9.687875718504126e-06,
+      "loss": 0.6851,
+      "step": 1820
+    },
+    {
+      "epoch": 1.15,
+      "grad_norm": 1.0902131795883179,
+      "learning_rate": 9.684435086247777e-06,
+      "loss": 0.7132,
+      "step": 1830
+    },
+    {
+      "epoch": 1.15,
+      "grad_norm": 0.8699798583984375,
+      "learning_rate": 9.680976212064875e-06,
+      "loss": 0.7129,
+      "step": 1840
+    },
+    {
+      "epoch": 1.16,
+      "grad_norm": 0.879970133304596,
+      "learning_rate": 9.677499109424818e-06,
+      "loss": 0.6907,
+      "step": 1850
+    },
+    {
+      "epoch": 1.17,
+      "grad_norm": 0.9659926295280457,
+      "learning_rate": 9.674003791867993e-06,
+      "loss": 0.7327,
+      "step": 1860
+    },
+    {
+      "epoch": 1.17,
+      "grad_norm": 1.0900288820266724,
+      "learning_rate": 9.670490273005713e-06,
+      "loss": 0.7304,
+      "step": 1870
+    },
+    {
+      "epoch": 1.18,
+      "grad_norm": 0.995785117149353,
+      "learning_rate": 9.666958566520175e-06,
+      "loss": 0.7076,
+      "step": 1880
+    },
+    {
+      "epoch": 1.19,
+      "grad_norm": 1.0170907974243164,
+      "learning_rate": 9.663408686164399e-06,
+      "loss": 0.691,
+      "step": 1890
+    },
+    {
+      "epoch": 1.19,
+      "grad_norm": 1.1418849229812622,
+      "learning_rate": 9.659840645762176e-06,
+      "loss": 0.74,
+      "step": 1900
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 0.7200061082839966,
+      "learning_rate": 9.656254459208015e-06,
+      "loss": 0.7295,
+      "step": 1910
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 0.9135183095932007,
+      "learning_rate": 9.652650140467094e-06,
+      "loss": 0.651,
+      "step": 1920
+    },
+    {
+      "epoch": 1.21,
+      "grad_norm": 0.9724289774894714,
+      "learning_rate": 9.649027703575193e-06,
+      "loss": 0.7028,
+      "step": 1930
+    },
+    {
+      "epoch": 1.22,
+      "grad_norm": 0.8180338740348816,
+      "learning_rate": 9.645387162638652e-06,
+      "loss": 0.7179,
+      "step": 1940
+    },
+    {
+      "epoch": 1.22,
+      "grad_norm": 1.089158296585083,
+      "learning_rate": 9.641728531834313e-06,
+      "loss": 0.6872,
+      "step": 1950
+    },
+    {
+      "epoch": 1.23,
+      "grad_norm": 1.0048317909240723,
+      "learning_rate": 9.638051825409454e-06,
+      "loss": 0.6991,
+      "step": 1960
+    },
+    {
+      "epoch": 1.24,
+      "grad_norm": 1.1580454111099243,
+      "learning_rate": 9.634357057681749e-06,
+      "loss": 0.7183,
+      "step": 1970
+    },
+    {
+      "epoch": 1.24,
+      "grad_norm": 1.0045746564865112,
+      "learning_rate": 9.630644243039207e-06,
+      "loss": 0.6795,
+      "step": 1980
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 0.9629393815994263,
+      "learning_rate": 9.62691339594011e-06,
+      "loss": 0.7075,
+      "step": 1990
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 0.946081280708313,
+      "learning_rate": 9.623164530912963e-06,
+      "loss": 0.6999,
+      "step": 2000
+    },
+    {
+      "epoch": 1.25,
+      "eval_loss": 0.7040402293205261,
+      "eval_runtime": 64.9289,
+      "eval_samples_per_second": 69.307,
+      "eval_steps_per_second": 4.343,
+      "step": 2000
+    },
+    {
+      "epoch": 1.26,
+      "grad_norm": 1.0208806991577148,
+      "learning_rate": 9.619397662556434e-06,
+      "loss": 0.6947,
+      "step": 2010
+    },
+    {
+      "epoch": 1.27,
+      "grad_norm": 1.3248392343521118,
+      "learning_rate": 9.615612805539305e-06,
+      "loss": 0.7102,
+      "step": 2020
+    },
+    {
+      "epoch": 1.27,
+      "grad_norm": 0.9521629810333252,
+      "learning_rate": 9.6118099746004e-06,
+      "loss": 0.7068,
+      "step": 2030
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 1.129441738128662,
+      "learning_rate": 9.607989184548544e-06,
+      "loss": 0.6528,
+      "step": 2040
+    },
+    {
+      "epoch": 1.29,
+      "grad_norm": 1.2303441762924194,
+      "learning_rate": 9.604150450262488e-06,
+      "loss": 0.6838,
+      "step": 2050
+    },
+    {
+      "epoch": 1.29,
+      "grad_norm": 1.433111310005188,
+      "learning_rate": 9.600293786690873e-06,
+      "loss": 0.6908,
+      "step": 2060
+    },
+    {
+      "epoch": 1.3,
+      "grad_norm": 1.11778724193573,
+      "learning_rate": 9.596419208852152e-06,
+      "loss": 0.7153,
+      "step": 2070
+    },
+    {
+      "epoch": 1.3,
+      "grad_norm": 1.3464716672897339,
+      "learning_rate": 9.592526731834536e-06,
+      "loss": 0.67,
+      "step": 2080
+    },
+    {
+      "epoch": 1.31,
+      "grad_norm": 1.0811423063278198,
+      "learning_rate": 9.588616370795947e-06,
+      "loss": 0.705,
+      "step": 2090
+    },
+    {
+      "epoch": 1.32,
+      "grad_norm": 1.2497215270996094,
+      "learning_rate": 9.584688140963945e-06,
+      "loss": 0.7037,
+      "step": 2100
+    },
+    {
+      "epoch": 1.32,
+      "grad_norm": 1.0369244813919067,
+      "learning_rate": 9.580742057635672e-06,
+      "loss": 0.7199,
+      "step": 2110
+    },
+    {
+      "epoch": 1.33,
+      "grad_norm": 0.8846107125282288,
+      "learning_rate": 9.576778136177798e-06,
+      "loss": 0.7098,
+      "step": 2120
+    },
+    {
+      "epoch": 1.34,
+      "grad_norm": 1.2424838542938232,
+      "learning_rate": 9.572796392026455e-06,
+      "loss": 0.7109,
+      "step": 2130
+    },
+    {
+      "epoch": 1.34,
+      "grad_norm": 1.1349953413009644,
+      "learning_rate": 9.568796840687184e-06,
+      "loss": 0.693,
+      "step": 2140
+    },
+    {
+      "epoch": 1.35,
+      "grad_norm": 0.9105272889137268,
+      "learning_rate": 9.564779497734864e-06,
+      "loss": 0.6679,
+      "step": 2150
+    },
+    {
+      "epoch": 1.36,
+      "grad_norm": 1.021628737449646,
+      "learning_rate": 9.56074437881366e-06,
+      "loss": 0.6573,
+      "step": 2160
+    },
+    {
+      "epoch": 1.36,
+      "grad_norm": 1.1030464172363281,
+      "learning_rate": 9.55669149963696e-06,
+      "loss": 0.705,
+      "step": 2170
+    },
+    {
+      "epoch": 1.37,
+      "grad_norm": 1.1582733392715454,
+      "learning_rate": 9.552620875987312e-06,
+      "loss": 0.6932,
+      "step": 2180
+    },
+    {
+      "epoch": 1.37,
+      "grad_norm": 1.2710620164871216,
+      "learning_rate": 9.548532523716366e-06,
+      "loss": 0.6616,
+      "step": 2190
+    },
+    {
+      "epoch": 1.38,
+      "grad_norm": 1.1528280973434448,
+      "learning_rate": 9.544426458744805e-06,
+      "loss": 0.7182,
+      "step": 2200
+    },
+    {
+      "epoch": 1.38,
+      "eval_loss": 0.7022137641906738,
+      "eval_runtime": 64.965,
+      "eval_samples_per_second": 69.268,
+      "eval_steps_per_second": 4.341,
+      "step": 2200
+    },
+    {
+      "epoch": 1.39,
+      "grad_norm": 1.1455330848693848,
+      "learning_rate": 9.540302697062294e-06,
+      "loss": 0.6878,
+      "step": 2210
+    },
+    {
+      "epoch": 1.39,
+      "grad_norm": 1.4521374702453613,
+      "learning_rate": 9.536161254727407e-06,
+      "loss": 0.6979,
+      "step": 2220
+    },
+    {
+      "epoch": 1.4,
+      "grad_norm": 1.4062340259552002,
+      "learning_rate": 9.532002147867575e-06,
+      "loss": 0.6749,
+      "step": 2230
+    },
+    {
+      "epoch": 1.41,
+      "grad_norm": 1.0267623662948608,
+      "learning_rate": 9.527825392679012e-06,
+      "loss": 0.6987,
+      "step": 2240
+    },
+    {
+      "epoch": 1.41,
+      "grad_norm": 1.0981144905090332,
+      "learning_rate": 9.523631005426658e-06,
+      "loss": 0.6888,
+      "step": 2250
+    },
+    {
+      "epoch": 1.42,
+      "grad_norm": 1.0353021621704102,
+      "learning_rate": 9.51941900244412e-06,
+      "loss": 0.6471,
+      "step": 2260
+    },
+    {
+      "epoch": 1.42,
+      "grad_norm": 1.1088558435440063,
+      "learning_rate": 9.515189400133594e-06,
+      "loss": 0.6689,
+      "step": 2270
+    },
+    {
+      "epoch": 1.43,
+      "grad_norm": 1.1822565793991089,
+      "learning_rate": 9.510942214965819e-06,
+      "loss": 0.7001,
+      "step": 2280
+    },
+    {
+      "epoch": 1.44,
+      "grad_norm": 1.2247307300567627,
+      "learning_rate": 9.506677463480003e-06,
+      "loss": 0.6999,
+      "step": 2290
+    },
+    {
+      "epoch": 1.44,
+      "grad_norm": 1.163528323173523,
+      "learning_rate": 9.50239516228376e-06,
+      "loss": 0.7008,
+      "step": 2300
+    },
+    {
+      "epoch": 1.45,
+      "grad_norm": 1.2677900791168213,
+      "learning_rate": 9.49809532805304e-06,
+      "loss": 0.7122,
+      "step": 2310
+    },
+    {
+      "epoch": 1.46,
+      "grad_norm": 1.1475526094436646,
+      "learning_rate": 9.493777977532072e-06,
+      "loss": 0.7106,
+      "step": 2320
+    },
+    {
+      "epoch": 1.46,
+      "grad_norm": 1.1459851264953613,
+      "learning_rate": 9.489443127533304e-06,
+      "loss": 0.6739,
+      "step": 2330
+    },
+    {
+      "epoch": 1.47,
+      "grad_norm": 1.2973495721817017,
+      "learning_rate": 9.485090794937319e-06,
+      "loss": 0.6888,
+      "step": 2340
+    },
+    {
+      "epoch": 1.47,
+      "grad_norm": 1.0322624444961548,
+      "learning_rate": 9.480720996692783e-06,
+      "loss": 0.6986,
+      "step": 2350
+    },
+    {
+      "epoch": 1.48,
+      "grad_norm": 1.407605767250061,
+      "learning_rate": 9.476333749816382e-06,
+      "loss": 0.7314,
+      "step": 2360
+    },
+    {
+      "epoch": 1.49,
+      "grad_norm": 1.1082048416137695,
+      "learning_rate": 9.47192907139274e-06,
+      "loss": 0.6602,
+      "step": 2370
+    },
+    {
+      "epoch": 1.49,
+      "grad_norm": 1.02568519115448,
+      "learning_rate": 9.46750697857437e-06,
+      "loss": 0.6454,
+      "step": 2380
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 1.12267005443573,
+      "learning_rate": 9.463067488581598e-06,
+      "loss": 0.6499,
+      "step": 2390
+    },
+    {
+      "epoch": 1.51,
+      "grad_norm": 1.0023943185806274,
+      "learning_rate": 9.45861061870249e-06,
+      "loss": 0.7267,
+      "step": 2400
+    },
+    {
+      "epoch": 1.51,
+      "eval_loss": 0.6993948817253113,
+      "eval_runtime": 64.9272,
+      "eval_samples_per_second": 69.308,
+      "eval_steps_per_second": 4.343,
+      "step": 2400
+    },
+    {
+      "epoch": 1.51,
+      "grad_norm": 1.2597460746765137,
+      "learning_rate": 9.454136386292804e-06,
+      "loss": 0.6934,
+      "step": 2410
+    },
+    {
+      "epoch": 1.52,
+      "grad_norm": 1.293137788772583,
+      "learning_rate": 9.449644808775902e-06,
+      "loss": 0.7095,
+      "step": 2420
+    },
+    {
+      "epoch": 1.52,
+      "grad_norm": 1.0400352478027344,
+      "learning_rate": 9.445135903642693e-06,
+      "loss": 0.6626,
+      "step": 2430
+    },
+    {
+      "epoch": 1.53,
+      "grad_norm": 1.0873581171035767,
+      "learning_rate": 9.440609688451561e-06,
+      "loss": 0.6513,
+      "step": 2440
+    },
+    {
+      "epoch": 1.54,
+      "grad_norm": 1.0420424938201904,
+      "learning_rate": 9.4360661808283e-06,
+      "loss": 0.711,
+      "step": 2450
+    },
+    {
+      "epoch": 1.54,
+      "grad_norm": 1.3502894639968872,
+      "learning_rate": 9.431505398466045e-06,
+      "loss": 0.6991,
+      "step": 2460
+    },
+    {
+      "epoch": 1.55,
+      "grad_norm": 1.3502726554870605,
+      "learning_rate": 9.426927359125195e-06,
+      "loss": 0.7073,
+      "step": 2470
+    },
+    {
+      "epoch": 1.56,
+      "grad_norm": 1.2768748998641968,
+      "learning_rate": 9.422332080633361e-06,
+      "loss": 0.6557,
+      "step": 2480
+    },
+    {
+      "epoch": 1.56,
+      "grad_norm": 1.1925798654556274,
+      "learning_rate": 9.417719580885275e-06,
+      "loss": 0.6786,
+      "step": 2490
+    },
+    {
+      "epoch": 1.57,
+      "grad_norm": 0.9290177822113037,
+      "learning_rate": 9.413089877842735e-06,
+      "loss": 0.6159,
+      "step": 2500
+    },
+    {
+      "epoch": 1.57,
+      "grad_norm": 1.3553310632705688,
+      "learning_rate": 9.408442989534536e-06,
+      "loss": 0.7341,
+      "step": 2510
+    },
+    {
+      "epoch": 1.58,
+      "grad_norm": 0.9777106642723083,
+      "learning_rate": 9.403778934056392e-06,
+      "loss": 0.6737,
+      "step": 2520
+    },
+    {
+      "epoch": 1.59,
+      "grad_norm": 1.47153902053833,
+      "learning_rate": 9.399097729570865e-06,
+      "loss": 0.6832,
+      "step": 2530
+    },
+    {
+      "epoch": 1.59,
+      "grad_norm": 1.2370259761810303,
+      "learning_rate": 9.394399394307303e-06,
+      "loss": 0.6691,
+      "step": 2540
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 1.2009457349777222,
+      "learning_rate": 9.38968394656176e-06,
+      "loss": 0.7072,
+      "step": 2550
+    },
+    {
+      "epoch": 1.61,
+      "grad_norm": 1.095410704612732,
+      "learning_rate": 9.384951404696933e-06,
+      "loss": 0.7068,
+      "step": 2560
+    },
+    {
+      "epoch": 1.61,
+      "grad_norm": 1.0805617570877075,
+      "learning_rate": 9.380201787142085e-06,
+      "loss": 0.6476,
+      "step": 2570
+    },
+    {
+      "epoch": 1.62,
+      "grad_norm": 1.3433113098144531,
+      "learning_rate": 9.37543511239297e-06,
+      "loss": 0.6805,
+      "step": 2580
+    },
+    {
+      "epoch": 1.62,
+      "grad_norm": 1.3151830434799194,
+      "learning_rate": 9.370651399011769e-06,
+      "loss": 0.6887,
+      "step": 2590
+    },
+    {
+      "epoch": 1.63,
+      "grad_norm": 1.3367606401443481,
+      "learning_rate": 9.365850665627016e-06,
+      "loss": 0.6912,
+      "step": 2600
+    },
+    {
+      "epoch": 1.63,
+      "eval_loss": 0.6971801519393921,
+      "eval_runtime": 65.0021,
+      "eval_samples_per_second": 69.229,
+      "eval_steps_per_second": 4.338,
+      "step": 2600
+    },
+    {
+      "epoch": 1.64,
+      "grad_norm": 1.3351305723190308,
+      "learning_rate": 9.36103293093352e-06,
+      "loss": 0.6479,
+      "step": 2610
+    },
+    {
+      "epoch": 1.64,
+      "grad_norm": 1.3986787796020508,
+      "learning_rate": 9.356198213692297e-06,
+      "loss": 0.6788,
+      "step": 2620
+    },
+    {
+      "epoch": 1.65,
+      "grad_norm": 1.0550477504730225,
+      "learning_rate": 9.351346532730499e-06,
+      "loss": 0.6481,
+      "step": 2630
+    },
+    {
+      "epoch": 1.66,
+      "grad_norm": 1.275985836982727,
+      "learning_rate": 9.346477906941331e-06,
+      "loss": 0.6893,
+      "step": 2640
+    },
+    {
+      "epoch": 1.66,
+      "grad_norm": 1.441588044166565,
+      "learning_rate": 9.341592355283986e-06,
+      "loss": 0.6784,
+      "step": 2650
+    },
+    {
+      "epoch": 1.67,
+      "grad_norm": 1.2504793405532837,
+      "learning_rate": 9.336689896783575e-06,
+      "loss": 0.6834,
+      "step": 2660
+    },
+    {
+      "epoch": 1.68,
+      "grad_norm": 1.2592806816101074,
+      "learning_rate": 9.331770550531037e-06,
+      "loss": 0.6701,
+      "step": 2670
+    },
+    {
+      "epoch": 1.68,
+      "grad_norm": 1.494611382484436,
+      "learning_rate": 9.32683433568308e-06,
+      "loss": 0.6691,
+      "step": 2680
+    },
+    {
+      "epoch": 1.69,
+      "grad_norm": 1.2938275337219238,
+      "learning_rate": 9.321881271462104e-06,
+      "loss": 0.6818,
+      "step": 2690
+    },
+    {
+      "epoch": 1.69,
+      "grad_norm": 1.5548397302627563,
+      "learning_rate": 9.316911377156116e-06,
+      "loss": 0.6852,
+      "step": 2700
+    },
+    {
+      "epoch": 1.7,
+      "grad_norm": 1.2488983869552612,
+      "learning_rate": 9.31192467211867e-06,
+      "loss": 0.6653,
+      "step": 2710
+    },
+    {
+      "epoch": 1.71,
+      "grad_norm": 1.3493934869766235,
+      "learning_rate": 9.306921175768776e-06,
+      "loss": 0.6671,
+      "step": 2720
+    },
+    {
+      "epoch": 1.71,
+      "grad_norm": 1.388487696647644,
+      "learning_rate": 9.301900907590836e-06,
+      "loss": 0.7066,
+      "step": 2730
+    },
+    {
+      "epoch": 1.72,
+      "grad_norm": 1.2521592378616333,
+      "learning_rate": 9.296863887134561e-06,
+      "loss": 0.7326,
+      "step": 2740
+    },
+    {
+      "epoch": 1.73,
+      "grad_norm": 1.0157365798950195,
+      "learning_rate": 9.291810134014904e-06,
+      "loss": 0.6758,
+      "step": 2750
+    },
+    {
+      "epoch": 1.73,
+      "grad_norm": 1.0712261199951172,
+      "learning_rate": 9.286739667911973e-06,
+      "loss": 0.6645,
+      "step": 2760
+    },
+    {
+      "epoch": 1.74,
+      "grad_norm": 1.5114517211914062,
+      "learning_rate": 9.281652508570957e-06,
+      "loss": 0.6968,
+      "step": 2770
+    },
+    {
+      "epoch": 1.74,
+      "grad_norm": 1.3408139944076538,
+      "learning_rate": 9.27654867580206e-06,
+      "loss": 0.6718,
+      "step": 2780
+    },
+    {
+      "epoch": 1.75,
+      "grad_norm": 1.3024680614471436,
+      "learning_rate": 9.271428189480405e-06,
+      "loss": 0.6915,
+      "step": 2790
+    },
+    {
+      "epoch": 1.76,
+      "grad_norm": 1.3444178104400635,
+      "learning_rate": 9.266291069545972e-06,
+      "loss": 0.6821,
+      "step": 2800
+    },
+    {
+      "epoch": 1.76,
+      "eval_loss": 0.6953641176223755,
+      "eval_runtime": 65.0162,
+      "eval_samples_per_second": 69.213,
+      "eval_steps_per_second": 4.337,
+      "step": 2800
+    },
+    {
+      "epoch": 1.76,
+      "grad_norm": 1.5429843664169312,
+      "learning_rate": 9.261137336003511e-06,
+      "loss": 0.666,
+      "step": 2810
+    },
+    {
+      "epoch": 1.77,
+      "grad_norm": 1.143649697303772,
+      "learning_rate": 9.255967008922475e-06,
+      "loss": 0.6414,
+      "step": 2820
+    },
+    {
+      "epoch": 1.78,
+      "grad_norm": 1.2989628314971924,
+      "learning_rate": 9.250780108436926e-06,
+      "loss": 0.7321,
+      "step": 2830
+    },
+    {
+      "epoch": 1.78,
+      "grad_norm": 1.4191828966140747,
+      "learning_rate": 9.245576654745471e-06,
+      "loss": 0.735,
+      "step": 2840
+    },
+    {
+      "epoch": 1.79,
+      "grad_norm": 1.5203850269317627,
+      "learning_rate": 9.24035666811118e-06,
+      "loss": 0.6809,
+      "step": 2850
+    },
+    {
+      "epoch": 1.79,
+      "grad_norm": 1.3680098056793213,
+      "learning_rate": 9.235120168861495e-06,
+      "loss": 0.6378,
+      "step": 2860
+    },
+    {
+      "epoch": 1.8,
+      "grad_norm": 1.346763014793396,
+      "learning_rate": 9.229867177388172e-06,
+      "loss": 0.6648,
+      "step": 2870
+    },
+    {
+      "epoch": 1.81,
+      "grad_norm": 1.0098768472671509,
+      "learning_rate": 9.224597714147186e-06,
+      "loss": 0.6681,
+      "step": 2880
+    },
+    {
+      "epoch": 1.81,
+      "grad_norm": 1.3174008131027222,
+      "learning_rate": 9.219311799658652e-06,
+      "loss": 0.6752,
+      "step": 2890
+    },
+    {
+      "epoch": 1.82,
+      "grad_norm": 1.692084789276123,
+      "learning_rate": 9.214009454506754e-06,
+      "loss": 0.6427,
+      "step": 2900
+    },
+    {
+      "epoch": 1.83,
+      "grad_norm": 1.3471505641937256,
+      "learning_rate": 9.208690699339656e-06,
+      "loss": 0.6763,
+      "step": 2910
+    },
+    {
+      "epoch": 1.83,
+      "grad_norm": 1.202491283416748,
+      "learning_rate": 9.203355554869428e-06,
+      "loss": 0.6935,
+      "step": 2920
+    },
+    {
+      "epoch": 1.84,
+      "grad_norm": 1.7211599349975586,
+      "learning_rate": 9.198004041871962e-06,
+      "loss": 0.7012,
+      "step": 2930
+    },
+    {
+      "epoch": 1.84,
+      "grad_norm": 1.336504578590393,
+      "learning_rate": 9.192636181186887e-06,
+      "loss": 0.6713,
+      "step": 2940
+    },
+    {
+      "epoch": 1.85,
+      "grad_norm": 1.2259244918823242,
+      "learning_rate": 9.1872519937175e-06,
+      "loss": 0.6344,
+      "step": 2950
+    },
+    {
+      "epoch": 1.86,
+      "grad_norm": 1.3948123455047607,
+      "learning_rate": 9.181851500430672e-06,
+      "loss": 0.6699,
+      "step": 2960
+    },
+    {
+      "epoch": 1.86,
+      "grad_norm": 1.2859784364700317,
+      "learning_rate": 9.176434722356772e-06,
+      "loss": 0.7029,
+      "step": 2970
+    },
+    {
+      "epoch": 1.87,
+      "grad_norm": 1.1549146175384521,
+      "learning_rate": 9.17100168058959e-06,
+      "loss": 0.6491,
+      "step": 2980
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 1.575208306312561,
+      "learning_rate": 9.165552396286236e-06,
+      "loss": 0.6722,
+      "step": 2990
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 1.6159918308258057,
+      "learning_rate": 9.160086890667086e-06,
+      "loss": 0.7104,
+      "step": 3000
+    },
+    {
+      "epoch": 1.88,
+      "eval_loss": 0.6943792104721069,
+      "eval_runtime": 65.034,
+      "eval_samples_per_second": 69.195,
+      "eval_steps_per_second": 4.336,
+      "step": 3000
+    },
+    {
+      "epoch": 1.89,
+      "grad_norm": 1.247308611869812,
+      "learning_rate": 9.154605185015678e-06,
+      "loss": 0.7042,
+      "step": 3010
+    },
+    {
+      "epoch": 1.89,
+      "grad_norm": 1.540644884109497,
+      "learning_rate": 9.14910730067863e-06,
+      "loss": 0.6208,
+      "step": 3020
+    },
+    {
+      "epoch": 1.9,
+      "grad_norm": 1.4479825496673584,
+      "learning_rate": 9.143593259065573e-06,
+      "loss": 0.6721,
+      "step": 3030
+    },
+    {
+      "epoch": 1.91,
+      "grad_norm": 1.5486655235290527,
+      "learning_rate": 9.138063081649052e-06,
+      "loss": 0.6328,
+      "step": 3040
+    },
+    {
+      "epoch": 1.91,
+      "grad_norm": 1.0703155994415283,
+      "learning_rate": 9.132516789964443e-06,
+      "loss": 0.6564,
+      "step": 3050
+    },
+    {
+      "epoch": 1.92,
+      "grad_norm": 1.2725510597229004,
+      "learning_rate": 9.126954405609882e-06,
+      "loss": 0.6782,
+      "step": 3060
+    },
+    {
+      "epoch": 1.93,
+      "grad_norm": 1.328399419784546,
+      "learning_rate": 9.121375950246165e-06,
+      "loss": 0.6686,
+      "step": 3070
+    },
+    {
+      "epoch": 1.93,
+      "grad_norm": 1.2014747858047485,
+      "learning_rate": 9.115781445596676e-06,
+      "loss": 0.6445,
+      "step": 3080
+    },
+    {
+      "epoch": 1.94,
+      "grad_norm": 1.3578124046325684,
+      "learning_rate": 9.110170913447294e-06,
+      "loss": 0.6306,
+      "step": 3090
+    },
+    {
+      "epoch": 1.94,
+      "grad_norm": 1.3624286651611328,
+      "learning_rate": 9.104544375646314e-06,
+      "loss": 0.6465,
+      "step": 3100
+    },
+    {
+      "epoch": 1.95,
+      "grad_norm": 1.709974765777588,
+      "learning_rate": 9.098901854104359e-06,
+      "loss": 0.6985,
+      "step": 3110
+    },
+    {
+      "epoch": 1.96,
+      "grad_norm": 1.3302754163742065,
+      "learning_rate": 9.09324337079429e-06,
+      "loss": 0.7272,
+      "step": 3120
+    },
+    {
+      "epoch": 1.96,
+      "grad_norm": 1.2946594953536987,
+      "learning_rate": 9.08756894775114e-06,
+      "loss": 0.6632,
+      "step": 3130
+    },
+    {
+      "epoch": 1.97,
+      "grad_norm": 1.2699226140975952,
+      "learning_rate": 9.081878607071996e-06,
+      "loss": 0.6996,
+      "step": 3140
+    },
+    {
+      "epoch": 1.98,
+      "grad_norm": 1.4561275243759155,
+      "learning_rate": 9.076172370915944e-06,
+      "loss": 0.734,
+      "step": 3150
+    },
+    {
+      "epoch": 1.98,
+      "grad_norm": 1.4393534660339355,
+      "learning_rate": 9.07045026150396e-06,
+      "loss": 0.6578,
+      "step": 3160
+    },
+    {
+      "epoch": 1.99,
+      "grad_norm": 1.4745630025863647,
+      "learning_rate": 9.064712301118842e-06,
+      "loss": 0.6527,
+      "step": 3170
+    },
+    {
+      "epoch": 1.99,
+      "grad_norm": 1.1444178819656372,
+      "learning_rate": 9.058958512105104e-06,
+      "loss": 0.6487,
+      "step": 3180
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 1.433406114578247,
+      "learning_rate": 9.053188916868912e-06,
+      "loss": 0.7011,
+      "step": 3190
+    },
+    {
+      "epoch": 2.01,
+      "grad_norm": 1.218345046043396,
+      "learning_rate": 9.04740353787797e-06,
+      "loss": 0.6222,
+      "step": 3200
+    },
+    {
+      "epoch": 2.01,
+      "eval_loss": 0.693417489528656,
+      "eval_runtime": 65.021,
+      "eval_samples_per_second": 69.208,
+      "eval_steps_per_second": 4.337,
+      "step": 3200
+    },
+    {
+      "epoch": 2.01,
+      "grad_norm": 1.5473078489303589,
+      "learning_rate": 9.041602397661459e-06,
+      "loss": 0.6396,
+      "step": 3210
+    },
+    {
+      "epoch": 2.02,
+      "grad_norm": 1.3116644620895386,
+      "learning_rate": 9.035785518809928e-06,
+      "loss": 0.6582,
+      "step": 3220
+    },
+    {
+      "epoch": 2.03,
+      "grad_norm": 1.7744321823120117,
+      "learning_rate": 9.029952923975217e-06,
+      "loss": 0.6517,
+      "step": 3230
+    },
+    {
+      "epoch": 2.03,
+      "grad_norm": 1.5516449213027954,
+      "learning_rate": 9.024104635870368e-06,
+      "loss": 0.6465,
+      "step": 3240
+    },
+    {
+      "epoch": 2.04,
+      "grad_norm": 1.4612600803375244,
+      "learning_rate": 9.018240677269532e-06,
+      "loss": 0.6215,
+      "step": 3250
+    },
+    {
+      "epoch": 2.05,
+      "grad_norm": 1.7983644008636475,
+      "learning_rate": 9.012361071007892e-06,
+      "loss": 0.6609,
+      "step": 3260
+    },
+    {
+      "epoch": 2.05,
+      "grad_norm": 1.6382901668548584,
+      "learning_rate": 9.00646583998155e-06,
+      "loss": 0.6608,
+      "step": 3270
+    },
+    {
+      "epoch": 2.06,
+      "grad_norm": 1.6763097047805786,
+      "learning_rate": 9.000555007147469e-06,
+      "loss": 0.6222,
+      "step": 3280
+    },
+    {
+      "epoch": 2.06,
+      "grad_norm": 1.3221015930175781,
+      "learning_rate": 8.994628595523358e-06,
+      "loss": 0.6363,
+      "step": 3290
+    },
+    {
+      "epoch": 2.07,
+      "grad_norm": 1.5837445259094238,
+      "learning_rate": 8.988686628187597e-06,
+      "loss": 0.6364,
+      "step": 3300
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 1.4271923303604126,
+      "learning_rate": 8.98272912827914e-06,
+      "loss": 0.6211,
+      "step": 3310
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 1.599827527999878,
+      "learning_rate": 8.97675611899743e-06,
+      "loss": 0.6326,
+      "step": 3320
+    },
+    {
+      "epoch": 2.09,
+      "grad_norm": 1.6661384105682373,
+      "learning_rate": 8.970767623602299e-06,
+      "loss": 0.7006,
+      "step": 3330
+    },
+    {
+      "epoch": 2.1,
+      "grad_norm": 1.9200857877731323,
+      "learning_rate": 8.964763665413894e-06,
+      "loss": 0.6316,
+      "step": 3340
+    },
+    {
+      "epoch": 2.1,
+      "grad_norm": 1.8148436546325684,
+      "learning_rate": 8.95874426781257e-06,
+      "loss": 0.6318,
+      "step": 3350
+    },
+    {
+      "epoch": 2.11,
+      "grad_norm": 1.3358807563781738,
+      "learning_rate": 8.952709454238809e-06,
+      "loss": 0.6067,
+      "step": 3360
+    },
+    {
+      "epoch": 2.11,
+      "grad_norm": 1.8055490255355835,
+      "learning_rate": 8.946659248193122e-06,
+      "loss": 0.6289,
+      "step": 3370
+    },
+    {
+      "epoch": 2.12,
+      "grad_norm": 1.4589310884475708,
+      "learning_rate": 8.940593673235962e-06,
+      "loss": 0.6537,
+      "step": 3380
+    },
+    {
+      "epoch": 2.13,
+      "grad_norm": 1.903086543083191,
+      "learning_rate": 8.934512752987635e-06,
+      "loss": 0.6986,
+      "step": 3390
+    },
+    {
+      "epoch": 2.13,
+      "grad_norm": 1.722476840019226,
+      "learning_rate": 8.928416511128194e-06,
+      "loss": 0.6383,
+      "step": 3400
+    },
+    {
+      "epoch": 2.13,
+      "eval_loss": 0.6974382996559143,
+      "eval_runtime": 65.0527,
+      "eval_samples_per_second": 69.175,
+      "eval_steps_per_second": 4.335,
+      "step": 3400
+    },
+    {
+      "epoch": 2.14,
+      "grad_norm": 1.8206970691680908,
+      "learning_rate": 8.922304971397369e-06,
+      "loss": 0.6447,
+      "step": 3410
+    },
+    {
+      "epoch": 2.15,
+      "grad_norm": 1.690631628036499,
+      "learning_rate": 8.916178157594453e-06,
+      "loss": 0.6441,
+      "step": 3420
+    },
+    {
+      "epoch": 2.15,
+      "grad_norm": 2.108876943588257,
+      "learning_rate": 8.910036093578223e-06,
+      "loss": 0.6453,
+      "step": 3430
+    },
+    {
+      "epoch": 2.16,
+      "grad_norm": 1.6356040239334106,
+      "learning_rate": 8.90387880326684e-06,
+      "loss": 0.6256,
+      "step": 3440
+    },
+    {
+      "epoch": 2.16,
+      "grad_norm": 1.3783752918243408,
+      "learning_rate": 8.897706310637766e-06,
+      "loss": 0.6244,
+      "step": 3450
+    },
+    {
+      "epoch": 2.17,
+      "grad_norm": 1.901208758354187,
+      "learning_rate": 8.89151863972765e-06,
+      "loss": 0.5975,
+      "step": 3460
+    },
+    {
+      "epoch": 2.18,
+      "grad_norm": 1.595009446144104,
+      "learning_rate": 8.88531581463226e-06,
+      "loss": 0.6777,
+      "step": 3470
+    },
+    {
+      "epoch": 2.18,
+      "grad_norm": 1.6791367530822754,
+      "learning_rate": 8.879097859506371e-06,
+      "loss": 0.6139,
+      "step": 3480
+    },
+    {
+      "epoch": 2.19,
+      "grad_norm": 1.5569841861724854,
+      "learning_rate": 8.872864798563676e-06,
+      "loss": 0.5775,
+      "step": 3490
+    },
+    {
+      "epoch": 2.2,
+      "grad_norm": 1.3804527521133423,
+      "learning_rate": 8.866616656076696e-06,
+      "loss": 0.624,
+      "step": 3500
+    },
+    {
+      "epoch": 2.2,
+      "grad_norm": 1.7905445098876953,
+      "learning_rate": 8.860353456376679e-06,
+      "loss": 0.6647,
+      "step": 3510
+    },
+    {
+      "epoch": 2.21,
+      "grad_norm": 1.802614688873291,
+      "learning_rate": 8.854075223853509e-06,
+      "loss": 0.7081,
+      "step": 3520
+    },
+    {
+      "epoch": 2.21,
+      "grad_norm": 1.7135951519012451,
+      "learning_rate": 8.847781982955613e-06,
+      "loss": 0.6974,
+      "step": 3530
+    },
+    {
+      "epoch": 2.22,
+      "grad_norm": 1.8468406200408936,
+      "learning_rate": 8.841473758189853e-06,
+      "loss": 0.6585,
+      "step": 3540
+    },
+    {
+      "epoch": 2.23,
+      "grad_norm": 1.7520302534103394,
+      "learning_rate": 8.835150574121455e-06,
+      "loss": 0.6116,
+      "step": 3550
+    },
+    {
+      "epoch": 2.23,
+      "grad_norm": 1.862479329109192,
+      "learning_rate": 8.828812455373891e-06,
+      "loss": 0.6333,
+      "step": 3560
+    },
+    {
+      "epoch": 2.24,
+      "grad_norm": 1.7767084836959839,
+      "learning_rate": 8.82245942662879e-06,
+      "loss": 0.6015,
+      "step": 3570
+    },
+    {
+      "epoch": 2.25,
+      "grad_norm": 1.6162598133087158,
+      "learning_rate": 8.816091512625845e-06,
+      "loss": 0.6719,
+      "step": 3580
+    },
+    {
+      "epoch": 2.25,
+      "grad_norm": 1.8923571109771729,
+      "learning_rate": 8.80970873816271e-06,
+      "loss": 0.6562,
+      "step": 3590
+    },
+    {
+      "epoch": 2.26,
+      "grad_norm": 1.7792338132858276,
+      "learning_rate": 8.803311128094918e-06,
+      "loss": 0.6436,
+      "step": 3600
+    },
+    {
+      "epoch": 2.26,
+      "eval_loss": 0.6980520486831665,
+      "eval_runtime": 65.0239,
+      "eval_samples_per_second": 69.205,
+      "eval_steps_per_second": 4.337,
+      "step": 3600
+    },
+    {
+      "epoch": 2.26,
+      "grad_norm": 1.819449543952942,
+      "learning_rate": 8.796898707335766e-06,
+      "loss": 0.6022,
+      "step": 3610
+    },
+    {
+      "epoch": 2.27,
+      "grad_norm": 1.923462986946106,
+      "learning_rate": 8.790471500856229e-06,
+      "loss": 0.6124,
+      "step": 3620
+    },
+    {
+      "epoch": 2.28,
+      "grad_norm": 2.0969247817993164,
+      "learning_rate": 8.784029533684857e-06,
+      "loss": 0.6209,
+      "step": 3630
+    },
+    {
+      "epoch": 2.28,
+      "grad_norm": 2.014631509780884,
+      "learning_rate": 8.777572830907685e-06,
+      "loss": 0.6179,
+      "step": 3640
+    },
+    {
+      "epoch": 2.29,
+      "grad_norm": 1.7940195798873901,
+      "learning_rate": 8.771101417668127e-06,
+      "loss": 0.6815,
+      "step": 3650
+    },
+    {
+      "epoch": 2.3,
+      "grad_norm": 1.7244881391525269,
+      "learning_rate": 8.764615319166885e-06,
+      "loss": 0.5767,
+      "step": 3660
+    },
+    {
+      "epoch": 2.3,
+      "grad_norm": 2.157749652862549,
+      "learning_rate": 8.758114560661846e-06,
+      "loss": 0.6281,
+      "step": 3670
+    },
+    {
+      "epoch": 2.31,
+      "grad_norm": 1.818303108215332,
+      "learning_rate": 8.751599167467985e-06,
+      "loss": 0.6368,
+      "step": 3680
+    },
+    {
+      "epoch": 2.31,
+      "grad_norm": 1.8076434135437012,
+      "learning_rate": 8.745069164957265e-06,
+      "loss": 0.6503,
+      "step": 3690
+    },
+    {
+      "epoch": 2.32,
+      "grad_norm": 1.7755082845687866,
+      "learning_rate": 8.738524578558547e-06,
+      "loss": 0.6503,
+      "step": 3700
+    },
+    {
+      "epoch": 2.33,
+      "grad_norm": 2.0641837120056152,
+      "learning_rate": 8.731965433757474e-06,
+      "loss": 0.6412,
+      "step": 3710
+    },
+    {
+      "epoch": 2.33,
+      "grad_norm": 2.174612045288086,
+      "learning_rate": 8.72539175609639e-06,
+      "loss": 0.6283,
+      "step": 3720
+    },
+    {
+      "epoch": 2.34,
+      "grad_norm": 1.905965805053711,
+      "learning_rate": 8.718803571174229e-06,
+      "loss": 0.6316,
+      "step": 3730
+    },
+    {
+      "epoch": 2.35,
+      "grad_norm": 2.290787935256958,
+      "learning_rate": 8.712200904646417e-06,
+      "loss": 0.6337,
+      "step": 3740
+    },
+    {
+      "epoch": 2.35,
+      "grad_norm": 1.7773081064224243,
+      "learning_rate": 8.705583782224776e-06,
+      "loss": 0.6683,
+      "step": 3750
+    },
+    {
+      "epoch": 2.36,
+      "grad_norm": 1.7513020038604736,
+      "learning_rate": 8.698952229677422e-06,
+      "loss": 0.6538,
+      "step": 3760
+    },
+    {
+      "epoch": 2.37,
+      "grad_norm": 1.8641185760498047,
+      "learning_rate": 8.692306272828661e-06,
+      "loss": 0.6179,
+      "step": 3770
+    },
+    {
+      "epoch": 2.37,
+      "grad_norm": 2.4094667434692383,
+      "learning_rate": 8.685645937558896e-06,
+      "loss": 0.6436,
+      "step": 3780
+    },
+    {
+      "epoch": 2.38,
+      "grad_norm": 2.295719623565674,
+      "learning_rate": 8.678971249804517e-06,
+      "loss": 0.6242,
+      "step": 3790
+    },
+    {
+      "epoch": 2.38,
+      "grad_norm": 2.3604509830474854,
+      "learning_rate": 8.67228223555781e-06,
+      "loss": 0.6444,
+      "step": 3800
+    },
+    {
+      "epoch": 2.38,
+      "eval_loss": 0.6968220472335815,
+      "eval_runtime": 65.0257,
+      "eval_samples_per_second": 69.203,
+      "eval_steps_per_second": 4.337,
+      "step": 3800
+    },
+    {
+      "epoch": 2.39,
+      "grad_norm": 1.799545407295227,
+      "learning_rate": 8.665578920866844e-06,
+      "loss": 0.6562,
+      "step": 3810
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 1.87678062915802,
+      "learning_rate": 8.658861331835384e-06,
+      "loss": 0.6776,
+      "step": 3820
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 1.9466888904571533,
+      "learning_rate": 8.652129494622776e-06,
+      "loss": 0.6245,
+      "step": 3830
+    },
+    {
+      "epoch": 2.41,
+      "grad_norm": 1.9451625347137451,
+      "learning_rate": 8.645383435443853e-06,
+      "loss": 0.6692,
+      "step": 3840
+    },
+    {
+      "epoch": 2.42,
+      "grad_norm": 1.9275856018066406,
+      "learning_rate": 8.638623180568829e-06,
+      "loss": 0.6314,
+      "step": 3850
+    },
+    {
+      "epoch": 2.42,
+      "grad_norm": 1.7316443920135498,
+      "learning_rate": 8.631848756323198e-06,
+      "loss": 0.6289,
+      "step": 3860
+    },
+    {
+      "epoch": 2.43,
+      "grad_norm": 2.5170657634735107,
+      "learning_rate": 8.625060189087636e-06,
+      "loss": 0.6367,
+      "step": 3870
+    },
+    {
+      "epoch": 2.43,
+      "grad_norm": 2.2198870182037354,
+      "learning_rate": 8.618257505297887e-06,
+      "loss": 0.6262,
+      "step": 3880
+    },
+    {
+      "epoch": 2.44,
+      "grad_norm": 1.9207948446273804,
+      "learning_rate": 8.611440731444673e-06,
+      "loss": 0.6598,
+      "step": 3890
+    },
+    {
+      "epoch": 2.45,
+      "grad_norm": 2.0086634159088135,
+      "learning_rate": 8.604609894073583e-06,
+      "loss": 0.6465,
+      "step": 3900
+    },
+    {
+      "epoch": 2.45,
+      "grad_norm": 2.0597639083862305,
+      "learning_rate": 8.597765019784972e-06,
+      "loss": 0.665,
+      "step": 3910
+    },
+    {
+      "epoch": 2.46,
+      "grad_norm": 1.8585723638534546,
+      "learning_rate": 8.590906135233854e-06,
+      "loss": 0.6207,
+      "step": 3920
+    },
+    {
+      "epoch": 2.47,
+      "grad_norm": 2.1862194538116455,
+      "learning_rate": 8.584033267129807e-06,
+      "loss": 0.6626,
+      "step": 3930
+    },
+    {
+      "epoch": 2.47,
+      "grad_norm": 2.048553228378296,
+      "learning_rate": 8.577146442236856e-06,
+      "loss": 0.6141,
+      "step": 3940
+    },
+    {
+      "epoch": 2.48,
+      "grad_norm": 2.2547719478607178,
+      "learning_rate": 8.570245687373384e-06,
+      "loss": 0.6651,
+      "step": 3950
+    },
+    {
+      "epoch": 2.48,
+      "grad_norm": 1.9522244930267334,
+      "learning_rate": 8.563331029412013e-06,
+      "loss": 0.6725,
+      "step": 3960
+    },
+    {
+      "epoch": 2.49,
+      "grad_norm": 1.7376751899719238,
+      "learning_rate": 8.556402495279506e-06,
+      "loss": 0.6066,
+      "step": 3970
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 1.900639295578003,
+      "learning_rate": 8.549460111956665e-06,
+      "loss": 0.6752,
+      "step": 3980
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 2.1750218868255615,
+      "learning_rate": 8.542503906478224e-06,
+      "loss": 0.6554,
+      "step": 3990
+    },
+    {
+      "epoch": 2.51,
+      "grad_norm": 1.6551765203475952,
+      "learning_rate": 8.535533905932739e-06,
+      "loss": 0.6368,
+      "step": 4000
+    },
+    {
+      "epoch": 2.51,
+      "eval_loss": 0.6986888647079468,
+      "eval_runtime": 65.007,
+      "eval_samples_per_second": 69.223,
+      "eval_steps_per_second": 4.338,
+      "step": 4000
+    },
+    {
+      "epoch": 2.51,
+      "step": 4000,
+      "total_flos": 9.03392259225944e+17,
+      "train_loss": 0.7081527805328369,
+      "train_runtime": 4312.5386,
+      "train_samples_per_second": 59.13,
+      "train_steps_per_second": 3.696
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 15940,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 1000,
+  "total_flos": 9.03392259225944e+17,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

llama2_13b_peft/news_commentary_de/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:190c16756cb1d693a35940640a359e26ac9a5176a57e5fc3919e9b137d670ef2
+size 5112

llama2_13b_peft/news_commentary_de/training_eval_loss.png ADDED Viewed

llama2_13b_peft/news_commentary_de/training_loss.png ADDED Viewed

llama2_13b_peft/news_commentary_it/README.md ADDED Viewed

	@@ -0,0 +1,67 @@

+---
+license: other
+library_name: peft
+tags:
+- llama-factory
+- lora
+- generated_from_trainer
+base_model: /data1/model/llama2/meta-llama/Llama2-13b
+model-index:
+- name: news_commentary_it_no_sys
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# news_commentary_it_no_sys
+This model is a fine-tuned version of [/data1/model/llama2/meta-llama/Llama2-13b](https://huggingface.co//data1/model/llama2/meta-llama/Llama2-13b) on the news_commentary_it_no_sys dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.6415
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 4
+- eval_batch_size: 4
+- seed: 42
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_steps: 20
+- num_epochs: 5.0
+### Training results
+| Training Loss | Epoch  | Step  | Validation Loss |
+|:-------------:|:------:|:-----:|:---------------:|
+| 0.7236        | 0.2807 | 2000  | 0.6710          |
+| 0.724         | 0.5614 | 4000  | 0.6521          |
+| 0.6455        | 0.8421 | 6000  | 0.6415          |
+| 0.5533        | 1.1228 | 8000  | 0.6548          |
+| 0.5192        | 1.4035 | 10000 | 0.6501          |
+| 0.4796        | 1.6842 | 12000 | 0.6500          |
+### Framework versions
+- PEFT 0.10.0
+- Transformers 4.40.0
+- Pytorch 2.2.1
+- Datasets 2.18.0
+- Tokenizers 0.19.1

llama2_13b_peft/news_commentary_it/adapter_config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "/data1/model/llama2/meta-llama/Llama2-13b",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.0,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "down_proj",
+    "up_proj",
+    "k_proj",
+    "gate_proj",
+    "q_proj",
+    "o_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_dora": false,
+  "use_rslora": false
+}

llama2_13b_peft/news_commentary_it/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:edef1dfcb7b9574ec3ab4820df092cc5ff382071e97048d16d7f69d7094885d3
+size 125248064

llama2_13b_peft/news_commentary_it/all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 1.6842105263157894,
+    "eval_loss": 0.6415141820907593,
+    "eval_runtime": 119.5773,
+    "eval_samples_per_second": 12.544,
+    "eval_steps_per_second": 3.136,
+    "total_flos": 6.933368738955264e+17,
+    "train_loss": 0.6038338423768679,
+    "train_runtime": 5861.7175,
+    "train_samples_per_second": 24.31,
+    "train_steps_per_second": 6.078
+}

llama2_13b_peft/news_commentary_it/eval_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 1.6842105263157894,
+    "eval_loss": 0.6415141820907593,
+    "eval_runtime": 119.5773,
+    "eval_samples_per_second": 12.544,
+    "eval_steps_per_second": 3.136
+}

llama2_13b_peft/news_commentary_it/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

llama2_13b_peft/news_commentary_it/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

llama2_13b_peft/news_commentary_it/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,45 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": true,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "chat_template": "{% if messages[0]['role'] == 'system' %}{% set system_message = messages[0]['content'] %}{% endif %}{% if system_message is defined %}{{ system_message }}{% endif %}{% for message in messages %}{% set content = message['content'] %}{% if message['role'] == 'user' %}{{ content }}{% elif message['role'] == 'assistant' %}{{ content + '\\n' }}{% endif %}{% endfor %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": true,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "</s>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "split_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

llama2_13b_peft/news_commentary_it/train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.6842105263157894,
+    "total_flos": 6.933368738955264e+17,
+    "train_loss": 0.6038338423768679,
+    "train_runtime": 5861.7175,
+    "train_samples_per_second": 24.31,
+    "train_steps_per_second": 6.078
+}

llama2_13b_peft/news_commentary_it/trainer_log.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

llama2_13b_peft/news_commentary_it/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

llama2_13b_peft/news_commentary_it/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c760325c4e915ed6add2ca1fa0f2456628f1a65e9e53ca6ae7e92088e8ec81d2
+size 5176

llama2_13b_peft/news_commentary_it/training_eval_loss.png ADDED Viewed

llama2_13b_peft/news_commentary_it/training_loss.png ADDED Viewed

llama2_13b_peft/topical_chat/README.md ADDED Viewed

	@@ -0,0 +1,89 @@

+---
+license: other
+library_name: peft
+tags:
+- llama-factory
+- lora
+- generated_from_trainer
+base_model: /data1/model/llama2/meta-llama/Llama2-13b
+model-index:
+- name: topical_chat_no_sys
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# topical_chat_no_sys
+This model is a fine-tuned version of [/data1/model/llama2/meta-llama/Llama2-13b](https://huggingface.co//data1/model/llama2/meta-llama/Llama2-13b) on the topical_chat_no_sys dataset.
+It achieves the following results on the evaluation set:
+- Loss: 1.8941
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 4
+- eval_batch_size: 4
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 2
+- total_train_batch_size: 8
+- total_eval_batch_size: 8
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_steps: 20
+- num_epochs: 5.0
+### Training results
+| Training Loss | Epoch  | Step | Validation Loss |
+|:-------------:|:------:|:----:|:---------------:|
+| 2.1904        | 0.0472 | 100  | 2.1137          |
+| 1.9627        | 0.0944 | 200  | 2.0589          |
+| 2.0172        | 0.1416 | 300  | 2.0221          |
+| 1.8965        | 0.1889 | 400  | 1.9968          |
+| 1.9534        | 0.2361 | 500  | 1.9823          |
+| 1.8621        | 0.2833 | 600  | 1.9679          |
+| 1.9777        | 0.3305 | 700  | 1.9611          |
+| 2.0865        | 0.3777 | 800  | 1.9544          |
+| 1.9662        | 0.4249 | 900  | 1.9461          |
+| 1.8352        | 0.4721 | 1000 | 1.9376          |
+| 1.8973        | 0.5194 | 1100 | 1.9329          |
+| 1.9688        | 0.5666 | 1200 | 1.9264          |
+| 1.8383        | 0.6138 | 1300 | 1.9192          |
+| 1.9032        | 0.6610 | 1400 | 1.9146          |
+| 1.9295        | 0.7082 | 1500 | 1.9109          |
+| 1.8207        | 0.7554 | 1600 | 1.9061          |
+| 1.9119        | 0.8026 | 1700 | 1.9032          |
+| 1.8392        | 0.8499 | 1800 | 1.9019          |
+| 1.961         | 0.8971 | 1900 | 1.8994          |
+| 1.8913        | 0.9443 | 2000 | 1.8945          |
+| 1.8187        | 0.9915 | 2100 | 1.8941          |
+| 1.7296        | 1.0387 | 2200 | 1.9006          |
+| 1.6184        | 1.0859 | 2300 | 1.9040          |
+| 1.6973        | 1.1331 | 2400 | 1.9056          |
+### Framework versions
+- PEFT 0.10.0
+- Transformers 4.40.0
+- Pytorch 2.2.1
+- Datasets 2.18.0
+- Tokenizers 0.19.1

llama2_13b_peft/topical_chat/adapter_config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "/data1/model/llama2/meta-llama/Llama2-13b",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.0,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "down_proj",
+    "q_proj",
+    "gate_proj",
+    "up_proj",
+    "k_proj",
+    "o_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_dora": false,
+  "use_rslora": false
+}

llama2_13b_peft/topical_chat/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3e6e2ffd0565e16b426d000f5f8d1e22505be002104c4426830c2fe30127625f
+size 125248064

llama2_13b_peft/topical_chat/all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 1.13314447592068,
+    "eval_loss": 1.8941270112991333,
+    "eval_runtime": 40.8751,
+    "eval_samples_per_second": 21.823,
+    "eval_steps_per_second": 2.74,
+    "total_flos": 9.512959383227597e+17,
+    "train_loss": 1.9100826263427735,
+    "train_runtime": 3885.2685,
+    "train_samples_per_second": 21.805,
+    "train_steps_per_second": 2.726
+}

llama2_13b_peft/topical_chat/eval_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 1.13314447592068,
+    "eval_loss": 1.8941270112991333,
+    "eval_runtime": 40.8751,
+    "eval_samples_per_second": 21.823,
+    "eval_steps_per_second": 2.74
+}

llama2_13b_peft/topical_chat/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

llama2_13b_peft/topical_chat/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

llama2_13b_peft/topical_chat/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,45 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": true,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "chat_template": "{% if messages[0]['role'] == 'system' %}{% set system_message = messages[0]['content'] %}{% endif %}{% if system_message is defined %}{{ system_message }}{% endif %}{% for message in messages %}{% set content = message['content'] %}{% if message['role'] == 'user' %}{{ content }}{% elif message['role'] == 'assistant' %}{{ content + '\\n' }}{% endif %}{% endfor %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": true,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "</s>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "split_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}