root commited on May 26, 2024

Commit

fc80e24

1 Parent(s): dca3495

First Boom!

Files changed (20) hide show

README.md +65 -3
added_tokens.json +3 -0
all_results.json +14 -0
config.json +26 -0
eval_results.json +9 -0
generation_config.json +7 -0
pytorch_model-00001-of-00002.bin +3 -0
pytorch_model-00002-of-00002.bin +3 -0
pytorch_model.bin.index.json +330 -0
sft_lora_model/adapter_config.json +26 -0
sft_lora_model/adapter_model.bin +3 -0
sft_lora_model/added_tokens.json +3 -0
sft_lora_model/special_tokens_map.json +24 -0
sft_lora_model/tokenizer.model +3 -0
sft_lora_model/tokenizer_config.json +35 -0
special_tokens_map.json +24 -0
tokenizer.model +3 -0
tokenizer_config.json +35 -0
train_results.json +8 -0
trainer_state.json +407 -0

README.md CHANGED Viewed

@@ -1,3 +1,65 @@
----
-license: apache-2.0
----

+---
+language:
+- en
+tags:
+- llama2
+- llama2-chat
+- llama2-chat-7B
+- WASSA
+- WASSA2024
+---
+# 7B WASSA2024 Track 1,2,3 baseline LLM based on LLama2-base 7B (Pure LoRA Training)
+## Introduction
+This is a baseline model for WASSA2024 Track 1,2,3. The overall template is shown in below:
+"Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n### Instruction:\n\n{yourContent}\n\n### Response:\n\n"
+For each task, there is a customized instruction template and a result template, shown in below:
+### Track 1
+Instruction template:
+"This is an Empathy Prediction task in Conversations. You are asked to predict the perceived empathy level of a specific individual at the conversation level. You need to make your prediction on the conversation history between speaker 1 and others to predict speaker 1's preceived empathy level. The empathy levels are divided into 9 levels. All annotations are in the range [0, level-1], and must be made using integers only.\n\nSpeaker1: {yourContent}"
+Result template:
+"The annotation result is as follows:\nThe Speaker1's preceived empathy level to this conversation is {preceivedEmpathyLevel}."
+### Track 2
+Instruction template:
+"This is an Empathy and Emotion Prediction task. You are asked to predict the perceived empathy, emotion polarity, emotion intensity, and self disclosure status at the speech-turn-level in a conversation. You need to make predictions based on the last statement from speaker 1 (and the previous conversation content if provided). The emotion intensity and empathy level are divided into 16 levels, while emotion polarity and self-disclosure status are divided into 10 levels. All annotations are in the range [0, level-1], and must be made using integers only.\n\nSpeaker1: {yourContent}"
+Result Template:
+"The annotation result of the final statement of the Speaker1 is as follows:\nThe emotion intensity is {emotionValue}, the empathy level is {empathyValue}, the emotion polarity is {emotionPolarity}, and the self disclosure status is {selfDisclosure}."
+If you want to input multiturn conversation, you need to add "Speaker1", "Speaker2" index manully. Here is an example:
+"This is an Empathy and Emotion Prediction task. You are asked to predict the perceived empathy, emotion polarity, emotion intensity, and self disclosure status at the speech-turn-level in a conversation. You need to make predictions based on the last statement from speaker 1 (and the previous conversation content if provided). The emotion intensity and empathy level are divided into 16 levels, while emotion polarity and self-disclosure status are divided into 10 levels. All annotations are in the range [0, level-1], and must be made using integers only.\n\nSpeaker2: what did you think about this article\nSpeaker1: It's definitely really sad to read, considering everything they're all going through. What did you think?\nSpeaker2: I think it's super sad... they seem to never catch a break, always struggling.\nSpeaker1: I can't imagine just living in an area that is constantly being ravaged by hurricanes or earthquakes. I take my location for granted.\nSpeaker2: Me too.. I also can't imagine living in the poverty and such.. It's crazy to think that people still live like that sometimes.  The gap between first world countires and places like that is crazy to em\nSpeaker1: It also seems unnecessary for there to even be such a gap. With all of the wealthy countries out there, I hope Haiti gets the help it deserves, because we, and other countries, can certainly afford it.\nSpeaker2: Agreed... with how frivilous and unnessary our spending is, it's so sad that countries like that don't get more support or guidance.\nSpeaker1: It's disheartening, isn't it? Places have the ability, money, time, and knowledge, and still refuse to help.\nSpeaker2: It is so sad... Or even the millionaires/billionaires out there. I know some of them donate, but at some point, you can only spend so much money. Why not put it to use.\nSpeaker1: Yep, exactly. It's just very frustrating overall. I think it's hard for others because they don't understand until their houses are being swept away for torrential floods.\nSpeaker2: It is hard to fathom/process, it's hard for me to really imagine\nSpeaker1: Give it twenty more years, for the more compassionate people to come into leadership. I think we'll see a big difference."
+### Trak 3
+Instruction template:
+"This is an Empathy Prediction task. You are asked to predict both the empathy concern and personal distress at the essay level. You need to make predictions based on all of the speaker's utterances, also known as the person's essay. The empathy level and distress level are divided into 43 levels. All annotations are in the range [0, level-1], and must be made using integers only.\n\nPerson's Essay: {yourContent}"
+Result template:
+"The annotation result is as follows:\nThe empathy level is {empathLevel}, and the distress level is {distressLevel}."
+## Train Detail
+1. Trianing Framework: This model is trained on modified [ChinChunMei-LLM](https://github.com/RicardoLeeV587/ChinChunMei-LLM) Framework.
+2. Tokenizer: This model uses Llama2 tokenizer with a extra [PAD] added into the vocal. The vocab number is 32001
+3. Training Parameters: **The hyperparams are: LoRA rank: 8, LoRA Alpha:32, LoRA Dropout: 0.05, LoRA Trainable Params: "q_proj,v_proj,k_proj,o_proj,gate_proj,down_proj,up_proj" LR: 1e-5, Warmup ratio: 0.001.**
+4. Training Resource: 4\*V100, 4 hours.
+5. Loss info: see the all_result.json
+## Licence
+This repository's models are open-sourced under the Apache-2.0 license, and their weight usage must adhere to LLama2 [MODEL LICENCE](LICENSE) license.

added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[PAD]": 32000
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+    "epoch": 3.0,
+    "eval_loss": 0.04649091511964798,
+    "eval_runtime": 85.6214,
+    "eval_samples": 974,
+    "eval_samples_per_second": 11.376,
+    "eval_steps_per_second": 1.425,
+    "perplexity": 1.04758856180856,
+    "train_loss": 0.18567189055712655,
+    "train_runtime": 15471.5941,
+    "train_samples": 24306,
+    "train_samples_per_second": 4.707,
+    "train_steps_per_second": 0.037
+}

config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "_name_or_path": "RicardoLee/Llama2-chat-7B-WASSA2024_VER1",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 11008,
+  "max_position_embeddings": 2048,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 32,
+  "pad_token_id": 0,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float16",
+  "transformers_version": "4.31.0",
+  "use_cache": true,
+  "vocab_size": 32001
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.0,
+    "eval_loss": 0.04649091511964798,
+    "eval_runtime": 85.6214,
+    "eval_samples": 974,
+    "eval_samples_per_second": 11.376,
+    "eval_steps_per_second": 1.425,
+    "perplexity": 1.04758856180856
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "pad_token_id": 0,
+  "transformers_version": "4.31.0"
+}

pytorch_model-00001-of-00002.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ad6f39911593a814653c1f2c87920696037d7faa262ddcc713b21bf6700e9a01
+size 9976642750

pytorch_model-00002-of-00002.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c2b0bb8f667083d776a5d3f95380391ab71f00bc54f67bf94ea47907aec03f69
+size 3500323731

pytorch_model.bin.index.json ADDED Viewed

	@@ -0,0 +1,330 @@

+{
+  "metadata": {
+    "total_size": 13476855808
+  },
+  "weight_map": {
+    "lm_head.weight": "pytorch_model-00002-of-00002.bin",
+    "model.embed_tokens.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.21.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.21.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.21.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.21.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.21.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.21.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.21.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.21.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.21.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.21.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.22.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.22.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.22.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.22.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.22.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.22.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.22.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.22.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.22.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.22.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.23.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.23.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.23.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.23.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.23.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.23.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.23.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.23.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.23.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.23.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.24.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.mlp.down_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.mlp.gate_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.mlp.up_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.self_attn.o_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.mlp.down_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.mlp.gate_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.mlp.up_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.self_attn.o_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.mlp.down_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.mlp.gate_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.mlp.up_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.self_attn.o_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.mlp.down_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.mlp.gate_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.mlp.up_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.self_attn.o_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.28.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.28.mlp.down_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.28.mlp.gate_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.28.mlp.up_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.28.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.28.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.28.self_attn.o_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.28.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.28.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00002.bin",
+    "model.layers.28.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.29.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.29.mlp.down_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.29.mlp.gate_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.29.mlp.up_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.29.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.29.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.29.self_attn.o_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.29.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.29.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00002.bin",
+    "model.layers.29.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.3.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.3.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.3.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.3.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.3.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.3.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.3.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.3.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.3.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.3.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.30.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.30.mlp.down_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.30.mlp.gate_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.30.mlp.up_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.30.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.30.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.30.self_attn.o_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.30.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.30.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00002.bin",
+    "model.layers.30.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.31.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.31.mlp.down_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.31.mlp.gate_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.31.mlp.up_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.31.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.31.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.31.self_attn.o_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.31.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.31.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00002.bin",
+    "model.layers.31.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.4.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.4.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.4.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.4.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.4.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.4.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.4.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.4.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.4.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.4.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.norm.weight": "pytorch_model-00002-of-00002.bin"
+  }
+}

sft_lora_model/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "base_model_name_or_path": "/data3/litian/Redemption/LLama-2/chat/7B_HF",
+  "bias": "none",
+  "enable_lora": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "lora_alpha": 32.0,
+  "lora_dropout": 0.05,
+  "merge_weights": false,
+  "modules_to_save": [
+    "embed_tokens",
+    "lm_head"
+  ],
+  "peft_type": "LORA",
+  "r": 8,
+  "target_modules": [
+    "q_proj",
+    "v_proj",
+    "k_proj",
+    "o_proj",
+    "gate_proj",
+    "down_proj",
+    "up_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

sft_lora_model/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a2643229e99755c2bc079b4c298dbb3e9db7618fd9e26cec6bf8a8a086fda978
+size 564352189

sft_lora_model/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[PAD]": 32000
+}

sft_lora_model/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "[PAD]",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

sft_lora_model/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

sft_lora_model/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "clean_up_tokenization_spaces": false,
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "legacy": true,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": null,
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "use_fast": true
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "[PAD]",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "clean_up_tokenization_spaces": false,
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "legacy": true,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": null,
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "use_fast": true
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 3.0,
+    "train_loss": 0.18567189055712655,
+    "train_runtime": 15471.5941,
+    "train_samples": 24306,
+    "train_samples_per_second": 4.707,
+    "train_steps_per_second": 0.037
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,407 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.995722277064824,
+  "global_step": 569,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0,
+      "loss": 1.6786,
+      "step": 1
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 9.998088142969587e-06,
+      "loss": 1.64,
+      "step": 10
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 9.985017573980262e-06,
+      "loss": 1.06,
+      "step": 20
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 9.956012654497073e-06,
+      "loss": 0.486,
+      "step": 30
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 9.911850333228427e-06,
+      "loss": 0.2374,
+      "step": 40
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 9.865696363132769e-06,
+      "loss": 0.1837,
+      "step": 50
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 9.7946219754852e-06,
+      "loss": 0.1587,
+      "step": 60
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 9.708883781112711e-06,
+      "loss": 0.1517,
+      "step": 70
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 9.629910009876223e-06,
+      "loss": 0.1553,
+      "step": 80
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 9.51846738818602e-06,
+      "loss": 0.1469,
+      "step": 90
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 9.39320554720971e-06,
+      "loss": 0.145,
+      "step": 100
+    },
+    {
+      "epoch": 0.53,
+      "eval_loss": 0.05455470830202103,
+      "eval_runtime": 85.5684,
+      "eval_samples_per_second": 11.383,
+      "eval_steps_per_second": 1.426,
+      "step": 100
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 9.297503309182422e-06,
+      "loss": 0.1549,
+      "step": 110
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 9.149650063920841e-06,
+      "loss": 0.1435,
+      "step": 120
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 8.989105585268073e-06,
+      "loss": 0.1414,
+      "step": 130
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 8.816360880276967e-06,
+      "loss": 0.1421,
+      "step": 140
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 8.631944269006895e-06,
+      "loss": 0.1391,
+      "step": 150
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 8.436419768716853e-06,
+      "loss": 0.1386,
+      "step": 160
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 8.230385368882732e-06,
+      "loss": 0.1382,
+      "step": 170
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 8.014471202314443e-06,
+      "loss": 0.1382,
+      "step": 180
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 7.789337617966275e-06,
+      "loss": 0.1357,
+      "step": 190
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 7.5794033237905e-06,
+      "loss": 0.1408,
+      "step": 200
+    },
+    {
+      "epoch": 1.05,
+      "eval_loss": 0.048922911286354065,
+      "eval_runtime": 85.5902,
+      "eval_samples_per_second": 11.38,
+      "eval_steps_per_second": 1.425,
+      "step": 200
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 7.338671397287409e-06,
+      "loss": 0.1341,
+      "step": 210
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 7.1158757783214904e-06,
+      "loss": 0.1391,
+      "step": 220
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 6.862201608610134e-06,
+      "loss": 0.1343,
+      "step": 230
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 6.602832106793113e-06,
+      "loss": 0.1316,
+      "step": 240
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 6.338560525031794e-06,
+      "loss": 0.1316,
+      "step": 250
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 6.0701951079422615e-06,
+      "loss": 0.1313,
+      "step": 260
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 5.825844147403353e-06,
+      "loss": 0.1347,
+      "step": 270
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 5.579447229838992e-06,
+      "loss": 0.1337,
+      "step": 280
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 5.3040158758857886e-06,
+      "loss": 0.1315,
+      "step": 290
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 5.027654723907197e-06,
+      "loss": 0.1309,
+      "step": 300
+    },
+    {
+      "epoch": 1.58,
+      "eval_loss": 0.04729650914669037,
+      "eval_runtime": 85.6206,
+      "eval_samples_per_second": 11.376,
+      "eval_steps_per_second": 1.425,
+      "step": 300
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 4.751208993096637e-06,
+      "loss": 0.1307,
+      "step": 310
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 4.475524161322288e-06,
+      "loss": 0.1305,
+      "step": 320
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 4.2014433793290435e-06,
+      "loss": 0.1298,
+      "step": 330
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 3.92980489205774e-06,
+      "loss": 0.1308,
+      "step": 340
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 3.6614394749682057e-06,
+      "loss": 0.13,
+      "step": 350
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 3.3971678932068875e-06,
+      "loss": 0.1296,
+      "step": 360
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 3.1377983913898673e-06,
+      "loss": 0.1289,
+      "step": 370
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 2.8841242216785116e-06,
+      "loss": 0.129,
+      "step": 380
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 2.6369212177078306e-06,
+      "loss": 0.1291,
+      "step": 390
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 2.3969454217874325e-06,
+      "loss": 0.1277,
+      "step": 400
+    },
+    {
+      "epoch": 2.11,
+      "eval_loss": 0.046792980283498764,
+      "eval_runtime": 85.593,
+      "eval_samples_per_second": 11.379,
+      "eval_steps_per_second": 1.425,
+      "step": 400
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 2.164930772631996e-06,
+      "loss": 0.1276,
+      "step": 410
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 1.94158686069306e-06,
+      "loss": 0.1275,
+      "step": 420
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 1.7275967579572427e-06,
+      "loss": 0.1296,
+      "step": 430
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 1.5236149288481428e-06,
+      "loss": 0.1275,
+      "step": 440
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 1.3302652286212397e-06,
+      "loss": 0.1287,
+      "step": 450
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 1.148138995373459e-06,
+      "loss": 0.1267,
+      "step": 460
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 9.777932415027608e-07,
+      "loss": 0.1282,
+      "step": 470
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 8.197489501489924e-07,
+      "loss": 0.1249,
+      "step": 480
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 6.744894818261311e-07,
+      "loss": 0.127,
+      "step": 490
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 5.424590961190474e-07,
+      "loss": 0.1253,
+      "step": 500
+    },
+    {
+      "epoch": 2.63,
+      "eval_loss": 0.046507786959409714,
+      "eval_runtime": 85.5909,
+      "eval_samples_per_second": 11.38,
+      "eval_steps_per_second": 1.425,
+      "step": 500
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 4.240615929660341e-07,
+      "loss": 0.1279,
+      "step": 510
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 3.1965907768255035e-07,
+      "loss": 0.128,
+      "step": 520
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 2.2957085350325092e-07,
+      "loss": 0.1288,
+      "step": 530
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 1.540724450293035e-07,
+      "loss": 0.1264,
+      "step": 540
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 9.339475556770006e-08,
+      "loss": 0.1274,
+      "step": 550
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 4.77233609397082e-08,
+      "loss": 0.1277,
+      "step": 560
+    },
+    {
+      "epoch": 3.0,
+      "step": 569,
+      "total_flos": 1.6024405879092675e+18,
+      "train_loss": 0.18567189055712655,
+      "train_runtime": 15471.5941,
+      "train_samples_per_second": 4.707,
+      "train_steps_per_second": 0.037
+    }
+  ],
+  "max_steps": 569,
+  "num_train_epochs": 4,
+  "total_flos": 1.6024405879092675e+18,
+  "trial_name": null,
+  "trial_params": null
+}