Abraham Sanders commited on May 8, 2023

Commit

2f95de8

•

1 Parent(s): 8ccd5d5

initial model version

Browse files

Files changed (18) hide show

README.md +68 -0
all_results.json +15 -0
config.json +31 -0
eval_results.json +10 -0
generation_config.json +7 -0
merges.txt +0 -0
pytorch_model-00001-of-00002.bin +3 -0
pytorch_model-00002-of-00002.bin +3 -0
pytorch_model.bin.index.json +524 -0
runs/Mar26_04-01-41_panacea/1679817763.2045138/events.out.tfevents.1679817763.panacea.358302.1 +3 -0
runs/Mar26_04-01-41_panacea/events.out.tfevents.1679817763.panacea.358302.0 +3 -0
runs/Mar26_04-01-41_panacea/events.out.tfevents.1679871090.panacea.358302.2 +3 -0
special_tokens_map.json +30 -0
tokenizer_config.json +40 -0
train_results.json +8 -0
trainer_state.json +868 -0
training_args.bin +3 -0
vocab.json +0 -0

README.md ADDED Viewed

	@@ -0,0 +1,68 @@

+---
+license: other
+tags:
+- generated_from_trainer
+metrics:
+- accuracy
+model-index:
+- name: rtchat-2.7b-no-anchor
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# rtchat-2.7b-no-anchor
+This model is a fine-tuned version of [facebook/opt-2.7b](https://huggingface.co/facebook/opt-2.7b) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 2.0337
+- Accuracy: 0.7355
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 1
+- eval_batch_size: 1
+- seed: 42
+- gradient_accumulation_steps: 32
+- total_train_batch_size: 32
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 4.0
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Accuracy |
+|:-------------:|:-----:|:----:|:---------------:|:--------:|
+| 2.1457        | 0.5   | 163  | 2.1289          | 0.7255   |
+| 2.077         | 1.0   | 326  | 2.0780          | 0.7301   |
+| 1.8545        | 1.5   | 489  | 2.0484          | 0.7333   |
+| 1.852         | 2.0   | 652  | 2.0337          | 0.7355   |
+| 1.5892        | 2.51  | 815  | 2.0437          | 0.7366   |
+| 1.549         | 3.01  | 978  | 2.0590          | 0.7367   |
+| 1.3551        | 3.51  | 1141 | 2.0624          | 0.7373   |
+### Framework versions
+- Transformers 4.27.2
+- Pytorch 1.13.1+cu117
+- Datasets 2.7.1
+- Tokenizers 0.12.1

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 4.0,
+    "eval_accuracy": 0.7355063417557176,
+    "eval_loss": 2.033745288848877,
+    "eval_runtime": 355.7749,
+    "eval_samples": 1178,
+    "eval_samples_per_second": 3.311,
+    "eval_steps_per_second": 3.311,
+    "perplexity": 7.6426567803576875,
+    "train_loss": 1.7419609642028808,
+    "train_runtime": 52862.2699,
+    "train_samples": 10407,
+    "train_samples_per_second": 0.787,
+    "train_steps_per_second": 0.025
+}

config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "_name_or_path": "facebook/opt-2.7b",
+  "_remove_final_layer_norm": false,
+  "activation_dropout": 0.0,
+  "activation_function": "relu",
+  "architectures": [
+    "OPTForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 2,
+  "do_layer_norm_before": true,
+  "dropout": 0.1,
+  "enable_bias": true,
+  "eos_token_id": 2,
+  "ffn_dim": 10240,
+  "hidden_size": 2560,
+  "init_std": 0.02,
+  "layer_norm_elementwise_affine": true,
+  "layerdrop": 0.0,
+  "max_position_embeddings": 2048,
+  "model_type": "opt",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "pad_token_id": 1,
+  "prefix": "</s>",
+  "torch_dtype": "float32",
+  "transformers_version": "4.27.2",
+  "use_cache": true,
+  "vocab_size": 50265,
+  "word_embed_proj_dim": 2560
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 4.0,
+    "eval_accuracy": 0.7355063417557176,
+    "eval_loss": 2.033745288848877,
+    "eval_runtime": 355.7749,
+    "eval_samples": 1178,
+    "eval_samples_per_second": 3.311,
+    "eval_steps_per_second": 3.311,
+    "perplexity": 7.6426567803576875
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 2,
+  "eos_token_id": 2,
+  "pad_token_id": 1,
+  "transformers_version": "4.27.2"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

pytorch_model-00001-of-00002.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:158d05894a42474f304f89cfa57df7893c9b91a103bfbc7dbf142da9d41d6959
+size 9977078723

pytorch_model-00002-of-00002.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b6d50bb9b69f7eae4bae41a94273925ab8cafb75e501b4b4877851699fb027be
+size 1144136929

pytorch_model.bin.index.json ADDED Viewed

	@@ -0,0 +1,524 @@

+{
+  "metadata": {
+    "total_size": 11121029120
+  },
+  "weight_map": {
+    "lm_head.weight": "pytorch_model-00002-of-00002.bin",
+    "model.decoder.embed_positions.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.embed_tokens.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.0.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.0.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.0.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.0.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.0.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.0.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.0.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.0.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.0.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.0.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.0.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.0.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.0.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.0.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.0.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.0.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.1.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.1.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.1.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.1.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.1.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.1.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.1.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.1.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.1.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.1.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.1.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.1.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.1.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.1.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.1.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.1.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.10.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.10.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.10.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.10.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.10.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.10.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.10.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.10.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.10.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.10.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.10.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.10.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.10.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.10.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.10.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.10.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.11.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.11.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.11.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.11.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.11.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.11.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.11.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.11.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.11.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.11.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.11.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.11.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.11.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.11.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.11.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.11.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.12.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.12.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.12.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.12.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.12.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.12.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.12.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.12.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.12.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.12.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.12.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.12.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.12.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.12.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.12.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.12.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.13.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.13.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.13.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.13.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.13.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.13.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.13.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.13.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.13.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.13.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.13.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.13.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.13.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.13.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.13.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.13.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.14.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.14.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.14.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.14.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.14.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.14.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.14.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.14.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.14.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.14.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.14.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.14.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.14.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.14.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.14.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.14.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.15.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.15.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.15.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.15.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.15.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.15.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.15.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.15.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.15.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.15.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.15.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.15.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.15.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.15.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.15.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.15.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.16.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.16.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.16.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.16.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.16.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.16.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.16.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.16.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.16.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.16.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.16.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.16.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.16.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.16.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.16.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.16.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.17.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.17.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.17.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.17.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.17.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.17.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.17.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.17.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.17.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.17.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.17.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.17.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.17.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.17.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.17.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.17.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.18.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.18.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.18.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.18.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.18.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.18.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.18.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.18.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.18.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.18.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.18.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.18.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.18.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.18.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.18.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.18.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.19.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.19.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.19.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.19.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.19.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.19.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.19.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.19.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.19.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.19.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.19.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.19.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.19.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.19.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.19.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.19.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.2.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.2.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.2.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.2.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.2.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.2.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.2.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.2.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.2.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.2.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.2.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.2.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.2.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.2.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.2.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.2.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.20.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.20.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.20.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.20.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.20.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.20.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.20.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.20.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.20.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.20.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.20.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.20.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.20.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.20.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.20.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.20.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.3.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.3.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.3.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.3.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.3.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.3.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.3.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.3.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.3.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.3.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.3.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.3.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.3.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.3.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.3.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.3.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.30.fc1.bias": "pytorch_model-00002-of-00002.bin",
+    "model.decoder.layers.30.fc1.weight": "pytorch_model-00002-of-00002.bin",
+    "model.decoder.layers.30.fc2.bias": "pytorch_model-00002-of-00002.bin",
+    "model.decoder.layers.30.fc2.weight": "pytorch_model-00002-of-00002.bin",
+    "model.decoder.layers.30.final_layer_norm.bias": "pytorch_model-00002-of-00002.bin",
+    "model.decoder.layers.30.final_layer_norm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.decoder.layers.30.self_attn.k_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "model.decoder.layers.30.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.decoder.layers.30.self_attn.out_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "model.decoder.layers.30.self_attn.out_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.decoder.layers.30.self_attn.q_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "model.decoder.layers.30.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.decoder.layers.30.self_attn.v_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "model.decoder.layers.30.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.decoder.layers.30.self_attn_layer_norm.bias": "pytorch_model-00002-of-00002.bin",
+    "model.decoder.layers.30.self_attn_layer_norm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.decoder.layers.31.fc1.bias": "pytorch_model-00002-of-00002.bin",
+    "model.decoder.layers.31.fc1.weight": "pytorch_model-00002-of-00002.bin",
+    "model.decoder.layers.31.fc2.bias": "pytorch_model-00002-of-00002.bin",
+    "model.decoder.layers.31.fc2.weight": "pytorch_model-00002-of-00002.bin",
+    "model.decoder.layers.31.final_layer_norm.bias": "pytorch_model-00002-of-00002.bin",
+    "model.decoder.layers.31.final_layer_norm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.decoder.layers.31.self_attn.k_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "model.decoder.layers.31.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.decoder.layers.31.self_attn.out_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "model.decoder.layers.31.self_attn.out_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.decoder.layers.31.self_attn.q_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "model.decoder.layers.31.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.decoder.layers.31.self_attn.v_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "model.decoder.layers.31.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.decoder.layers.31.self_attn_layer_norm.bias": "pytorch_model-00002-of-00002.bin",
+    "model.decoder.layers.31.self_attn_layer_norm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.decoder.layers.4.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.4.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.4.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.4.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.4.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.4.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.4.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.4.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.4.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.4.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.4.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.4.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.4.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.4.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.4.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.4.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.5.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.5.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.5.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.5.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.5.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.5.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.5.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.5.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.5.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.5.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.5.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.5.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.5.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.5.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.5.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.5.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.6.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.6.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.6.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.6.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.6.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.6.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.6.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.6.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.6.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.6.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.6.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.6.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.6.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.6.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.6.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.6.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.7.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.7.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.7.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.7.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.7.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.7.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.7.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.7.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.7.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.7.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.7.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.7.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.7.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.7.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.7.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.7.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.8.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.8.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.8.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.8.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.8.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.8.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.8.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.8.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.8.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.8.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.8.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.8.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.8.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.8.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.8.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.8.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.9.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.9.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.9.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.9.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.9.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.9.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.9.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.9.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.9.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.9.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.9.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.9.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.9.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.9.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.9.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.9.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin"
+  }
+}

runs/Mar26_04-01-41_panacea/1679817763.2045138/events.out.tfevents.1679817763.panacea.358302.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f21c361bf973c104dcd1ca1e92c6ad1e7c1d6f9302342da0611f163dfd86cc57
+size 5793

runs/Mar26_04-01-41_panacea/events.out.tfevents.1679817763.panacea.358302.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:739947ffe2812a4602ecc005867e78512fb2667b55613308d47adc3b60b5246e
+size 27016

runs/Mar26_04-01-41_panacea/events.out.tfevents.1679871090.panacea.358302.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:abb82ba7863914d6c96a00d5375704549095fd0d11be2b1c99e4cb10041b7225
+size 363

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "add_bos_token": true,
+  "add_prefix_space": false,
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "errors": "replace",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": {
+    "__type": "AddedToken",
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "special_tokens_map_file": null,
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 4.0,
+    "train_loss": 1.7419609642028808,
+    "train_runtime": 52862.2699,
+    "train_samples": 10407,
+    "train_samples_per_second": 0.787,
+    "train_steps_per_second": 0.025
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,868 @@

+{
+  "best_metric": 2.033745288848877,
+  "best_model_checkpoint": "rtchat-2.7b-no-anchor/checkpoint-652",
+  "epoch": 3.9973095032189874,
+  "global_step": 1300,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03,
+      "learning_rate": 3.846153846153847e-06,
+      "loss": 2.5777,
+      "step": 10
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 7.692307692307694e-06,
+      "loss": 2.3741,
+      "step": 20
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 1.153846153846154e-05,
+      "loss": 2.2854,
+      "step": 30
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 1.5384615384615387e-05,
+      "loss": 2.2656,
+      "step": 40
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 1.923076923076923e-05,
+      "loss": 2.2325,
+      "step": 50
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 2.307692307692308e-05,
+      "loss": 2.1996,
+      "step": 60
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 2.6923076923076923e-05,
+      "loss": 2.1988,
+      "step": 70
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 3.0769230769230774e-05,
+      "loss": 2.1614,
+      "step": 80
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 3.461538461538462e-05,
+      "loss": 2.1778,
+      "step": 90
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 3.846153846153846e-05,
+      "loss": 2.1483,
+      "step": 100
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 4.230769230769231e-05,
+      "loss": 2.1579,
+      "step": 110
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 4.615384615384616e-05,
+      "loss": 2.1716,
+      "step": 120
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 5e-05,
+      "loss": 2.1204,
+      "step": 130
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 4.9572649572649575e-05,
+      "loss": 2.1383,
+      "step": 140
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 4.9145299145299147e-05,
+      "loss": 2.1599,
+      "step": 150
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 4.871794871794872e-05,
+      "loss": 2.1457,
+      "step": 160
+    },
+    {
+      "epoch": 0.5,
+      "eval_accuracy": 0.7255127544718182,
+      "eval_loss": 2.128948450088501,
+      "eval_runtime": 356.4721,
+      "eval_samples_per_second": 3.305,
+      "eval_steps_per_second": 3.305,
+      "step": 163
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 4.829059829059829e-05,
+      "loss": 2.1584,
+      "step": 170
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 4.786324786324787e-05,
+      "loss": 2.156,
+      "step": 180
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 4.7435897435897435e-05,
+      "loss": 2.1439,
+      "step": 190
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 4.700854700854701e-05,
+      "loss": 2.1457,
+      "step": 200
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 4.6581196581196586e-05,
+      "loss": 2.1178,
+      "step": 210
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 4.615384615384616e-05,
+      "loss": 2.1221,
+      "step": 220
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 4.572649572649573e-05,
+      "loss": 2.1152,
+      "step": 230
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 4.52991452991453e-05,
+      "loss": 2.0846,
+      "step": 240
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 4.4871794871794874e-05,
+      "loss": 2.1165,
+      "step": 250
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 4.4444444444444447e-05,
+      "loss": 2.0798,
+      "step": 260
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 4.401709401709402e-05,
+      "loss": 2.1048,
+      "step": 270
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 4.358974358974359e-05,
+      "loss": 2.0861,
+      "step": 280
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 4.316239316239317e-05,
+      "loss": 2.1209,
+      "step": 290
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 4.2735042735042735e-05,
+      "loss": 2.1218,
+      "step": 300
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 4.230769230769231e-05,
+      "loss": 2.0771,
+      "step": 310
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 4.1880341880341886e-05,
+      "loss": 2.077,
+      "step": 320
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7300988977487162,
+      "eval_loss": 2.078002452850342,
+      "eval_runtime": 356.6324,
+      "eval_samples_per_second": 3.303,
+      "eval_steps_per_second": 3.303,
+      "step": 326
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 4.145299145299146e-05,
+      "loss": 1.9599,
+      "step": 330
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 4.1025641025641023e-05,
+      "loss": 1.8939,
+      "step": 340
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 4.05982905982906e-05,
+      "loss": 1.8455,
+      "step": 350
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 4.0170940170940174e-05,
+      "loss": 1.8533,
+      "step": 360
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 3.974358974358974e-05,
+      "loss": 1.8971,
+      "step": 370
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 3.931623931623932e-05,
+      "loss": 1.8823,
+      "step": 380
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 3.888888888888889e-05,
+      "loss": 1.8622,
+      "step": 390
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 3.846153846153846e-05,
+      "loss": 1.8613,
+      "step": 400
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 3.8034188034188035e-05,
+      "loss": 1.8606,
+      "step": 410
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 3.760683760683761e-05,
+      "loss": 1.8624,
+      "step": 420
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 3.717948717948718e-05,
+      "loss": 1.8538,
+      "step": 430
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 3.675213675213676e-05,
+      "loss": 1.8756,
+      "step": 440
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 3.6324786324786323e-05,
+      "loss": 1.8423,
+      "step": 450
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 3.58974358974359e-05,
+      "loss": 1.8616,
+      "step": 460
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 3.5470085470085474e-05,
+      "loss": 1.8915,
+      "step": 470
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 3.504273504273504e-05,
+      "loss": 1.8545,
+      "step": 480
+    },
+    {
+      "epoch": 1.5,
+      "eval_accuracy": 0.733327595178899,
+      "eval_loss": 2.048430919647217,
+      "eval_runtime": 356.6932,
+      "eval_samples_per_second": 3.303,
+      "eval_steps_per_second": 3.303,
+      "step": 489
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 3.461538461538462e-05,
+      "loss": 1.8426,
+      "step": 490
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 3.418803418803419e-05,
+      "loss": 1.8433,
+      "step": 500
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 3.376068376068376e-05,
+      "loss": 1.8482,
+      "step": 510
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 1.8368,
+      "step": 520
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 3.290598290598291e-05,
+      "loss": 1.861,
+      "step": 530
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 3.247863247863248e-05,
+      "loss": 1.8525,
+      "step": 540
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 3.205128205128206e-05,
+      "loss": 1.8455,
+      "step": 550
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 3.162393162393162e-05,
+      "loss": 1.8529,
+      "step": 560
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 3.1196581196581195e-05,
+      "loss": 1.8744,
+      "step": 570
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 3.0769230769230774e-05,
+      "loss": 1.8321,
+      "step": 580
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 3.034188034188034e-05,
+      "loss": 1.8503,
+      "step": 590
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 2.9914529914529915e-05,
+      "loss": 1.8699,
+      "step": 600
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 2.948717948717949e-05,
+      "loss": 1.8421,
+      "step": 610
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 2.9059829059829063e-05,
+      "loss": 1.812,
+      "step": 620
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 2.863247863247863e-05,
+      "loss": 1.823,
+      "step": 630
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 2.8205128205128207e-05,
+      "loss": 1.8191,
+      "step": 640
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 1.852,
+      "step": 650
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7355063417557176,
+      "eval_loss": 2.033745288848877,
+      "eval_runtime": 356.5312,
+      "eval_samples_per_second": 3.304,
+      "eval_steps_per_second": 3.304,
+      "step": 652
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 2.7350427350427355e-05,
+      "loss": 1.5592,
+      "step": 660
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 2.6923076923076923e-05,
+      "loss": 1.5729,
+      "step": 670
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 2.64957264957265e-05,
+      "loss": 1.5714,
+      "step": 680
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 2.606837606837607e-05,
+      "loss": 1.5907,
+      "step": 690
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 2.564102564102564e-05,
+      "loss": 1.5564,
+      "step": 700
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 2.5213675213675215e-05,
+      "loss": 1.5733,
+      "step": 710
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 2.4786324786324787e-05,
+      "loss": 1.5873,
+      "step": 720
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 2.435897435897436e-05,
+      "loss": 1.5907,
+      "step": 730
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 2.3931623931623935e-05,
+      "loss": 1.5778,
+      "step": 740
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 2.3504273504273504e-05,
+      "loss": 1.6039,
+      "step": 750
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 2.307692307692308e-05,
+      "loss": 1.5579,
+      "step": 760
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 2.264957264957265e-05,
+      "loss": 1.5854,
+      "step": 770
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 2.2222222222222223e-05,
+      "loss": 1.5834,
+      "step": 780
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 2.1794871794871795e-05,
+      "loss": 1.5733,
+      "step": 790
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 2.1367521367521368e-05,
+      "loss": 1.5799,
+      "step": 800
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 2.0940170940170943e-05,
+      "loss": 1.5892,
+      "step": 810
+    },
+    {
+      "epoch": 2.51,
+      "eval_accuracy": 0.736644336047349,
+      "eval_loss": 2.043654441833496,
+      "eval_runtime": 357.9372,
+      "eval_samples_per_second": 3.291,
+      "eval_steps_per_second": 3.291,
+      "step": 815
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 2.0512820512820512e-05,
+      "loss": 1.5754,
+      "step": 820
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 2.0085470085470087e-05,
+      "loss": 1.5797,
+      "step": 830
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 1.965811965811966e-05,
+      "loss": 1.59,
+      "step": 840
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 1.923076923076923e-05,
+      "loss": 1.5638,
+      "step": 850
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 1.8803418803418804e-05,
+      "loss": 1.5584,
+      "step": 860
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 1.837606837606838e-05,
+      "loss": 1.6119,
+      "step": 870
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 1.794871794871795e-05,
+      "loss": 1.5748,
+      "step": 880
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 1.752136752136752e-05,
+      "loss": 1.5728,
+      "step": 890
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 1.7094017094017095e-05,
+      "loss": 1.597,
+      "step": 900
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 1.53,
+      "step": 910
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 1.623931623931624e-05,
+      "loss": 1.5694,
+      "step": 920
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 1.581196581196581e-05,
+      "loss": 1.5615,
+      "step": 930
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 1.5384615384615387e-05,
+      "loss": 1.5645,
+      "step": 940
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 1.4957264957264958e-05,
+      "loss": 1.5877,
+      "step": 950
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 1.4529914529914531e-05,
+      "loss": 1.5585,
+      "step": 960
+    },
+    {
+      "epoch": 2.98,
+      "learning_rate": 1.4102564102564104e-05,
+      "loss": 1.549,
+      "step": 970
+    },
+    {
+      "epoch": 3.01,
+      "eval_accuracy": 0.7367106971463413,
+      "eval_loss": 2.059032678604126,
+      "eval_runtime": 357.6465,
+      "eval_samples_per_second": 3.294,
+      "eval_steps_per_second": 3.294,
+      "step": 978
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 1.3675213675213677e-05,
+      "loss": 1.4812,
+      "step": 980
+    },
+    {
+      "epoch": 3.04,
+      "learning_rate": 1.324786324786325e-05,
+      "loss": 1.395,
+      "step": 990
+    },
+    {
+      "epoch": 3.07,
+      "learning_rate": 1.282051282051282e-05,
+      "loss": 1.3595,
+      "step": 1000
+    },
+    {
+      "epoch": 3.11,
+      "learning_rate": 1.2393162393162394e-05,
+      "loss": 1.3567,
+      "step": 1010
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 1.1965811965811967e-05,
+      "loss": 1.3633,
+      "step": 1020
+    },
+    {
+      "epoch": 3.17,
+      "learning_rate": 1.153846153846154e-05,
+      "loss": 1.4042,
+      "step": 1030
+    },
+    {
+      "epoch": 3.2,
+      "learning_rate": 1.1111111111111112e-05,
+      "loss": 1.3838,
+      "step": 1040
+    },
+    {
+      "epoch": 3.23,
+      "learning_rate": 1.0683760683760684e-05,
+      "loss": 1.3808,
+      "step": 1050
+    },
+    {
+      "epoch": 3.26,
+      "learning_rate": 1.0256410256410256e-05,
+      "loss": 1.3894,
+      "step": 1060
+    },
+    {
+      "epoch": 3.29,
+      "learning_rate": 9.82905982905983e-06,
+      "loss": 1.3941,
+      "step": 1070
+    },
+    {
+      "epoch": 3.32,
+      "learning_rate": 9.401709401709402e-06,
+      "loss": 1.3586,
+      "step": 1080
+    },
+    {
+      "epoch": 3.35,
+      "learning_rate": 8.974358974358976e-06,
+      "loss": 1.3731,
+      "step": 1090
+    },
+    {
+      "epoch": 3.38,
+      "learning_rate": 8.547008547008548e-06,
+      "loss": 1.3742,
+      "step": 1100
+    },
+    {
+      "epoch": 3.41,
+      "learning_rate": 8.11965811965812e-06,
+      "loss": 1.3785,
+      "step": 1110
+    },
+    {
+      "epoch": 3.44,
+      "learning_rate": 7.692307692307694e-06,
+      "loss": 1.3669,
+      "step": 1120
+    },
+    {
+      "epoch": 3.47,
+      "learning_rate": 7.264957264957266e-06,
+      "loss": 1.3435,
+      "step": 1130
+    },
+    {
+      "epoch": 3.51,
+      "learning_rate": 6.837606837606839e-06,
+      "loss": 1.3551,
+      "step": 1140
+    },
+    {
+      "epoch": 3.51,
+      "eval_accuracy": 0.7373401420258927,
+      "eval_loss": 2.0624454021453857,
+      "eval_runtime": 356.4154,
+      "eval_samples_per_second": 3.305,
+      "eval_steps_per_second": 3.305,
+      "step": 1141
+    },
+    {
+      "epoch": 3.54,
+      "learning_rate": 6.41025641025641e-06,
+      "loss": 1.3672,
+      "step": 1150
+    },
+    {
+      "epoch": 3.57,
+      "learning_rate": 5.982905982905984e-06,
+      "loss": 1.3426,
+      "step": 1160
+    },
+    {
+      "epoch": 3.6,
+      "learning_rate": 5.555555555555556e-06,
+      "loss": 1.3789,
+      "step": 1170
+    },
+    {
+      "epoch": 3.63,
+      "learning_rate": 5.128205128205128e-06,
+      "loss": 1.3926,
+      "step": 1180
+    },
+    {
+      "epoch": 3.66,
+      "learning_rate": 4.700854700854701e-06,
+      "loss": 1.383,
+      "step": 1190
+    },
+    {
+      "epoch": 3.69,
+      "learning_rate": 4.273504273504274e-06,
+      "loss": 1.3808,
+      "step": 1200
+    },
+    {
+      "epoch": 3.72,
+      "learning_rate": 3.846153846153847e-06,
+      "loss": 1.3616,
+      "step": 1210
+    },
+    {
+      "epoch": 3.75,
+      "learning_rate": 3.4188034188034193e-06,
+      "loss": 1.3928,
+      "step": 1220
+    },
+    {
+      "epoch": 3.78,
+      "learning_rate": 2.991452991452992e-06,
+      "loss": 1.3687,
+      "step": 1230
+    },
+    {
+      "epoch": 3.81,
+      "learning_rate": 2.564102564102564e-06,
+      "loss": 1.3664,
+      "step": 1240
+    },
+    {
+      "epoch": 3.84,
+      "learning_rate": 2.136752136752137e-06,
+      "loss": 1.3667,
+      "step": 1250
+    },
+    {
+      "epoch": 3.87,
+      "learning_rate": 1.7094017094017097e-06,
+      "loss": 1.3415,
+      "step": 1260
+    },
+    {
+      "epoch": 3.91,
+      "learning_rate": 1.282051282051282e-06,
+      "loss": 1.3677,
+      "step": 1270
+    },
+    {
+      "epoch": 3.94,
+      "learning_rate": 8.547008547008548e-07,
+      "loss": 1.3587,
+      "step": 1280
+    },
+    {
+      "epoch": 3.97,
+      "learning_rate": 4.273504273504274e-07,
+      "loss": 1.4172,
+      "step": 1290
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 0.0,
+      "loss": 1.3551,
+      "step": 1300
+    },
+    {
+      "epoch": 4.0,
+      "step": 1300,
+      "total_flos": 4.918117451664077e+17,
+      "train_loss": 1.7419609642028808,
+      "train_runtime": 52862.2699,
+      "train_samples_per_second": 0.787,
+      "train_steps_per_second": 0.025
+    }
+  ],
+  "max_steps": 1300,
+  "num_train_epochs": 4,
+  "total_flos": 4.918117451664077e+17,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:418b5fa25c2039e356036e9aca24417d092f2a76c689cd926136a74b8a063dc2
+size 3579

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff