ccore commited on Sep 23, 2023

Commit

2faa43f

•

1 Parent(s): a35c284

Upload folder using huggingface_hub

Browse files

Files changed (24) hide show

README.md +51 -1
all_results.json +8 -0
checkpoint-1000/config.json +26 -0
checkpoint-1000/generation_config.json +6 -0
checkpoint-1000/optimizer.pt +3 -0
checkpoint-1000/pytorch_model.bin +3 -0
checkpoint-1000/rng_state.pth +3 -0
checkpoint-1000/scheduler.pt +3 -0
checkpoint-1000/special_tokens_map.json +5 -0
checkpoint-1000/tokenizer.json +0 -0
checkpoint-1000/tokenizer.model +3 -0
checkpoint-1000/tokenizer_config.json +38 -0
checkpoint-1000/trainer_state.json +1219 -0
checkpoint-1000/training_args.bin +3 -0
config.json +26 -0
generation_config.json +6 -0
pytorch_model.bin +3 -0
special_tokens_map.json +5 -0
tokenizer.json +0 -0
tokenizer.model +3 -0
tokenizer_config.json +38 -0
train_results.json +8 -0
trainer_state.json +202 -0
training_args.bin +3 -0

README.md CHANGED Viewed

@@ -1,3 +1,53 @@
 ---
-license: other
 ---

 ---
+base_model: ./output
+tags:
+- generated_from_trainer
+model-index:
+- name: output
+  results: []
 ---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# output
+This model is a fine-tuned version of [./output](https://huggingface.co/./output) on an unknown dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.001
+- train_batch_size: 2
+- eval_batch_size: 2
+- seed: 42
+- gradient_accumulation_steps: 128
+- total_train_batch_size: 256
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: constant
+- num_epochs: 1.0
+### Training results
+### Framework versions
+- Transformers 4.34.0.dev0
+- Pytorch 2.0.1+cu117
+- Datasets 2.14.5
+- Tokenizers 0.14.0

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "train_loss": 4.884670708277454,
+    "train_runtime": 5501.4397,
+    "train_samples": 37518,
+    "train_samples_per_second": 6.82,
+    "train_steps_per_second": 0.027
+}

checkpoint-1000/config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "_name_or_path": "./output",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 256,
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "max_position_embeddings": 8192,
+  "model_type": "llama",
+  "num_attention_heads": 4,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 4,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.34.0.dev0",
+  "use_cache": true,
+  "vocab_size": 32000
+}

checkpoint-1000/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "transformers_version": "4.34.0.dev0"
+}

checkpoint-1000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:01e43fe435f1ef34f45ed9c628a4b31462d9cddc926ebd8584bff10d3bc23729
+size 141585770

checkpoint-1000/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9efef4e57fb2cdbaccf58e4fc6968c2f61f38f4a7f9e5161bfae929987b62ae3
+size 70790896

checkpoint-1000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:77a81b11daa17ca5552ac86c1efc96365c58fc71c8d34fd48dc6220930e345d0
+size 14575

checkpoint-1000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e28af83c57f2cddb6d735f7c816ebd9f24f4448153c24c61a1a5b5a0bd3955a9
+size 627

checkpoint-1000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "bos_token": "<s>",
+  "eos_token": "</s>",
+  "unk_token": "<unk>"
+}

checkpoint-1000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1000/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

checkpoint-1000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "model_max_length": 8192,
+  "pad_token": null,
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": true
+}

checkpoint-1000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1219 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 49.68944099378882,
+  "eval_steps": 500,
+  "global_step": 1000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.001,
+      "loss": 2.973,
+      "step": 5
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.001,
+      "loss": 2.9669,
+      "step": 10
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.001,
+      "loss": 2.8986,
+      "step": 15
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.001,
+      "loss": 2.9083,
+      "step": 20
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.001,
+      "loss": 2.8149,
+      "step": 25
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.001,
+      "loss": 2.7961,
+      "step": 30
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.001,
+      "loss": 2.7537,
+      "step": 35
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.001,
+      "loss": 2.7839,
+      "step": 40
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 0.001,
+      "loss": 2.7357,
+      "step": 45
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 0.001,
+      "loss": 2.74,
+      "step": 50
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 0.001,
+      "loss": 2.7264,
+      "step": 55
+    },
+    {
+      "epoch": 2.98,
+      "learning_rate": 0.001,
+      "loss": 2.6993,
+      "step": 60
+    },
+    {
+      "epoch": 3.23,
+      "learning_rate": 0.001,
+      "loss": 2.6521,
+      "step": 65
+    },
+    {
+      "epoch": 3.48,
+      "learning_rate": 0.001,
+      "loss": 2.6425,
+      "step": 70
+    },
+    {
+      "epoch": 3.73,
+      "learning_rate": 0.001,
+      "loss": 2.6921,
+      "step": 75
+    },
+    {
+      "epoch": 3.98,
+      "learning_rate": 0.001,
+      "loss": 2.695,
+      "step": 80
+    },
+    {
+      "epoch": 4.22,
+      "learning_rate": 0.001,
+      "loss": 2.5888,
+      "step": 85
+    },
+    {
+      "epoch": 4.47,
+      "learning_rate": 0.001,
+      "loss": 2.5928,
+      "step": 90
+    },
+    {
+      "epoch": 4.72,
+      "learning_rate": 0.001,
+      "loss": 2.7252,
+      "step": 95
+    },
+    {
+      "epoch": 4.97,
+      "learning_rate": 0.001,
+      "loss": 2.6456,
+      "step": 100
+    },
+    {
+      "epoch": 5.22,
+      "learning_rate": 0.001,
+      "loss": 2.6007,
+      "step": 105
+    },
+    {
+      "epoch": 5.47,
+      "learning_rate": 0.001,
+      "loss": 2.5469,
+      "step": 110
+    },
+    {
+      "epoch": 5.71,
+      "learning_rate": 0.001,
+      "loss": 2.564,
+      "step": 115
+    },
+    {
+      "epoch": 5.96,
+      "learning_rate": 0.001,
+      "loss": 2.6437,
+      "step": 120
+    },
+    {
+      "epoch": 6.21,
+      "learning_rate": 0.001,
+      "loss": 2.5038,
+      "step": 125
+    },
+    {
+      "epoch": 6.46,
+      "learning_rate": 0.001,
+      "loss": 2.6013,
+      "step": 130
+    },
+    {
+      "epoch": 6.71,
+      "learning_rate": 0.001,
+      "loss": 2.5481,
+      "step": 135
+    },
+    {
+      "epoch": 6.96,
+      "learning_rate": 0.001,
+      "loss": 2.5757,
+      "step": 140
+    },
+    {
+      "epoch": 7.2,
+      "learning_rate": 0.001,
+      "loss": 2.4941,
+      "step": 145
+    },
+    {
+      "epoch": 7.45,
+      "learning_rate": 0.001,
+      "loss": 2.4846,
+      "step": 150
+    },
+    {
+      "epoch": 7.7,
+      "learning_rate": 0.001,
+      "loss": 2.5206,
+      "step": 155
+    },
+    {
+      "epoch": 7.95,
+      "learning_rate": 0.001,
+      "loss": 2.6048,
+      "step": 160
+    },
+    {
+      "epoch": 8.2,
+      "learning_rate": 0.001,
+      "loss": 2.5142,
+      "step": 165
+    },
+    {
+      "epoch": 8.45,
+      "learning_rate": 0.001,
+      "loss": 2.4473,
+      "step": 170
+    },
+    {
+      "epoch": 8.7,
+      "learning_rate": 0.001,
+      "loss": 2.5176,
+      "step": 175
+    },
+    {
+      "epoch": 8.94,
+      "learning_rate": 0.001,
+      "loss": 2.4694,
+      "step": 180
+    },
+    {
+      "epoch": 9.19,
+      "learning_rate": 0.001,
+      "loss": 2.4416,
+      "step": 185
+    },
+    {
+      "epoch": 9.44,
+      "learning_rate": 0.001,
+      "loss": 2.4431,
+      "step": 190
+    },
+    {
+      "epoch": 9.69,
+      "learning_rate": 0.001,
+      "loss": 2.4121,
+      "step": 195
+    },
+    {
+      "epoch": 9.94,
+      "learning_rate": 0.001,
+      "loss": 2.5235,
+      "step": 200
+    },
+    {
+      "epoch": 10.19,
+      "learning_rate": 0.001,
+      "loss": 2.5051,
+      "step": 205
+    },
+    {
+      "epoch": 10.43,
+      "learning_rate": 0.001,
+      "loss": 2.4323,
+      "step": 210
+    },
+    {
+      "epoch": 10.68,
+      "learning_rate": 0.001,
+      "loss": 2.4477,
+      "step": 215
+    },
+    {
+      "epoch": 10.93,
+      "learning_rate": 0.001,
+      "loss": 2.3715,
+      "step": 220
+    },
+    {
+      "epoch": 11.18,
+      "learning_rate": 0.001,
+      "loss": 2.3412,
+      "step": 225
+    },
+    {
+      "epoch": 11.43,
+      "learning_rate": 0.001,
+      "loss": 2.3728,
+      "step": 230
+    },
+    {
+      "epoch": 11.68,
+      "learning_rate": 0.001,
+      "loss": 2.388,
+      "step": 235
+    },
+    {
+      "epoch": 11.93,
+      "learning_rate": 0.001,
+      "loss": 2.4327,
+      "step": 240
+    },
+    {
+      "epoch": 12.17,
+      "learning_rate": 0.001,
+      "loss": 2.3181,
+      "step": 245
+    },
+    {
+      "epoch": 12.42,
+      "learning_rate": 0.001,
+      "loss": 2.2734,
+      "step": 250
+    },
+    {
+      "epoch": 12.67,
+      "learning_rate": 0.001,
+      "loss": 2.3641,
+      "step": 255
+    },
+    {
+      "epoch": 12.92,
+      "learning_rate": 0.001,
+      "loss": 2.3942,
+      "step": 260
+    },
+    {
+      "epoch": 13.17,
+      "learning_rate": 0.001,
+      "loss": 2.3832,
+      "step": 265
+    },
+    {
+      "epoch": 13.42,
+      "learning_rate": 0.001,
+      "loss": 2.3198,
+      "step": 270
+    },
+    {
+      "epoch": 13.66,
+      "learning_rate": 0.001,
+      "loss": 2.2833,
+      "step": 275
+    },
+    {
+      "epoch": 13.91,
+      "learning_rate": 0.001,
+      "loss": 2.3702,
+      "step": 280
+    },
+    {
+      "epoch": 14.16,
+      "learning_rate": 0.001,
+      "loss": 2.3507,
+      "step": 285
+    },
+    {
+      "epoch": 14.41,
+      "learning_rate": 0.001,
+      "loss": 2.2932,
+      "step": 290
+    },
+    {
+      "epoch": 14.66,
+      "learning_rate": 0.001,
+      "loss": 2.3532,
+      "step": 295
+    },
+    {
+      "epoch": 14.91,
+      "learning_rate": 0.001,
+      "loss": 2.2199,
+      "step": 300
+    },
+    {
+      "epoch": 15.16,
+      "learning_rate": 0.001,
+      "loss": 2.2902,
+      "step": 305
+    },
+    {
+      "epoch": 15.4,
+      "learning_rate": 0.001,
+      "loss": 2.304,
+      "step": 310
+    },
+    {
+      "epoch": 15.65,
+      "learning_rate": 0.001,
+      "loss": 2.2705,
+      "step": 315
+    },
+    {
+      "epoch": 15.9,
+      "learning_rate": 0.001,
+      "loss": 2.2594,
+      "step": 320
+    },
+    {
+      "epoch": 16.15,
+      "learning_rate": 0.001,
+      "loss": 2.2122,
+      "step": 325
+    },
+    {
+      "epoch": 16.4,
+      "learning_rate": 0.001,
+      "loss": 2.2527,
+      "step": 330
+    },
+    {
+      "epoch": 16.65,
+      "learning_rate": 0.001,
+      "loss": 2.2212,
+      "step": 335
+    },
+    {
+      "epoch": 16.89,
+      "learning_rate": 0.001,
+      "loss": 2.2597,
+      "step": 340
+    },
+    {
+      "epoch": 17.14,
+      "learning_rate": 0.001,
+      "loss": 2.2512,
+      "step": 345
+    },
+    {
+      "epoch": 17.39,
+      "learning_rate": 0.001,
+      "loss": 2.1741,
+      "step": 350
+    },
+    {
+      "epoch": 17.64,
+      "learning_rate": 0.001,
+      "loss": 2.2029,
+      "step": 355
+    },
+    {
+      "epoch": 17.89,
+      "learning_rate": 0.001,
+      "loss": 2.2779,
+      "step": 360
+    },
+    {
+      "epoch": 18.14,
+      "learning_rate": 0.001,
+      "loss": 2.1796,
+      "step": 365
+    },
+    {
+      "epoch": 18.39,
+      "learning_rate": 0.001,
+      "loss": 2.0951,
+      "step": 370
+    },
+    {
+      "epoch": 18.63,
+      "learning_rate": 0.001,
+      "loss": 2.1963,
+      "step": 375
+    },
+    {
+      "epoch": 18.88,
+      "learning_rate": 0.001,
+      "loss": 2.3042,
+      "step": 380
+    },
+    {
+      "epoch": 19.13,
+      "learning_rate": 0.001,
+      "loss": 2.1884,
+      "step": 385
+    },
+    {
+      "epoch": 19.38,
+      "learning_rate": 0.001,
+      "loss": 2.2027,
+      "step": 390
+    },
+    {
+      "epoch": 19.63,
+      "learning_rate": 0.001,
+      "loss": 2.1516,
+      "step": 395
+    },
+    {
+      "epoch": 19.88,
+      "learning_rate": 0.001,
+      "loss": 2.1975,
+      "step": 400
+    },
+    {
+      "epoch": 20.12,
+      "learning_rate": 0.001,
+      "loss": 2.1499,
+      "step": 405
+    },
+    {
+      "epoch": 20.37,
+      "learning_rate": 0.001,
+      "loss": 2.1268,
+      "step": 410
+    },
+    {
+      "epoch": 20.62,
+      "learning_rate": 0.001,
+      "loss": 2.0978,
+      "step": 415
+    },
+    {
+      "epoch": 20.87,
+      "learning_rate": 0.001,
+      "loss": 2.1173,
+      "step": 420
+    },
+    {
+      "epoch": 21.12,
+      "learning_rate": 0.001,
+      "loss": 2.1737,
+      "step": 425
+    },
+    {
+      "epoch": 21.37,
+      "learning_rate": 0.001,
+      "loss": 2.0569,
+      "step": 430
+    },
+    {
+      "epoch": 21.61,
+      "learning_rate": 0.001,
+      "loss": 2.1043,
+      "step": 435
+    },
+    {
+      "epoch": 21.86,
+      "learning_rate": 0.001,
+      "loss": 2.0893,
+      "step": 440
+    },
+    {
+      "epoch": 22.11,
+      "learning_rate": 0.001,
+      "loss": 2.2145,
+      "step": 445
+    },
+    {
+      "epoch": 22.36,
+      "learning_rate": 0.001,
+      "loss": 2.0312,
+      "step": 450
+    },
+    {
+      "epoch": 22.61,
+      "learning_rate": 0.001,
+      "loss": 2.0685,
+      "step": 455
+    },
+    {
+      "epoch": 22.86,
+      "learning_rate": 0.001,
+      "loss": 2.0475,
+      "step": 460
+    },
+    {
+      "epoch": 23.11,
+      "learning_rate": 0.001,
+      "loss": 2.0472,
+      "step": 465
+    },
+    {
+      "epoch": 23.35,
+      "learning_rate": 0.001,
+      "loss": 2.0081,
+      "step": 470
+    },
+    {
+      "epoch": 23.6,
+      "learning_rate": 0.001,
+      "loss": 2.0543,
+      "step": 475
+    },
+    {
+      "epoch": 23.85,
+      "learning_rate": 0.001,
+      "loss": 2.093,
+      "step": 480
+    },
+    {
+      "epoch": 24.1,
+      "learning_rate": 0.001,
+      "loss": 1.9895,
+      "step": 485
+    },
+    {
+      "epoch": 24.35,
+      "learning_rate": 0.001,
+      "loss": 1.9842,
+      "step": 490
+    },
+    {
+      "epoch": 24.6,
+      "learning_rate": 0.001,
+      "loss": 2.0427,
+      "step": 495
+    },
+    {
+      "epoch": 24.84,
+      "learning_rate": 0.001,
+      "loss": 2.0707,
+      "step": 500
+    },
+    {
+      "epoch": 25.09,
+      "learning_rate": 0.001,
+      "loss": 2.0274,
+      "step": 505
+    },
+    {
+      "epoch": 25.34,
+      "learning_rate": 0.001,
+      "loss": 1.9516,
+      "step": 510
+    },
+    {
+      "epoch": 25.59,
+      "learning_rate": 0.001,
+      "loss": 2.0104,
+      "step": 515
+    },
+    {
+      "epoch": 25.84,
+      "learning_rate": 0.001,
+      "loss": 2.032,
+      "step": 520
+    },
+    {
+      "epoch": 26.09,
+      "learning_rate": 0.001,
+      "loss": 2.0103,
+      "step": 525
+    },
+    {
+      "epoch": 26.34,
+      "learning_rate": 0.001,
+      "loss": 1.9496,
+      "step": 530
+    },
+    {
+      "epoch": 26.58,
+      "learning_rate": 0.001,
+      "loss": 1.9511,
+      "step": 535
+    },
+    {
+      "epoch": 26.83,
+      "learning_rate": 0.001,
+      "loss": 2.0482,
+      "step": 540
+    },
+    {
+      "epoch": 27.08,
+      "learning_rate": 0.001,
+      "loss": 1.9065,
+      "step": 545
+    },
+    {
+      "epoch": 27.33,
+      "learning_rate": 0.001,
+      "loss": 1.9379,
+      "step": 550
+    },
+    {
+      "epoch": 27.58,
+      "learning_rate": 0.001,
+      "loss": 1.9049,
+      "step": 555
+    },
+    {
+      "epoch": 27.83,
+      "learning_rate": 0.001,
+      "loss": 1.974,
+      "step": 560
+    },
+    {
+      "epoch": 28.07,
+      "learning_rate": 0.001,
+      "loss": 1.953,
+      "step": 565
+    },
+    {
+      "epoch": 28.32,
+      "learning_rate": 0.001,
+      "loss": 1.9527,
+      "step": 570
+    },
+    {
+      "epoch": 28.57,
+      "learning_rate": 0.001,
+      "loss": 1.9382,
+      "step": 575
+    },
+    {
+      "epoch": 28.82,
+      "learning_rate": 0.001,
+      "loss": 1.8777,
+      "step": 580
+    },
+    {
+      "epoch": 29.07,
+      "learning_rate": 0.001,
+      "loss": 1.926,
+      "step": 585
+    },
+    {
+      "epoch": 29.32,
+      "learning_rate": 0.001,
+      "loss": 1.8399,
+      "step": 590
+    },
+    {
+      "epoch": 29.57,
+      "learning_rate": 0.001,
+      "loss": 1.8952,
+      "step": 595
+    },
+    {
+      "epoch": 29.81,
+      "learning_rate": 0.001,
+      "loss": 1.9779,
+      "step": 600
+    },
+    {
+      "epoch": 30.06,
+      "learning_rate": 0.001,
+      "loss": 1.8969,
+      "step": 605
+    },
+    {
+      "epoch": 30.31,
+      "learning_rate": 0.001,
+      "loss": 1.8222,
+      "step": 610
+    },
+    {
+      "epoch": 30.56,
+      "learning_rate": 0.001,
+      "loss": 1.8648,
+      "step": 615
+    },
+    {
+      "epoch": 30.81,
+      "learning_rate": 0.001,
+      "loss": 1.8852,
+      "step": 620
+    },
+    {
+      "epoch": 31.06,
+      "learning_rate": 0.001,
+      "loss": 1.9252,
+      "step": 625
+    },
+    {
+      "epoch": 31.3,
+      "learning_rate": 0.001,
+      "loss": 1.8219,
+      "step": 630
+    },
+    {
+      "epoch": 31.55,
+      "learning_rate": 0.001,
+      "loss": 1.8474,
+      "step": 635
+    },
+    {
+      "epoch": 31.8,
+      "learning_rate": 0.001,
+      "loss": 1.8013,
+      "step": 640
+    },
+    {
+      "epoch": 32.05,
+      "learning_rate": 0.001,
+      "loss": 1.9605,
+      "step": 645
+    },
+    {
+      "epoch": 32.3,
+      "learning_rate": 0.001,
+      "loss": 1.747,
+      "step": 650
+    },
+    {
+      "epoch": 32.55,
+      "learning_rate": 0.001,
+      "loss": 1.8404,
+      "step": 655
+    },
+    {
+      "epoch": 32.8,
+      "learning_rate": 0.001,
+      "loss": 1.8616,
+      "step": 660
+    },
+    {
+      "epoch": 33.04,
+      "learning_rate": 0.001,
+      "loss": 1.8597,
+      "step": 665
+    },
+    {
+      "epoch": 33.29,
+      "learning_rate": 0.001,
+      "loss": 1.8462,
+      "step": 670
+    },
+    {
+      "epoch": 33.54,
+      "learning_rate": 0.001,
+      "loss": 1.8022,
+      "step": 675
+    },
+    {
+      "epoch": 33.79,
+      "learning_rate": 0.001,
+      "loss": 1.813,
+      "step": 680
+    },
+    {
+      "epoch": 34.04,
+      "learning_rate": 0.001,
+      "loss": 1.7534,
+      "step": 685
+    },
+    {
+      "epoch": 34.29,
+      "learning_rate": 0.001,
+      "loss": 1.7472,
+      "step": 690
+    },
+    {
+      "epoch": 34.53,
+      "learning_rate": 0.001,
+      "loss": 1.7565,
+      "step": 695
+    },
+    {
+      "epoch": 34.78,
+      "learning_rate": 0.001,
+      "loss": 1.8073,
+      "step": 700
+    },
+    {
+      "epoch": 35.03,
+      "learning_rate": 0.001,
+      "loss": 1.8327,
+      "step": 705
+    },
+    {
+      "epoch": 35.28,
+      "learning_rate": 0.001,
+      "loss": 1.6831,
+      "step": 710
+    },
+    {
+      "epoch": 35.53,
+      "learning_rate": 0.001,
+      "loss": 1.7303,
+      "step": 715
+    },
+    {
+      "epoch": 35.78,
+      "learning_rate": 0.001,
+      "loss": 1.7749,
+      "step": 720
+    },
+    {
+      "epoch": 36.02,
+      "learning_rate": 0.001,
+      "loss": 1.8673,
+      "step": 725
+    },
+    {
+      "epoch": 36.27,
+      "learning_rate": 0.001,
+      "loss": 1.6578,
+      "step": 730
+    },
+    {
+      "epoch": 36.52,
+      "learning_rate": 0.001,
+      "loss": 1.7824,
+      "step": 735
+    },
+    {
+      "epoch": 36.77,
+      "learning_rate": 0.001,
+      "loss": 1.78,
+      "step": 740
+    },
+    {
+      "epoch": 37.02,
+      "learning_rate": 0.001,
+      "loss": 1.7728,
+      "step": 745
+    },
+    {
+      "epoch": 37.27,
+      "learning_rate": 0.001,
+      "loss": 1.7088,
+      "step": 750
+    },
+    {
+      "epoch": 37.52,
+      "learning_rate": 0.001,
+      "loss": 1.7322,
+      "step": 755
+    },
+    {
+      "epoch": 37.76,
+      "learning_rate": 0.001,
+      "loss": 1.6444,
+      "step": 760
+    },
+    {
+      "epoch": 38.01,
+      "learning_rate": 0.001,
+      "loss": 1.8092,
+      "step": 765
+    },
+    {
+      "epoch": 38.26,
+      "learning_rate": 0.001,
+      "loss": 1.6969,
+      "step": 770
+    },
+    {
+      "epoch": 38.51,
+      "learning_rate": 0.001,
+      "loss": 1.6509,
+      "step": 775
+    },
+    {
+      "epoch": 38.76,
+      "learning_rate": 0.001,
+      "loss": 1.6829,
+      "step": 780
+    },
+    {
+      "epoch": 39.01,
+      "learning_rate": 0.001,
+      "loss": 1.7081,
+      "step": 785
+    },
+    {
+      "epoch": 39.25,
+      "learning_rate": 0.001,
+      "loss": 1.6356,
+      "step": 790
+    },
+    {
+      "epoch": 39.5,
+      "learning_rate": 0.001,
+      "loss": 1.6999,
+      "step": 795
+    },
+    {
+      "epoch": 39.75,
+      "learning_rate": 0.001,
+      "loss": 1.6754,
+      "step": 800
+    },
+    {
+      "epoch": 40.0,
+      "learning_rate": 0.001,
+      "loss": 1.694,
+      "step": 805
+    },
+    {
+      "epoch": 40.25,
+      "learning_rate": 0.001,
+      "loss": 1.6114,
+      "step": 810
+    },
+    {
+      "epoch": 40.5,
+      "learning_rate": 0.001,
+      "loss": 1.5831,
+      "step": 815
+    },
+    {
+      "epoch": 40.75,
+      "learning_rate": 0.001,
+      "loss": 1.7196,
+      "step": 820
+    },
+    {
+      "epoch": 40.99,
+      "learning_rate": 0.001,
+      "loss": 1.6715,
+      "step": 825
+    },
+    {
+      "epoch": 41.24,
+      "learning_rate": 0.001,
+      "loss": 1.6569,
+      "step": 830
+    },
+    {
+      "epoch": 41.49,
+      "learning_rate": 0.001,
+      "loss": 1.5417,
+      "step": 835
+    },
+    {
+      "epoch": 41.74,
+      "learning_rate": 0.001,
+      "loss": 1.7056,
+      "step": 840
+    },
+    {
+      "epoch": 41.99,
+      "learning_rate": 0.001,
+      "loss": 1.6408,
+      "step": 845
+    },
+    {
+      "epoch": 42.24,
+      "learning_rate": 0.001,
+      "loss": 1.5832,
+      "step": 850
+    },
+    {
+      "epoch": 42.48,
+      "learning_rate": 0.001,
+      "loss": 1.6063,
+      "step": 855
+    },
+    {
+      "epoch": 42.73,
+      "learning_rate": 0.001,
+      "loss": 1.6485,
+      "step": 860
+    },
+    {
+      "epoch": 42.98,
+      "learning_rate": 0.001,
+      "loss": 1.6044,
+      "step": 865
+    },
+    {
+      "epoch": 43.23,
+      "learning_rate": 0.001,
+      "loss": 1.5439,
+      "step": 870
+    },
+    {
+      "epoch": 43.48,
+      "learning_rate": 0.001,
+      "loss": 1.5154,
+      "step": 875
+    },
+    {
+      "epoch": 43.73,
+      "learning_rate": 0.001,
+      "loss": 1.5861,
+      "step": 880
+    },
+    {
+      "epoch": 43.98,
+      "learning_rate": 0.001,
+      "loss": 1.7179,
+      "step": 885
+    },
+    {
+      "epoch": 44.22,
+      "learning_rate": 0.001,
+      "loss": 1.5343,
+      "step": 890
+    },
+    {
+      "epoch": 44.47,
+      "learning_rate": 0.001,
+      "loss": 1.6002,
+      "step": 895
+    },
+    {
+      "epoch": 44.72,
+      "learning_rate": 0.001,
+      "loss": 1.5172,
+      "step": 900
+    },
+    {
+      "epoch": 44.97,
+      "learning_rate": 0.001,
+      "loss": 1.6329,
+      "step": 905
+    },
+    {
+      "epoch": 45.22,
+      "learning_rate": 0.001,
+      "loss": 1.5021,
+      "step": 910
+    },
+    {
+      "epoch": 45.47,
+      "learning_rate": 0.001,
+      "loss": 1.5144,
+      "step": 915
+    },
+    {
+      "epoch": 45.71,
+      "learning_rate": 0.001,
+      "loss": 1.5444,
+      "step": 920
+    },
+    {
+      "epoch": 45.96,
+      "learning_rate": 0.001,
+      "loss": 1.6281,
+      "step": 925
+    },
+    {
+      "epoch": 46.21,
+      "learning_rate": 0.001,
+      "loss": 1.524,
+      "step": 930
+    },
+    {
+      "epoch": 46.46,
+      "learning_rate": 0.001,
+      "loss": 1.4635,
+      "step": 935
+    },
+    {
+      "epoch": 46.71,
+      "learning_rate": 0.001,
+      "loss": 1.6017,
+      "step": 940
+    },
+    {
+      "epoch": 46.96,
+      "learning_rate": 0.001,
+      "loss": 1.5213,
+      "step": 945
+    },
+    {
+      "epoch": 47.2,
+      "learning_rate": 0.001,
+      "loss": 1.542,
+      "step": 950
+    },
+    {
+      "epoch": 47.45,
+      "learning_rate": 0.001,
+      "loss": 1.4951,
+      "step": 955
+    },
+    {
+      "epoch": 47.7,
+      "learning_rate": 0.001,
+      "loss": 1.4742,
+      "step": 960
+    },
+    {
+      "epoch": 47.95,
+      "learning_rate": 0.001,
+      "loss": 1.6,
+      "step": 965
+    },
+    {
+      "epoch": 48.2,
+      "learning_rate": 0.001,
+      "loss": 1.5234,
+      "step": 970
+    },
+    {
+      "epoch": 48.45,
+      "learning_rate": 0.001,
+      "loss": 1.4522,
+      "step": 975
+    },
+    {
+      "epoch": 48.7,
+      "learning_rate": 0.001,
+      "loss": 1.5727,
+      "step": 980
+    },
+    {
+      "epoch": 48.94,
+      "learning_rate": 0.001,
+      "loss": 1.5176,
+      "step": 985
+    },
+    {
+      "epoch": 49.19,
+      "learning_rate": 0.001,
+      "loss": 1.4455,
+      "step": 990
+    },
+    {
+      "epoch": 49.44,
+      "learning_rate": 0.001,
+      "loss": 1.4791,
+      "step": 995
+    },
+    {
+      "epoch": 49.69,
+      "learning_rate": 0.001,
+      "loss": 1.5225,
+      "step": 1000
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 1000,
+  "num_train_epochs": 50,
+  "save_steps": 1000,
+  "total_flos": 7299072000000000.0,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:45e7c6ff0e4648558db5c97effa6449dce181570da721cea934d3072eed3b052
+size 4027

config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "_name_or_path": "./output",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 256,
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "max_position_embeddings": 8192,
+  "model_type": "llama",
+  "num_attention_heads": 4,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 4,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.34.0.dev0",
+  "use_cache": true,
+  "vocab_size": 32000
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "transformers_version": "4.34.0.dev0"
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:875e0f9a728d0301007800091ac050f0221e86864538420278cd30c6162a297c
+size 70790896

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "bos_token": "<s>",
+  "eos_token": "</s>",
+  "unk_token": "<unk>"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "model_max_length": 8192,
+  "pad_token": null,
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": true
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "train_loss": 4.884670708277454,
+    "train_runtime": 5501.4397,
+    "train_samples": 37518,
+    "train_samples_per_second": 6.82,
+    "train_steps_per_second": 0.027
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,202 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9962151500613039,
+  "eval_steps": 500,
+  "global_step": 146,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.001,
+      "loss": 8.6154,
+      "step": 5
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.001,
+      "loss": 6.6267,
+      "step": 10
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.001,
+      "loss": 5.6959,
+      "step": 15
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.001,
+      "loss": 5.3255,
+      "step": 20
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.001,
+      "loss": 5.223,
+      "step": 25
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.001,
+      "loss": 5.1121,
+      "step": 30
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.001,
+      "loss": 5.0313,
+      "step": 35
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.001,
+      "loss": 4.955,
+      "step": 40
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.001,
+      "loss": 4.8758,
+      "step": 45
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.001,
+      "loss": 4.8061,
+      "step": 50
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.001,
+      "loss": 4.8037,
+      "step": 55
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.001,
+      "loss": 4.7292,
+      "step": 60
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.001,
+      "loss": 4.6936,
+      "step": 65
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.001,
+      "loss": 4.6386,
+      "step": 70
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.001,
+      "loss": 4.608,
+      "step": 75
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.001,
+      "loss": 4.5775,
+      "step": 80
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.001,
+      "loss": 4.5337,
+      "step": 85
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.001,
+      "loss": 4.5108,
+      "step": 90
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.001,
+      "loss": 4.5041,
+      "step": 95
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.001,
+      "loss": 4.474,
+      "step": 100
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.001,
+      "loss": 4.4469,
+      "step": 105
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.001,
+      "loss": 4.4356,
+      "step": 110
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.001,
+      "loss": 4.405,
+      "step": 115
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.001,
+      "loss": 4.4047,
+      "step": 120
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.001,
+      "loss": 4.3796,
+      "step": 125
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.001,
+      "loss": 4.3652,
+      "step": 130
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.001,
+      "loss": 4.3162,
+      "step": 135
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.001,
+      "loss": 4.3448,
+      "step": 140
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.001,
+      "loss": 4.329,
+      "step": 145
+    },
+    {
+      "epoch": 1.0,
+      "step": 146,
+      "total_flos": 1.7050632192e+16,
+      "train_loss": 4.884670708277454,
+      "train_runtime": 5501.4397,
+      "train_samples_per_second": 6.82,
+      "train_steps_per_second": 0.027
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 146,
+  "num_train_epochs": 1,
+  "save_steps": 1000,
+  "total_flos": 1.7050632192e+16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d8306e6f1a27ab436c9dca647ecb1956a506448b5d1b0075a9575e3cb6884840
+size 4027