Andyrasika commited on Aug 30, 2023

Commit

02aed86

•

1 Parent(s): c7efe3e

Upload folder using huggingface_hub

Browse files

Files changed (29) hide show

README.md +59 -1
checkpoint-1300/config.json +46 -0
checkpoint-1300/generation_config.json +6 -0
checkpoint-1300/optimizer.pt +3 -0
checkpoint-1300/pytorch_model.bin +3 -0
checkpoint-1300/rng_state.pth +3 -0
checkpoint-1300/scheduler.pt +3 -0
checkpoint-1300/trainer_state.json +183 -0
checkpoint-1300/training_args.bin +3 -0
checkpoint-2600/config.json +46 -0
checkpoint-2600/generation_config.json +6 -0
checkpoint-2600/optimizer.pt +3 -0
checkpoint-2600/pytorch_model.bin +3 -0
checkpoint-2600/rng_state.pth +3 -0
checkpoint-2600/scheduler.pt +3 -0
checkpoint-2600/trainer_state.json +347 -0
checkpoint-2600/training_args.bin +3 -0
checkpoint-3900/config.json +46 -0
checkpoint-3900/generation_config.json +6 -0
checkpoint-3900/optimizer.pt +3 -0
checkpoint-3900/pytorch_model.bin +3 -0
checkpoint-3900/rng_state.pth +3 -0
checkpoint-3900/scheduler.pt +3 -0
checkpoint-3900/trainer_state.json +511 -0
checkpoint-3900/training_args.bin +3 -0
config.json +46 -0
generation_config.json +6 -0
pytorch_model.bin +3 -0
training_args.bin +3 -0

README.md CHANGED Viewed

@@ -1,3 +1,61 @@
 ---
-license: creativeml-openrail-m
 ---

 ---
+license: apache-2.0
+base_model: distilgpt2
+tags:
+- generated_from_trainer
+model-index:
+- name: gpt2_dolly_lite
+  results: []
 ---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# gpt2_dolly_lite
+This model is a fine-tuned version of [distilgpt2](https://huggingface.co/distilgpt2) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 2.4067
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.001
+- train_batch_size: 8
+- eval_batch_size: 32
+- seed: 42
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 32
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 3
+### Training results
+| Training Loss | Epoch | Step | Validation Loss |
+|:-------------:|:-----:|:----:|:---------------:|
+| 2.708         | 1.0   | 1300 | 2.5611          |
+| 2.1768        | 2.0   | 2600 | 2.4149          |
+| 1.7189        | 3.0   | 3900 | 2.4067          |
+### Framework versions
+- Transformers 4.32.1
+- Pytorch 2.0.1+cu118
+- Datasets 2.14.4
+- Tokenizers 0.13.3

checkpoint-1300/config.json ADDED Viewed

	@@ -0,0 +1,46 @@

+{
+  "_name_or_path": "distilgpt2",
+  "_num_labels": 1,
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "id2label": {
+    "0": "LABEL_0"
+  },
+  "initializer_range": 0.02,
+  "label2id": {
+    "LABEL_0": 0
+  },
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 6,
+  "n_positions": 1024,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.32.1",
+  "use_cache": true,
+  "vocab_size": 50257
+}

checkpoint-1300/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.32.1"
+}

checkpoint-1300/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2f44c8f6c514ad8e349d345a46a159fc6ed4166c32d4626aa0a2f9d0ad011355
+size 655364037

checkpoint-1300/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2b5190e105a8a7362be16f16eaf1b51bfca3508ebfbe376e764a4a3f06b8bef7
+size 327674773

checkpoint-1300/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:65ebbc7268a7952f4f6c6443d3fc774fecab4069169a85def8a285e8a02168ec
+size 14575

checkpoint-1300/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:212e58901c3687afbfbec22f9809a97294d8c570380f7ab9130924780eef0624
+size 627

checkpoint-1300/trainer_state.json ADDED Viewed

	@@ -0,0 +1,183 @@

+{
+  "best_metric": 2.561117649078369,
+  "best_model_checkpoint": "./gpt2_dolly_lite/checkpoint-1300",
+  "epoch": 0.9998077292828302,
+  "eval_steps": 500,
+  "global_step": 1300,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0009871794871794872,
+      "loss": 3.3078,
+      "step": 50
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0009743589743589744,
+      "loss": 3.1249,
+      "step": 100
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0009615384615384616,
+      "loss": 3.1026,
+      "step": 150
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0009487179487179487,
+      "loss": 3.0496,
+      "step": 200
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.000935897435897436,
+      "loss": 2.9706,
+      "step": 250
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0009230769230769232,
+      "loss": 3.0195,
+      "step": 300
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0009102564102564102,
+      "loss": 2.9747,
+      "step": 350
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0008974358974358974,
+      "loss": 2.9205,
+      "step": 400
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0008846153846153846,
+      "loss": 2.9495,
+      "step": 450
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0008717948717948718,
+      "loss": 2.8866,
+      "step": 500
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0008589743589743589,
+      "loss": 2.892,
+      "step": 550
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0008461538461538462,
+      "loss": 2.8849,
+      "step": 600
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0008333333333333334,
+      "loss": 2.8819,
+      "step": 650
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0008205128205128205,
+      "loss": 2.8561,
+      "step": 700
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.0008076923076923078,
+      "loss": 2.8311,
+      "step": 750
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0007948717948717948,
+      "loss": 2.8176,
+      "step": 800
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.000782051282051282,
+      "loss": 2.7782,
+      "step": 850
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.0007692307692307693,
+      "loss": 2.7273,
+      "step": 900
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.0007564102564102564,
+      "loss": 2.7686,
+      "step": 950
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.0007435897435897436,
+      "loss": 2.7274,
+      "step": 1000
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.0007307692307692307,
+      "loss": 2.7514,
+      "step": 1050
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.000717948717948718,
+      "loss": 2.7232,
+      "step": 1100
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.0007051282051282052,
+      "loss": 2.6937,
+      "step": 1150
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.0006923076923076923,
+      "loss": 2.7209,
+      "step": 1200
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.0006794871794871796,
+      "loss": 2.6832,
+      "step": 1250
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.0006666666666666666,
+      "loss": 2.708,
+      "step": 1300
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 2.561117649078369,
+      "eval_runtime": 41.0726,
+      "eval_samples_per_second": 253.235,
+      "eval_steps_per_second": 7.937,
+      "step": 1300
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 3900,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "total_flos": 2217745708572672.0,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1300/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5863f7260e5f2acd6ed9097371440ce6f89c0fdc0fbea3c0b7bd599e0244316f
+size 4027

checkpoint-2600/config.json ADDED Viewed

	@@ -0,0 +1,46 @@

+{
+  "_name_or_path": "distilgpt2",
+  "_num_labels": 1,
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "id2label": {
+    "0": "LABEL_0"
+  },
+  "initializer_range": 0.02,
+  "label2id": {
+    "LABEL_0": 0
+  },
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 6,
+  "n_positions": 1024,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.32.1",
+  "use_cache": true,
+  "vocab_size": 50257
+}

checkpoint-2600/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.32.1"
+}

checkpoint-2600/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b2f5f1a4c772f7ed8b56cd9b26fadd5b86d5a775421136ecefc1e753bf2cb96d
+size 655364037

checkpoint-2600/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dcab8e0ae7f44c5de6401e22a75acebe3915057a32af2cae6bb57a2745f7a34d
+size 327674773

checkpoint-2600/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:950a675deac0bd82676ee97ba5d2d1126640847e7cfd72fc6877d8dfc8e26002
+size 14575

checkpoint-2600/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:89dbab01816d59b4bbc89d82d176e913e76e05dbd72b4fa6cac4ee1fc89a3eaa
+size 627

checkpoint-2600/trainer_state.json ADDED Viewed

	@@ -0,0 +1,347 @@

+{
+  "best_metric": 2.41491436958313,
+  "best_model_checkpoint": "./gpt2_dolly_lite/checkpoint-2600",
+  "epoch": 1.9996154585656605,
+  "eval_steps": 500,
+  "global_step": 2600,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0009871794871794872,
+      "loss": 3.3078,
+      "step": 50
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0009743589743589744,
+      "loss": 3.1249,
+      "step": 100
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0009615384615384616,
+      "loss": 3.1026,
+      "step": 150
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0009487179487179487,
+      "loss": 3.0496,
+      "step": 200
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.000935897435897436,
+      "loss": 2.9706,
+      "step": 250
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0009230769230769232,
+      "loss": 3.0195,
+      "step": 300
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0009102564102564102,
+      "loss": 2.9747,
+      "step": 350
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0008974358974358974,
+      "loss": 2.9205,
+      "step": 400
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0008846153846153846,
+      "loss": 2.9495,
+      "step": 450
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0008717948717948718,
+      "loss": 2.8866,
+      "step": 500
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0008589743589743589,
+      "loss": 2.892,
+      "step": 550
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0008461538461538462,
+      "loss": 2.8849,
+      "step": 600
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0008333333333333334,
+      "loss": 2.8819,
+      "step": 650
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0008205128205128205,
+      "loss": 2.8561,
+      "step": 700
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.0008076923076923078,
+      "loss": 2.8311,
+      "step": 750
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0007948717948717948,
+      "loss": 2.8176,
+      "step": 800
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.000782051282051282,
+      "loss": 2.7782,
+      "step": 850
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.0007692307692307693,
+      "loss": 2.7273,
+      "step": 900
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.0007564102564102564,
+      "loss": 2.7686,
+      "step": 950
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.0007435897435897436,
+      "loss": 2.7274,
+      "step": 1000
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.0007307692307692307,
+      "loss": 2.7514,
+      "step": 1050
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.000717948717948718,
+      "loss": 2.7232,
+      "step": 1100
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.0007051282051282052,
+      "loss": 2.6937,
+      "step": 1150
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.0006923076923076923,
+      "loss": 2.7209,
+      "step": 1200
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.0006794871794871796,
+      "loss": 2.6832,
+      "step": 1250
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.0006666666666666666,
+      "loss": 2.708,
+      "step": 1300
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 2.561117649078369,
+      "eval_runtime": 41.0726,
+      "eval_samples_per_second": 253.235,
+      "eval_steps_per_second": 7.937,
+      "step": 1300
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.0006538461538461538,
+      "loss": 2.2119,
+      "step": 1350
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.0006410256410256411,
+      "loss": 2.2279,
+      "step": 1400
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.0006282051282051282,
+      "loss": 2.1996,
+      "step": 1450
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.0006153846153846154,
+      "loss": 2.1886,
+      "step": 1500
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.0006025641025641026,
+      "loss": 2.268,
+      "step": 1550
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.0005897435897435898,
+      "loss": 2.2118,
+      "step": 1600
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.0005769230769230769,
+      "loss": 2.2831,
+      "step": 1650
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.0005641025641025641,
+      "loss": 2.2317,
+      "step": 1700
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.0005512820512820514,
+      "loss": 2.2504,
+      "step": 1750
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.0005384615384615384,
+      "loss": 2.241,
+      "step": 1800
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.0005256410256410256,
+      "loss": 2.2381,
+      "step": 1850
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.0005128205128205128,
+      "loss": 2.2313,
+      "step": 1900
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.0005,
+      "loss": 2.2493,
+      "step": 1950
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.0004871794871794872,
+      "loss": 2.2056,
+      "step": 2000
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.00047435897435897434,
+      "loss": 2.2178,
+      "step": 2050
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.0004615384615384616,
+      "loss": 2.2518,
+      "step": 2100
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.0004487179487179487,
+      "loss": 2.2354,
+      "step": 2150
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 0.0004358974358974359,
+      "loss": 2.2144,
+      "step": 2200
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 0.0004230769230769231,
+      "loss": 2.2197,
+      "step": 2250
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 0.00041025641025641023,
+      "loss": 2.2006,
+      "step": 2300
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 0.0003974358974358974,
+      "loss": 2.1802,
+      "step": 2350
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 0.00038461538461538467,
+      "loss": 2.1656,
+      "step": 2400
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 0.0003717948717948718,
+      "loss": 2.1592,
+      "step": 2450
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.000358974358974359,
+      "loss": 2.1847,
+      "step": 2500
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 0.00034615384615384613,
+      "loss": 2.1981,
+      "step": 2550
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.0003333333333333333,
+      "loss": 2.1768,
+      "step": 2600
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 2.41491436958313,
+      "eval_runtime": 39.8227,
+      "eval_samples_per_second": 261.183,
+      "eval_steps_per_second": 8.186,
+      "step": 2600
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 3900,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "total_flos": 4433294636163072.0,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-2600/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5863f7260e5f2acd6ed9097371440ce6f89c0fdc0fbea3c0b7bd599e0244316f
+size 4027

checkpoint-3900/config.json ADDED Viewed

	@@ -0,0 +1,46 @@

+{
+  "_name_or_path": "distilgpt2",
+  "_num_labels": 1,
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "id2label": {
+    "0": "LABEL_0"
+  },
+  "initializer_range": 0.02,
+  "label2id": {
+    "LABEL_0": 0
+  },
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 6,
+  "n_positions": 1024,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.32.1",
+  "use_cache": true,
+  "vocab_size": 50257
+}

checkpoint-3900/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.32.1"
+}

checkpoint-3900/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1a2cdf22127a37d9cbfec1697d33a6dd20c5bed3db9c6597819288615554f655
+size 655364037

checkpoint-3900/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4d254aeaf5388d54112768c1e776c979981bbe1ff7708fe3e83c9c20870b05fa
+size 327674773

checkpoint-3900/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e64853923e7e2bdc8669bfd7cdf72aa2ac6db3c7b3f443ec85518ea3ca067872
+size 14575

checkpoint-3900/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ddb3e76f913ba655b35f1677dd9ce4b515a60ebabae02f9cef6d01938028d265
+size 627

checkpoint-3900/trainer_state.json ADDED Viewed

	@@ -0,0 +1,511 @@

+{
+  "best_metric": 2.406733751296997,
+  "best_model_checkpoint": "./gpt2_dolly_lite/checkpoint-3900",
+  "epoch": 2.9994231878484907,
+  "eval_steps": 500,
+  "global_step": 3900,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0009871794871794872,
+      "loss": 3.3078,
+      "step": 50
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0009743589743589744,
+      "loss": 3.1249,
+      "step": 100
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0009615384615384616,
+      "loss": 3.1026,
+      "step": 150
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0009487179487179487,
+      "loss": 3.0496,
+      "step": 200
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.000935897435897436,
+      "loss": 2.9706,
+      "step": 250
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0009230769230769232,
+      "loss": 3.0195,
+      "step": 300
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0009102564102564102,
+      "loss": 2.9747,
+      "step": 350
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0008974358974358974,
+      "loss": 2.9205,
+      "step": 400
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0008846153846153846,
+      "loss": 2.9495,
+      "step": 450
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0008717948717948718,
+      "loss": 2.8866,
+      "step": 500
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0008589743589743589,
+      "loss": 2.892,
+      "step": 550
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0008461538461538462,
+      "loss": 2.8849,
+      "step": 600
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0008333333333333334,
+      "loss": 2.8819,
+      "step": 650
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0008205128205128205,
+      "loss": 2.8561,
+      "step": 700
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.0008076923076923078,
+      "loss": 2.8311,
+      "step": 750
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0007948717948717948,
+      "loss": 2.8176,
+      "step": 800
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.000782051282051282,
+      "loss": 2.7782,
+      "step": 850
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.0007692307692307693,
+      "loss": 2.7273,
+      "step": 900
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.0007564102564102564,
+      "loss": 2.7686,
+      "step": 950
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.0007435897435897436,
+      "loss": 2.7274,
+      "step": 1000
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.0007307692307692307,
+      "loss": 2.7514,
+      "step": 1050
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.000717948717948718,
+      "loss": 2.7232,
+      "step": 1100
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.0007051282051282052,
+      "loss": 2.6937,
+      "step": 1150
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.0006923076923076923,
+      "loss": 2.7209,
+      "step": 1200
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.0006794871794871796,
+      "loss": 2.6832,
+      "step": 1250
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.0006666666666666666,
+      "loss": 2.708,
+      "step": 1300
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 2.561117649078369,
+      "eval_runtime": 41.0726,
+      "eval_samples_per_second": 253.235,
+      "eval_steps_per_second": 7.937,
+      "step": 1300
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.0006538461538461538,
+      "loss": 2.2119,
+      "step": 1350
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.0006410256410256411,
+      "loss": 2.2279,
+      "step": 1400
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.0006282051282051282,
+      "loss": 2.1996,
+      "step": 1450
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.0006153846153846154,
+      "loss": 2.1886,
+      "step": 1500
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.0006025641025641026,
+      "loss": 2.268,
+      "step": 1550
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.0005897435897435898,
+      "loss": 2.2118,
+      "step": 1600
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.0005769230769230769,
+      "loss": 2.2831,
+      "step": 1650
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.0005641025641025641,
+      "loss": 2.2317,
+      "step": 1700
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.0005512820512820514,
+      "loss": 2.2504,
+      "step": 1750
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.0005384615384615384,
+      "loss": 2.241,
+      "step": 1800
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.0005256410256410256,
+      "loss": 2.2381,
+      "step": 1850
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.0005128205128205128,
+      "loss": 2.2313,
+      "step": 1900
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.0005,
+      "loss": 2.2493,
+      "step": 1950
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.0004871794871794872,
+      "loss": 2.2056,
+      "step": 2000
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.00047435897435897434,
+      "loss": 2.2178,
+      "step": 2050
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.0004615384615384616,
+      "loss": 2.2518,
+      "step": 2100
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.0004487179487179487,
+      "loss": 2.2354,
+      "step": 2150
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 0.0004358974358974359,
+      "loss": 2.2144,
+      "step": 2200
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 0.0004230769230769231,
+      "loss": 2.2197,
+      "step": 2250
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 0.00041025641025641023,
+      "loss": 2.2006,
+      "step": 2300
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 0.0003974358974358974,
+      "loss": 2.1802,
+      "step": 2350
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 0.00038461538461538467,
+      "loss": 2.1656,
+      "step": 2400
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 0.0003717948717948718,
+      "loss": 2.1592,
+      "step": 2450
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.000358974358974359,
+      "loss": 2.1847,
+      "step": 2500
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 0.00034615384615384613,
+      "loss": 2.1981,
+      "step": 2550
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.0003333333333333333,
+      "loss": 2.1768,
+      "step": 2600
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 2.41491436958313,
+      "eval_runtime": 39.8227,
+      "eval_samples_per_second": 261.183,
+      "eval_steps_per_second": 8.186,
+      "step": 2600
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 0.00032051282051282057,
+      "loss": 1.7593,
+      "step": 2650
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 0.0003076923076923077,
+      "loss": 1.7591,
+      "step": 2700
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 0.0002948717948717949,
+      "loss": 1.7473,
+      "step": 2750
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 0.00028205128205128203,
+      "loss": 1.7836,
+      "step": 2800
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 0.0002692307692307692,
+      "loss": 1.7636,
+      "step": 2850
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 0.0002564102564102564,
+      "loss": 1.763,
+      "step": 2900
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 0.0002435897435897436,
+      "loss": 1.7639,
+      "step": 2950
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 0.0002307692307692308,
+      "loss": 1.791,
+      "step": 3000
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 0.00021794871794871795,
+      "loss": 1.7802,
+      "step": 3050
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 0.00020512820512820512,
+      "loss": 1.7899,
+      "step": 3100
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 0.00019230769230769233,
+      "loss": 1.7601,
+      "step": 3150
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 0.0001794871794871795,
+      "loss": 1.7696,
+      "step": 3200
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 0.00016666666666666666,
+      "loss": 1.7586,
+      "step": 3250
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 0.00015384615384615385,
+      "loss": 1.7312,
+      "step": 3300
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 0.00014102564102564101,
+      "loss": 1.7353,
+      "step": 3350
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 0.0001282051282051282,
+      "loss": 1.7453,
+      "step": 3400
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 0.0001153846153846154,
+      "loss": 1.7397,
+      "step": 3450
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 0.00010256410256410256,
+      "loss": 1.7529,
+      "step": 3500
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 8.974358974358975e-05,
+      "loss": 1.7464,
+      "step": 3550
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 7.692307692307693e-05,
+      "loss": 1.7271,
+      "step": 3600
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 6.41025641025641e-05,
+      "loss": 1.7631,
+      "step": 3650
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 5.128205128205128e-05,
+      "loss": 1.7462,
+      "step": 3700
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 3.846153846153846e-05,
+      "loss": 1.7318,
+      "step": 3750
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 2.564102564102564e-05,
+      "loss": 1.724,
+      "step": 3800
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 1.282051282051282e-05,
+      "loss": 1.7065,
+      "step": 3850
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 0.0,
+      "loss": 1.7189,
+      "step": 3900
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 2.406733751296997,
+      "eval_runtime": 39.7653,
+      "eval_samples_per_second": 261.56,
+      "eval_steps_per_second": 8.198,
+      "step": 3900
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 3900,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "total_flos": 6647135438315520.0,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-3900/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5863f7260e5f2acd6ed9097371440ce6f89c0fdc0fbea3c0b7bd599e0244316f
+size 4027

config.json ADDED Viewed

	@@ -0,0 +1,46 @@

+{
+  "_name_or_path": "distilgpt2",
+  "_num_labels": 1,
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "id2label": {
+    "0": "LABEL_0"
+  },
+  "initializer_range": 0.02,
+  "label2id": {
+    "LABEL_0": 0
+  },
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 6,
+  "n_positions": 1024,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.32.1",
+  "use_cache": true,
+  "vocab_size": 50257
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.32.1"
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4d254aeaf5388d54112768c1e776c979981bbe1ff7708fe3e83c9c20870b05fa
+size 327674773

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5863f7260e5f2acd6ed9097371440ce6f89c0fdc0fbea3c0b7bd599e0244316f
+size 4027