Upload 12 files

Browse files

Files changed (12) hide show

config.json +42 -0
generation_config.json +6 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +7 -0
tokenizer.json +0 -0
tokenizer_config.json +57 -0
trainer_state.json +111 -0
training_args.bin +3 -0
vocab.txt +0 -0

config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "_name_or_path": "/data/tianxing/PycharmProjects/Transformers/examples/conversational/few_shot_intent/../../../pretrained_models/huggingface/uer/gpt2-chinese-cluecorpussmall",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "gradient_checkpointing": false,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 12,
+  "n_positions": 1024,
+  "output_past": true,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 320
+    }
+  },
+  "tokenizer_class": "BertTokenizer",
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.2",
+  "use_cache": true,
+  "vocab_size": 21128
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.38.2"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:264123f3b0522dcc97d258297af6223df6d275b7ad1a684c5586061a8c8826b7
+size 408289920

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be6ea2adac57e0df56d042e03e01fb971cc0a11b7902f1a4f6a6bbe5ae3c6158
+size 816673221

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a2dd7ad886a9422c7ef528675a29256443d4b76eea2a593fcb3fe03d94b0a878
+size 14575

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5d497170a557a58e02563b153fcabeac5f382a0f8581b768182b1d97128371f3
+size 627

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": false,
+  "mask_token": "[MASK]",
+  "model_max_length": 1024,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,111 @@

+{
+  "best_metric": 1.2666095495224,
+  "best_model_checkpoint": "/data/tianxing/PycharmProjects/Transformers/examples/conversational/few_shot_intent/file_dir/serialization_dir/checkpoint-6000",
+  "epoch": 0.17463054724847743,
+  "eval_steps": 1000,
+  "global_step": 6000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03,
+      "grad_norm": 0.6197968125343323,
+      "learning_rate": 0.0002,
+      "loss": 1.7096,
+      "step": 1000
+    },
+    {
+      "epoch": 0.03,
+      "eval_loss": 1.4217256307601929,
+      "eval_runtime": 2455.1897,
+      "eval_samples_per_second": 118.455,
+      "eval_steps_per_second": 14.807,
+      "step": 1000
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 0.3991679549217224,
+      "learning_rate": 0.00019400443671682956,
+      "loss": 1.2426,
+      "step": 2000
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 1.3142809867858887,
+      "eval_runtime": 2454.5071,
+      "eval_samples_per_second": 118.488,
+      "eval_steps_per_second": 14.811,
+      "step": 2000
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 0.3880527913570404,
+      "learning_rate": 0.0001880088734336591,
+      "loss": 1.1529,
+      "step": 3000
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 1.2872347831726074,
+      "eval_runtime": 2455.0423,
+      "eval_samples_per_second": 118.462,
+      "eval_steps_per_second": 14.808,
+      "step": 3000
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 0.3351105749607086,
+      "learning_rate": 0.00018201331015048865,
+      "loss": 1.0968,
+      "step": 4000
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 1.2708055973052979,
+      "eval_runtime": 2454.672,
+      "eval_samples_per_second": 118.48,
+      "eval_steps_per_second": 14.81,
+      "step": 4000
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 0.42601627111434937,
+      "learning_rate": 0.0001760177468673182,
+      "loss": 1.0568,
+      "step": 5000
+    },
+    {
+      "epoch": 0.15,
+      "eval_loss": 1.2738263607025146,
+      "eval_runtime": 2454.9426,
+      "eval_samples_per_second": 118.467,
+      "eval_steps_per_second": 14.808,
+      "step": 5000
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 0.3943077027797699,
+      "learning_rate": 0.00017002218358414775,
+      "loss": 1.0274,
+      "step": 6000
+    },
+    {
+      "epoch": 0.17,
+      "eval_loss": 1.2666095495224,
+      "eval_runtime": 2453.7183,
+      "eval_samples_per_second": 118.526,
+      "eval_steps_per_second": 14.816,
+      "step": 6000
+    }
+  ],
+  "logging_steps": 1000,
+  "max_steps": 34358,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 1000,
+  "total_flos": 1.9766892483628237e+17,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c966c450aac56ceea5918e4254e4d4dd5eaa4a16fdda74aa42cdb35ff2dde9c6
+size 4603

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff