Upload 13 files

Browse files

Files changed (13) hide show

added_tokens.json +3 -0
config.json +12 -7
merges.txt +0 -0
optimizer.pt +2 -2
pytorch_model.bin +2 -2
rng_state.pth +1 -1
scheduler.pt +1 -1
special_tokens_map.json +9 -0
spm.model +3 -0
tokenizer_config.json +12 -11
trainer_state.json +65 -185
training_args.bin +2 -2
vocab.json +0 -0

added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

config.json CHANGED Viewed

@@ -1,8 +1,7 @@
 {
-  "_name_or_path": "/content/drive/MyDrive/Data_For_Bert/BERT_racism/checkpoint-90000",
-  "_num_labels": 2,
   "architectures": [
-    "BertForMaskedLM"
   ],
   "attention_probs_dropout_prob": 0.1,
   "classifier_dropout": null,
@@ -11,17 +10,23 @@
   "hidden_size": 768,
   "initializer_range": 0.02,
   "intermediate_size": 3072,
-  "layer_norm_eps": 1e-12,
   "max_position_embeddings": 512,
   "model_type": "bert",
   "num_attention_heads": 12,
   "num_hidden_layers": 12,
-  "output_past": true,
   "pad_token_id": 0,
   "position_embedding_type": "absolute",
   "torch_dtype": "float32",
   "transformers_version": "4.26.0.dev0",
-  "type_vocab_size": 2,
   "use_cache": true,
-  "vocab_size": 30522
 }

 {
+  "_name_or_path": "microsoft/deberta-v3-base",
   "architectures": [
+    "DebertaV2ForMaskedLM"
   ],
   "attention_probs_dropout_prob": 0.1,
   "classifier_dropout": null,
   "hidden_size": 768,
   "initializer_range": 0.02,
   "intermediate_size": 3072,
+  "layer_norm_eps": 1e-07,
   "max_position_embeddings": 512,
+  "max_relative_positions": -1,
   "model_type": "bert",
+  "norm_rel_ebd": "layer_norm",
   "num_attention_heads": 12,
   "num_hidden_layers": 12,
   "pad_token_id": 0,
+  "pos_att_type": "p2c|c2p",
+  "position_biased_input": false,
+  "position_buckets": 256,
   "position_embedding_type": "absolute",
+  "relative_attention": true,
+  "share_att_key": true,
   "torch_dtype": "float32",
   "transformers_version": "4.26.0.dev0",
+  "type_vocab_size": 0,
   "use_cache": true,
+  "vocab_size": 128100
 }

merges.txt CHANGED Viewed

The diff for this file is too large to render. See raw diff

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3efb2bc80788e3daa67aa17d67fb6c0f17604873199b60e81d0835c577cfe075
-size 876232773

 version https://git-lfs.github.com/spec/v1
+oid sha256:4d619d7691af28e8f6f02dba974d8fe0ea229b3eeeca668cbb30f57cef2b65d3
+size 1476533253

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d5a45d7c0ee35f90c4e0c607ad65c8e38dca2bfb86308ccdf560065981936d31
-size 438130617

 version https://git-lfs.github.com/spec/v1
+oid sha256:b48c21b3747aaad55f1e56af06c5061b80292b51ca53655302d0db9631dfeffc
+size 738281789

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:17e9de62200b08187e47517ccd3a0bf530efc0142f9de17bc288408d02f6df55
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:be4d754cd5b0ab83c33e00889facce2acc25529484546e402e82fae8129d3cb5
 size 14575

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:803576f45f580b24287f72d7e63d4eb932e6ee47fe5e5102c8360a65c6d26b02
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:e6357cd353dfa90555ff09c45b944d9f4105d732ce3b83ffe5da3e0092a8a5b0
 size 627

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

spm.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c679fbf93643d19aab7ee10c0b99e460bdbc02fedf34b92b05af343b4af586fd
+size 2464616

tokenizer_config.json CHANGED Viewed

@@ -1,17 +1,18 @@
 {
   "cls_token": "[CLS]",
-  "do_basic_tokenize": true,
-  "do_lower_case": true,
   "mask_token": "[MASK]",
-  "max_len": 512,
-  "model_max_length": 512,
-  "name_or_path": "GroNLP/hateBERT",
-  "never_split": null,
   "pad_token": "[PAD]",
   "sep_token": "[SEP]",
-  "special_tokens_map_file": "/root/.cache/huggingface/hub/models--GroNLP--hateBERT/snapshots/f56d507e4b6a64413aff29e541e1b2178ee79d67/special_tokens_map.json",
-  "strip_accents": null,
-  "tokenize_chinese_chars": true,
-  "tokenizer_class": "BertTokenizer",
-  "unk_token": "[UNK]"
 }

 {
+  "bos_token": "[CLS]",
   "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
   "mask_token": "[MASK]",
+  "max_len": 768,
+  "model_max_length": 768,
+  "name_or_path": "microsoft/deberta-v3-base",
   "pad_token": "[PAD]",
   "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "special_tokens_map_file": null,
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
 }

trainer_state.json CHANGED Viewed

@@ -1,256 +1,136 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.3267493342482315,
-  "global_step": 20000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
-    {
-      "epoch": 0.01,
-      "learning_rate": 3.7438734499828454e-05,
-      "loss": 1.691,
-      "step": 500
-    },
     {
       "epoch": 0.02,
-      "learning_rate": 3.737746899965691e-05,
-      "loss": 1.7454,
-      "step": 1000
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 3.731620349948536e-05,
-      "loss": 1.6933,
-      "step": 1500
     },
     {
       "epoch": 0.03,
-      "learning_rate": 3.725493799931382e-05,
-      "loss": 1.7047,
-      "step": 2000
-    },
-    {
-      "epoch": 0.04,
-      "learning_rate": 3.719367249914228e-05,
-      "loss": 1.6615,
-      "step": 2500
     },
     {
       "epoch": 0.05,
-      "learning_rate": 3.7132406998970736e-05,
-      "loss": 1.6795,
-      "step": 3000
-    },
-    {
-      "epoch": 0.06,
-      "learning_rate": 3.7071141498799194e-05,
-      "loss": 1.6472,
-      "step": 3500
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 3.700987599862765e-05,
-      "loss": 1.6646,
-      "step": 4000
     },
     {
       "epoch": 0.07,
-      "learning_rate": 3.694861049845611e-05,
-      "loss": 1.6494,
-      "step": 4500
     },
     {
       "epoch": 0.08,
-      "learning_rate": 3.688734499828457e-05,
-      "loss": 1.6385,
-      "step": 5000
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 3.682607949811302e-05,
-      "loss": 1.6801,
-      "step": 5500
     },
     {
       "epoch": 0.1,
-      "learning_rate": 3.6764813997941475e-05,
-      "loss": 1.6442,
-      "step": 6000
-    },
-    {
-      "epoch": 0.11,
-      "learning_rate": 3.670354849776993e-05,
-      "loss": 1.6434,
-      "step": 6500
     },
     {
       "epoch": 0.11,
-      "learning_rate": 3.664228299759839e-05,
-      "loss": 1.6597,
-      "step": 7000
-    },
-    {
-      "epoch": 0.12,
-      "learning_rate": 3.658101749742685e-05,
-      "loss": 1.6386,
-      "step": 7500
     },
     {
       "epoch": 0.13,
-      "learning_rate": 3.65197519972553e-05,
-      "loss": 1.6254,
-      "step": 8000
-    },
-    {
-      "epoch": 0.14,
-      "learning_rate": 3.645848649708376e-05,
-      "loss": 1.6496,
-      "step": 8500
     },
     {
       "epoch": 0.15,
-      "learning_rate": 3.6397220996912214e-05,
-      "loss": 1.6526,
-      "step": 9000
-    },
-    {
-      "epoch": 0.16,
-      "learning_rate": 3.633595549674067e-05,
-      "loss": 1.6393,
-      "step": 9500
     },
     {
       "epoch": 0.16,
-      "learning_rate": 3.627468999656913e-05,
-      "loss": 1.6451,
-      "step": 10000
-    },
-    {
-      "epoch": 0.17,
-      "learning_rate": 3.621342449639758e-05,
-      "loss": 1.6414,
-      "step": 10500
     },
     {
       "epoch": 0.18,
-      "learning_rate": 3.6152158996226045e-05,
-      "loss": 1.6656,
-      "step": 11000
-    },
-    {
-      "epoch": 0.19,
-      "learning_rate": 3.60908934960545e-05,
-      "loss": 1.625,
-      "step": 11500
-    },
-    {
-      "epoch": 0.2,
-      "learning_rate": 3.6029627995882954e-05,
-      "loss": 1.6365,
-      "step": 12000
     },
     {
       "epoch": 0.2,
-      "learning_rate": 3.596836249571141e-05,
-      "loss": 1.6708,
-      "step": 12500
     },
     {
       "epoch": 0.21,
-      "learning_rate": 3.590709699553987e-05,
-      "loss": 1.6482,
-      "step": 13000
-    },
-    {
-      "epoch": 0.22,
-      "learning_rate": 3.584583149536833e-05,
-      "loss": 1.5945,
-      "step": 13500
     },
     {
       "epoch": 0.23,
-      "learning_rate": 3.5784565995196784e-05,
-      "loss": 1.6005,
-      "step": 14000
-    },
-    {
-      "epoch": 0.24,
-      "learning_rate": 3.5723300495025235e-05,
-      "loss": 1.6449,
-      "step": 14500
-    },
-    {
-      "epoch": 0.25,
-      "learning_rate": 3.566203499485369e-05,
-      "loss": 1.5985,
-      "step": 15000
     },
     {
       "epoch": 0.25,
-      "learning_rate": 3.560076949468215e-05,
-      "loss": 1.617,
-      "step": 15500
     },
     {
       "epoch": 0.26,
-      "learning_rate": 3.553950399451061e-05,
-      "loss": 1.6127,
-      "step": 16000
-    },
-    {
-      "epoch": 0.27,
-      "learning_rate": 3.5478238494339066e-05,
-      "loss": 1.6327,
-      "step": 16500
     },
     {
       "epoch": 0.28,
-      "learning_rate": 3.541697299416752e-05,
-      "loss": 1.6404,
-      "step": 17000
-    },
-    {
-      "epoch": 0.29,
-      "learning_rate": 3.5355707493995974e-05,
-      "loss": 1.595,
-      "step": 17500
     },
     {
       "epoch": 0.29,
-      "learning_rate": 3.529444199382444e-05,
-      "loss": 1.5921,
-      "step": 18000
-    },
-    {
-      "epoch": 0.3,
-      "learning_rate": 3.523317649365289e-05,
-      "loss": 1.6169,
-      "step": 18500
     },
     {
       "epoch": 0.31,
-      "learning_rate": 3.517191099348135e-05,
-      "loss": 1.6253,
-      "step": 19000
-    },
-    {
-      "epoch": 0.32,
-      "learning_rate": 3.5110645493309805e-05,
-      "loss": 1.6448,
-      "step": 19500
     },
     {
       "epoch": 0.33,
-      "learning_rate": 3.504937999313826e-05,
-      "loss": 1.6232,
-      "step": 20000
     }
   ],
-  "max_steps": 306045,
-  "num_train_epochs": 5,
-  "total_flos": 4486605689289600.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.32674399607907206,
+  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.02,
+      "learning_rate": 3.729578500245058e-05,
+      "loss": 6.3916,
+      "step": 500
     },
     {
       "epoch": 0.03,
+      "learning_rate": 3.7091570004901157e-05,
+      "loss": 5.0294,
+      "step": 1000
     },
     {
       "epoch": 0.05,
+      "learning_rate": 3.6887355007351737e-05,
+      "loss": 4.6716,
+      "step": 1500
     },
     {
       "epoch": 0.07,
+      "learning_rate": 3.6683140009802316e-05,
+      "loss": 4.4325,
+      "step": 2000
     },
     {
       "epoch": 0.08,
+      "learning_rate": 3.6478925012252896e-05,
+      "loss": 4.2343,
+      "step": 2500
     },
     {
       "epoch": 0.1,
+      "learning_rate": 3.6274710014703476e-05,
+      "loss": 4.1306,
+      "step": 3000
     },
     {
       "epoch": 0.11,
+      "learning_rate": 3.6070495017154056e-05,
+      "loss": 4.056,
+      "step": 3500
     },
     {
       "epoch": 0.13,
+      "learning_rate": 3.5866280019604636e-05,
+      "loss": 3.9515,
+      "step": 4000
     },
     {
       "epoch": 0.15,
+      "learning_rate": 3.5662065022055216e-05,
+      "loss": 3.8561,
+      "step": 4500
     },
     {
       "epoch": 0.16,
+      "learning_rate": 3.5457850024505796e-05,
+      "loss": 3.8194,
+      "step": 5000
     },
     {
       "epoch": 0.18,
+      "learning_rate": 3.5253635026956376e-05,
+      "loss": 3.7632,
+      "step": 5500
     },
     {
       "epoch": 0.2,
+      "learning_rate": 3.5049420029406956e-05,
+      "loss": 3.7016,
+      "step": 6000
     },
     {
       "epoch": 0.21,
+      "learning_rate": 3.4845205031857536e-05,
+      "loss": 3.6589,
+      "step": 6500
     },
     {
       "epoch": 0.23,
+      "learning_rate": 3.4640990034308116e-05,
+      "loss": 3.645,
+      "step": 7000
     },
     {
       "epoch": 0.25,
+      "learning_rate": 3.4436775036758696e-05,
+      "loss": 3.5688,
+      "step": 7500
     },
     {
       "epoch": 0.26,
+      "learning_rate": 3.4232560039209276e-05,
+      "loss": 3.558,
+      "step": 8000
     },
     {
       "epoch": 0.28,
+      "learning_rate": 3.4028345041659856e-05,
+      "loss": 3.5789,
+      "step": 8500
     },
     {
       "epoch": 0.29,
+      "learning_rate": 3.3824130044110436e-05,
+      "loss": 3.5275,
+      "step": 9000
     },
     {
       "epoch": 0.31,
+      "learning_rate": 3.3619915046561016e-05,
+      "loss": 3.4434,
+      "step": 9500
     },
     {
       "epoch": 0.33,
+      "learning_rate": 3.3415700049011596e-05,
+      "loss": 3.4455,
+      "step": 10000
     }
   ],
+  "max_steps": 91815,
+  "num_train_epochs": 3,
+  "total_flos": 4657287913271424.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9440ca29a771ae95de805c0f8b289de7b342428a78875730b6fc863782dd8d92
-size 3643

 version https://git-lfs.github.com/spec/v1
+oid sha256:772c12184f183531438a23ce20c0ac2de0537c7af53700692ae8f1564bbdf0ef
+size 3515

vocab.json CHANGED Viewed

The diff for this file is too large to render. See raw diff