model improved

Browse files

Files changed (6) hide show

README.md +1 -1
config.json +152 -141
maker.py +4 -4
pytorch_model.bin +2 -2
tokenizer.json +0 -0
training_args.bin +0 -3

README.md CHANGED Viewed

@@ -17,7 +17,7 @@ widget:
 ## Model Description
-This is a DeBERTa(V2) model pretrained on 青空文庫 texts for POS-tagging and dependency-parsing (using `goeswith` for subwords), derived from [deberta-large-japanese-aozora](https://huggingface.co/KoichiYasuoka/deberta-large-japanese-aozora) and [UD_Japanese-GSDLUW](https://github.com/UniversalDependencies/UD_Japanese-GSDLUW).
 ## How to Use

 ## Model Description
+This is a DeBERTa(V2) model pretrained on 青空文庫 texts for POS-tagging and dependency-parsing (using `goeswith` for subwords), derived from [deberta-large-japanese-luw-upos](https://huggingface.co/KoichiYasuoka/deberta-large-japanese-luw-upos) and [UD_Japanese-GSDLUW](https://github.com/UniversalDependencies/UD_Japanese-GSDLUW).
 ## How to Use

config.json CHANGED Viewed

@@ -20,8 +20,8 @@
     "3": "ADJ|_|amod",
     "4": "ADJ|_|ccomp",
     "5": "ADJ|_|csubj",
-    "6": "ADJ|_|dep",
-    "7": "ADJ|_|dislocated",
     "8": "ADJ|_|nmod",
     "9": "ADJ|_|nsubj",
     "10": "ADJ|_|obj",
@@ -35,73 +35,77 @@
     "18": "ADV|_|obj",
     "19": "ADV|_|root",
     "20": "AUX|Polarity=Neg|aux",
-    "21": "AUX|_|aux",
-    "22": "AUX|_|cop",
-    "23": "AUX|_|fixed",
-    "24": "AUX|_|root",
-    "25": "CCONJ|_|cc",
-    "26": "DET|_|det",
-    "27": "INTJ|_|discourse",
-    "28": "INTJ|_|root",
-    "29": "NOUN|Polarity=Neg|obl",
-    "30": "NOUN|Polarity=Neg|root",
-    "31": "NOUN|_|acl",
-    "32": "NOUN|_|advcl",
-    "33": "NOUN|_|ccomp",
-    "34": "NOUN|_|compound",
-    "35": "NOUN|_|csubj",
-    "36": "NOUN|_|dislocated",
-    "37": "NOUN|_|nmod",
-    "38": "NOUN|_|nsubj",
-    "39": "NOUN|_|obj",
-    "40": "NOUN|_|obl",
-    "41": "NOUN|_|root",
-    "42": "NUM|_|advcl",
-    "43": "NUM|_|compound",
-    "44": "NUM|_|dislocated",
-    "45": "NUM|_|nmod",
-    "46": "NUM|_|nsubj",
-    "47": "NUM|_|nummod",
-    "48": "NUM|_|obj",
-    "49": "NUM|_|obl",
-    "50": "NUM|_|root",
-    "51": "PART|_|mark",
-    "52": "PRON|_|acl",
-    "53": "PRON|_|advcl",
-    "54": "PRON|_|dislocated",
-    "55": "PRON|_|nmod",
-    "56": "PRON|_|nsubj",
-    "57": "PRON|_|obj",
-    "58": "PRON|_|obl",
-    "59": "PRON|_|root",
-    "60": "PROPN|_|acl",
-    "61": "PROPN|_|advcl",
-    "62": "PROPN|_|compound",
-    "63": "PROPN|_|dislocated",
-    "64": "PROPN|_|nmod",
-    "65": "PROPN|_|nsubj",
-    "66": "PROPN|_|obj",
-    "67": "PROPN|_|obl",
-    "68": "PROPN|_|root",
-    "69": "PUNCT|_|punct",
-    "70": "SCONJ|_|mark",
-    "71": "SYM|_|compound",
-    "72": "SYM|_|dep",
-    "73": "SYM|_|nmod",
-    "74": "SYM|_|obl",
-    "75": "VERB|_|acl",
-    "76": "VERB|_|advcl",
-    "77": "VERB|_|ccomp",
-    "78": "VERB|_|compound",
-    "79": "VERB|_|csubj",
-    "80": "VERB|_|dislocated",
-    "81": "VERB|_|nmod",
-    "82": "VERB|_|obj",
-    "83": "VERB|_|obl",
-    "84": "VERB|_|root",
-    "85": "X|_|dep",
-    "86": "X|_|goeswith",
-    "87": "X|_|nmod"
   },
   "initializer_range": 0.02,
   "intermediate_size": 4096,
@@ -112,8 +116,8 @@
     "ADJ|_|amod": 3,
     "ADJ|_|ccomp": 4,
     "ADJ|_|csubj": 5,
-    "ADJ|_|dep": 6,
-    "ADJ|_|dislocated": 7,
     "ADJ|_|nmod": 8,
     "ADJ|_|nsubj": 9,
     "ADJ|_|obj": 10,
@@ -127,73 +131,77 @@
     "ADV|_|obj": 18,
     "ADV|_|root": 19,
     "AUX|Polarity=Neg|aux": 20,
-    "AUX|_|aux": 21,
-    "AUX|_|cop": 22,
-    "AUX|_|fixed": 23,
-    "AUX|_|root": 24,
-    "CCONJ|_|cc": 25,
-    "DET|_|det": 26,
-    "INTJ|_|discourse": 27,
-    "INTJ|_|root": 28,
-    "NOUN|Polarity=Neg|obl": 29,
-    "NOUN|Polarity=Neg|root": 30,
-    "NOUN|_|acl": 31,
-    "NOUN|_|advcl": 32,
-    "NOUN|_|ccomp": 33,
-    "NOUN|_|compound": 34,
-    "NOUN|_|csubj": 35,
-    "NOUN|_|dislocated": 36,
-    "NOUN|_|nmod": 37,
-    "NOUN|_|nsubj": 38,
-    "NOUN|_|obj": 39,
-    "NOUN|_|obl": 40,
-    "NOUN|_|root": 41,
-    "NUM|_|advcl": 42,
-    "NUM|_|compound": 43,
-    "NUM|_|dislocated": 44,
-    "NUM|_|nmod": 45,
-    "NUM|_|nsubj": 46,
-    "NUM|_|nummod": 47,
-    "NUM|_|obj": 48,
-    "NUM|_|obl": 49,
-    "NUM|_|root": 50,
-    "PART|_|mark": 51,
-    "PRON|_|acl": 52,
-    "PRON|_|advcl": 53,
-    "PRON|_|dislocated": 54,
-    "PRON|_|nmod": 55,
-    "PRON|_|nsubj": 56,
-    "PRON|_|obj": 57,
-    "PRON|_|obl": 58,
-    "PRON|_|root": 59,
-    "PROPN|_|acl": 60,
-    "PROPN|_|advcl": 61,
-    "PROPN|_|compound": 62,
-    "PROPN|_|dislocated": 63,
-    "PROPN|_|nmod": 64,
-    "PROPN|_|nsubj": 65,
-    "PROPN|_|obj": 66,
-    "PROPN|_|obl": 67,
-    "PROPN|_|root": 68,
-    "PUNCT|_|punct": 69,
-    "SCONJ|_|mark": 70,
-    "SYM|_|compound": 71,
-    "SYM|_|dep": 72,
-    "SYM|_|nmod": 73,
-    "SYM|_|obl": 74,
-    "VERB|_|acl": 75,
-    "VERB|_|advcl": 76,
-    "VERB|_|ccomp": 77,
-    "VERB|_|compound": 78,
-    "VERB|_|csubj": 79,
-    "VERB|_|dislocated": 80,
-    "VERB|_|nmod": 81,
-    "VERB|_|obj": 82,
-    "VERB|_|obl": 83,
-    "VERB|_|root": 84,
-    "X|_|dep": 85,
-    "X|_|goeswith": 86,
-    "X|_|nmod": 87
   },
   "layer_norm_eps": 1e-07,
   "max_position_embeddings": 512,
@@ -205,9 +213,12 @@
   "pooler_dropout": 0,
   "pooler_hidden_act": "gelu",
   "pooler_hidden_size": 1024,
-  "pos_att_type": null,
-  "position_biased_input": true,
-  "relative_attention": false,
   "tokenizer_class": "DebertaV2TokenizerFast",
   "torch_dtype": "float32",
   "transformers_version": "4.22.1",

     "3": "ADJ|_|amod",
     "4": "ADJ|_|ccomp",
     "5": "ADJ|_|csubj",
+    "6": "ADJ|_|csubj:outer",
+    "7": "ADJ|_|dep",
     "8": "ADJ|_|nmod",
     "9": "ADJ|_|nsubj",
     "10": "ADJ|_|obj",
     "18": "ADV|_|obj",
     "19": "ADV|_|root",
     "20": "AUX|Polarity=Neg|aux",
+    "21": "AUX|Polarity=Neg|fixed",
+    "22": "AUX|_|aux",
+    "23": "AUX|_|cop",
+    "24": "AUX|_|fixed",
+    "25": "AUX|_|root",
+    "26": "CCONJ|_|cc",
+    "27": "DET|_|det",
+    "28": "INTJ|_|discourse",
+    "29": "INTJ|_|root",
+    "30": "NOUN|Polarity=Neg|obl",
+    "31": "NOUN|Polarity=Neg|root",
+    "32": "NOUN|_|acl",
+    "33": "NOUN|_|advcl",
+    "34": "NOUN|_|ccomp",
+    "35": "NOUN|_|compound",
+    "36": "NOUN|_|csubj",
+    "37": "NOUN|_|csubj:outer",
+    "38": "NOUN|_|nmod",
+    "39": "NOUN|_|nsubj",
+    "40": "NOUN|_|nsubj:outer",
+    "41": "NOUN|_|obj",
+    "42": "NOUN|_|obl",
+    "43": "NOUN|_|root",
+    "44": "NUM|_|advcl",
+    "45": "NUM|_|compound",
+    "46": "NUM|_|nmod",
+    "47": "NUM|_|nsubj",
+    "48": "NUM|_|nsubj:outer",
+    "49": "NUM|_|nummod",
+    "50": "NUM|_|obj",
+    "51": "NUM|_|obl",
+    "52": "NUM|_|root",
+    "53": "PART|_|mark",
+    "54": "PRON|_|acl",
+    "55": "PRON|_|advcl",
+    "56": "PRON|_|nmod",
+    "57": "PRON|_|nsubj",
+    "58": "PRON|_|nsubj:outer",
+    "59": "PRON|_|obj",
+    "60": "PRON|_|obl",
+    "61": "PRON|_|root",
+    "62": "PROPN|_|acl",
+    "63": "PROPN|_|advcl",
+    "64": "PROPN|_|compound",
+    "65": "PROPN|_|nmod",
+    "66": "PROPN|_|nsubj",
+    "67": "PROPN|_|nsubj:outer",
+    "68": "PROPN|_|obj",
+    "69": "PROPN|_|obl",
+    "70": "PROPN|_|root",
+    "71": "PUNCT|_|punct",
+    "72": "SCONJ|_|dep",
+    "73": "SCONJ|_|fixed",
+    "74": "SCONJ|_|mark",
+    "75": "SYM|_|compound",
+    "76": "SYM|_|dep",
+    "77": "SYM|_|nmod",
+    "78": "SYM|_|obl",
+    "79": "VERB|_|acl",
+    "80": "VERB|_|advcl",
+    "81": "VERB|_|ccomp",
+    "82": "VERB|_|compound",
+    "83": "VERB|_|csubj",
+    "84": "VERB|_|csubj:outer",
+    "85": "VERB|_|nmod",
+    "86": "VERB|_|obj",
+    "87": "VERB|_|obl",
+    "88": "VERB|_|root",
+    "89": "X|_|dep",
+    "90": "X|_|goeswith",
+    "91": "X|_|nmod"
   },
   "initializer_range": 0.02,
   "intermediate_size": 4096,
     "ADJ|_|amod": 3,
     "ADJ|_|ccomp": 4,
     "ADJ|_|csubj": 5,
+    "ADJ|_|csubj:outer": 6,
+    "ADJ|_|dep": 7,
     "ADJ|_|nmod": 8,
     "ADJ|_|nsubj": 9,
     "ADJ|_|obj": 10,
     "ADV|_|obj": 18,
     "ADV|_|root": 19,
     "AUX|Polarity=Neg|aux": 20,
+    "AUX|Polarity=Neg|fixed": 21,
+    "AUX|_|aux": 22,
+    "AUX|_|cop": 23,
+    "AUX|_|fixed": 24,
+    "AUX|_|root": 25,
+    "CCONJ|_|cc": 26,
+    "DET|_|det": 27,
+    "INTJ|_|discourse": 28,
+    "INTJ|_|root": 29,
+    "NOUN|Polarity=Neg|obl": 30,
+    "NOUN|Polarity=Neg|root": 31,
+    "NOUN|_|acl": 32,
+    "NOUN|_|advcl": 33,
+    "NOUN|_|ccomp": 34,
+    "NOUN|_|compound": 35,
+    "NOUN|_|csubj": 36,
+    "NOUN|_|csubj:outer": 37,
+    "NOUN|_|nmod": 38,
+    "NOUN|_|nsubj": 39,
+    "NOUN|_|nsubj:outer": 40,
+    "NOUN|_|obj": 41,
+    "NOUN|_|obl": 42,
+    "NOUN|_|root": 43,
+    "NUM|_|advcl": 44,
+    "NUM|_|compound": 45,
+    "NUM|_|nmod": 46,
+    "NUM|_|nsubj": 47,
+    "NUM|_|nsubj:outer": 48,
+    "NUM|_|nummod": 49,
+    "NUM|_|obj": 50,
+    "NUM|_|obl": 51,
+    "NUM|_|root": 52,
+    "PART|_|mark": 53,
+    "PRON|_|acl": 54,
+    "PRON|_|advcl": 55,
+    "PRON|_|nmod": 56,
+    "PRON|_|nsubj": 57,
+    "PRON|_|nsubj:outer": 58,
+    "PRON|_|obj": 59,
+    "PRON|_|obl": 60,
+    "PRON|_|root": 61,
+    "PROPN|_|acl": 62,
+    "PROPN|_|advcl": 63,
+    "PROPN|_|compound": 64,
+    "PROPN|_|nmod": 65,
+    "PROPN|_|nsubj": 66,
+    "PROPN|_|nsubj:outer": 67,
+    "PROPN|_|obj": 68,
+    "PROPN|_|obl": 69,
+    "PROPN|_|root": 70,
+    "PUNCT|_|punct": 71,
+    "SCONJ|_|dep": 72,
+    "SCONJ|_|fixed": 73,
+    "SCONJ|_|mark": 74,
+    "SYM|_|compound": 75,
+    "SYM|_|dep": 76,
+    "SYM|_|nmod": 77,
+    "SYM|_|obl": 78,
+    "VERB|_|acl": 79,
+    "VERB|_|advcl": 80,
+    "VERB|_|ccomp": 81,
+    "VERB|_|compound": 82,
+    "VERB|_|csubj": 83,
+    "VERB|_|csubj:outer": 84,
+    "VERB|_|nmod": 85,
+    "VERB|_|obj": 86,
+    "VERB|_|obl": 87,
+    "VERB|_|root": 88,
+    "X|_|dep": 89,
+    "X|_|goeswith": 90,
+    "X|_|nmod": 91
   },
   "layer_norm_eps": 1e-07,
   "max_position_embeddings": 512,
   "pooler_dropout": 0,
   "pooler_hidden_act": "gelu",
   "pooler_hidden_size": 1024,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "relative_attention": true,
   "tokenizer_class": "DebertaV2TokenizerFast",
   "torch_dtype": "float32",
   "transformers_version": "4.22.1",

maker.py CHANGED Viewed

@@ -1,5 +1,5 @@
 #! /usr/bin/python3
-src="KoichiYasuoka/deberta-large-japanese-aozora"
 tgt="KoichiYasuoka/deberta-large-japanese-aozora-ud-goeswith"
 url="https://github.com/UniversalDependencies/UD_Japanese-GSDLUW"
 import os
@@ -46,9 +46,9 @@ trainDS=UDgoeswithDataset("train.conllu",tkz)
 devDS=UDgoeswithDataset("dev.conllu",tkz)
 testDS=UDgoeswithDataset("test.conllu",tkz)
 lid=trainDS(devDS,testDS)
-cfg=AutoConfig.from_pretrained(src,num_labels=len(lid),label2id=lid,id2label={i:l for l,i in lid.items()})
-arg=TrainingArguments(num_train_epochs=3,per_device_train_batch_size=32,output_dir="/tmp",overwrite_output_dir=True,save_total_limit=2,evaluation_strategy="epoch",learning_rate=5e-05,warmup_ratio=0.1)
-trn=Trainer(args=arg,data_collator=DataCollatorForTokenClassification(tkz),model=AutoModelForTokenClassification.from_pretrained(src,config=cfg),train_dataset=trainDS,eval_dataset=devDS)
 trn.train()
 trn.save_model(tgt)
 tkz.save_pretrained(tgt)

 #! /usr/bin/python3
+src="KoichiYasuoka/deberta-large-japanese-luw-upos"
 tgt="KoichiYasuoka/deberta-large-japanese-aozora-ud-goeswith"
 url="https://github.com/UniversalDependencies/UD_Japanese-GSDLUW"
 import os
 devDS=UDgoeswithDataset("dev.conllu",tkz)
 testDS=UDgoeswithDataset("test.conllu",tkz)
 lid=trainDS(devDS,testDS)
+cfg=AutoConfig.from_pretrained(src,num_labels=len(lid),label2id=lid,id2label={i:l for l,i in lid.items()},task_specific_params=None,ignore_mismatched_sizes=True)
+arg=TrainingArguments(num_train_epochs=3,per_device_train_batch_size=16,output_dir="/tmp",overwrite_output_dir=True,save_total_limit=2,evaluation_strategy="epoch",learning_rate=5e-05,warmup_ratio=0.1)
+trn=Trainer(args=arg,data_collator=DataCollatorForTokenClassification(tkz),model=AutoModelForTokenClassification.from_pretrained(src,config=cfg,ignore_mismatched_sizes=True),train_dataset=trainDS,eval_dataset=devDS)
 trn.train()
 trn.save_model(tgt)
 tkz.save_pretrained(tgt)

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:33b8461274971c818c6736e78138330ebd3758a4f910fa5b3eaef72d701d02f2
-size 1342912499

 version https://git-lfs.github.com/spec/v1
+oid sha256:d578f36fc7b6326126331f8f3642ce61ce7191a116d9e3c190d1dc20735a8f03
+size 1546582835

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:4c39958a1a96c80c2eb1858d29a204a873727b9899d4ccef6da6898e50f364c9
-size 3311