initial release

Browse files

Files changed (9) hide show

README.md +56 -0
config.json +0 -0
maker.py +62 -0
merges.txt +0 -0
pytorch_model.bin +3 -0
special_tokens_map.json +15 -0
tokenizer.json +0 -0
tokenizer_config.json +15 -0
vocab.json +0 -0

README.md ADDED Viewed

	@@ -0,0 +1,56 @@

+---
+language:
+- "en"
+tags:
+- "english"
+- "token-classification"
+- "pos"
+- "dependency-parsing"
+datasets:
+- "universal_dependencies"
+license: "cc-by-sa-4.0"
+pipeline_tag: "token-classification"
+---
+# roberta-base-english-ud-goeswith
+## Model Description
+This is a RoBERTa model for POS-tagging and dependency-parsing (using `goeswith` for subwords), derived from [roberta-base](https://huggingface.co/roberta-base).
+## How to Use
+```py
+class UDgoeswith(object):
+  def __init__(self,bert):
+    from transformers import AutoTokenizer,AutoModelForTokenClassification
+    self.tokenizer=AutoTokenizer.from_pretrained(bert)
+    self.model=AutoModelForTokenClassification.from_pretrained(bert)
+  def __call__(self,text):
+    import numpy,torch,ufal.chu_liu_edmonds
+    w=self.tokenizer(text,return_offsets_mapping=True)
+    v=w["input_ids"]
+    n=len(v)-1
+    with torch.no_grad():
+      d=self.model(input_ids=torch.tensor([v[0:i]+[self.tokenizer.mask_token_id]+v[i+1:]+[v[i]] for i in range(1,n)]))
+    e=d.logits.numpy()[:,1:n,:]
+    e[:,:,0]=numpy.nan
+    m=numpy.full((n,n),numpy.nan)
+    m[1:,1:]=numpy.nanmax(e,axis=2).transpose()
+    p=numpy.zeros((n,n))
+    p[1:,1:]=numpy.nanargmax(e,axis=2).transpose()
+    for i in range(1,n):
+      m[i,0],m[i,i],p[i,0]=m[i,i],numpy.nan,p[i,i]
+    h=ufal.chu_liu_edmonds.chu_liu_edmonds(m)[0]
+    u="# text = "+text+"\n"
+    v=[(s,e) for s,e in w["offset_mapping"] if s<e]
+    for i,(s,e) in enumerate(v,1):
+      q=self.model.config.id2label[p[i,h[i]]].split("|")
+      u+="\t".join([str(i),text[s:e],"_",q[0],"_","|".join(q[1:-1]),str(h[i]),q[-1],"_","_" if i<len(v) and e<v[i][0] else "SpaceAfter=No"])+"\n"
+    return u+"\n"
+nlp=UDgoeswith("KoichiYasuoka/roberta-base-english-ud-goeswith")
+print(nlp("I saw a horse yesterday which had no name"))
+```
+[ufal.chu-liu-edmonds](https://pypi.org/project/ufal.chu-liu-edmonds/) is required.

config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

maker.py ADDED Viewed

	@@ -0,0 +1,62 @@

+#! /usr/bin/python3
+src="roberta-base"
+tgt="KoichiYasuoka/roberta-base-english-ud-goeswith"
+import os
+for d in ["UD_English-EWT","UD_English-GUM","UD_English-ParTUT","UD_English-Lines","UD_English-Atis"]:
+  os.system("test -d "+d+" || git clone --depth=1 https://github.com/UniversalDependencies/"+d)
+os.system("for F in train dev test ; do cat UD_English-*/*-$F.conllu > $F.conllu ; done")
+class UDgoeswithDataset(object):
+  def __init__(self,conllu,tokenizer):
+    self.ids,self.tags,label=[],[],set()
+    with open(conllu,"r",encoding="utf-8") as r:
+      cls,sep,msk=tokenizer.cls_token_id,tokenizer.sep_token_id,tokenizer.mask_token_id
+      dep,c,m="-|_|dep",[],[0,1]
+      for s in r:
+        t=s.split("\t")
+        if len(t)==10:
+          if t[0].isdecimal():
+            i=int(t[0])
+            if not m[0]<i<=m[1]:
+              t[1]=" "+t[1]
+            c.append(t)
+            if t[9].find("SpaceAfter=No")>=0:
+              m=[i,i+1]
+          elif t[0].find("-")>0:
+            m=[int(i) for i in t[0].split("-")]
+        elif c!=[]:
+          v=tokenizer([t[1] for t in c],add_special_tokens=False)["input_ids"]
+          for i in range(len(v)-1,-1,-1):
+            for j in range(1,len(v[i])):
+              c.insert(i+1,[c[i][0],"_","_","X","_","_",c[i][0],"goeswith","_","_"])
+          y=["0"]+[t[0] for t in c]
+          h=[i if t[6]=="0" else y.index(t[6]) for i,t in enumerate(c,1)]
+          p,v=[t[3]+"|"+t[5]+"|"+t[7] for t in c],sum(v,[])
+          if len(v)<tokenizer.model_max_length-3:
+            self.ids.append([cls]+v+[sep])
+            self.tags.append([dep]+p+[dep])
+            label=set(sum([self.tags[-1],list(label)],[]))
+            for i,k in enumerate(v):
+              self.ids.append([cls]+v[0:i]+[msk]+v[i+1:]+[sep,k])
+              self.tags.append([dep]+[t if h[j]==i+1 else dep for j,t in enumerate(p)]+[dep,dep])
+          c,m=[],[0,1]
+    self.label2id={l:i for i,l in enumerate(sorted(label))}
+  def __call__(*args):
+    label=set(sum([list(t.label2id) for t in args],[]))
+    lid={l:i for i,l in enumerate(sorted(label))}
+    for t in args:
+      t.label2id=lid
+    return lid
+  __len__=lambda self:len(self.ids)
+  __getitem__=lambda self,i:{"input_ids":self.ids[i],"labels":[self.label2id[t] for t in self.tags[i]]}
+from transformers import AutoTokenizer,AutoConfig,AutoModelForTokenClassification,DataCollatorForTokenClassification,TrainingArguments,Trainer
+tkz=AutoTokenizer.from_pretrained(src)
+trainDS=UDgoeswithDataset("train.conllu",tkz)
+devDS=UDgoeswithDataset("dev.conllu",tkz)
+testDS=UDgoeswithDataset("test.conllu",tkz)
+lid=trainDS(devDS,testDS)
+cfg=AutoConfig.from_pretrained(src,num_labels=len(lid),label2id=lid,id2label={i:l for l,i in lid.items()})
+arg=TrainingArguments(num_train_epochs=3,per_device_train_batch_size=32,output_dir="/tmp",overwrite_output_dir=True,save_total_limit=2,evaluation_strategy="epoch",learning_rate=5e-05,warmup_ratio=0.1)
+trn=Trainer(args=arg,data_collator=DataCollatorForTokenClassification(tkz),model=AutoModelForTokenClassification.from_pretrained(src,config=cfg),train_dataset=trainDS,eval_dataset=devDS)
+trn.train()
+trn.save_model(tgt)
+tkz.save_pretrained(tgt)

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b76129d1e3c7a86725afdb3f38a92168f4fb0c23fe7866b312838a3b611af5fe
+size 504168881

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "add_prefix_space": false,
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "errors": "replace",
+  "mask_token": "<mask>",
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "special_tokens_map_file": null,
+  "tokenizer_class": "RobertaTokenizerFast",
+  "trim_offsets": true,
+  "unk_token": "<unk>"
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff