KoichiYasuoka
/

roberta-classical-chinese-base-ud-goeswith

Token Classification

Literary Chinese

classical chinese

literary chinese

ancient chinese

dependency-parsing

Inference Endpoints

Model card Files Files and versions Community

KoichiYasuoka commited on Oct 16, 2022

Commit

9892903

•

1 Parent(s): a09d0ab

root analysis improved

Files changed (1) hide show

README.md +7 -7

README.md CHANGED Viewed

@@ -34,16 +34,16 @@ class UDgoeswith(object):
     import numpy,torch,ufal.chu_liu_edmonds
     w=self.tokenizer(text,return_offsets_mapping=True)
     v=w["input_ids"]
-    n=len(v)-1
     with torch.no_grad():
-      d=self.model(input_ids=torch.tensor([v[0:i]+[self.tokenizer.mask_token_id]+v[i+1:]+[v[i]] for i in range(1,n)]))
-    e=d.logits.numpy()[:,1:n,:]
-    e[:,:,0]=numpy.nan
-    m=numpy.full((n,n),numpy.nan)
     m[1:,1:]=numpy.nanmax(e,axis=2).transpose()
-    p=numpy.zeros((n,n))
     p[1:,1:]=numpy.nanargmax(e,axis=2).transpose()
-    for i in range(1,n):
       m[i,0],m[i,i],p[i,0]=m[i,i],numpy.nan,p[i,i]
     h=ufal.chu_liu_edmonds.chu_liu_edmonds(m)[0]
     u="# text = "+text+"\n"

     import numpy,torch,ufal.chu_liu_edmonds
     w=self.tokenizer(text,return_offsets_mapping=True)
     v=w["input_ids"]
+    x=[v[0:i]+[self.tokenizer.mask_token_id]+v[i+1:]+[j] for i,j in enumerate(v[1:-1],1)]
     with torch.no_grad():
+      e=self.model(input_ids=torch.tensor(x)).logits.numpy()[:,1:-2,:]
+    r=[1 if i==0 else -1 if j.endswith("|root") else 0 for i,j in sorted(self.model.config.id2label.items())]
+    e+=numpy.where(numpy.add.outer(numpy.identity(e.shape[0]),r)==0,0,numpy.nan)
+    m=numpy.full((e.shape[0]+1,e.shape[1]+1),numpy.nan)
     m[1:,1:]=numpy.nanmax(e,axis=2).transpose()
+    p=numpy.zeros(m.shape)
     p[1:,1:]=numpy.nanargmax(e,axis=2).transpose()
+    for i in range(1,m.shape[0]):
       m[i,0],m[i,i],p[i,0]=m[i,i],numpy.nan,p[i,i]
     h=ufal.chu_liu_edmonds.chu_liu_edmonds(m)[0]
     u="# text = "+text+"\n"