Spaces:

biodatlab
/

score-claim-identification-demo

Sleeping

titipata commited on May 23, 2023

Commit

9cb9653

•

1 Parent(s): 1673527

Using spacy for sentence tokenization

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,7 +1,10 @@
 from transformers import AutoTokenizer
 from transformers import AutoModelForSequenceClassification
 import gradio as gr
 model_name = "biodatlab/score-claim-identification"
 tokenizer_name = "allenai/scibert_scivocab_uncased"
@@ -13,8 +16,10 @@ def inference(abstract: str):
     """
     Split an abstract into sentences and perform claim identification.
     """
     claims = []
-    sents = abstract.split('. ')
     inputs = tokenizer(
         sents,
         return_tensors="pt",

 from transformers import AutoTokenizer
 from transformers import AutoModelForSequenceClassification
+import spacy
 import gradio as gr
+spacy.cli.download("en_core_web_lg")
+nlp = spacy.load("en_core_web_lg")
 model_name = "biodatlab/score-claim-identification"
 tokenizer_name = "allenai/scibert_scivocab_uncased"
     """
     Split an abstract into sentences and perform claim identification.
     """
+    if abstract.strip() == "":
+        return "Please provide an abstract as an input."
     claims = []
+    sents = [sent.text for sent in nlp(abstract).sents]  # abstract to sentences
     inputs = tokenizer(
         sents,
         return_tensors="pt",