Spaces:

Ptato
/

Sentiment-Analysis

Sleeping

App Files Files Community

Ptato commited on Apr 26, 2023

Commit

3bc73f1

1 Parent(s): 30ec224

bug-fix

Browse files

Files changed (1) hide show

app.py +20 -15

app.py CHANGED Viewed

@@ -20,9 +20,15 @@ if 'id2label' not in st.session_state:
     st.session_state.id2label = {idx: label for idx, label in enumerate(st.session_state.labels)}
 if 'filled' not in st.session_state:
     st.session_state.filled = False
 form = st.form(key='Sentiment Analysis')
-st.session_state.options = ['bertweet-base-sentiment-analysis',
            'distilbert-base-uncased-finetuned-sst-2-english',
            'twitter-roberta-base-sentiment',
            'Modified Bert Toxicity Classification'
@@ -43,6 +49,10 @@ if not st.session_state.filled:
         text = st.session_state.df["comment_text"].iloc[x][:128]
         for s in st.session_state.options:
             pline = None
             if s == 'bertweet-base-sentiment-analysis':
                 pline = pipeline(task="sentiment-analysis", model="finiteautomata/bertweet-base-sentiment-analysis")
             elif s == 'twitter-roberta-base-sentiment':
@@ -50,16 +60,13 @@ if not st.session_state.filled:
             elif s == 'distilbert-base-uncased-finetuned-sst-2-english':
                 pline = pipeline(task="sentiment-analysis", model="distilbert-base-uncased-finetuned-sst-2-english")
             else:
-                model = AutoModelForSequenceClassification.from_pretrained("Ptato/Modified-Bert-Toxicity-Classification")
-                model.eval()
-                tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
-                encoding = tokenizer(tweet, return_tensors="pt")
-                encoding = {k: v.to(model.device) for k,v in encoding.items()}
-                predictions = model(**encoding)
                 logits = predictions.logits
                 sigmoid = torch.nn.Sigmoid()
                 probs = sigmoid(logits.squeeze().cpu())
-                predicts = np.zeros(probs.shape)
                 predictions[np.where(probs >= 0.5)] = 1
                 predicted_labels = [st.session_state.id2label[idx] for idx, label in enumerate(predictions) if label == 1.0]
             log = []
@@ -106,7 +113,7 @@ if not st.session_state.filled:
             else:
                 log = [0] * 6
                 log[1] = text
-                if max(predicts) == 0:
                     log[0] = 0
                     log[2] = ("NO TOXICITY")
                     log[3] = (f"{100 - round(probs[0].item() * 100, 1)}%")
@@ -116,7 +123,7 @@ if not st.session_state.filled:
                     log[0] = 1
                     _max = 0
                     _max2 = 2
-                    for i in range(1, len(predicts)):
                         if probs[i].item() > probs[_max].item():
                             _max = i
                         if i > 2 and probs[i].item() > probs[_max2].item():
@@ -144,11 +151,9 @@ if submit and tweet:
         elif box == 'distilbert-base-uncased-finetuned-sst-2-english':
             pline = pipeline(task="sentiment-analysis", model="distilbert-base-uncased-finetuned-sst-2-english")
         else:
-            model = AutoModelForSequenceClassification.from_pretrained("Ptato/Modified-Bert-Toxicity-Classification")
-            tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
-            encoding = tokenizer(tweet, return_tensors="pt")
-            encoding = {k: v.to(model.device) for k,v in encoding.items()}
-            predictions = model(**encoding)
             logits = predictions.logits
             sigmoid = torch.nn.Sigmoid()
             probs = sigmoid(logits.squeeze().cpu())

     st.session_state.id2label = {idx: label for idx, label in enumerate(st.session_state.labels)}
 if 'filled' not in st.session_state:
     st.session_state.filled = False
+if 'model' not in st.session_state:
+    st.session_state.model = AutoModelForSequenceClassification.from_pretrained("Ptato/Modified-Bert-Toxicity-Classification")
+    st.session_state.model.eval()
+if 'tokenizer' not in st.session_state:
+    st.session_state.tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
 form = st.form(key='Sentiment Analysis')
+st.session_state.options = [
+    'bertweet-base-sentiment-analysis',
            'distilbert-base-uncased-finetuned-sst-2-english',
            'twitter-roberta-base-sentiment',
            'Modified Bert Toxicity Classification'
         text = st.session_state.df["comment_text"].iloc[x][:128]
         for s in st.session_state.options:
             pline = None
+            predictions = None
+            encoding = None
+            logits = None
+            probs = None
             if s == 'bertweet-base-sentiment-analysis':
                 pline = pipeline(task="sentiment-analysis", model="finiteautomata/bertweet-base-sentiment-analysis")
             elif s == 'twitter-roberta-base-sentiment':
             elif s == 'distilbert-base-uncased-finetuned-sst-2-english':
                 pline = pipeline(task="sentiment-analysis", model="distilbert-base-uncased-finetuned-sst-2-english")
             else:
+                encoding = st.session_state.tokenizer(text, return_tensors="pt")
+                encoding = {k: v.to(st.session_state.model.device) for k, v in encoding.items()}
+                predictions = st.session_state.model(**encoding)
                 logits = predictions.logits
                 sigmoid = torch.nn.Sigmoid()
                 probs = sigmoid(logits.squeeze().cpu())
+                predictions = np.zeros(probs.shape)
                 predictions[np.where(probs >= 0.5)] = 1
                 predicted_labels = [st.session_state.id2label[idx] for idx, label in enumerate(predictions) if label == 1.0]
             log = []
             else:
                 log = [0] * 6
                 log[1] = text
+                if max(predictions) == 0:
                     log[0] = 0
                     log[2] = ("NO TOXICITY")
                     log[3] = (f"{100 - round(probs[0].item() * 100, 1)}%")
                     log[0] = 1
                     _max = 0
                     _max2 = 2
+                    for i in range(1, len(predictions)):
                         if probs[i].item() > probs[_max].item():
                             _max = i
                         if i > 2 and probs[i].item() > probs[_max2].item():
         elif box == 'distilbert-base-uncased-finetuned-sst-2-english':
             pline = pipeline(task="sentiment-analysis", model="distilbert-base-uncased-finetuned-sst-2-english")
         else:
+            encoding = st.session_state.tokenizer(tweet, return_tensors="pt")
+            encoding = {k: v.to(st.session_state.model.device) for k,v in encoding.items()}
+            predictions = st.session_state.model(**encoding)
             logits = predictions.logits
             sigmoid = torch.nn.Sigmoid()
             probs = sigmoid(logits.squeeze().cpu())