Spaces:

joshcx
/

workers

Runtime error

App Files Files Community

joshcx commited on May 23, 2022

Commit

e266c02

•

1 Parent(s): 1bc534a

Cache is not working.

Browse files

Files changed (18) hide show

.DS_Store +0 -0
app.py +16 -2
models/.DS_Store +0 -0
models/roberta-large/.DS_Store +0 -0
models/roberta-large/config.json +40 -0
models/roberta-large/merges.txt +0 -0
models/roberta-large/pytorch_model.bin +3 -0
models/roberta-large/runs/.DS_Store +0 -0
models/roberta-large/runs/May10_08-20-25_aa60e833fd05/.DS_Store +0 -0
models/roberta-large/runs/May10_08-20-25_aa60e833fd05/1652170830.6680446/events.out.tfevents.1652170830.aa60e833fd05.33.1 +3 -0
models/roberta-large/runs/May10_08-20-25_aa60e833fd05/events.out.tfevents.1652170830.aa60e833fd05.33.0 +3 -0
models/roberta-large/special_tokens_map.json +1 -0
models/roberta-large/tokenizer.json +0 -0
models/roberta-large/tokenizer_config.json +1 -0
models/roberta-large/training_args.bin +3 -0
models/roberta-large/vocab.json +0 -0
requirements.txt +0 -104
worker.py +134 -0

.DS_Store ADDED Viewed

Binary file (8.2 kB). View file

app.py CHANGED Viewed

@@ -1,4 +1,18 @@
 import streamlit as st
-x = st.slider("Select a value")
-st.write(x, "squared is", x * x)

 import streamlit as st
+from worker import WorkerClassifier
+MODEL_DIR = "./models/roberta-large"
+worker_clf = WorkerClassifier(MODEL_DIR)
+worker_clf.init_models()
+text = st.text_input(
+    "Worker Profile Description", "This candidate is a very warm and kind..."
+)
+proc_input, output = worker_clf.predict(text)
+st.write(f"**Text used to classify worker profile:**")
+st.write(proc_input)
+st.write("**Predicted Worker Profile:**")
+for i, o in zip(proc_input, output):
+    st.write(o[0])

models/.DS_Store ADDED Viewed

Binary file (6.15 kB). View file

models/roberta-large/.DS_Store ADDED Viewed

Binary file (6.15 kB). View file

models/roberta-large/config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "_name_or_path": "roberta-large",
+  "architectures": [
+    "RobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": "lauren",
+    "1": "betty",
+    "2": "doris",
+    "3": "hailey"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "betty": 1,
+    "doris": 2,
+    "hailey": 3,
+    "lauren": 0
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "problem_type": "multi_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.18.0",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 50265
+}

models/roberta-large/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

models/roberta-large/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b975f3dc57dbc684675ad653ee20c79a9f27a099be183d81a710d62ea3c98e35
+size 1421592557

models/roberta-large/runs/.DS_Store ADDED Viewed

Binary file (6.15 kB). View file

models/roberta-large/runs/May10_08-20-25_aa60e833fd05/.DS_Store ADDED Viewed

Binary file (6.15 kB). View file

models/roberta-large/runs/May10_08-20-25_aa60e833fd05/1652170830.6680446/events.out.tfevents.1652170830.aa60e833fd05.33.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ec8e28066ba7d13217a65b823ec6480a476684a1896182b144e8644e7b9315dc
+size 4805

models/roberta-large/runs/May10_08-20-25_aa60e833fd05/events.out.tfevents.1652170830.aa60e833fd05.33.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3c19271afb20b228c47c6d9eb82445f5f9fb624e837fff6218a9a24bc1c01a6e
+size 7723

models/roberta-large/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "sep_token": "</s>", "pad_token": "<pad>", "cls_token": "<s>", "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": false}}

models/roberta-large/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

models/roberta-large/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"errors": "replace", "bos_token": "<s>", "eos_token": "</s>", "sep_token": "</s>", "cls_token": "<s>", "unk_token": "<unk>", "pad_token": "<pad>", "mask_token": "<mask>", "add_prefix_space": false, "trim_offsets": true, "model_max_length": 512, "special_tokens_map_file": null, "name_or_path": "roberta-large", "tokenizer_class": "RobertaTokenizer"}

models/roberta-large/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e02403a15cc97a74296579258c269102ed5b7ef6097019ab4dee44236402d973
+size 3055

models/roberta-large/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

requirements.txt CHANGED Viewed

@@ -1,104 +0,0 @@
-altair==4.2.0
-appnope==0.1.3
-argon2-cffi==21.3.0
-argon2-cffi-bindings==21.2.0
-asttokens==2.0.5
-attrs==21.4.0
-backcall==0.2.0
-backports.zoneinfo==0.2.1
-beautifulsoup4==4.11.1
-bleach==5.0.0
-blinker==1.4
-cachetools==5.0.0
-certifi==2021.10.8
-cffi==1.15.0
-charset-normalizer==2.0.12
-click==8.0.4
-debugpy==1.6.0
-decorator==5.1.1
-defusedxml==0.7.1
-entrypoints==0.4
-executing==0.8.3
-fastjsonschema==2.15.3
-filelock==3.6.0
-gitdb==4.0.9
-GitPython==3.1.27
-huggingface-hub==0.5.1
-idna==3.3
-importlib-metadata==4.11.3
-importlib-resources==5.7.1
-ipykernel==6.13.0
-ipython==8.3.0
-ipython-genutils==0.2.0
-ipywidgets==7.7.0
-jedi==0.18.1
-Jinja2==3.1.2
-joblib==1.1.0
-jsonschema==4.5.1
-jupyter-client==7.3.1
-jupyter-core==4.10.0
-jupyterlab-pygments==0.2.2
-jupyterlab-widgets==1.1.0
-MarkupSafe==2.1.1
-matplotlib-inline==0.1.3
-mistune==0.8.4
-nbclient==0.6.3
-nbconvert==6.5.0
-nbformat==5.4.0
-nest-asyncio==1.5.5
-notebook==6.4.11
-numpy==1.22.3
-packaging==21.3
-pandas==1.4.2
-pandocfilters==1.5.0
-parso==0.8.3
-pexpect==4.8.0
-pickleshare==0.7.5
-Pillow==9.1.0
-prometheus-client==0.14.1
-prompt-toolkit==3.0.29
-protobuf==3.20.1
-psutil==5.9.0
-ptyprocess==0.7.0
-pure-eval==0.2.2
-pyarrow==8.0.0
-pycparser==2.21
-pydeck==0.7.1
-Pygments==2.12.0
-Pympler==1.0.1
-pyparsing==3.0.8
-pyrsistent==0.18.1
-python-dateutil==2.8.2
-pytz==2022.1
-pytz-deprecation-shim==0.1.0.post0
-PyYAML==6.0
-pyzmq==22.3.0
-regex==2022.4.24
-requests==2.27.1
-sacremoses==0.0.53
-semver==2.13.0
-Send2Trash==1.8.0
-six==1.16.0
-smmap==5.0.0
-soupsieve==2.3.2.post1
-stack-data==0.2.0
-streamlit==1.9.0
-terminado==0.13.3
-tinycss2==1.1.1
-tokenizers==0.12.1
-toml==0.10.2
-toolz==0.11.2
-torch==1.11.0
-tornado==6.1
-tqdm==4.64.0
-traitlets==5.1.1
-transformers==4.18.0
-typing_extensions==4.2.0
-tzdata==2022.1
-tzlocal==4.2
-urllib3==1.26.9
-validators==0.19.0
-wcwidth==0.2.5
-webencodings==0.5.1
-widgetsnbextension==3.6.0
-zipp==3.8.0

worker.py ADDED Viewed

	@@ -0,0 +1,134 @@

+import streamlit as st
+import tokenizers
+from transformers import pipeline, AutoTokenizer, AutoModelForSequenceClassification
+import numpy as np
+import torch
+from nltk.tokenize import sent_tokenize
+class WorkerClassifier:
+    def __init__(
+        self, worker_model_dir, zero_shot_model_type="facebook/bart-large-mnli"
+    ):
+        self.zero_shot = None
+        self.zero_shot_model_type = zero_shot_model_type
+        self.worker_model_dir = worker_model_dir
+        self.id2label = {
+            0: "lauren",
+            1: "betty",
+            2: "doris",
+            3: "hailey",
+        }
+        self.label2id = {v: k for k, v in self.id2label.items()}
+    def init_models(self):
+        self.ner = self.init_anonymizer()
+        self.zero_shot = self.init_zero_shot()
+        self.worker_model = self.init_worker_model()
+        self.worker_tokenizer = self.init_worker_tokenizer()
+    @st.cache(
+        hash_funcs={
+            torch.nn.parameter.Parameter: lambda _: None,
+            tokenizers.Tokenizer: lambda _: None,
+            tokenizers.AddedToken: lambda _: None,
+        },
+        allow_output_mutation=True,
+    )
+    def init_worker_tokenizer(self):
+        return AutoTokenizer.from_pretrained(self.worker_model_dir)
+    @st.cache(
+        hash_funcs={
+            torch.nn.parameter.Parameter: lambda _: None,
+            tokenizers.Tokenizer: lambda _: None,
+            tokenizers.AddedToken: lambda _: None,
+        },
+        allow_output_mutation=True,
+    )
+    def init_worker_model(self):
+        return AutoModelForSequenceClassification.from_pretrained(
+            self.worker_model_dir, problem_type="multi_label_classification"
+        )
+    def predict_worker(self, text, threshold=0.5):
+        encoding = self.worker_tokenizer(text, return_tensors="pt")
+        outputs = self.worker_model(**encoding)
+        logits = outputs["logits"]
+        # apply sigmoid + threshold
+        sigmoid = torch.nn.Sigmoid()
+        probs = sigmoid(logits.squeeze().cpu())
+        predictions = np.zeros(probs.shape)
+        predictions[np.where(probs >= threshold)] = 1
+        # turn predicted id's into actual label names
+        predicted_labels = [
+            [self.id2label[idx], probs[idx].detach().item()]
+            for idx, label in enumerate(predictions)
+            if label == 1.0
+        ]
+        return predicted_labels
+    @st.cache(allow_output_mutation=True)
+    def init_anonymizer(self):
+        return pipeline(task="ner")
+    def anonymize(self, text: str):
+        new_sentences = []
+        sentences = sent_tokenize(text)
+        for sent in sentences:
+            result = self.ner(sent, aggregation_strategy="simple")
+            for r in reversed(result):
+                if r["entity_group"] == "PER":
+                    sent = sent[: r["start"]] + "PERSON" + sent[r["end"] :]
+            new_sentences.append(sent)
+        return " ".join(new_sentences)
+    @st.cache(
+        hash_funcs={
+            tokenizers.Tokenizer: lambda _: None,
+            tokenizers.AddedToken: lambda _: None,
+            torch.nn.parameter.Parameter: lambda parameter: parameter.data.numpy(),
+        },
+        allow_output_mutation=True,
+    )
+    def init_zero_shot(self):
+        return pipeline(
+            task="zero-shot-classification", model=self.zero_shot_model_type
+        )
+    def get_personality_sentences(self, text):
+        new_sentences = []
+        sentences = sent_tokenize(text)
+        for sent in sentences:
+            if self.personality_sent_classifier(sent):
+                new_sentences.append(sent)
+        return " ".join(new_sentences)
+    def personality_sent_classifier(self, text, threshold=0.8):
+        candidate_labels = ["describing a personality trait."]
+        hypothesis_template = "This example is {}"
+        output = self.zero_shot(
+            text,
+            candidate_labels=candidate_labels,
+            hypothesis_template=hypothesis_template,
+        )
+        # print(f'{text} with score {output["scores"][0]}\n')
+        if output["scores"][0] > threshold:
+            return True
+        return False
+    def predict(self, text):
+        # first extract sentences that are relevant to personalities
+        text = self.get_personality_sentences(text)
+        extracted_text = text
+        # next anonymize the sentences
+        text = self.anonymize(text)
+        # classify text
+        text = self.predict_worker(text)
+        return extracted_text, text