Spaces:

Emanuel
/

pos-tag-bosque-br-demo

Runtime error

App Files Files Community

Emanuel commited on Nov 20, 2021

Commit

5657400

0 Parent(s):

Initial commit

Browse files

Files changed (3) hide show

.gitignore +138 -0
app.py +64 -0
requirements.txt +0 -0

.gitignore ADDED Viewed

	@@ -0,0 +1,138 @@

+# Byte-compiled / optimized / DLL files
+__pycache__/
+*.py[cod]
+*$py.class
+# C extensions
+*.so
+# Distribution / packaging
+.Python
+build/
+develop-eggs/
+dist/
+downloads/
+eggs/
+.eggs/
+lib/
+lib64/
+parts/
+sdist/
+var/
+wheels/
+share/python-wheels/
+*.egg-info/
+.installed.cfg
+*.egg
+MANIFEST
+# PyInstaller
+#  Usually these files are written by a python script from a template
+#  before PyInstaller builds the exe, so as to inject date/other infos into it.
+*.manifest
+*.spec
+# Installer logs
+pip-log.txt
+pip-delete-this-directory.txt
+# Unit test / coverage reports
+htmlcov/
+.tox/
+.nox/
+.coverage
+.coverage.*
+.cache
+nosetests.xml
+coverage.xml
+*.cover
+*.py,cover
+.hypothesis/
+.pytest_cache/
+cover/
+# Translations
+*.mo
+*.pot
+# Django stuff:
+*.log
+local_settings.py
+db.sqlite3
+db.sqlite3-journal
+# Flask stuff:
+instance/
+.webassets-cache
+# Scrapy stuff:
+.scrapy
+# Sphinx documentation
+docs/_build/
+# PyBuilder
+.pybuilder/
+target/
+# Jupyter Notebook
+.ipynb_checkpoints
+# IPython
+profile_default/
+ipython_config.py
+# pyenv
+#   For a library or package, you might want to ignore these files since the code is
+#   intended to run in multiple environments; otherwise, check them in:
+# .python-version
+# pipenv
+#   According to pypa/pipenv#598, it is recommended to include Pipfile.lock in version control.
+#   However, in case of collaboration, if having platform-specific dependencies or dependencies
+#   having no cross-platform support, pipenv may install dependencies that don't work, or not
+#   install all needed dependencies.
+#Pipfile.lock
+# PEP 582; used by e.g. github.com/David-OConnor/pyflow
+__pypackages__/
+# Celery stuff
+celerybeat-schedule
+celerybeat.pid
+# SageMath parsed files
+*.sage.py
+# Environments
+.env
+.venv
+env/
+venv/
+ENV/
+env.bak/
+venv.bak/
+# Spyder project settings
+.spyderproject
+.spyproject
+# Rope project settings
+.ropeproject
+# mkdocs documentation
+/site
+# mypy
+.mypy_cache/
+.dmypy.json
+dmypy.json
+# Pyre type checker
+.pyre/
+# pytype static type analyzer
+.pytype/
+# Cython debug symbols
+cython_debug/

app.py ADDED Viewed

	@@ -0,0 +1,64 @@

+from typing import Tuple
+import torch
+import streamlit as st
+from transformers import AutoModelForTokenClassification, AutoTokenizer
+from dante_tokenizer import DanteTokenizer
+from dante_tokenizer.data.preprocessing import expand_contractions
+from annotated_text import annotated_text
+def get_pos_tag_model(model_name: str = "Emanuel/autonlp-pos-tag-bosque") -> Tuple[AutoModelForTokenClassification, AutoTokenizer]:
+    model = AutoModelForTokenClassification.from_pretrained(model_name)
+    tokenizer = AutoTokenizer.from_pretrained(model_name)
+    return model, tokenizer
+def get_tag_color(tag: str) -> str:
+    """
+    Return the color for a given part-of-speech tag from the Universal Dependencies tagset.
+    See: https://universaldependencies.org/u/pos/
+    """
+    pallete = {
+        "ADJ": "#2E4C6D",
+        "ADP": "#FBE7C6",
+        "ADV": "#DADDFC",
+        "AUX": "#FC997C",
+        "CCONJ": "#544179",
+        "DET": "#A0E7E5",
+        "INTJ": "#32C1CD",
+        "NOUN": "#17D7A0",
+        "PART": "#C85C5C",
+        "PRON": "#F9975D",
+        "PROPN": "#FBD148",
+        "PUNCT": "#B2EA70",
+        "SCONJ": "#AA14F0",
+        "SYM": "#34BE82",
+        "VERB": "#FFBF86",
+        "X": "#2F86A6",
+    }
+    return pallete[tag]
+def main():
+    text = st.text_area("Digite seu texto de entrada!")
+    dt = DanteTokenizer()
+    model, tokenizer = get_pos_tag_model()
+    if text:
+        tokens = dt.tokenize(text)
+        input_cleaned_text = expand_contractions(text)
+        inputs = tokenizer(text, return_tensors="pt")
+        outputs = model(**inputs)
+        labelids = outputs.logits.squeeze().argmax(axis=-1)
+        scores, _ = torch.nn.functional.softmax(outputs.logits, dim=1).squeeze().max(axis=-1)
+        scores = scores.tolist()
+        labels = [model.config.id2label[int(x)] for x in labelids]
+        labels = labels[1:-1]
+        answer = []
+        for token, label, score in zip(tokens, labels, scores):
+            answer.append((token, label, get_tag_color(label)))
+        annotated_text(*answer)
+if __name__ == "__main__":
+    main()

requirements.txt ADDED Viewed

Binary file (4.23 kB). View file