Spaces:

flax-community
/

roberta-hindi

Runtime error

App Files Files Community

hassiahk commited on Jul 17, 2021

Commit

666b7aa

1 Parent(s): 3f6b043

Model changes and code formatting

Browse files

Files changed (5) hide show

.gitignore +131 -0
app.py +52 -48
config.json +8 -0
mlm_custom/test_mlm.py +6 -5
requirements.txt +1 -4

.gitignore ADDED Viewed

	@@ -0,0 +1,131 @@

+# Byte-compiled / optimized / DLL files
+__pycache__/
+*.py[cod]
+*$py.class
+# C extensions
+*.so
+# Distribution / packaging
+.Python
+build/
+develop-eggs/
+dist/
+downloads/
+eggs/
+.eggs/
+lib/
+lib64/
+parts/
+sdist/
+var/
+wheels/
+pip-wheel-metadata/
+share/python-wheels/
+*.egg-info/
+.installed.cfg
+*.egg
+MANIFEST
+# PyInstaller
+#  Usually these files are written by a python script from a template
+#  before PyInstaller builds the exe, so as to inject date/other infos into it.
+*.manifest
+*.spec
+# Installer logs
+pip-log.txt
+pip-delete-this-directory.txt
+# Unit test / coverage reports
+htmlcov/
+.tox/
+.nox/
+.coverage
+.coverage.*
+.cache
+nosetests.xml
+coverage.xml
+*.cover
+*.py,cover
+.hypothesis/
+.pytest_cache/
+# Translations
+*.mo
+*.pot
+# Django stuff:
+*.log
+local_settings.py
+db.sqlite3
+db.sqlite3-journal
+# Flask stuff:
+instance/
+.webassets-cache
+# Scrapy stuff:
+.scrapy
+# Sphinx documentation
+docs/_build/
+# PyBuilder
+target/
+# Jupyter Notebook
+.ipynb_checkpoints
+# IPython
+profile_default/
+ipython_config.py
+# pyenv
+.python-version
+# pipenv
+#   According to pypa/pipenv#598, it is recommended to include Pipfile.lock in version control.
+#   However, in case of collaboration, if having platform-specific dependencies or dependencies
+#   having no cross-platform support, pipenv may install dependencies that don't work, or not
+#   install all needed dependencies.
+#Pipfile.lock
+# PEP 582; used by e.g. github.com/David-OConnor/pyflow
+__pypackages__/
+# Celery stuff
+celerybeat-schedule
+celerybeat.pid
+# SageMath parsed files
+*.sage.py
+# Environments
+.env
+.venv
+env/
+venv/
+ENV/
+env.bak/
+venv.bak/
+# Spyder project settings
+.spyderproject
+.spyproject
+# Rope project settings
+.ropeproject
+# mkdocs documentation
+/site
+# mypy
+.mypy_cache/
+.dmypy.json
+dmypy.json
+# Pyre type checker
+.pyre/
+.vscode/

app.py CHANGED Viewed

@@ -1,83 +1,87 @@
-from pandas.io.formats.format import return_docstring
-import streamlit as st
-import pandas as pd
-from transformers import AutoTokenizer,AutoModelForMaskedLM
-from transformers import pipeline
-import os
 import json
 import random
-import numpy as np
-@st.cache(show_spinner=False,persist=True)
-def load_model(masked_text,model_name):
-    model = AutoModelForMaskedLM.from_pretrained(model_name, from_flax=True)
     tokenizer = AutoTokenizer.from_pretrained(model_name)
-    nlp = pipeline('fill-mask', model=model, tokenizer=tokenizer)
     MASK_TOKEN = tokenizer.mask_token
-    masked_text = masked_text.replace("<mask>",MASK_TOKEN)
     result_sentence = nlp(masked_text)
-    return result_sentence[0]['sequence'], result_sentence[0]['token_str']
 def main():
     st.title("RoBERTa Hindi")
     st.markdown(
-    "This demo uses pretrained RoBERTa variants for Mask Language Modeling (MLM)"
     )
     models = st.multiselect(
-        "Choose models",
-        ['flax-community/roberta-hindi','mrm8488/HindiBERTa',\
-        'neuralspace-reverie/indic-transformers-hi-bert',
-          'surajp/RoBERTa-hindi-guj-san'],
-        ["flax-community/roberta-hindi"]
-    )
-    target_text_path = './mlm_custom/mlm_targeted_text.csv'
     target_text_df = pd.read_csv(target_text_path)
-    texts = target_text_df['text']
     st.sidebar.title("Hindi MLM")
     pick_random = st.sidebar.checkbox("Pick any random text")
-    results_df = pd.DataFrame(columns = ['Model Name','Filled Token','Filled Text'])
     model_names = []
     filled_masked_texts = []
     filled_tokens = []
     if pick_random:
-        random_text = texts[random.randint(0,texts.shape[0]-1)]
-        masked_text = st.text_area("Please type a masked sentence to fill",random_text)
     else:
-        select_text = st.sidebar.selectbox('Select any of the following text',\
-     texts)
-        masked_text = st.text_area("Please type a masked sentence to fill",select_text)
-    #pd.set_option('max_colwidth',30)
-    if st.button('Fill the Mask!'):
         with st.spinner("Filling the Mask..."):
             for selected_model in models:
-                filled_sentence,filled_token = load_model(masked_text,selected_model)
                 model_names.append(selected_model)
                 filled_tokens.append(filled_token)
                 filled_masked_texts.append(filled_sentence)
-            results_df['Model Name'] = model_names
-            results_df['Filled Token'] = filled_tokens
-            results_df['Filled Text'] = filled_masked_texts
-            #st.table(results_df)
-            st.write(results_df)
 if __name__ == "__main__":
-    main()

 import json
 import random
+import pandas as pd
+import streamlit as st
+from transformers import AutoModelForMaskedLM, AutoTokenizer, pipeline
+with open("config.json") as f:
+    cfg = json.loads(f.read())
+@st.cache(show_spinner=False, persist=True)
+def load_model(masked_text, model_name):
+    model = AutoModelForMaskedLM.from_pretrained(model_name)
     tokenizer = AutoTokenizer.from_pretrained(model_name)
+    nlp = pipeline("fill-mask", model=model, tokenizer=tokenizer)
     MASK_TOKEN = tokenizer.mask_token
+    masked_text = masked_text.replace("<mask>", MASK_TOKEN)
     result_sentence = nlp(masked_text)
+    return result_sentence[0]["sequence"], result_sentence[0]["token_str"]
 def main():
     st.title("RoBERTa Hindi")
     st.markdown(
+        "This demo uses the below pretrained BERT variants for Mask Language Modeling (MLM):\n"
+        "- [RoBERTa Hindi](https://huggingface.co/flax-community/roberta-hindi)\n"
+        "- [Indic Transformers Hindi](https://huggingface.co/neuralspace-reverie/indic-transformers-hi-bert)\n"
+        "- [HindiBERTa](https://huggingface.co/mrm8488/HindiBERTa)\n"
+        "- [RoBERTa Hindi Guj San](https://huggingface.co/surajp/RoBERTa-hindi-guj-san)"
     )
+    models_list = list(cfg["models"].keys())
     models = st.multiselect(
+        "Choose models",
+        models_list,
+        models_list[0],
+    )
+    target_text_path = "./mlm_custom/mlm_targeted_text.csv"
     target_text_df = pd.read_csv(target_text_path)
+    texts = target_text_df["text"]
     st.sidebar.title("Hindi MLM")
     pick_random = st.sidebar.checkbox("Pick any random text")
+    results_df = pd.DataFrame(columns=["Model Name", "Filled Token", "Filled Text"])
     model_names = []
     filled_masked_texts = []
     filled_tokens = []
     if pick_random:
+        random_text = texts[random.randint(0, texts.shape[0] - 1)]
+        masked_text = st.text_area("Please type a masked sentence to fill", random_text)
     else:
+        select_text = st.sidebar.selectbox("Select any of the following text", texts)
+        masked_text = st.text_area("Please type a masked sentence to fill", select_text)
+    # pd.set_option('max_colwidth',30)
+    if st.button("Fill the Mask!"):
         with st.spinner("Filling the Mask..."):
             for selected_model in models:
+                filled_sentence, filled_token = load_model(masked_text, cfg["models"][selected_model])
                 model_names.append(selected_model)
                 filled_tokens.append(filled_token)
                 filled_masked_texts.append(filled_sentence)
+            results_df["Model Name"] = model_names
+            results_df["Filled Token"] = filled_tokens
+            results_df["Filled Text"] = filled_masked_texts
+            st.table(results_df)
 if __name__ == "__main__":
+    main()

config.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "models": {
+        "RoBERTa Hindi": "flax-community/roberta-hindi",
+        "Indic Transformers Hindi": "neuralspace-reverie/indic-transformers-hi-bert",
+        "HindiBERTa": "mrm8488/HindiBERTa",
+        "RoBERTa Hindi Guj San": "surajp/RoBERTa-hindi-guj-san"
+    }
+}

mlm_custom/test_mlm.py CHANGED Viewed

@@ -1,9 +1,10 @@
-import pandas as pd
-import numpy as np
-from transformers import AutoTokenizer, RobertaModel, AutoModel, AutoModelForMaskedLM
-from transformers import pipeline
-import os
 import json
 class MLMTest():

 import json
+import os
+import numpy as np
+import pandas as pd
+from transformers import (AutoModel, AutoModelForMaskedLM, AutoTokenizer,
+                          RobertaModel, pipeline)
 class MLMTest():

requirements.txt CHANGED Viewed

@@ -1,6 +1,3 @@
 streamlit
 torch
-transformers
-jax
-jaxlib
-flax

 streamlit
 torch
+transformers