NER / app.py
destiratnakomala's picture
Update app.py
782b6a3 verified
#NER Demo for Various Models
from transformers import pipeline, AutoModelForTokenClassification, AutoTokenizer, DebertaV2Tokenizer, DebertaV2Model
import sentencepiece
import streamlit as st
import pandas as pd
import spacy
st.set_page_config(layout="wide")
example_list = [
'''budi dan lona adalah sepasang kekasih yang penuh petualangan. mereka selalu mencari kesempatan untuk menjelajahi tempat-tempat bersejarah dan misterius di indonesia. suatu hari, ketika mereka mendengar cerita tentang lawang sewu di semarang, budi dan lona merasa tertantang untuk mengunjunginya. dengan semangat yang membara, mereka berdua memasuki bangunan bersejarah itu. namun, begitu mereka melangkahkan kaki ke dalam lorong gelap, suasana seketika berubah. budi dan lona merasakan udara yang dingin menusuk tulang, dan suara langkah kaki hantu terdengar samar di kejauhan. meskipun merinding, budi dan lona tetap melanjutkan petualangan mereka.
di sudut-sudut ruangan yang gelap, mereka melihat bayangan-bayangan yang bergerak sendiri, membuat bulu kuduk mereka merinding. namun, budi dan lona tetap bertekad untuk menjelajahi setiap sudut lawang sewu. di tengah ketegangan, mereka bahkan berhasil menangkap bayangan-bayangan yang melayang di udara dengan kamera mereka.
meskipun mengalami berbagai kejadian misterius, budi dan lona merasa bahwa petualangan mereka di lawang sewu sangatlah berharga. mereka kembali dengan kenangan yang tak terlupakan dan cerita-cerita horor yang akan mereka bagikan kepada teman-teman mereka. dan dalam perjalanan selanjutnya, budi dan lona siap untuk menjelajahi lokasi misterius berikutnya yang menunggu di indonesia.''',
'''pada suatu hari yang cerah, rian, maya, dan dito bersemangat untuk mengunjungi Museum bank indonesia dan museum mandiri di jakarta, indonesia. namun, ketika mereka tiba pada museum bank indonesia, kegembiraan mereka segera pudar. mereka menemukan koleksi yang kurang terawat dan minim informasi, membuat mereka merasa kecewa. setelah itu, mereka memutuskan untuk mencoba keberuntungan mereka di Museum mandiri. namun, harapan mereka kembali pupus ketika mereka menemukan hal yang serupa: kurangnya perhatian pada detail dan kurangnya inovasi dalam presentasi. rian, maya, dan dito meninggalkan kedua museum tersebut dengan perasaan kecewa dan merasa bahwa kunjungan mereka tidak memberikan pengalaman yang memuaskan. mereka berharap agar kedua museum tersebut dapat meningkatkan kualitasnya agar lebih memikat bagi pengunjung di masa depan.
pada suatu hari yang cerah, sepuluh sahabat, yaitu andre, budi, cindy, dian, eko, fani, gita, hani, indra, dan joko, memulai petualangan tak terlupakan mereka dari sabang hingga merauke. Mereka melintasi keindahan alam pulau sumatera, merasakan angin sepoi-sepoi di pantai pasir putih lampung, dan terpesona oleh keindahan alam nusa tenggara timur. Namun, di tengah perjalanan mereka mengalami cuaca buruk dan kendala transportasi, yang membuat mereka harus menunda perjalanan untuk beberapa hari. Meskipun demikian, semangat mereka tidak luntur, dan mereka terus melanjutkan perjalanan mereka dengan penuh semangat dan kebersamaan. Mereka menikmati setiap momen petualangan mereka, menciptakan kenangan yang tak terlupakan selama perjalanan mereka menjelajahi kekayaan alam dan budaya Indonesia.
tentu, indonesia memiliki banyak museum menarik yang mencakup berbagai aspek sejarah, budaya, seni, dan alam. salah satunya adalah Museum nasional di jakarta, yang menyajikan koleksi arkeologi, etnografi, dan prasejarah indonesia. ada juga Museum sangiran di jawa tengah yang terkenal karena koleksi fosil manusia purba. untuk seni modern dan kontemporer, Museum seni rupa dan keramik di jakarta serta Museum macan juga layak untuk dikunjungi. selain itu, Museum wayang di jakarta dan Museum layang-layang di yogyakarta menghadirkan kekayaan budaya tradisional indonesia. jika anda tertarik dengan sejarah perjuangan kemerdekaan, Museum pusat tni-au angkasa di yogyakarta adalah pilihan yang tepat. terdapat juga museum-museum lain yang tersebar di seluruh indonesia, masing-masing memiliki cerita dan keunikan tersendiri untuk ditemukan.'''
]
st.title("NER Models")
model_list = ['akdeniz27/bert-base-turkish-cased-ner',
'akdeniz27/convbert-base-turkish-cased-ner',
'akdeniz27/xlm-roberta-base-turkish-ner',
'xlm-roberta-large-finetuned-conll03-english',
'asahi417/tner-xlm-roberta-base-ontonotes5',
'asahi417/tner-xlm-roberta-base-uncased-ontonotes5',
'cahya/xlm-roberta-large-indonesian-NER',
'cahya/xlm-roberta-base-indonesian-NER',
'cahya/bert-base-indonesian-NER'
]
st.sidebar.header("Select NER Model")
model_checkpoint = st.sidebar.radio("", model_list)
st.sidebar.write("For details of models: 'https://huggingface.co/akdeniz27/")
st.sidebar.write("")
if model_checkpoint == "akdeniz27/xlm-roberta-base-turkish-ner":
aggregation = "simple"
elif model_checkpoint == "xlm-roberta-large-finetuned-conll03-english" or model_checkpoint == "asahi417/tner-xlm-roberta-base-ontonotes5":
aggregation = "simple"
st.sidebar.write("")
st.sidebar.write("The selected NER model is included just to show the zero-shot transfer learning capability of XLM-Roberta pretrained language model.")
else:
aggregation = "first"
st.subheader("Select Text Input Method")
input_method = st.radio("", ('Select from Examples', 'Write or Paste New Text'))
if input_method == 'Select from Examples':
selected_text = st.selectbox('Select Text from List', example_list, index=0, key=1)
st.subheader("Text to Run")
input_text = st.text_area("Selected Text", selected_text, height=128, max_chars=None, key=2)
elif input_method == "Write or Paste New Text":
st.subheader("Text to Run")
input_text = st.text_area('Write or Paste Text Below', value="", height=128, max_chars=None, key=2)
@st.cache_resource
def setModel(model_checkpoint, aggregation):
model = AutoModelForTokenClassification.from_pretrained(model_checkpoint)
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
return pipeline('ner', model=model, tokenizer=tokenizer, aggregation_strategy=aggregation)
@st.cache_resource
def get_html(html: str):
WRAPPER = """<div style="overflow-x: auto; border: 1px solid #e6e9ef; border-radius: 0.25rem; padding: 1rem; margin-bottom: 2.5rem">{}</div>"""
html = html.replace("\n", " ")
return WRAPPER.format(html)
@st.cache_resource
def entity_comb(output):
output_comb = []
for ind, entity in enumerate(output):
if ind == 0:
output_comb.append(entity)
elif output[ind]["start"] == output[ind-1]["end"] and output[ind]["entity_group"] == output[ind-1]["entity_group"]:
output_comb[-1]["word"] = output_comb[-1]["word"] + output[ind]["word"]
output_comb[-1]["end"] = output[ind]["end"]
else:
output_comb.append(entity)
return output_comb
Run_Button = st.button("Run", key=None)
if Run_Button and input_text != "":
ner_pipeline = setModel(model_checkpoint, aggregation)
output = ner_pipeline(input_text)
output_comb = entity_comb(output)
df = pd.DataFrame.from_dict(output_comb)
cols_to_keep = ['word','entity_group','score','start','end']
df_final = df[cols_to_keep]
st.subheader("Recognized Entities")
st.dataframe(df_final)
st.subheader("Spacy Style Display")
spacy_display = {}
spacy_display["ents"] = []
spacy_display["text"] = input_text
spacy_display["title"] = None
for entity in output_comb:
spacy_display["ents"].append({"start": entity["start"], "end": entity["end"], "label": entity["entity_group"]})
tner_entity_list = ["person", "group", "facility", "organization", "geopolitical area", "location", "product", "event", "work of art", "law", "language", "date", "time", "percent", "money", "quantity", "ordinal number", "cardinal number"]
spacy_entity_list = ["PERSON", "NORP", "FAC", "ORG", "GPE", "LOC", "PRODUCT", "EVENT", "WORK_OF_ART", "LAW", "LANGUAGE", "DATE", "TIME", "PERCENT", "MONEY", "QUANTITY", "ORDINAL", "CARDINAL", "MISC"]
for ent in spacy_display["ents"]:
if model_checkpoint == "asahi417/tner-xlm-roberta-base-ontonotes5":
ent["label"] = spacy_entity_list[tner_entity_list.index(ent["label"])]
else:
if ent["label"] == "PER": ent["label"] = "PERSON"
# colors = {'PER': '#85DCDF', 'LOC': '#DF85DC', 'ORG': '#DCDF85', 'MISC': '#85ABDF',}
html = spacy.displacy.render(spacy_display, style="ent", minify=True, manual=True, options={"ents": spacy_entity_list}) # , "colors": colors})
style = "<style>mark.entity { display: inline-block }</style>"
st.write(f"{style}{get_html(html)}", unsafe_allow_html=True)