akdeniz27 commited on
Commit
e6bfe5c
·
1 Parent(s): ef0a98f

Add application file

Browse files
Files changed (1) hide show
  1. app.py +65 -0
app.py ADDED
@@ -0,0 +1,65 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ # Turkish NER Demo for Various Models
2
+
3
+ from transformers import pipeline, AutoModelForTokenClassification, AutoTokenizer
4
+ import streamlit as st
5
+ import pandas as pd
6
+
7
+ # img_kognitek = Image.open("logo_tr_dikey.png")
8
+ # st.sidebar.image(img_kognitek, width=300)
9
+
10
+ example_list = [
11
+ "Mustafa Kemal Atatürk 1919 yılında Samsun'a çıktı.",
12
+ """Dünya çapında 40 milyondan fazla insana bulaşan ve 1.1 milyondan fazla insanın ölümüne sebep olan corona virüsüne karşı Pfizer ile BioNTech'in geliştirdiği aşının ilk görüntüleri ortaya çıktı. Aşının fabrikadaki ilk görüntülerini değerlendiren Pfizer'ın Birleşik Krallık CEO'su, "Üretim bandında aşıyı görmek beni neşelendirdi" dedi.
13
+ ABD merkezli çokuluslu ilaç şirketi Pfizer ile Türk bilim insanlarının kurduğu BioNTech’in geliştirdiği corona virüsü aşısında sona gelindi… Pfizer, paylaştığı video ile bütün dünyayı heyecanlandıran gelişmeyi duyurdu.
14
+ Şirket, Belçika’daki Puurs’ta geliştirilen Covid-19 aşılarının seri üretim bandındaki üretim aşamasını uluslararası kamuoyu ile paylaştı. Almanya’nın Mainz kentinde Türk profesör Uğur Şahin ile eşi Özlem Türeci’nin kurduğu ve yönettiği biyoteknoloji şirketi BioNTech ile aşı sürecini sürdüren Pfizer’ın küçük şişelerde binlerce corona virüsü aşısı üretmeye başladığı belirtildi.
15
+ Pfizer, aşının güvenli ve etkili olduğunun klinik olarak da kanıtlanması ve resmi mercilerden de onay alınması durumunda üretilen aşının dağıtılacağını duyurdu."""
16
+ ]
17
+
18
+ st.title("Demo for Turkish NER Models")
19
+ st.write("For details of models: 'https://huggingface.co/akdeniz27/")
20
+ st.write("Please refer 'https://huggingface.co/transformers/_modules/transformers/pipelines/token_classification.html' for entity grouping with aggregation_strategy parameter.")
21
+
22
+ st.sidebar.header("Select NER Model")
23
+ selection = st.sidebar.radio("", ('bert-base-turkish-cased-ner', 'convbert-base-turkish-cased-ner', 'xlm-roberta-base-turkish-ner'))
24
+ if selection == "bert-base-turkish-cased-ner":
25
+ model_checkpoint = "akdeniz27/bert-base-turkish-cased-ner"
26
+ elif selection == "convbert-base-turkish-cased-ner":
27
+ model_checkpoint = "akdeniz27/convbert-base-turkish-cased-ner"
28
+ elif selection == "xlm-roberta-base-turkish-ner":
29
+ model_checkpoint = "akdeniz27/xlm-roberta-base-turkish-ner"
30
+
31
+ if model_checkpoint != "akdeniz27/xlm-roberta-base-turkish-ner":
32
+ st.sidebar.header("Select Aggregation Strategy Type")
33
+ aggregation = st.sidebar.radio("", ('first', 'simple', 'average', 'max', 'none'))
34
+ else:
35
+ aggregation = "none"
36
+ st.sidebar.write("Aggregation strategy is set as 'none' for xlm-roberta model")
37
+
38
+ st.header("Select Text Input Method")
39
+ input_method = st.radio("", ('Select among Examples', 'Write or Paste New Text'))
40
+ if input_method == 'Select among Examples':
41
+ st.header("Select Text")
42
+ selected_text = st.selectbox('', example_list, index=0, key=1)
43
+ st.header("Selected Text")
44
+ input_text = st.text_area("", selected_text, height=128, max_chars=None, key=2)
45
+ elif input_method == "Write or Paste New Text":
46
+ st.header("Write or Paste New Text")
47
+ input_text = st.text_area('', value="", height=128, max_chars=None, key=2)
48
+
49
+ def setModel(model_checkpoint, aggregation):
50
+ model = AutoModelForTokenClassification.from_pretrained(model_checkpoint)
51
+ tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
52
+ return pipeline('ner', model=model, tokenizer=tokenizer, aggregation_strategy=aggregation)
53
+
54
+ Run_Button = st.button("Run", key=None)
55
+ if Run_Button == True:
56
+
57
+ ner_pipeline = setModel(model_checkpoint, aggregation)
58
+ output = ner_pipeline(input_text)
59
+
60
+ df = pd.DataFrame.from_dict(output)
61
+ cols_to_keep = ['word','entity_group','score','start','end']
62
+ df_final = df[cols_to_keep]
63
+
64
+ st.header("Recognized Entities")
65
+ st.dataframe(df_final)