Spaces:
Sleeping
Sleeping
Upload eda.py
Browse files
eda.py
CHANGED
@@ -13,35 +13,38 @@ nltk.download('wordnet')
|
|
13 |
|
14 |
def count_occurence(text):
|
15 |
|
16 |
-
|
17 |
-
|
18 |
-
|
19 |
|
20 |
-
|
21 |
-
|
22 |
|
23 |
-
|
24 |
-
|
25 |
-
|
26 |
-
|
27 |
-
|
28 |
-
|
29 |
-
|
30 |
-
|
31 |
-
|
32 |
|
33 |
-
|
34 |
-
|
35 |
|
36 |
-
|
37 |
-
|
38 |
|
39 |
-
|
40 |
-
|
41 |
|
42 |
|
43 |
def run():
|
44 |
-
st.title("EDA SPAM Classification")
|
|
|
|
|
|
|
45 |
|
46 |
df = pd.read_csv('data_eda.csv')
|
47 |
|
|
|
13 |
|
14 |
def count_occurence(text):
|
15 |
|
16 |
+
'''
|
17 |
+
fungsi ini menerima text dalam bentuk kalimat atau paragraf
|
18 |
+
'''
|
19 |
|
20 |
+
# menghapus spasi dan memisahkan setiap kata yang terpisah dengan spasi
|
21 |
+
text_list = text.str.strip().str.split()
|
22 |
|
23 |
+
# container list
|
24 |
+
total_texts=[]
|
25 |
+
try:
|
26 |
+
# nested loop yang akhirnya masukan setiap kata pada total_texts
|
27 |
+
for content in text_list:
|
28 |
+
for kata in content:
|
29 |
+
total_texts.append(kata)
|
30 |
+
except:
|
31 |
+
pass
|
32 |
|
33 |
+
# stopwords
|
34 |
+
stopwords_en = list(set(stopwords.words('english')))
|
35 |
|
36 |
+
# list comprehension untuk setiap kata yang tidak ada pada stopwords
|
37 |
+
rem_stopwords = [word for word in total_texts if word not in stopwords_en]
|
38 |
|
39 |
+
# mengembalikan hasil dengan Counter dari collections
|
40 |
+
return Counter(rem_stopwords)
|
41 |
|
42 |
|
43 |
def run():
|
44 |
+
st.title("EDA SPAM Text Classification")
|
45 |
+
st.write('''
|
46 |
+
Untuk lebih memahami model yang telah dibuat, di halaman ini disediakan beberapa eksplorasi sederhana terkait dataset yang digunakan
|
47 |
+
''')
|
48 |
|
49 |
df = pd.read_csv('data_eda.csv')
|
50 |
|