SMS-spam-English-sklearn

Runtime error

App Files Files Community

akuysal commited on Mar 18, 2023

Commit

a8dbb61

•

0 Parent(s):

Duplicate from akuysal/SMS-spam-Turkish-sklearn

Browse files

Files changed (6) hide show

.gitattributes +34 -0
LinearSVC_SMS_spam_TR.pickle +3 -0
README.md +22 -0
app.py +52 -0
requirements.txt +3 -0
tfidf_vectorizer_TR.pickle +3 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,34 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

LinearSVC_SMS_spam_TR.pickle ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2e1b32d1f4716a7c48facea2b8630b897be52618b461cbb2bb4f20f34b9df52f
+size 23303

README.md ADDED Viewed

	@@ -0,0 +1,22 @@

+---
+title: SMS Spam Turkish Scikit-Learn
+emoji: 🌖
+colorFrom: gray
+colorTo: green
+sdk: streamlit
+sdk_version: 1.17.0
+app_file: app.py
+pinned: false
+license: openrail
+duplicated_from: akuysal/SMS-spam-Turkish-sklearn
+---
+ENGLISH
+The dataset used in the study "Uysal, A. K., Gunal, S., Ergin, S., & Gunal, E. S. (2013). The impact of feature extraction and selection on SMS spam filtering. Elektronika ir Elektrotechnika, 19(5), 67-72." is employed for training. The success ratio for Linear SVM Classifier is 0.9880 in terms of Macro-F1 when 10% of the dataset was used for testing.
+The dataset is composed of SPAM and LEGITIMATE sms data.
+TÜRKÇE
+Bu çalışmada "Uysal, A. K., Gunal, S., Ergin, S., & Gunal, E. S. (2013). The impact of feature extraction and selection on SMS spam filtering. Elektronika ir Elektrotechnika, 19(5), 67-72." başlıklı çalışmadaki veri seti kullanılmıştır. Linear SVM sınıflandırıcı için başarı oranı, veri setinin %10'u test için kullanıldığında Makro-F1 açısından 0,9880'dir.
+Veri seti, SPAM ve LEGITIMATE kısa mesaj verilerinden oluşmaktadır.
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,52 @@

+from sklearn.feature_extraction.text import TfidfVectorizer
+from TurkishStemmer import TurkishStemmer
+import string
+# import for loading python objects (scikit-learn models)
+import pickle
+import nltk
+from nltk.data import load
+import streamlit as st
+import sklearn
+nltk.download('punkt')
+trans_table = {ord(c): None for c in string.punctuation + string.digits}
+def custom_tokenizer_with_Turkish_stemmer(text):
+    # tokenize text
+    # tokens = text.split(" ")
+    tokens = [word for word in nltk.word_tokenize(text.translate(trans_table))]
+    print(tokens)
+    stems = [stemmerTR.stem(item.lower()) for item in tokens]
+    return stems
+def predictSMSdata(test_text):
+    categories = ["legitimate", "spam"]
+    categories.sort()
+    # load model
+    filename1 = "LinearSVC_SMS_spam_TR.pickle"
+    file_handle1 = open(filename1, "rb")
+    classifier = pickle.load(file_handle1)
+    file_handle1.close()
+    # load tfidf_vectorizer for transforming test text data
+    filename2 = "tfidf_vectorizer_TR.pickle"
+    file_handle2 = open(filename2, "rb")
+    tfidf_vectorizer = pickle.load(file_handle2)
+    file_handle2.close()
+    test_list=[test_text]
+    tfidf_vectorizer_vectors_test = tfidf_vectorizer.transform(test_list)
+    predicted = classifier.predict(tfidf_vectorizer_vectors_test)
+    print(categories[predicted[0]])
+    return categories[predicted[0]]
+stemmerTR = TurkishStemmer()
+# adding the text that will show in the text box
+default_value = "Aveadan SUPER bir Muzik Paketi! MAXI yaz, 5555e gonder"
+text = st.text_area("enter some text!", default_value)
+if text:
+    out = predictSMSdata(text)
+    st.write("The category of SMS = " + out.upper())

requirements.txt ADDED Viewed

	@@ -0,0 +1,3 @@

+TurkishStemmer==1.3
+scikit-learn>=1.1
+nltk

tfidf_vectorizer_TR.pickle ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fd7ad6fcbd377d3025072502492b36208d32dba87ba4d73bd86171c48b74ba33
+size 82481