Update README.md
Browse files
README.md
CHANGED
@@ -16,4 +16,46 @@ tags:
|
|
16 |
- email
|
17 |
- albert
|
18 |
- bert
|
19 |
-
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
16 |
- email
|
17 |
- albert
|
18 |
- bert
|
19 |
+
---
|
20 |
+
### Model Info
|
21 |
+
|
22 |
+
This model was developed/finetuned for spam detection task for Turkish Language. This model was finetuned via spam/ham email dataset.
|
23 |
+
- LABEL_0: ham/normal mail
|
24 |
+
- LABEL_1: spam mail
|
25 |
+
|
26 |
+
### Model Sources
|
27 |
+
|
28 |
+
<!-- Provide the basic links for the model. -->
|
29 |
+
|
30 |
+
- **Dataset:** https://huggingface.co/datasets/anilguven/turkish_spam_email
|
31 |
+
- **Paper:** https://dergipark.org.tr/tr/pub/ejosat/issue/75736/1234079
|
32 |
+
- **Demo-Coding [optional]:** https://github.com/anil1055/Turkish_spam_email_detection_with_language_models
|
33 |
+
- **Finetuned from model [optional]:** https://huggingface.co/loodos/albert-base-turkish-uncased
|
34 |
+
|
35 |
+
#### Preprocessing
|
36 |
+
|
37 |
+
You must apply removing stopwords, stemming, or lemmatization process for Turkish.
|
38 |
+
|
39 |
+
# Model Load safetensors
|
40 |
+
|
41 |
+
<!-- Provide a quick summary of what the model is/does. -->
|
42 |
+
|
43 |
+
Detailed https://huggingface.co/docs/diffusers/using-diffusers/using_safetensors
|
44 |
+
|
45 |
+
### Results
|
46 |
+
|
47 |
+
- F1-score: %93.55
|
48 |
+
- Accuracy: %93.10
|
49 |
+
|
50 |
+
## Citation
|
51 |
+
|
52 |
+
<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
|
53 |
+
|
54 |
+
**BibTeX:**
|
55 |
+
|
56 |
+
@article{article_1234079, title={Türkçe E-postalarda Spam Tespiti için Makine Öğrenme Yöntemlerinin ve Dil Modellerinin Analizi}, journal={Avrupa Bilim ve Teknoloji Dergisi}, pages={1–6}, year={2023}, DOI={10.31590/ejosat.1234079}, author={GÜVEN, Zekeriya Anıl}, keywords={Siber Güvenlik, Spam Tespiti, Dil Modeli, Makine Öğrenmesi, Doğal Dil İşleme, Metin Sınıflandırma, Cyber Security, Spam Detection, Language Model, Machine Learning, Natural Language Processing, Text Classification}, abstract={Son zamanlarda teknolojinin ve sosyal ağların gelişmesiyle çevrimiçi karşılıklı etkileşim, herhangi konuda fikirlerini paylaşma oldukça önem kazanmıştır. Bu etkileşimlerin olumlu yanı olsa da olumsuz yanı da oldukça fazladır. Sosyal ağlarda kullanıcıların bilgilerini elde edip kullanıcıları taklit etmek güvenlik açısından büyük bir problemdir. Böylelikle kullanıcılar üzerinden dolandırıcılık vs. yapılabilmektedir. Kullanıcıları taklit edebilmek için en yaygın yol spam mesajların, e-postaların, vs. atılmasıdır. Güvenlik probleminin üstesinden gelmek için spam filtreleme, spam tespiti yöntemi geliştirme gibi işlemler uygulanmaktadır. Bu çalışmada Türkçe e-postalarda spam içeren e-postaların tespiti için Rastgele Orman, Lojistik Regresyon, Naive Bayes, Yapay Sinir Ağları makine öğrenme yöntemleri ve BERT, ELECTRA, ALBERT, DistilBERT dil modelleri analiz edilmiştir. Böylece dil modellerinin Türkçe için spam e-postaları sınıflandırmadaki etkisi gösterilmek istenmiştir. Deneysel çalışmaların sonucunda, spam e-postaları sınıflandırmada tüm dil modelleri makine öğrenme yöntemlerine göre daha başarılı olmuştur. Makine öğrenme yöntemlerinden yapay sinir ağları %90.15 doğrulu değeri elde ederken, en başarılı dil modelleri %94.08 doğruluk değeri ile BERT ve ELECTRA olmuştur.}, number={47}, publisher={Osman SAĞDIÇ} }
|
57 |
+
|
58 |
+
|
59 |
+
**APA:**
|
60 |
+
|
61 |
+
GÜVEN, Z. A. (2023). Türkçe E-postalarda Spam Tespiti için Makine Öğrenme Yöntemlerinin ve Dil Modellerinin Analizi. Avrupa Bilim ve Teknoloji Dergisi, (47), 1-6.
|