Spaces:

mginoben
/

tagalog-profanity-classification

Running

mginoben commited on May 11, 2023

Commit

d4078c2

•

1 Parent(s): 09c82c9

Modified app.py

Files changed (2) hide show

app.py CHANGED Viewed

@@ -7,7 +7,8 @@ from thefuzz import process, fuzz
 import numpy as np
 import re
 import nltk
-from english_words import get_english_words_set
 API_URL = "https://api-inference.huggingface.co/models/Dabid/abusive-tagalog-profanity-detection"
@@ -38,7 +39,7 @@ addon_words = read_text('addon_words')
 profanities_dict = read_text('profanities', 'json')
 lookup_profanity = np.concatenate([np.hstack(list(profanities_dict.values())), list(profanities_dict.keys())]).tolist()
 lookup_words = list(set(similar_words).union(set(lookup_profanity)))
-eng_words = list(get_english_words_set(['web2'], lower=True) - set(lookup_profanity))
 punctuations = re.compile(r'^[^\w#@]+|[^\w#@]+$')
 def fuzzy_lookup(tweet):

 import numpy as np
 import re
 import nltk
+nltk.download('words')
+from nltk.corpus import words
 API_URL = "https://api-inference.huggingface.co/models/Dabid/abusive-tagalog-profanity-detection"
 profanities_dict = read_text('profanities', 'json')
 lookup_profanity = np.concatenate([np.hstack(list(profanities_dict.values())), list(profanities_dict.keys())]).tolist()
 lookup_words = list(set(similar_words).union(set(lookup_profanity)))
+eng_words = list(set(words.words()) - set(lookup_profanity))
 punctuations = re.compile(r'^[^\w#@]+|[^\w#@]+$')
 def fuzzy_lookup(tweet):

requirements.txt CHANGED Viewed

@@ -1,4 +1,4 @@
 emoji
 thefuzz[speedup]
 numpy
-english-words

 emoji
 thefuzz[speedup]
 numpy
+nltk