Spaces:

kompiangg
/

hate-speech-classification

Sleeping

kompiangg commited on Dec 26, 2023

Commit

6460fef

•

1 Parent(s): ae8ae26

blabla

Files changed (2) hide show

main.py CHANGED Viewed

@@ -3,7 +3,7 @@ from type.request.predict import PredictRequest
 from type.response.predict import PredictResponse
 from hugging_face import model, dataset
 from transformer import transformer
-from preprocess import preprocess
 hate_speech_model = model.load_hugging_face_model('model_rf.pkl')
 hate_speech_dataset = dataset.load_dataset('data_clean.csv')
@@ -21,7 +21,7 @@ def healthz():
 @app.post("/predict")
 def predict(request: PredictRequest):
-  preprocessed_text = preprocess.preprocess(request.predict_text)
   predict_text = [preprocessed_text]
   predict_text = tfidf.transform(predict_text)

 from type.response.predict import PredictResponse
 from hugging_face import model, dataset
 from transformer import transformer
+from pipeline import pipeline
 hate_speech_model = model.load_hugging_face_model('model_rf.pkl')
 hate_speech_dataset = dataset.load_dataset('data_clean.csv')
 @app.post("/predict")
 def predict(request: PredictRequest):
+  preprocessed_text = pipeline.preprocessing(request.predict_text)
   predict_text = [preprocessed_text]
   predict_text = tfidf.transform(predict_text)

preprocess/preprocess.py → pipeline/pipeline.py RENAMED Viewed

@@ -3,9 +3,10 @@ import pandas as pd
 from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
 import nltk
 from nltk.corpus import stopwords
 nltk.download('stopwords')
-alay_dict = pd.read_csv('./new_kamusalay.csv', encoding='latin-1', header=None)
 alay_dict = alay_dict.rename(columns={0: 'original', 1: 'replacement'})
 factory = StemmerFactory()
@@ -41,7 +42,7 @@ def remove_stopword(text):
 def stemming(text):
     return stemmer.stem(text)
-def preprocess(text):
     text = lowercase(text) # 1
     text = remove_nonaplhanumeric(text) # 2
     text = remove_unnecessary_char(text) # 2

 from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
 import nltk
 from nltk.corpus import stopwords
+import pathlib
 nltk.download('stopwords')
+alay_dict = pd.read_csv(pathlib.Path('new_kamusalay.csv').resolve(), encoding='latin-1', header=None)
 alay_dict = alay_dict.rename(columns={0: 'original', 1: 'replacement'})
 factory = StemmerFactory()
 def stemming(text):
     return stemmer.stem(text)
+def preprocessing(text):
     text = lowercase(text) # 1
     text = remove_nonaplhanumeric(text) # 2
     text = remove_unnecessary_char(text) # 2