Spaces:

yxmauw
/

subreddit-clf-app

Sleeping

App Files Files Community

subreddit-clf-app / ML_model.py

yxmauw

Update ML_model.py

071ae5f about 2 years ago

raw

history blame contribute delete

2.52 kB

	import numpy as np
	import pandas as pd
	from nltk.tokenize import RegexpTokenizer
	from nltk.stem import WordNetLemmatizer
	from nltk.corpus import stopwords
	from sklearn.feature_extraction.text import CountVectorizer
	import re

	from sklearn.model_selection import train_test_split
	from sklearn.model_selection import GridSearchCV
	from sklearn.pipeline import Pipeline
	from sklearn.naive_bayes import MultinomialNB

	import pickle

	# import dataset 'full_post' that has been lemmatized
	url = 'https://huggingface.co/spaces/yxmauw/subreddit-clf-app/raw/main/tts.csv'
	df = pd.read_csv(url, header=0)

	# train-test-split
	X = df['full_post'] # pd.series because dataframe format not friendly for word vectorization
	y = df['subreddit']

	# make sure target variable has equal representation on both train and test sets
	X_train, X_test, y_train, y_test = train_test_split(X, y,
	test_size=.2,
	stratify=y,
	random_state=42)

	# lemmatizing
	def lemmatize_join(text):
	tokenizer = RegexpTokenizer('[a-z]+', gaps=False) # instantiate tokenizer
	lemmer = WordNetLemmatizer() # instantiate lemmatizer
	return ' '.join([lemmer.lemmatize(w) for w in tokenizer.tokenize(text.lower())])
	# lowercase, join back together with spaces so that word vectorizers can still operate
	# on cell contents as strings

	Z_train = X_train.apply(lemmatize_join)

	# model instantiation
	pipe_cvec_nb = Pipeline([
	('cvec', CountVectorizer()),
	('nb', MultinomialNB())
	])

	# word vectorizor parameters
	features = [1000]
	min_df = [3]
	max_df = [.6]
	ngrams = [(1,2)]
	stop_words = ['english']
	accent = ['unicode']

	# naive bayes classifier parameters
	alphas = [.5]

	cvec_nb_params = [{'cvec__max_features': features,
	'cvec__min_df': min_df,
	'cvec__max_df': max_df,
	'cvec__ngram_range': ngrams,
	'cvec__lowercase': [False],
	'cvec__stop_words': stop_words,
	'cvec__strip_accents': accent,
	'nb__alpha': alphas
	}]

	cvec_nb_gs = GridSearchCV(pipe_cvec_nb,
	cvec_nb_params,
	scoring='accuracy',
	cv=5,
	verbose=1,
	n_jobs=-2)

	cvec_nb_gs.fit(Z_train, y_train)

	pickle.dump(cvec_nb_gs, open('final_model.sav', 'wb'))