Spaces:

OnabajoMonsurat
/

Medical_Diagnosis_Chatbot

Running

OnabajoMonsurat commited on Oct 19, 2023

Commit

ca49d23

•

1 Parent(s): 047b9ea

Upload nltk_utils.py

Files changed (1) hide show

nltk_utils.py CHANGED Viewed

@@ -1,3 +1,4 @@
 import nltk
 from nltk.tokenize import word_tokenize
 nltk.download('punkt')
@@ -7,12 +8,17 @@ stemmer= SnowballStemmer(language= 'english')
 from nltk.corpus import stopwords
 nltk.download('stopwords')
 def tokenize(text):
   return [stemmer.stem(token) for token in word_tokenize(text)]
 english_stopwords= stopwords.words('english')
 def vectorizer():
     vectorizer= TfidfVectorizer(tokenizer=tokenize,
                                 stop_words=english_stopwords,
                                 )
     return vectorizer

+# Import Libraries
 import nltk
 from nltk.tokenize import word_tokenize
 nltk.download('punkt')
 from nltk.corpus import stopwords
 nltk.download('stopwords')
+# Tokenize text i.e make all text be in a list format e.g "I am sick" = ['i', 'am', 'sick']
 def tokenize(text):
   return [stemmer.stem(token) for token in word_tokenize(text)]
+# Create stopwords to reduce noise in data
 english_stopwords= stopwords.words('english')
+# Create a vectosizer to learn all words in order to convert them into numbers
 def vectorizer():
     vectorizer= TfidfVectorizer(tokenizer=tokenize,
                                 stop_words=english_stopwords,
                                 )
     return vectorizer