PPKM_sentiment / proses text.txt
William14045's picture
commit1
15462a3
raw
history blame contribute delete
No virus
750 Bytes
def text_proses(teks):
teks = teks.lower()
teks = re.sub('@[A-Za-z0-9_]+', ' ', teks)
teks = re.sub('#[A-Za-z0-9_]+', ' ', teks)
teks = re.sub('\\\\n', ' ', teks)
teks = teks.strip()
teks = re.sub('http\\S+', ' ', teks)
teks = re.sub('www.\\S+', ' ', teks)
teks = re.sub("[^A-Za-z\\s']", ' ', teks)
teks = re.sub('rt', ' ', teks)
teks = re.sub('\\b\\w{1,2}\\b', '', teks)
teks = re.sub('(\\w)\\1{2,}', '\\1', teks)
teks = re.sub('\\b(wk+|aok+|ha+h[aeiou]+|hi+h[aeiou]+|ho+h[aeiou]+)\\b', 'haha', teks)
tokens = word_tokenize(teks)
teks = ' '.join([word for word in tokens if word not in stpwds_id])
teks = formalize_words(teks, formalize_words)
teks = stemmer.stem(teks)
return teks