Spaces:

Lisibonny
/

buscador-periodicos-dominicanos

Sleeping

Lisibonny commited on May 6

Commit

0196371

•

1 Parent(s): 1d2be7e

Update preprocesamiento_articulos.py

Files changed (1) hide show

preprocesamiento_articulos.py CHANGED Viewed

@@ -3,12 +3,15 @@ import numpy as np
 import nltk
 from nltk.tokenize import word_tokenize, RegexpTokenizer
 from nltk.corpus import stopwords
 from sklearn.feature_extraction.text import CountVectorizer
 import csv
 nltk.download('stopwords')
 nltk.download('punkt')
 stopwords_es = stopwords.words('spanish')
 def eliminar_puntuacion(articulo):
     deletetion_symbols = ['!','(',')',"'",'-','[',']','{','}',';',':','"','“','’','”',"'",'`','‘','``','\\' ,'/','|',',','|','<','>','.','..','...','?','@',"#",'$','^','&','*','_','~','+','%','=','¿','¡',"''"]
@@ -27,6 +30,15 @@ def eliminar_stopwords(articulo):
             new_articulo += " " + x
     return new_articulo
 def limpieza_articulos(df):
     df_titulos=pd.DataFrame(df['titulo'], columns=['titulo'])

 import nltk
 from nltk.tokenize import word_tokenize, RegexpTokenizer
 from nltk.corpus import stopwords
+from nltk.stem import SnowballStemmer
 from sklearn.feature_extraction.text import CountVectorizer
 import csv
 nltk.download('stopwords')
 nltk.download('punkt')
 stopwords_es = stopwords.words('spanish')
+spanish_stemmer = SnowballStemmer('spanish')
 def eliminar_puntuacion(articulo):
     deletetion_symbols = ['!','(',')',"'",'-','[',']','{','}',';',':','"','“','’','”',"'",'`','‘','``','\\' ,'/','|',',','|','<','>','.','..','...','?','@',"#",'$','^','&','*','_','~','+','%','=','¿','¡',"''"]
             new_articulo += " " + x
     return new_articulo
+def obtener_raices(articulo)
+    articulo_splitted=articulo.split()
+    new_articulo = ""
+    for x in articulo_splitted:
+        x_new = spanish_stemmer.stem(x)
+        new_articulo += " " + x_new
+    return new_articulo
 def limpieza_articulos(df):
     df_titulos=pd.DataFrame(df['titulo'], columns=['titulo'])