8 |
import matplotlib.pyplot as plt
9 |
import langdetect
10 |
11 |
#Importar Nominatim para geocalización
12 |
from geopy.geocoders import Nominatim
13 |
#Importar pipeline para usar al modelo Transformer
14 |
from transformers import pipeline
15 |
#Importar detec para el idioma, e
16 |
from langdetect import detect
17 |
18 |
19 |
model_checkpoint = "hackathon-pln-es/twitter_sexismo-finetuned-robertuito-exist2021"
20 |
pipeline_nlp = pipeline("text-classification", model=model_checkpoint)
21 |
22 |
#Claves de acceso a la API de Twitter
23 |
consumer_key = "BjipwQslVG4vBdy4qK318KnoA"
24 |
consumer_secret = "3fzL70v9faklrPgvTi3zbofw9rwk92fgGdtAslFkFYt8kGmqBJ"
25 |
access_token = "1217853705086799872-Y5zEChpTeKccuLY3XJRXDPPZhNrlba"
27 |
auth = tw.OAuthHandler(consumer_key, consumer_secret)
28 |
auth.set_access_token(access_token, access_token_secret)
29 |
api = tw.API(auth, wait_on_rate_limit=True)
30 |
31 |
#Función para limpiar datos
32 |
def limpieza_datos(tweet):
33 |
# Eliminar emojis
34 |
tweet = re.sub(r'[\U0001F600-\U0001F64F]', '', tweet)
46 |
tweet = re.sub(r'[^a-zA-Z0-9 \n\áéíóúÁÉÍÓÚñÑ.]', '', tweet)
47 |
return tweet
48 |
49 |
#Función para cambiar el color de la palabra "Sexista"
50 |
def highlight_survived(s):
51 |
return ['background-color: red']*len(s) if (s.Sexista == 1) else ['background-color: green']*len(s)
52 |
54 |
color = 'red' if val=='Sexista' else 'white'
55 |
return f'background-color: {color}'
56 |
57 |
#Función para el ancho de la pagina web
58 |
59 |
st.markdown('<style>body{background-color: Blue;}</style>',unsafe_allow_html=True)
60 |
61 |
#colT1,colT2 = st.columns([2,8])
62 |
63 |
64 |
st.markdown(""" <style> .font {
68 |
#st.markdown('<p class="font"; style="text-align: center;>Análisis de comentarios sexistas en linea</p>', unsafe_allow_html=True)
69 |
st.markdown('<p class="font" style="text-align: center;">Detectando el Sexismo en Linea: Un proyecto de Investigación</p>', unsafe_allow_html=True)
70 |
71 |
#Editar el tipo de letra
72 |
st.markdown(""" <style> .font1 {
73 |
font-size:28px ; font-family: 'Times New Roman'; color: #8d33ff;}
74 |
</style> """, unsafe_allow_html=True)
77 |
font-size:18px ; font-family: 'Times New Roman'; color: #5B8FB9;}
78 |
</style> """, unsafe_allow_html=True)
79 |
80 |
81 |
st.markdown('<p class="font2">Este proyecto consiste en una aplicación web que utiliza la biblioteca Tweepy de Python para descargar tweets de Twitter, permitiendo buscar Tweets por usuario y por localidad. Luego, utiliza modelos de lenguaje basados en Transformers para analizar los tweets y detectar comentarios y determinar si son "Sexistas" o "No Sexistas". El proyecto busca identificar y combatir el discurso sexista en línea para promover la igualdad de género y la inclusión.</p>',unsafe_allow_html=True)
82 |
83 |
#Función para extrer tweets de usuarios de Twitter, y analizarlos por el modelo Transformer
84 |
def tweets_usuario(usuario, cant_de_tweets):
85 |
tabla = [] # crea una lista vacía llamada tabla
86 |
if(cant_de_tweets > 0 and usuario != "" ):
87 |
88 |
# Buscar la información del perfil de usuario
89 |
user = api.get_user(screen_name=usuario)
90 |
# utiliza la API de Twitter para buscar tweets en español de un usuario de Twitter
91 |
tweets = api.user_timeline(screen_name = usuario,tweet_mode="extended", count= cant_de_tweets)
92 |
result = [] # crea una lista vacía llamada result
93 |
# itera a través de cada tweet en la lista de tweets encontrados
94 |
for tweet in tweets:
95 |
# si el tweet comienza con 'RT' o si el tweet está vacío, continúa con el siguiente tweet
96 |
if (tweet.full_text.startswith('RT')):
97 |
98 |
99 |
text = tweet.full_text
100 |
#Try Catch para detectar que sean del idioma español
101 |
102 |
language = detect(text)
103 |
if language == 'es':
104 |
#Limpieza de cada tweet extraido
105 |
106 |
if datos == "":
107 |
108 |
109 |
#Predicción del modelo Transformer para cada tweet
110 |
prediction = pipeline_nlp(datos)
111 |
for predic in prediction:
112 |
# Agrega la etiqueta de Tweets, Predicción y Probabilidad en una lista y la agrega a la lista de resultados
113 |
etiqueta = {'Tweets': datos, 'Prediccion': predic['label'], 'Probabilidad': predic['score']}
114 |
115 |
116 |
117 |
# Crea un dataframe a partir de la lista de resultados
118 |
df = pd.DataFrame(result)
119 |
# Si el dataframe está vacío, muestra un mensaje de que no se encontraron tweets sexistas dentro de la localidad
120 |
if df.empty:
121 |
muestra= st.text("No hay tweets Sexistas a analizar")
122 |
123 |
124 |
125 |
# ordena el dataframe por Predicción y Probabilidad en orden descendente
126 |
df.sort_values(by=['Prediccion', 'Probabilidad'], ascending=[False, False], inplace=True)
127 |
df['Prediccion'] = np.where(df['Prediccion'] == 'LABEL_1', 'Sexista', 'No Sexista')
128 |
df['Probabilidad'] = df['Probabilidad'].apply(lambda x: round(x, 3))
129 |
muestra = st.table(df.reset_index(drop=True).head(50).style.applymap(color_survived, subset=['Prediccion']))
130 |
131 |
except Exception as e:
132 |
#Try except para detectar si la cuenta es existente
133 |
muestra = st.text(f"La cuenta {usuario} no existe.")
134 |
135 |
136 |
#Condición que se solicita cuando no se llenaron los datos para la busqueda
137 |
muestra= st.text("Ingrese los parametros correspondientes")
138 |
139 |
return tabla
140 |
141 |
#Función para buscar por localidad
142 |
def tweets_localidad(buscar_localidad):
143 |
tabla = [] # crea una lista vacía llamada tabla
144 |
145 |
#Crea un objeto Geolocalizador y busca la ubicación que se encuentra en el parámetro buscar_localidad
146 |
geolocator = Nominatim(user_agent="nombre_del_usuario")
147 |
location = geolocator.geocode(buscar_localidad)
148 |
radius = "15km" #establece el radio de búsqueda en 15km
149 |
# utiliza la API de Twitter para buscar tweets en español cerca de la ubicación encontrada
150 |
tweets = api.search_tweets(q="",lang="es",geocode=f"{location.latitude},{location.longitude},{radius}", count = 100, tweet_mode="extended")
151 |
result = [] # crea una lista vacía llamada result
152 |
# itera a través de cada tweet en la lista de tweets encontrados
153 |
for tweet in tweets:
154 |
# si el tweet comienza con 'RT' o si el tweet está vacío, continúa con el siguiente tweet
155 |
if (tweet.full_text.startswith('RT')):
156 |
157 |
elif not tweet.full_text.strip():
158 |
159 |
160 |
# Limpia los datos del tweet y realiza una predicción sobre si es sexista o no
161 |
datos = limpieza_datos(tweet.full_text)
162 |
prediction = pipeline_nlp(datos)
163 |
for predic in prediction:
164 |
# Agrega la etiqueta de Tweets, Predicción y Probabilidad en una lista y la agrega a la lista de resultados
165 |
etiqueta = {'Tweets': datos,'Prediccion': predic['label'], 'Probabilidad': predic['score']}
166 |
167 |
# Crea un dataframe a partir de la lista de resultados
168 |
df = pd.DataFrame(result)
169 |
# Si el dataframe está vacío, muestra un mensaje de que no se encontraron tweets sexistas dentro de la localidad
170 |
if df.empty:
171 |
muestra=st.text("No se encontraron tweets sexistas dentro de la localidad")
172 |
173 |
174 |
175 |
# ordena el dataframe por Predicción y Probabilidad en orden descendente
176 |
df.sort_values(by=['Prediccion', 'Probabilidad'], ascending=[False, False], inplace=True)
177 |
# convierte la columna de Predicción en "Sexista" o "No Sexista" y redondea la columna de Probabilidad a 3 decimales
178 |
df['Prediccion'] = np.where(df['Prediccion'] == 'LABEL_1', 'Sexista', 'No Sexista')
179 |
df['Probabilidad'] = df['Probabilidad'].round(3)
180 |
# Obtener los datos con probabilidad mayor a 0.50
189 |
muestra_df = pd.concat([sexista_df, no_sexista_df], axis=0)
190 |
col1, col2 = st.columns(2)
191 |
with col1:
192 |
#lista de Tweets mostrados en pantalla
193 |
muestra = st.table(muestra_df.reset_index(drop=True).head(6).style.applymap(color_survived, subset=['Prediccion']))
194 |
with col2:
195 |
resultado = df['Prediccion'].value_counts()
196 |
def autopct_fun(abs_values):
197 |
gen = iter(abs_values)
198 |
return lambda pct: f"{pct:.1f}% ({next(gen)})"
199 |
200 |
201 |
fig, ax = plt.subplots()
202 |
234 |
tabla = st.text("Solo Frase en español")
235 |
236 |
return tabla
237 |
238 |
#Función para correr el formulario
239 |
def run():
240 |
# Se inicia una sesión Streamlit
241 |
with st.form("my_form"):
242 |
# Se solicita al usuario que ingrese la búsqueda que desea realizar
243 |
search_words = st.text_input("Introduzca la frase, el usuario o localidad para analizar y pulse el check correspondiente")
244 |
# Se solicita al usuario que ingrese la cantidad de tweets que desea analizar (máximo 50)
245 |
number_of_tweets = st.number_input('Introduzca número de tweets a analizar del usuario Máximo 50', 0,50,0)
246 |
st.write("Escoja una Opción:")
247 |
# Se presenta al usuario las opciones de búsqueda (frase, usuario o localidad) mediante checkboxes
248 |
249 |
250 |
251 |
# Se agrega un botón de envío para que el usuario pueda iniciar la búsqueda
252 |
submit_button = st.form_submit_button(label='Analizar')
253 |
# Se define una variable de error y se inicializa como falso
254 |
error =False
255 |
256 |
# Si el usuario hace clic en el botón de envío, se comprueban los checkboxes y se establece un mensaje de error si es necesario
257 |
if submit_button:
258 |
# Condición para el caso de que esten dos check seleccionados
259 |
if ( termino == False and usuario == False and localidad == False):
262 |
elif ( termino == True and usuario == True and localidad == True):
263 |
st.text('Error se han seleccionado varios check')
264 |
265 |
266 |
# Si no se ha producido ningún error, se inicia la búsqueda según la opción seleccionada
267 |
if (error == False):
268 |
if (termino):
269 |
271 |
272 |
elif (localidad):
273 |
274 |
275 |
# Se ejecuta la función run
276 |