RL

Sleeping

App Files Files Community

RL / app.py

fschwartzer

Update app.py

b143954 verified 3 months ago

raw history blame contribute delete

No virus

15.5 kB

	import pandas as pd
	import gradio as gr
	from gradio import components
	from gradio import Interface
	import numpy as np
	import statsmodels
	import statsmodels.api as sm
	from statsmodels.stats.stattools import jarque_bera
	import plotly.express as px
	import plotly.graph_objects as go
	import matplotlib.pyplot as plt
	import seaborn as sns

	# função para conversão da escala das variáveis:
	def aplicar_operacao(df, scv, col_index):
	if scv == 'x':
	pass
	elif scv == 'lnx':
	df.iloc[:, col_index] = round(np.log(df.iloc[:, col_index]), 8)
	elif scv == '1/x':
	df.iloc[:, col_index] = round(1 / df.iloc[:, col_index], 8)
	elif scv == 'x²':
	df.iloc[:, col_index] = round(df.iloc[:, col_index] ** 2, 8)
	elif scv == 'y':
	pass
	elif scv == 'lny':
	df.iloc[:, col_index] = round(np.log(df.iloc[:, col_index]), 8)
	elif scv == '1/y':
	df.iloc[:, col_index] = round(1 / df.iloc[:, col_index], 8)
	elif scv == 'y²':
	df.iloc[:, col_index] = round(df.iloc[:, col_index] ** 2, 8)


	# função para plotagem dos gráficos de dispersão:
	def criar_grafico_dispersao(df, x_column, y_column, hover_name, trendline_color):
	# Calculando a correlação entre as variáveis x e y
	correlacao = df[x_column].corr(df[y_column])

	# Criando o gráfico de dispersão com a linha de tendência
	fig = px.scatter(df, x=x_column, y=y_column, hover_name=hover_name, trendline="ols")
	# Definindo a cor de fundo e do papel
	fig.update_layout(
	plot_bgcolor='rgb(240, 240, 240)',
	paper_bgcolor='rgb(240, 240, 240)'
	)
	# Definindo a cor dos pontos
	fig.update_traces(marker=dict(color=trendline_color, size=8))
	# Definindo a cor da linha de tendência
	fig.update_traces(line=dict(color="black"))
	# Adicionando o texto com a correlação na linha de tendência
	fig.add_annotation(
	x=df[x_column].max(),
	y=df[y_column].max(),
	text=f"Correlação: {correlacao:.2f}",
	showarrow=False,
	font=dict(color="black")
	)
	return fig

	# função para a regressão linear
	def avaliacao_imovel(planilha, v_1, v_2, v_3, v_4, v_5, v_6, v_7, scv_d, scv_1, scv_2, scv_3, scv_4, scv_5, scv_6, scv_7, linhas):

	# ---------------------------------Planilha------------------------------#

	df_dados = pd.read_excel(planilha.name)
	df_original = df_dados.copy()

	#-----------------------------------Escalas------------------------------#

	aplicar_operacao(df_dados, scv_d, 1)
	aplicar_operacao(df_dados, scv_1, 2)
	aplicar_operacao(df_dados, scv_2, 3)
	aplicar_operacao(df_dados, scv_3, 4)
	aplicar_operacao(df_dados, scv_4, 5)
	aplicar_operacao(df_dados, scv_5, 6)
	aplicar_operacao(df_dados, scv_6, 7)
	aplicar_operacao(df_dados, scv_7, 8)

	#----------------Manipulação das linhas (dados / outiliers----------------#

	num_linhas = df_dados.shape[0]
	linhas_selecionadas = [int(linha) - 1 for linha in linhas if int(linha) - 1 < num_linhas]
	df_filtrado = df_dados.iloc[linhas_selecionadas]
	df_outliers = df_dados.drop(linhas_selecionadas)
	df_filtrado.sort_values(by=df_filtrado.columns[0], inplace=True)

	#----------------Manipulação das Colunas (variáveis)-----------------------#

	# Variáveis independentes
	X = pd.DataFrame()

	# Iterar sobre as colunas do DataFrame df_filtrado
	for i, col in enumerate(df_filtrado.columns):
	# Verificar se a coluna atual deve ser adicionada com base na condição e se ela existe no DataFrame
	if (i == 2 and v_1) or (i == 3 and v_2) or (i == 4 and v_3) or (i == 5 and v_4) or (i == 6 and v_5) or (i == 7 and v_6) or (i == 8 and v_7):
	if i < len(df_filtrado.columns):
	X[col] = df_filtrado.iloc[:, i]

	#---------------------------Gráficos de dispersão--------------------------#

	fig_v1 = None
	fig_v2 = None
	fig_v3 = None
	fig_v4 = None
	fig_v5 = None
	fig_v6 = None
	fig_v7 = None

	if v_1:
	fig_v1 = criar_grafico_dispersao(df_filtrado, df_filtrado.columns[2], df_filtrado.columns[1], df_filtrado.columns[0], "orange")
	if v_2:
	fig_v2 = criar_grafico_dispersao(df_filtrado, df_filtrado.columns[3], df_filtrado.columns[1], df_filtrado.columns[0], "orange")
	if v_3:
	fig_v3 = criar_grafico_dispersao(df_filtrado, df_filtrado.columns[4], df_filtrado.columns[1], df_filtrado.columns[0], "orange")
	if v_4:
	fig_v4 = criar_grafico_dispersao(df_filtrado, df_filtrado.columns[5], df_filtrado.columns[1], df_filtrado.columns[0], "orange")
	if v_5:
	fig_v5 = criar_grafico_dispersao(df_filtrado, df_filtrado.columns[6], df_filtrado.columns[1], df_filtrado.columns[0], "orange")
	if v_6:
	fig_v6 = criar_grafico_dispersao(df_filtrado, df_filtrado.columns[7], df_filtrado.columns[1], df_filtrado.columns[0], "orange")
	if v_7:
	fig_v7 = criar_grafico_dispersao(df_filtrado, df_filtrado.columns[8], df_filtrado.columns[1], df_filtrado.columns[0], "orange")

	#--------------------------Regressão Linerar------------------------------#

	# Variável dependente
	y = df_filtrado.iloc[:, 1:2]

	# Adicionando uma constante à variável independente (intercepto)
	X = sm.add_constant(X)

	# Inicializando o modelo de regressão linear
	modelo = sm.OLS(y, X)

	# Ajustando o modelo aos dados
	resultado = modelo.fit()

	# Calculando os resíduos do modelo
	residuos = resultado.resid

	# Calculando Desvio Padrão dos Resíduos
	#desvio_padrao_residuos = round(np.std(resultado.resid), 8)
	desvio_padrao_residuos = round(np.std(residuos), 8)
	# Calculando Estatística F
	estatistica_F = round(resultado.fvalue, 8)
	# Obtendo Nível de Significância do Modelo
	nivel_significancia = round(resultado.f_pvalue, 8)
	# Calculando R²
	r_squared = round(resultado.rsquared, 8)
	# Calculando R² ajustado
	r_squared_adjusted = round(resultado.rsquared_adj, 8)
	# Obtendo Número de Observações
	num_observacoes = round(resultado.nobs, 0)
	# Calculando Coeficiente de Correlação
	coef_correlacao = round(np.sqrt(r_squared), 8)
	# Calculando o teste de Jarque-Bera para os resíduos
	jarque_bera_test, p_value, skewness, kurtosis = jarque_bera(residuos)
	# Formatando os resultados com 4 casas decimais
	jarque_bera_test = round(jarque_bera_test, 8)
	p_value = round(p_value, 8)
	skewness = round(skewness, 8)
	kurtosis = round(kurtosis, 8)
	# Extrair os coeficientes da regressão
	coeficientes = resultado.params
	# Calcular a distância de Cook
	distancia_cook = resultado.get_influence().cooks_distance[0]

	# String com os resultados
	resultados_gerais = f"""
	Desvio Padrão: {desvio_padrao_residuos}
	Estatística F: {estatistica_F}
	Nível de Significância do Modelo: {nivel_significancia}
	R²: {r_squared}
	R² ajustado: {r_squared_adjusted}
	Número de observações: {num_observacoes}
	Coeficianete de Correlação: {coef_correlacao}
	Teste de Jarque-Bera:
	- Estatística do teste: {jarque_bera_test}
	- Valor-p: {p_value}
	- Assimetria (Skewness): {skewness}
	- Curtose (Kurtosis): {kurtosis}
	"""

	# Equação do modelo
	# Inicialize a equação do modelo
	if scv_d == 'y':
	equacao_modelo = "y ="
	elif scv_d == 'lny':
	equacao_modelo = "ln(y) ="
	elif scv_d == '1/y':
	equacao_modelo = "1/y ="
	elif scv_d == 'y²':
	equacao_modelo = "y² ="

	# Iterar sobre os coeficientes estimados
	for nome_coluna, coeficiente in zip(X.columns, coeficientes):
	# Se o nome da coluna for 'const', adicione apenas o coeficiente
	if nome_coluna == 'const':
	equacao_modelo += f" {coeficiente:.8f} +"
	else:
	# Adicionar o termo à equação do modelo
	equacao_modelo += f" {coeficiente:.8f} * {nome_coluna} +"

	# Remover o último sinal de adição
	equacao_modelo = equacao_modelo[:-1]
	# Exibindo estatísticas do modelo
	resultado_summary = resultado.summary()
	resultado_html = resultado.summary().tables[1].as_html()
	# Obtenha as estatísticas do modelo em formato de DataFrame
	#resultado_summary_df = pd.DataFrame(resultado_summary.tables[1])

	#---------------------df_final (utilizado na regressão)----------------------#

	# Adicionando a primeira coluna de df_filtrado ao início de df_final
	ordem = df_filtrado[[df_filtrado.columns[0]]].copy()
	df_final = pd.concat([ordem, y, X], axis=1)
	df_final = df_final.drop(columns=['const'])

	#--------------------df_final (adiciona o erro_padronizado)------------------#

	# Calculando o erro padronizado
	erro_padronizado = round(residuos / desvio_padrao_residuos, 5)
	# Adicionando a coluna de erro padronizado ao df_final
	df_final['Erro Padronizado'] = erro_padronizado

	#-------------------df_maiores_que_2 (possíveis outliers)--------------------#

	# Criar DataFrame apenas com os dados cujo erro padronizado é maior que 2
	df_maiores_que_2 = df_final[abs(df_final['Erro Padronizado']) > 2]

	#------------df_correl (Valores Ajustados x Preços Observados)---------------#

	# Obtendo os valores previstos
	valores_previstos = resultado.predict(X)
	# Adicionando os valores previstos como uma nova coluna ao df_final
	df_final['Valores Ajustados'] = round(valores_previstos, 8)
	# Criando uma dataframe para os Valores Ajustados x Preços Observados
	df_correl = df_final[[df_filtrado.columns[0], df_filtrado.columns[1], 'Valores Ajustados']]
	df_correl = df_correl.rename(columns={df_filtrado.columns[1]: 'Preços Observados'})
	# Desfazendo a conversão da escala
	if scv_d == 'lnx':
	df_correl['Valores Ajustados'] = round(np.exp(df_correl['Valores Ajustados']), 8)
	df_correl['Preços Observados'] = round(np.exp(df_correl['Preços Observados']), 8)
	elif scv_d == '1/x':
	df_correl['Valores Ajustados'] = round(1 / df_correl['Valores Ajustados'], 8)
	df_correl['Preços Observados'] = round(1 / df_correl['Preços Observados'], 8)
	elif scv_d == 'x²':
	df_correl['Valores Ajustados'] = round(np.sqrt(df_correl['Valores Ajustados']), 8)
	df_correl['Preços Observados'] = round(np.sqrt(df_correl['Preços Observados']), 8)
	else:
	pass # Nenhuma transformação é necessária

	df_correl['Diferença %'] = round(((df_correl['Valores Ajustados']/df_correl['Preços Observados'])-1)*100, 8)

	#------------Gráficos dos Valores Ajustados x Resíduos Padronizados e Histograma---------------#

	# Criando subplots
	fig, (ax1, ax2, ax3) = plt.subplots(3, 1, figsize=(8, 12))

	# Plotagem dos resíduos padronizados
	ax1.scatter(df_final['Valores Ajustados'], erro_padronizado, color='orange', alpha=0.6)
	ax1.axhline(y=0, color='black', linestyle='--', linewidth=1) # Linha zero
	ax1.axhline(y=2, color='red', linestyle='-', linewidth=1) # Linhas vermelhas em ±2
	ax1.axhline(y=-2, color='red', linestyle='-', linewidth=1)
	ax1.set_title('Gráfico de Resíduos Padronizados')
	ax1.set_xlabel('Valores Ajustados')
	ax1.set_ylabel('Resíduos Padronizados')
	ax1.grid(True)

	# Adicionando rótulos aos pontos com resíduos padronizados > 2
	#for i, txt in enumerate(df_final.iloc[:, 0]):
	#if abs(erro_padronizado[i]) > 2:
	#ax1.annotate(txt, (df_final['Valores Ajustados'][i], erro_padronizado[i]), color='black')

	# Histograma dos resíduos padronizados
	sns.histplot(erro_padronizado, kde=True, color='orange', alpha=0.6, ax=ax2)
	ax2.set_title('Histograma dos Resíduos Padronizados')
	ax2.set_xlabel('Resíduos Padronizados')
	ax2.set_ylabel('Frequência')
	ax2.grid(True)

	# Gráfico da distância de Cook
	ax3.plot(distancia_cook, marker='o', linestyle='None', color='orange')
	ax3.axhline(y=1, color='red', linestyle='--', linewidth=1)
	ax3.set_title('Gráfico da Distância de Cook')
	ax3.set_xlabel('Número da Observação')
	ax3.set_ylabel('Distância de Cook')
	ax3.grid(True)

	# Adicionando rótulos aos pontos
	for i, txt in enumerate(df_final.iloc[:, 0]):
	ax3.annotate(txt, (i, distancia_cook[i]))

	# Ajustando a posição dos subplots
	plt.tight_layout()

	# Exibindo os subplots
	plt.show()

	# Listagem de pontos discrepantes
	limite_cook = 4 / (len(df_final) - len(resultado.params))
	pontos_discrepantes = []
	for i, cook_dist in enumerate(distancia_cook):
	if cook_dist > limite_cook:
	pontos_discrepantes.append(df_final.iloc[i, 0]) # Usando a primeira coluna como rótulo
	# Listagem de pontos influentes
	limite_cook = 1
	pontos_influentes = []
	for i, cook_dist in enumerate(distancia_cook):
	if cook_dist > limite_cook:
	pontos_influentes.append(df_final.iloc[i, 0]) # Usando a primeira coluna como rótulo

	#---------------------------------------Outputs----------------------------------#

	return df_original, resultados_gerais, resultado_html, equacao_modelo, df_final, df_maiores_que_2, df_outliers, df_correl, fig_v1, fig_v2, fig_v3, fig_v4, fig_v5, fig_v6, fig_v7, plt, pontos_discrepantes, pontos_influentes

	#df_filtrado,resultado_summary_df,

	#--------------------------------------Interface---------------------------------#

	numeros = [str(i) for i in range(0, 501)]

	with gr.Blocks(theme=gr.themes.Monochrome(), title="<span style='color: gray; font-size: 48px;'>avalia.se</span>") as demo:
	gr.Markdown(f"""
	<p style="text-align: left;"><b><span style='color: orange; font-size: 30px;'>Módulo de Regressão Linear</span></b></p>
	<p style="text-align: left;"></span>Aplicativo MCDDM com tratamento científico / Para ver a documentação, você pode baixar <a href='https://huggingface.co/spaces/DavidSB/avaliaFACTOR/resolve/main/dados_entrada_factor.xlsx' download='dados_entrada_factor.xlsx'>aqui</a><br><br></p>
	""")

	with gr.Row():
	with gr.Column():
	file_input = gr.File(label="Upload planilha", type="filepath")
	var_checkboxes = [gr.Checkbox(value=False, label=f"Variável independente {i}") for i in range(1, 8)]
	escala_dependente = gr.Radio(['y', 'lny', '1/y', 'y²'], label="Escala VARIÁVEL DEPENDENTE", value='x')
	escala_independente = [gr.Radio(['x', 'lnx', '1/x', 'x²'], label=f"---> Escala variável independente {i}", value='x') for i in range(1, 8)]
	dados = gr.components.CheckboxGroup(numeros, value=numeros[1:501], label="Selecionar dados", type="index")

	with gr.Column():
	output1 = gr.Dataframe(label="Planilha de dados original")
	output2 = gr.Textbox(label="Resultados Gerais do Modelo")
	output3 = gr.HTML(label="Resultados por variável")
	output4 = gr.Textbox(label="Equação do Modelo")
	# Add more outputs here following the same pattern

	submit_btn = gr.Button("Avaliar")
	submit_btn.click(avaliacao_imovel, inputs=[file_input] + var_checkboxes + [escala_dependente] + escala_independente + [dados], outputs=[output1, output2, output3, output4])

	demo.launch(debug=True)