Spaces:

JUNGU
/

PPPDC_example

Build error

App Files Files Community

PPPDC_example / app.py

JUNGU

Update app.py

8fd3221 verified 12 months ago

raw

history blame contribute delete

19.5 kB

	import streamlit as st
	import pandas as pd
	import numpy as np
	import plotly.express as px
	import plotly.graph_objects as go
	from io import StringIO
	import openpyxl
	import matplotlib.font_manager as fm
	from scipy import stats
	import os
	import plotly.figure_factory as ff

	#사이즈 크게
	st.set_page_config(layout="wide")

	# 한글 폰트 설정
	def set_font():
	font_path = "Pretendard-Bold.ttf" # 실제 폰트 파일 경로로 변경해주세요
	fm.fontManager.addfont(font_path)
	return {'font.family': 'Pretendard-Bold', 'axes.unicode_minus': False}

	# 폰트 설정을 가져옵니다
	font_settings = set_font()

	# 세션 상태 초기화 및 관리
	def manage_session_state():
	if 'data' not in st.session_state:
	st.session_state.data = None
	if 'processed_data' not in st.session_state:
	st.session_state.processed_data = None
	if 'numeric_columns' not in st.session_state:
	st.session_state.numeric_columns = []
	if 'categorical_columns' not in st.session_state:
	st.session_state.categorical_columns = []
	if 'x_var' not in st.session_state:
	st.session_state.x_var = None
	if 'y_var' not in st.session_state:
	st.session_state.y_var = None
	if 'slicers' not in st.session_state:
	st.session_state.slicers = {}
	if 'analysis_performed' not in st.session_state:
	st.session_state.analysis_performed = False
	if 'filtered_data' not in st.session_state:
	st.session_state.filtered_data = None

	def reset_session_state():
	# 세션 상태 초기화
	st.session_state.data = None
	st.session_state.processed_data = None
	st.session_state.filtered_data = None
	st.session_state.numeric_columns = []
	st.session_state.categorical_columns = []
	st.session_state.x_var = None
	st.session_state.y_var = None
	st.session_state.slicers = {}
	st.session_state.analysis_performed = False


	SAMPLE_DATA_FILES = [
	{"name": "과목별 노력과 성취도", "file": "subject.xlsx"},
	{"name": "채점", "file": "score.xlsx"},
	{"name": "출석일수와 성적", "file": "attendance.xlsx"}
	]

	def load_sample_data(file_name):
	# 예시 데이터 파일 경로
	file_path = os.path.join("sample_data", file_name)
	if file_name.endswith('.csv'):
	return pd.read_csv(file_path)
	elif file_name.endswith(('.xls', '.xlsx')):
	return pd.read_excel(file_path)
	else:
	st.error("지원되지 않는 파일 형식입니다.")
	return None

	# 데이터 로드
	@st.cache_data
	def load_data(file):
	file_extension = file.name.split('.')[-1].lower()
	if file_extension == 'csv':
	data = pd.read_csv(file)
	elif file_extension in ['xls', 'xlsx']:
	data = pd.read_excel(file)
	else:
	st.error("지원되지 않는 파일 형식입니다. CSV, XLS, 또는 XLSX 파일을 업로드해주세요.")
	return None

	# 빈 열 이름에 기본값 부여
	if data.columns.isnull().any():
	data.columns = [f'Column_{i+1}' if pd.isnull(col) else col for i, col in enumerate(data.columns)]

	return data

	def manual_data_entry():
	col_names = st.text_input("열 이름을 쉼표로 구분하여 입력하세요:", key="manual_col_names").split(',')
	col_names = [name.strip() for name in col_names if name.strip()]

	if col_names:
	num_rows = st.number_input("초기 행의 수를 입력하세요:", min_value=1, value=5, key="manual_num_rows")
	data = pd.DataFrame(columns=col_names, index=range(num_rows))

	edited_data = st.data_editor(data, num_rows="dynamic", key="manual_data_editor")

	return edited_data
	return None

	def preprocess_data(data):
	# 데이터 타입 추론 및 변환
	for column in data.columns:
	if data[column].dtype == 'object':
	try:
	# NaN 값을 무시하고 숫자로 변환 시도
	numeric_converted = pd.to_numeric(data[column], errors='coerce')
	# 모든 값이 NaN이 아니라면 변환된 열을 사용
	if not numeric_converted.isna().all():
	data[column] = numeric_converted
	st.write(f"'{column}' 열을 숫자형으로 변환했습니다.")
	except:
	st.write(f"'{column}' 열은 범주형으로 유지됩니다.")

	# 결측치 처리 (기존 코드 유지)
	if data.isnull().sum().sum() > 0:
	st.write("결측치 처리:")
	for column in data.columns:
	if data[column].isnull().sum() > 0:
	method = st.selectbox(f"{column} 열의 처리 방법 선택:",
	["제거", "평균으로 대체", "중앙값으로 대체", "최빈값으로 대체"],
	key=f"missing_{column}")
	if method == "제거":
	data = data.dropna(subset=[column])
	elif method == "평균으로 대체":
	if pd.api.types.is_numeric_dtype(data[column]):
	data[column].fillna(data[column].mean(), inplace=True)
	else:
	st.warning(f"{column} 열은 숫자형이 아니어서 평균값으로 대체할 수 없습니다.")
	elif method == "중앙값으로 대체":
	if pd.api.types.is_numeric_dtype(data[column]):
	data[column].fillna(data[column].median(), inplace=True)
	else:
	st.warning(f"{column} 열은 숫자형이 아니어서 중앙값으로 대체할 수 없습니다.")
	elif method == "최빈값으로 대체":
	data[column].fillna(data[column].mode()[0], inplace=True)

	# 숫자형 열과 범주형 열 분리
	st.session_state.numeric_columns = data.select_dtypes(include=['float64', 'int64']).columns.tolist()
	st.session_state.categorical_columns = data.select_dtypes(exclude=['float64', 'int64']).columns.tolist()

	return data

	def update_filtered_data():
	st.session_state.filtered_data = apply_slicers(st.session_state.processed_data)

	def create_slicers(data):
	for col in st.session_state.categorical_columns:
	if col in data.columns and data[col].nunique() <= 10:
	st.session_state.slicers[col] = st.multiselect(
	f"{col} 선택",
	options=sorted(data[col].unique()),
	default=sorted(data[col].unique()),
	key=f"slicer_{col}",
	on_change=update_filtered_data
	)

	def apply_slicers(data):
	filtered_data = data.copy()
	for col, selected_values in st.session_state.slicers.items():
	if col in filtered_data.columns and selected_values:
	filtered_data = filtered_data[filtered_data[col].isin(selected_values)]
	return filtered_data

	def plot_correlation_heatmap(data):
	numeric_data = data[st.session_state.numeric_columns]
	if not numeric_data.empty:
	corr = numeric_data.corr()
	fig = px.imshow(corr, color_continuous_scale='RdBu_r', zmin=-1, zmax=1)
	fig.update_layout(title='상관관계 히트맵')
	st.plotly_chart(fig)
	else:
	st.warning("상관관계 히트맵을 그릴 수 있는 숫자형 열이 없습니다.")

	def check_normality(data, column):
	# 시각적 검사: Q-Q plot
	fig = go.Figure()
	qq = stats.probplot(data[column], dist="norm")
	fig.add_trace(go.Scatter(x=qq[0][0], y=qq[0][1], mode='markers', name='Sample Quantiles'))
	fig.add_trace(go.Scatter(x=qq[0][0], y=qq[1][0] * qq[0][0] + qq[1][1], mode='lines', name='Theoretical Quantiles'))
	fig.update_layout(title=f'Q-Q Plot for {column}', xaxis_title='Theoretical Quantiles', yaxis_title='Sample Quantiles')
	st.plotly_chart(fig)

	# 통계적 검사: Shapiro-Wilk test
	stat, p = stats.shapiro(data[column])
	st.write(f"Shapiro-Wilk Test for {column}:")
	st.write(f"통계량: {stat:.4f}")
	st.write(f"p-value: {p:.4f}")
	if p > 0.05:
	st.write("데이터가 정규 분포를 따르는 것으로 보입니다 (귀무가설을 기각하지 못함)")
	else:
	st.write("데이터가 정규 분포를 따르지 않는 것으로 보입니다 (귀무가설 기각)")

	def perform_independent_ttest(data, group_column, value_column):
	groups = data[group_column].unique()
	if len(groups) != 2:
	st.error("독립 표본 t-검정은 정확히 두 그룹이 필요합니다.")
	return

	group1 = data[data[group_column] == groups[0]][value_column]
	group2 = data[data[group_column] == groups[1]][value_column]

	t_stat, p_value = stats.ttest_ind(group1, group2)

	st.write(f"독립 표본 T-검정 결과 ({group_column} 기준, {value_column} 비교):")
	st.write(f"그룹: {groups[0]} vs {groups[1]}")
	st.write(f"t-통계량: {t_stat:.4f}")
	st.write(f"p-value: {p_value:.4f}")

	if p_value < 0.05:
	st.write("두 그룹 간에 통계적으로 유의한 차이가 있습니다.")
	else:
	st.write("두 그룹 간에 통계적으로 유의한 차이가 없습니다.")
	def perform_paired_ttest(data, column1, column2):
	if len(data[column1]) != len(data[column2]):
	st.error("대응 표본 t-검정을 위해서는 두 열의 데이터 수가 같아야 합니다.")
	return

	t_stat, p_value = stats.ttest_rel(data[column1], data[column2])

	st.write(f"대응 표본 T-검정 결과 ({column1} vs {column2}):")
	st.write(f"t-통계량: {t_stat:.4f}")
	st.write(f"p-value: {p_value:.4f}")

	if p_value < 0.05:
	st.write(f"{column1}과 {column2} 간에 통계적으로 유의한 차이가 있습니다.")
	else:
	st.write(f"{column1}과 {column2} 간에 통계적으로 유의한 차이가 없습니다.")

	def perform_onesample_ttest(data, column, test_value):
	t_stat, p_value = stats.ttest_1samp(data[column], test_value)

	st.write(f"단일 표본 T-검정 결과:")
	st.write(f"t-통계량: {t_stat:.4f}")
	st.write(f"p-value: {p_value:.4f}")

	if p_value < 0.05:
	st.write(f"표본 평균이 {test_value}와 유의하게 다릅니다.")
	else:
	st.write(f"표본 평균이 {test_value}와 유의하게 다르지 않습니다.")

	def plot_scatter_with_regression(data, x_var, y_var):
	# 회귀 분석 수행
	x = data[x_var]
	y = data[y_var]
	slope, intercept, r_value, p_value, std_err = stats.linregress(x, y)

	# 예측값 계산
	y_pred = slope * x + intercept

	# 잔차 계산
	residuals = y - y_pred

	# 그래프 생성
	fig = go.Figure()

	# 산점도 추가 (오차 막대 포함)
	fig.add_trace(go.Scatter(
	x=x,
	y=y,
	mode='markers',
	name='Data Points',
	marker=dict(color='rgba(0, 0, 255, 0.7)', size=10),
	error_y=dict(
	type='data',
	array=abs(residuals),
	visible=True,
	color='rgba(0, 0, 0, 0.1)',
	thickness=0.5,
	width=0
	)
	))

	# 회귀선 추가
	fig.add_trace(go.Scatter(
	x=x,
	y=y_pred,
	mode='lines',
	name='Regression Line',
	line=dict(color='red', width=2)
	))

	# 레이아웃 설정
	r_squared = r_value ** 2
	fig.update_layout(
	title=f'{x_var}와 {y_var}의 관계 (R-squared: {r_squared:.3f})',
	xaxis_title=x_var,
	yaxis_title=y_var,
	showlegend=True,
	annotations=[
	dict(
	x=0.05,
	y=0.95,
	xref='paper',
	yref='paper',
	text=f'y = {slope:.2f}x + {intercept:.2f}<br>R² = {r_squared:.3f}',
	showarrow=False,
	bgcolor='rgba(255, 255, 255, 0.8)',
	bordercolor='rgba(0, 0, 0, 0.3)',
	borderwidth=1
	)
	]
	)

	st.plotly_chart(fig)

	# 추가 통계 정보
	st.write(f"상관계수: {r_value:.4f}")
	st.write(f"p-value: {p_value:.4f}")
	st.write(f"표준 오차: {std_err:.4f}")

	def get_active_slicers():
	return {col: values for col, values in st.session_state.slicers.items() if values}

	def perform_independent_ttest(data, group_column, group1, group2, value_column):
	group1_data = data[data[group_column] == group1][value_column]
	group2_data = data[data[group_column] == group2][value_column]

	t_stat, p_value = stats.ttest_ind(group1_data, group2_data)

	st.write(f"독립 표본 T-검정 결과 ({group_column}: {group1} vs {group2}, {value_column} 비교):")
	st.write(f"t-통계량: {t_stat:.4f}")
	st.write(f"p-value: {p_value:.4f}")

	if p_value < 0.05:
	st.write(f"{group1}과 {group2} 간에 통계적으로 유의한 차이가 있습니다.")
	else:
	st.write(f"{group1}과 {group2} 간에 통계적으로 유의한 차이가 없습니다.")

	def perform_analysis():
	if st.session_state.filtered_data is None:
	st.session_state.filtered_data = st.session_state.processed_data.copy()

	st.header("탐색적 데이터 분석")

	# 슬라이서 생성
	create_slicers(st.session_state.processed_data)

	# 데이터가 변경될 때마다 필터링된 데이터 업데이트
	st.session_state.filtered_data = apply_slicers(st.session_state.processed_data)

	# 3열 레이아웃 생성
	col1, col2, col3 = st.columns(3)

	with col1:
	# 요약 통계
	st.write("요약 통계:")
	st.write(st.session_state.filtered_data.describe())

	# 상관관계 히트맵
	st.subheader("상관관계 히트맵")
	plot_correlation_heatmap(st.session_state.filtered_data)

	with col2:
	# 사용자가 선택한 두 변수에 대한 산점도 및 회귀 분석
	st.subheader("두 변수 간의 관계 분석")
	x_var = st.selectbox("X축 변수 선택", options=st.session_state.numeric_columns, key='x_var')
	y_var = st.selectbox("Y축 변수 선택", options=[col for col in st.session_state.numeric_columns if col != x_var], key='y_var')

	if x_var and y_var:
	plot_scatter_with_regression(st.session_state.filtered_data, x_var, y_var)




	with col3:
	st.subheader("통계적 검정")

	# 정규성 검정
	st.write("정규성 검정")
	normality_column = st.selectbox("정규성 검정을 수행할 열 선택:", st.session_state.numeric_columns, key='normality_column')
	if st.button("정규성 검정 수행"):
	check_normality(st.session_state.filtered_data, normality_column)

	# T-검정
	st.write("T-검정")
	test_type = st.radio("T-검정 유형 선택:", ["독립 표본", "대응 표본", "단일 표본"], key="test_type_radio")

	if test_type == "독립 표본":
	active_slicers = get_active_slicers()

	if active_slicers:
	group_column = st.selectbox("그룹 구분을 위한 열 선택:", options=list(active_slicers.keys()))
	available_groups = active_slicers[group_column]
	group1 = st.selectbox("첫 번째 그룹 선택:", options=available_groups, key="group1")
	group2 = st.selectbox("두 번째 그룹 선택:",
	options=[g for g in available_groups if g != group1],
	key="group2")
	value_column = st.selectbox("비교할 값이 있는 열 선택:", st.session_state.numeric_columns)

	if st.button("독립 표본 T-검정 수행"):
	if group1 and group2:
	perform_independent_ttest(st.session_state.filtered_data, group_column, group1, group2, value_column)
	else:
	st.error("두 개의 서로 다른 그룹을 선택해주세요.")
	else:
	st.warning("활성화된 슬라이서가 없습니다. 먼저 슬라이서에서 그룹을 선택해주세요.")

	elif test_type == "대응 표본":
	column1 = st.selectbox("첫 번째 열 선택:", st.session_state.numeric_columns, key="paired_col1")
	column2 = st.selectbox("두 번째 열 선택:",
	[col for col in st.session_state.numeric_columns if col != column1],
	key="paired_col2")
	if st.button("대응 표본 T-검정 수행"):
	perform_paired_ttest(st.session_state.filtered_data, column1, column2)

	elif test_type == "단일 표본":
	test_column = st.selectbox("검정할 열 선택:", st.session_state.numeric_columns, key="one_sample_col")
	test_value = st.number_input("검정 값 입력:", key="one_sample_value")
	if st.button("단일 표본 T-검정 수행"):
	perform_onesample_ttest(st.session_state.filtered_data, test_column, test_value)

	# '다른 데이터 분석하기' 버튼 추가
	if st.button("다른 데이터 분석하기(오류가 나면 다시 눌러주세요)"):
	reset_session_state()
	st.experimental_rerun()

	## 메인
	def main():
	st.title("모두가 할 수 있는 데이터 분석 툴킷 Data Analysis for Everyone")
	st.link_button("만든이 코난쌤", "https://www.youtube.com/@conanssam")

	manage_session_state()

	if st.session_state.data is None:
	data_input_method = st.radio("데이터 입력 방법 선택:", ("파일 업로드", "예시 데이터 사용", "수동 입력"), key="data_input_method")

	if data_input_method == "파일 업로드":
	uploaded_file = st.file_uploader("CSV, XLS, 또는 XLSX 파일을 선택하세요", type=["csv", "xls", "xlsx"], key="file_uploader")
	if uploaded_file is not None:
	st.session_state.data = load_data(uploaded_file)
	elif data_input_method == "예시 데이터 사용":
	sample_choice = st.selectbox(
	"예시 데이터 선택",
	options=[sample["name"] for sample in SAMPLE_DATA_FILES],
	format_func=lambda x: x
	)
	if st.button("선택한 예시 데이터 로드"):
	selected_file = next(sample["file"] for sample in SAMPLE_DATA_FILES if sample["name"] == sample_choice)
	st.session_state.data = load_sample_data(selected_file)
	else:
	st.session_state.data = manual_data_entry()

	if st.session_state.data is not None:
	st.subheader("데이터 미리보기 및 수정")
	st.write("데이터를 확인하고 필요한 경우 수정하세요:")

	edited_data = st.data_editor(
	st.session_state.data,
	num_rows="dynamic",
	key="main_data_editor"
	)

	if st.button("데이터 분석 시작", key="start_analysis") or st.session_state.analysis_performed:
	st.session_state.processed_data = preprocess_data(edited_data)
	st.session_state.analysis_performed = True

	if st.session_state.analysis_performed:
	perform_analysis()


	if __name__ == "__main__":
	main()