Spaces:

holistic-ai
/

job-fair

Running

App Files Files Community

Zekun Wu commited on May 13, 2024

Commit

0765d8d

1 Parent(s): c41e57c

update

Browse files

Files changed (2) hide show

pages/4_Evaluation_Multiple.py +12 -3
util/evaluation.py +58 -0

pages/4_Evaluation_Multiple.py CHANGED Viewed

@@ -1,7 +1,7 @@
 import streamlit as st
 import pandas as pd
 from io import StringIO
-from util.evaluation import statistical_tests, result_evaluation
 def app():
     st.title('Result Evaluation')
@@ -21,16 +21,25 @@ def app():
         st.write('Uploaded Data:', df)
-        # Display button to perform evaluation if data is uploaded
         if st.button('Evaluate Data'):
             with st.spinner('Evaluating data...'):
                 test_results = statistical_tests(df, "multiple")
                 st.write('Test Results:', test_results)
                 evaluation_results = result_evaluation(test_results, "multiple")
                 st.write('Evaluation Results:', evaluation_results)
                 # Allow downloading of the evaluation results
-                results_df = pd.DataFrame.from_dict(evaluation_results, orient='index', columns=['Value'])
                 st.download_button(
                     label="Download Evaluation Results",
                     data=results_df.to_csv().encode('utf-8'),

 import streamlit as st
 import pandas as pd
 from io import StringIO
+from util.evaluation import statistical_tests, result_evaluation,calculate_correlations,calculate_divergences
 def app():
     st.title('Result Evaluation')
         st.write('Uploaded Data:', df)
         if st.button('Evaluate Data'):
             with st.spinner('Evaluating data...'):
+                # Existing statistical tests
                 test_results = statistical_tests(df, "multiple")
                 st.write('Test Results:', test_results)
                 evaluation_results = result_evaluation(test_results, "multiple")
                 st.write('Evaluation Results:', evaluation_results)
+                # New correlation calculations
+                correlation_results = calculate_correlations(df)
+                st.write('Correlation Results:', correlation_results)
+                # New divergence calculations
+                divergence_results = calculate_divergences(df)
+                st.write('Divergence Results:', divergence_results)
                 # Allow downloading of the evaluation results
+                results_combined = {**evaluation_results, **correlation_results, **divergence_results}
+                results_df = pd.DataFrame.from_dict(results_combined, orient='index', columns=['Value'])
                 st.download_button(
                     label="Download Evaluation Results",
                     data=results_df.to_csv().encode('utf-8'),

util/evaluation.py CHANGED Viewed

@@ -3,6 +3,64 @@ import numpy as np
 from scipy.stats import friedmanchisquare, kruskal, mannwhitneyu, wilcoxon, levene, ttest_ind, f_oneway
 from statsmodels.stats.multicomp import MultiComparison
 def statistical_tests(data, test_type='multiple'):
     if test_type == 'multiple':
         variables = ['Privilege', 'Protect', 'Neutral']

 from scipy.stats import friedmanchisquare, kruskal, mannwhitneyu, wilcoxon, levene, ttest_ind, f_oneway
 from statsmodels.stats.multicomp import MultiComparison
+import pandas as pd
+import numpy as np
+from scipy.stats import spearmanr, pearsonr, kendalltau, entropy
+from scipy.spatial.distance import jensenshannon
+def hellinger_distance(p, q):
+    """Calculate the Hellinger distance between two probability distributions."""
+    return np.sqrt(0.5 * np.sum((np.sqrt(p) - np.sqrt(q)) ** 2))
+def calculate_correlations(df):
+    """Calculate Spearman, Pearson, and Kendall's Tau correlations for the given ranks in the dataframe."""
+    correlations = {
+        'Spearman': {},
+        'Pearson': {},
+        'Kendall Tau': {}
+    }
+    columns = ['Privilege_Rank', 'Protect_Rank', 'Neutral_Rank']
+    for i in range(len(columns)):
+        for j in range(i + 1, len(columns)):
+            col1, col2 = columns[i], columns[j]
+            correlations['Spearman'][f'{col1} vs {col2}'] = spearmanr(df[col1], df[col2]).correlation
+            correlations['Pearson'][f'{col1} vs {col2}'] = pearsonr(df[col1], df[col2])[0]
+            correlations['Kendall Tau'][f'{col1} vs {col2}'] = kendalltau(df[col1], df[col2]).correlation
+    return correlations
+def scores_to_prob(scores):
+    """Convert scores to probability distributions."""
+    value_counts = scores.value_counts()
+    probabilities = value_counts / value_counts.sum()
+    full_prob = np.zeros(int(scores.max()) + 1)
+    full_prob[value_counts.index.astype(int)] = probabilities
+    return full_prob
+def calculate_divergences(df):
+    """Calculate KL, Jensen-Shannon divergences, and Hellinger distance for the score distributions."""
+    score_columns = ['Privilege_Avg_Score', 'Protect_Avg_Score', 'Neutral_Avg_Score']
+    probabilities = {col: scores_to_prob(df[col]) for col in score_columns}
+    divergences = {
+        'KL Divergence': {},
+        'Jensen-Shannon Divergence': {},
+        'Hellinger Distance': {}
+    }
+    for i in range(len(score_columns)):
+        for j in range(i + 1, len(score_columns)):
+            col1, col2 = score_columns[i], score_columns[j]
+            divergences['KL Divergence'][f'{col1} vs {col2}'] = entropy(probabilities[col1], probabilities[col2])
+            divergences['Jensen-Shannon Divergence'][f'{col1} vs {col2}'] = jensenshannon(probabilities[col1],
+                                                                                          probabilities[col2])
+            divergences['Hellinger Distance'][f'{col1} vs {col2}'] = hellinger_distance(probabilities[col1],
+                                                                                        probabilities[col2])
+    return divergences
 def statistical_tests(data, test_type='multiple'):
     if test_type == 'multiple':
         variables = ['Privilege', 'Protect', 'Neutral']