Spaces:

amu-cai
/

pl-asr-survey

Running

App Files Files Community

mj-new commited on Apr 30, 2024

Commit

4eee292

1 Parent(s): d9c6196

Replaced no-info with None values

Browse files

Files changed (4) hide show

__pycache__/utils.cpython-310.pyc +0 -0
app.py +4 -2
requirements.txt +2 -1
utils.py +36 -7

__pycache__/utils.cpython-310.pyc CHANGED Viewed

Binary files a/__pycache__/utils.cpython-310.pyc and b/__pycache__/utils.cpython-310.pyc differ

app.py CHANGED Viewed

@@ -6,6 +6,7 @@ from contants import INFO_CATALOG, CITATION_CATALOG, HOWTO_CATALOG,INFO_BENCHMAR
 from utils import BASE_SUMMARY_METRICS
 from utils import  load_data_catalog, load_data_taxonomy, load_bench_catalog, load_bench_taxonomy
 from utils import datasets_count_and_size, datasets_count_and_size_standard, metadata_coverage, catalog_summary_statistics
 import matplotlib.pyplot as plt
 import seaborn as sns
@@ -66,6 +67,7 @@ with data_survey:
     df_summary_metrics = catalog_summary_statistics(df_data_cat)
     df_basic_stats = df_summary_metrics.loc[BASE_SUMMARY_METRICS[0:5]]
     st.dataframe(df_basic_stats, use_container_width=False)
     st.header("Speech data available across Polish ASR speech datasets")
@@ -80,9 +82,9 @@ with data_survey:
     # Display distribution of datasets created per year
     st.header("Polish ASR speech datasets created in 1997-2023")
     col_groupby = ['Creation year']
-    df_datasets_per_speech_type = datasets_count_and_size(df_data_cat, col_groupby, col_sort=col_groupby, col_percent=None, col_sum=['Size audio transcribed [hours]','Audio recordings', 'Speakers'], col_count = ['Dataset ID'])
-    st.dataframe(df_datasets_per_speech_type, use_container_width=False)
     st.header("Institutions contributing Polish ASR speech dataset")
     col_groupby = ['Publisher']

 from utils import BASE_SUMMARY_METRICS
 from utils import  load_data_catalog, load_data_taxonomy, load_bench_catalog, load_bench_taxonomy
 from utils import datasets_count_and_size, datasets_count_and_size_standard, metadata_coverage, catalog_summary_statistics
+from utils import left_align, right_align
 import matplotlib.pyplot as plt
 import seaborn as sns
     df_summary_metrics = catalog_summary_statistics(df_data_cat)
     df_basic_stats = df_summary_metrics.loc[BASE_SUMMARY_METRICS[0:5]]
     st.dataframe(df_basic_stats, use_container_width=False)
     st.header("Speech data available across Polish ASR speech datasets")
     # Display distribution of datasets created per year
     st.header("Polish ASR speech datasets created in 1997-2023")
     col_groupby = ['Creation year']
+    df_datasets_per_year = datasets_count_and_size(df_data_cat, col_groupby, col_sort=col_groupby, col_percent=None, col_sum=['Size audio transcribed [hours]','Audio recordings', 'Speakers'], col_count = ['Dataset ID'])
+    st.dataframe(df_datasets_per_year, use_container_width=False)
     st.header("Institutions contributing Polish ASR speech dataset")
     col_groupby = ['Publisher']

requirements.txt CHANGED Viewed

@@ -1,3 +1,4 @@
 seaborn
 matplotlib
-pandas

 seaborn
 matplotlib
+pandas
+librosa

utils.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import requests
 import pandas as pd
 import streamlit as st
 catalog_last_update_date = pd.to_datetime('today').strftime('%Y-%m-%d')
 # TODO - extract from the catalog name
@@ -30,13 +31,14 @@ def download_tsv_from_google_sheet(sheet_url):
     # Send a GET request to download the TSV file
     response = requests.get(tsv_url)
     # Check if the request was successful
     if response.status_code == 200:
         # Read the TSV content into a pandas DataFrame
         from io import StringIO
         tsv_content = StringIO(response.text)
-        df = pd.read_csv(tsv_content, sep='\t')
         return df
     else:
         print("Failed to download the TSV file.")
@@ -71,6 +73,22 @@ def load_bench_taxonomy():
     df_taxonomy = download_tsv_from_google_sheet(taxonomy_url)
     return(df_taxonomy)
 def datasets_count_and_size(df_cat, col_groupby, col_sort=None, col_percent=None, col_sum=['Size audio transcribed [hours]'], col_count=['Dataset ID']):
     """
@@ -144,11 +162,13 @@ def datasets_count_and_size(df_cat, col_groupby, col_sort=None, col_percent=None
     # Sort by the provided column col_sort
     col_sort = col_groupby if col_sort is None else col_sort
     summary.sort_values(by=col_sort, ascending=False, inplace=True)
-    # Replace 0 with no-info in columns with sum
     for col in col_sum:
-        summary[col] = summary[col].replace(0, 'no-info')
     return summary
@@ -210,6 +230,9 @@ def metadata_coverage(df_cat, df_cat_available_free, df_cat_available_paid):
     df_meta_all_pivot = df_meta_all_pivot.pivot(index='Metadata', columns='Type', values=[col_name_count, col_name_sum_size, col_name_percent])
     df_meta_all_pivot[col_name_count]=df_meta_all_pivot[col_name_count].astype(int)
     return(df_meta_all_flat, df_meta_all_pivot)
@@ -289,4 +312,10 @@ def catalog_summary_statistics(df_cat):
     metrics_df = pd.DataFrame(metrics_dict)
     metrics_df.reset_index(drop=True, inplace=True)
     metrics_df.set_index("Metric", inplace=True)
-    return(metrics_df)

 import requests
 import pandas as pd
 import streamlit as st
+import numpy as np
 catalog_last_update_date = pd.to_datetime('today').strftime('%Y-%m-%d')
 # TODO - extract from the catalog name
     # Send a GET request to download the TSV file
     response = requests.get(tsv_url)
+    response.encoding = 'utf-8'
     # Check if the request was successful
     if response.status_code == 200:
         # Read the TSV content into a pandas DataFrame
         from io import StringIO
         tsv_content = StringIO(response.text)
+        df = pd.read_csv(tsv_content, sep='\t', encoding='utf-8')
         return df
     else:
         print("Failed to download the TSV file.")
     df_taxonomy = download_tsv_from_google_sheet(taxonomy_url)
     return(df_taxonomy)
+def style_floats(val):
+    """
+    Converts float to int if the fractional part is zero, formats floats with two decimal places,
+    and leaves strings unchanged.
+    """
+    # Check if value is a float and if it can be converted to an int without loss
+    if isinstance(val, float):
+        if val % 1 == 0:
+            return f"{int(val)}"  # Convert float with no fractional part to int
+        else:
+            return f"{val:.2f}"  # Format floats with two decimal places
+    elif isinstance(val, int):
+        return f"{val}"  # Handle pure integers separately (though likely unnecessary)
+    else:
+        return val  # Return strings unchanged
 def datasets_count_and_size(df_cat, col_groupby, col_sort=None, col_percent=None, col_sum=['Size audio transcribed [hours]'], col_count=['Dataset ID']):
     """
     # Sort by the provided column col_sort
     col_sort = col_groupby if col_sort is None else col_sort
     summary.sort_values(by=col_sort, ascending=False, inplace=True)
+    print(col_sum)
     for col in col_sum:
+        print(col)
+        #summary[col] = summary[col].apply(lambda x: str(int(x)) if float(x).is_integer() else str(x))
+        summary[col] = summary[col].replace(0, np.nan)
     return summary
     df_meta_all_pivot = df_meta_all_pivot.pivot(index='Metadata', columns='Type', values=[col_name_count, col_name_sum_size, col_name_percent])
     df_meta_all_pivot[col_name_count]=df_meta_all_pivot[col_name_count].astype(int)
+    #df_meta_all_pivot_styled = df_meta_all_pivot.style.map(style_floats)
+    #df_meta_all_flat_styled = df_meta_all_flat.style.map(style_floats)
     return(df_meta_all_flat, df_meta_all_pivot)
     metrics_df = pd.DataFrame(metrics_dict)
     metrics_df.reset_index(drop=True, inplace=True)
     metrics_df.set_index("Metric", inplace=True)
+    return(metrics_df)
+def right_align(s, props='text-align: right;'):
+    return props
+def left_align(s, props='text-align: left;'):
+    return props