Spaces:

amu-cai
/

amu-bigos-data-dash

Sleeping

mj-new commited on May 11, 2024

Commit

5d90238

1 Parent(s): 7504a25

Added totals for size metrics

Files changed (6) hide show

app.py CHANGED Viewed

@@ -69,7 +69,7 @@ with analysis_bigos:
     df_sum_stats_all_splits = extract_stats_all_splits(df_multindex_all_splits, metrics_features)
     st.subheader("Dataset features (text)")
-    df_sum_stats_feats_text = df_sum_stats_all_splits[metrics_features[0:2]]
     st.dataframe(df_sum_stats_feats_text)
     st.subheader("Dataset features (audio)")

     df_sum_stats_all_splits = extract_stats_all_splits(df_multindex_all_splits, metrics_features)
     st.subheader("Dataset features (text)")
+    df_sum_stats_feats_text = df_sum_stats_all_splits[metrics_features[0:3]]
     st.dataframe(df_sum_stats_feats_text)
     st.subheader("Dataset features (audio)")

reports/amu-cai/pl-asr-bigos-v2/dataset_contents.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c1688622bcf255ec8d8f916da14be0db3d99a3739399a180114e3cac91babd0
 size 46668863

 version https://git-lfs.github.com/spec/v1
+oid sha256:f9d906a6794c9928df18c639c5b6095f304a64e3b1aa89a7a7ae62ec6e5ea398
 size 46668863

reports/amu-cai/pl-asr-bigos-v2/dataset_statistics.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3da95373d89bfbfa7b9785a6c5ff73d274cc44bef31f1a7bf24be5ed25fe7af6
-size 22620

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c6f9fbd2061fe698519347857bd047c5d756d9358d988d86f8684d7d533c390
+size 22627

reports/pelcra/pl-asr-pelcra-for-bigos/dataset_contents.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e64390c8275e4c2593f84b50d0334d158f8930349946467fd6e461517ff1c213
 size 95274266

 version https://git-lfs.github.com/spec/v1
+oid sha256:341199e4818ae3327eb100d85d0e2ed4d7a3bf81d0f70914d3c434ad763eb30c
 size 95274266

reports/pelcra/pl-asr-pelcra-for-bigos/dataset_statistics.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3141e906850013e858c109d4b365c680ebb0515f4e858e7e67257b511410d83d
-size 29086

 version https://git-lfs.github.com/spec/v1
+oid sha256:65f591c54e5a1daedc640482f88fd65acd0b2fb193e01f4ed58fb81c54d70cea
+size 29098

utils.py CHANGED Viewed

@@ -192,7 +192,7 @@ def uniq_chars_per_split(dataset_hf, dataset_hf_secret):
         words_all = " ".join(utts_all).split(" ")
         words_uniq = list(set(words_all))
         chars_uniq = list(set("".join(words_uniq)))
-        chars_uniq_count = len(chars_uniq)
         #print(split, chars_uniq_count)
         out_dict[split] = chars_uniq_count
         out_chars_list = out_chars_list + chars_uniq
@@ -560,7 +560,8 @@ def extract_stats_to_agg(df_multindex_per_split, metrics, add_total=True):
     df_agg_splits.columns = df_agg_splits.columns.droplevel(0)
     if(add_total):
-        df_agg_splits = df_agg_splits
     return(df_agg_splits)

         words_all = " ".join(utts_all).split(" ")
         words_uniq = list(set(words_all))
         chars_uniq = list(set("".join(words_uniq)))
+        chars_uniq_count = len(chars_uniq) + 1
         #print(split, chars_uniq_count)
         out_dict[split] = chars_uniq_count
         out_chars_list = out_chars_list + chars_uniq
     df_agg_splits.columns = df_agg_splits.columns.droplevel(0)
     if(add_total):
+        # add row with the sum of all rows
+        df_agg_splits.loc['total'] = df_agg_splits.sum()
     return(df_agg_splits)