Spaces:

huggingface
/

text-data-filtering

Runtime error

App Files Files Community

HugoLaurencon commited on Jan 21, 2022

Commit

fa81556

1 Parent(s): 0610f9d

visualization: small step for the slider on flagged words ratio

Browse files

Files changed (1) hide show

app.py +41 -15

app.py CHANGED Viewed

@@ -282,9 +282,16 @@ class Visualization_for_lang:
                                 new_flagged_words,
                             )
                     cutoff_def = "If the flagged words ratio of a document is higher than this number, the document is removed."
-                    max_fwr = float(np.max(self.docs["flagged_words_ratio"]))
                     cutoff_flagged_words_ratio = st.slider(
-                        cutoff_def, 0.0, max_fwr, max_fwr, step=0.001
                     )
                     new_key = ("flagged_words_ratio", cutoff_flagged_words_ratio, True)
                     keys.append(new_key)
@@ -481,7 +488,9 @@ class Visualization_for_lang:
                                 for i in range(len(self.words["incorrect_substrings"]))
                             ]
                         )
-                    Visualization_for_lang.print_discarded_by_cond(cond_incorrect_substrings)
                     conds_words["incorrect_substrings"] = cond_incorrect_substrings
             all_conds_words = np.all(list(conds_words.values()), axis=0)
@@ -723,7 +732,10 @@ class Visualization:
         )
     def choose_lang(self):
-        options = [self.param_visu_langs[lang_dataset_id]["lang"] for lang_dataset_id in self.param_visu_langs]
         index = options.index("English") if ("English" in options) else 0
         lang_chosen = st.selectbox(
             label="Select the language for visualization",
@@ -731,23 +743,37 @@ class Visualization:
             index=index,
         )
         if lang_chosen != "None":
-            lang_chosen_dataset_id = langs_id.loc[langs_id["lang"] == lang_chosen, "dataset_id"].iloc[0]
             visualization_for_lang = Visualization_for_lang(
-                path_data = self.param_visu_langs[lang_chosen_dataset_id]["path_data"],
-                lang = self.param_visu_langs[lang_chosen_dataset_id]["lang"],
-                num_docs = self.param_visu_langs[lang_chosen_dataset_id]["num_docs"],
-                num_docs_for_words = self.param_visu_langs[lang_chosen_dataset_id]["num_docs_for_words"],
-                max_len_text_display = self.param_visu_langs[lang_chosen_dataset_id]["max_len_text_display"],
-                lang_dataset_id = self.param_visu_langs[lang_chosen_dataset_id]["lang_dataset_id"],
-                path_fasttext_model = self.param_visu_langs[lang_chosen_dataset_id]["path_fasttext_model"],
-                path_sentencepiece_model = self.param_visu_langs[lang_chosen_dataset_id]["path_sentencepiece_model"],
-                path_kenlm_model = self.param_visu_langs[lang_chosen_dataset_id]["path_kenlm_model"],
             )
             visualization_for_lang.visualization_for_lang()
     def visualization(self):
         self.preamble()
-        self.warning_preamble()
         self.choose_lang()

                                 new_flagged_words,
                             )
                     cutoff_def = "If the flagged words ratio of a document is higher than this number, the document is removed."
+                    max_fwr = np.max(self.docs["flagged_words_ratio"])
+                    max_fwr = np.ceil(max_fwr * 1000) / 1000
+                    max_fwr = float(max_fwr)
                     cutoff_flagged_words_ratio = st.slider(
+                        cutoff_def,
+                        0.000,
+                        max_fwr,
+                        max_fwr,
+                        step=0.001,
+                        format="%f",
                     )
                     new_key = ("flagged_words_ratio", cutoff_flagged_words_ratio, True)
                     keys.append(new_key)
                                 for i in range(len(self.words["incorrect_substrings"]))
                             ]
                         )
+                    Visualization_for_lang.print_discarded_by_cond(
+                        cond_incorrect_substrings
+                    )
                     conds_words["incorrect_substrings"] = cond_incorrect_substrings
             all_conds_words = np.all(list(conds_words.values()), axis=0)
         )
     def choose_lang(self):
+        options = [
+            self.param_visu_langs[lang_dataset_id]["lang"]
+            for lang_dataset_id in self.param_visu_langs
+        ]
         index = options.index("English") if ("English" in options) else 0
         lang_chosen = st.selectbox(
             label="Select the language for visualization",
             index=index,
         )
         if lang_chosen != "None":
+            lang_chosen_dataset_id = langs_id.loc[
+                langs_id["lang"] == lang_chosen, "dataset_id"
+            ].iloc[0]
             visualization_for_lang = Visualization_for_lang(
+                path_data=self.param_visu_langs[lang_chosen_dataset_id]["path_data"],
+                lang=self.param_visu_langs[lang_chosen_dataset_id]["lang"],
+                num_docs=self.param_visu_langs[lang_chosen_dataset_id]["num_docs"],
+                num_docs_for_words=self.param_visu_langs[lang_chosen_dataset_id][
+                    "num_docs_for_words"
+                ],
+                max_len_text_display=self.param_visu_langs[lang_chosen_dataset_id][
+                    "max_len_text_display"
+                ],
+                lang_dataset_id=self.param_visu_langs[lang_chosen_dataset_id][
+                    "lang_dataset_id"
+                ],
+                path_fasttext_model=self.param_visu_langs[lang_chosen_dataset_id][
+                    "path_fasttext_model"
+                ],
+                path_sentencepiece_model=self.param_visu_langs[lang_chosen_dataset_id][
+                    "path_sentencepiece_model"
+                ],
+                path_kenlm_model=self.param_visu_langs[lang_chosen_dataset_id][
+                    "path_kenlm_model"
+                ],
             )
             visualization_for_lang.visualization_for_lang()
     def visualization(self):
         self.preamble()
+        # self.warning_preamble()
         self.choose_lang()