Spaces:

ruanchaves
/

hashtag-segmentation

Runtime error

App Files Files Community

ruanchaves commited on Apr 4, 2023

Commit

cc99942

•

1 Parent(s): 8907e41

hashtag segmentation

Browse files

Files changed (1) hide show

app.py +16 -12

app.py CHANGED Viewed

@@ -11,14 +11,16 @@ Hashtag segmentation is the task of automatically adding spaces between the word
 This app uses the <a href=\"https://github.com/ruanchaves/hashformers\">Hashformers library</a> to suggest segmentations for hashtags.
 Enter a hashtag or pick one from the examples below. The app will suggest the best segmentation for the hashtag.
 """
 app_examples = [
-    ["#cristianoronaldo", "cristian o ronaldo", "portuguese"],
-    ["#madridsinfiltros", "", "spanish"],
-    ["#kuenstlicheintelligenz", "kuenstliche intelligenz", "german"],
-    ["#dadscare", "dad scare, dads care", "english (fast)"],
-    ["#nowthatcherisdead", "now that cher is dead, now thatcher is dead", "english"],
 ]
 output_json_component_description = {"": ""}
@@ -86,7 +88,7 @@ def parse_candidates(candidates):
     candidates = [c.strip() for c in candidates]
     return candidates
-def predict(s1, candidates, language, use_reranker, topk, steps):
     hashtag_list = [s1]
     if language:
         chosen_model = model_dict[language]
@@ -100,13 +102,16 @@ def predict(s1, candidates, language, use_reranker, topk, steps):
     segmenter_df = format_dataframe(segmentation.segmenter_rank)
     reranker_df = format_dataframe(segmentation.reranker_rank)
     top_segmentation = segmentation.output[0]
     segmenter_score_dict = convert_to_score_dict(segmenter_df)
     reranker_score_dict = convert_to_score_dict(reranker_df)
     top_segmentation_df = get_candidates_df([top_segmentation], segmenter_score_dict, reranker_score_dict)
-    candidates_list = parse_candidates(candidates)
     candidates_df = get_candidates_df(candidates_list, segmenter_score_dict, reranker_score_dict)
     output_df = pd.concat([top_segmentation_df, candidates_df], axis=0)
@@ -123,16 +128,15 @@ def predict(s1, candidates, language, use_reranker, topk, steps):
 inputs = [
     gr.Textbox(label="Hashtag"),
-    gr.Textbox(label="Candidate segmentations"),
     gr.Dropdown(language_list, label="Language", value="english (fast)"),
     gr.Checkbox(label="Use reranker", value=True),
-    gr.Slider(0, 100, value=20, label="Advanced setting - Beamsearch top-k"),
-    gr.Slider(0, 100, value=13, label="Advanced setting - Beamsearch steps")
 ]
 outputs = [
  gr.Textbox(label="Suggested segmentation"),
- gr.DataFrame(label="Scores"),
 ]

 This app uses the <a href=\"https://github.com/ruanchaves/hashformers\">Hashformers library</a> to suggest segmentations for hashtags.
 Enter a hashtag or pick one from the examples below. The app will suggest the best segmentation for the hashtag.
+In the advanced settings, decreasing the slider values will make the app faster, but it may also reduce its accuracy.
 """
 app_examples = [
+    ["#cristianoronaldo", "portuguese"],
+    ["#madridsinfiltros", "spanish"],
+    ["#kuenstlicheintelligenz", "german"],
+    ["#dadscare", "english (fast)"],
+    ["#nowthatcherisdead", "english"],
 ]
 output_json_component_description = {"": ""}
     candidates = [c.strip() for c in candidates]
     return candidates
+def predict(s1, language, use_reranker, topk, steps):
     hashtag_list = [s1]
     if language:
         chosen_model = model_dict[language]
     segmenter_df = format_dataframe(segmentation.segmenter_rank)
     reranker_df = format_dataframe(segmentation.reranker_rank)
+    if not use_reranker:
+        candidates_list = segmenter_df.head(3)["segmentation"].tolist()
+    else:
+        candidates_list = reranker_df.head(3)["segmentation"].tolist()
     top_segmentation = segmentation.output[0]
     segmenter_score_dict = convert_to_score_dict(segmenter_df)
     reranker_score_dict = convert_to_score_dict(reranker_df)
     top_segmentation_df = get_candidates_df([top_segmentation], segmenter_score_dict, reranker_score_dict)
     candidates_df = get_candidates_df(candidates_list, segmenter_score_dict, reranker_score_dict)
     output_df = pd.concat([top_segmentation_df, candidates_df], axis=0)
 inputs = [
     gr.Textbox(label="Hashtag"),
     gr.Dropdown(language_list, label="Language", value="english (fast)"),
     gr.Checkbox(label="Use reranker", value=True),
+    gr.Slider(0, 100, value=20, label="Advanced setting - Beamsearch: Number of beams"),
+    gr.Slider(0, 100, value=13, label="Advanced setting - Maximum number of spaces allowed")
 ]
 outputs = [
  gr.Textbox(label="Suggested segmentation"),
+ gr.DataFrame(label="Top alternatives"),
 ]