Spaces:

nickil
/

weakly-supervised-parsing

Build error

App Files Files Community

nickil commited on Apr 19, 2022

Commit

b0ceaae

1 Parent(s): 8a9b6f0

update app

Browse files

Files changed (2) hide show

app.py +4 -4
weakly_supervised_parser/utils/populate_chart.py +16 -15

app.py CHANGED Viewed

@@ -1,7 +1,6 @@
 import gradio
 import benepar
 import spacy
-from IPython.display import display
 import nltk
 from nltk.tree import Tree
 nltk.download('stopwords')
@@ -19,9 +18,10 @@ benepar.download('benepar_en3')
 nlp = spacy.load("en_core_web_md")
 nlp.add_pipe("benepar", config={"model": "benepar_en3"})
-# inside_model = InsideOutsideStringClassifier(model_name_or_path="roberta-base", max_seq_length=256)
-fetch_url_inside_model = hf_hub_url(repo_id="nickil/weakly-supervised-parsing", filename="inside_model.ckpt", revision="main")
-inside_model = LightningModel.load_from_checkpoint(checkpoint_path=cached_download(fetch_url_inside_model))
 # outside_model = InsideOutsideStringClassifier(model_name_or_path="roberta-base", max_seq_length=64)
 # outside_model.load_model(pre_trained_model_path=TRAINED_MODEL_PATH + "outside_model.onnx")

 import gradio
 import benepar
 import spacy
 import nltk
 from nltk.tree import Tree
 nltk.download('stopwords')
 nlp = spacy.load("en_core_web_md")
 nlp.add_pipe("benepar", config={"model": "benepar_en3"})
+inside_model = InsideOutsideStringClassifier(model_name_or_path="roberta-base", max_seq_length=256)
+fetch_url_inside_model = hf_hub_url(repo_id="nickil/weakly-supervised-parsing", filename="inside_model.onnx", revision="main")
+# inside_model = LightningModel.load_from_checkpoint(checkpoint_path=cached_download(fetch_url_inside_model))
+inside_model.load_model(pre_trained_model_path=cached_download(fetch_url_inside_model))
 # outside_model = InsideOutsideStringClassifier(model_name_or_path="roberta-base", max_seq_length=64)
 # outside_model.load_model(pre_trained_model_path=TRAINED_MODEL_PATH + "outside_model.onnx")

weakly_supervised_parser/utils/populate_chart.py CHANGED Viewed

@@ -26,9 +26,9 @@ ptb_top_100_common = ['this', 'myself', 'shouldn', 'not', 'analysts', 'same', 'm
 # ptb_most_common_first_token = RuleBasedHeuristic(corpus=ptb.retrieve_all_sentences()).augment_using_most_frequent_starting_token(N=1)[0][0].lower()
 ptb_most_common_first_token = "the"
-from pytorch_lightning import Trainer
-trainer = Trainer(accelerator="auto", enable_progress_bar=False, max_epochs=-1)
 class PopulateCKYChart:
@@ -54,19 +54,20 @@ class PopulateCKYChart:
         if predict_type == "inside":
-#             if data.shape[0] > chunks:
-#                 data_chunks = np.array_split(data, data.shape[0] // chunks)
-#                 for data_chunk in data_chunks:
-#                     inside_scores.extend(model.predict_proba(spans=data_chunk.rename(columns={"inside_sentence": "sentence"})[["sentence"]],
-#                                                              scale_axis=scale_axis,
-#                                                              predict_batch_size=predict_batch_size)[:, 1])
-#             else:
-#                 inside_scores.extend(model.predict_proba(spans=data.rename(columns={"inside_sentence": "sentence"})[["sentence"]],
-#                                                          scale_axis=scale_axis,
-#                                                          predict_batch_size=predict_batch_size)[:, 1])
-            test_dataloader = DataModule(model_name_or_path="roberta-base", train_df=None, eval_df=None,
-                                         test_df=data.rename(columns={"inside_sentence": "sentence"})[["sentence"]])
-            inside_scores.extend(trainer.predict(model, dataloaders=test_dataloader)[0])
             data["inside_scores"] = inside_scores
             data.loc[

 # ptb_most_common_first_token = RuleBasedHeuristic(corpus=ptb.retrieve_all_sentences()).augment_using_most_frequent_starting_token(N=1)[0][0].lower()
 ptb_most_common_first_token = "the"
+# from pytorch_lightning import Trainer
+# trainer = Trainer(accelerator="auto", enable_progress_bar=False, max_epochs=-1)
 class PopulateCKYChart:
         if predict_type == "inside":
+            if data.shape[0] > chunks:
+                data_chunks = np.array_split(data, data.shape[0] // chunks)
+                for data_chunk in data_chunks:
+                    inside_scores.extend(model.predict_proba(spans=data_chunk.rename(columns={"inside_sentence": "sentence"})[["sentence"]],
+                                                             scale_axis=scale_axis,
+                                                             predict_batch_size=predict_batch_size)[:, 1])
+            else:
+                inside_scores.extend(model.predict_proba(spans=data.rename(columns={"inside_sentence": "sentence"})[["sentence"]],
+                                                         scale_axis=scale_axis,
+                                                         predict_batch_size=predict_batch_size)[:, 1])
+#             test_dataloader = DataModule(model_name_or_path="roberta-base", train_df=None, eval_df=None,
+#                                          test_df=data.rename(columns={"inside_sentence": "sentence"})[["sentence"]])
+#             inside_scores.extend(trainer.predict(model, dataloaders=test_dataloader)[0])
             data["inside_scores"] = inside_scores
             data.loc[