Update spaCy pipeline

Browse files

Files changed (16) hide show

README.md +11 -11
attribute_ruler/patterns +0 -0
config.cfg +5 -8
custom_functions.py +6 -9
en_engagement_spl_RoBERTa_base_attention-any-py3-none-any.whl +2 -2
meta.json +25 -25
ner/model +0 -0
parser/model +0 -0
spancat/cfg +3 -1
spancat/model +2 -2
tagger/cfg +1 -0
tagger/model +0 -0
tokenizer +0 -0
trainable_transformer/model +2 -2
transformer/model +2 -2
vocab/strings.json +1 -2

README.md CHANGED Viewed

@@ -54,13 +54,13 @@ model-index:
     metrics:
     - name: Sentences F-Score
       type: f_score
-      value: 0.9144831558
 ---
 | Feature | Description |
 | --- | --- |
 | **Name** | `en_engagement_spl_RoBERTa_base_attention` |
-| **Version** | `0.0.2` |
-| **spaCy** | `>=3.4.4,<3.5.0` |
 | **Default Pipeline** | `transformer`, `parser`, `tagger`, `ner`, `attribute_ruler`, `lemmatizer`, `trainable_transformer`, `spancat` |
 | **Components** | `transformer`, `parser`, `tagger`, `ner`, `attribute_ruler`, `lemmatizer`, `trainable_transformer`, `spancat` |
 | **Vectors** | 0 keys, 0 unique vectors (0 dimensions) |
@@ -90,16 +90,16 @@ model-index:
 | `DEP_UAS` | 0.00 |
 | `DEP_LAS` | 0.00 |
 | `DEP_LAS_PER_TYPE` | 0.00 |
-| `SENTS_P` | 89.82 |
-| `SENTS_R` | 93.14 |
-| `SENTS_F` | 91.45 |
 | `TAG_ACC` | 0.00 |
 | `ENTS_F` | 0.00 |
 | `ENTS_P` | 0.00 |
 | `ENTS_R` | 0.00 |
 | `LEMMA_ACC` | 0.00 |
-| `SPANS_SC_F` | 76.99 |
-| `SPANS_SC_P` | 77.84 |
-| `SPANS_SC_R` | 76.17 |
-| `TRAINABLE_TRANSFORMER_LOSS` | 482.53 |
-| `SPANCAT_LOSS` | 68571.83 |

     metrics:
     - name: Sentences F-Score
       type: f_score
+      value: 0.9469411424
 ---
 | Feature | Description |
 | --- | --- |
 | **Name** | `en_engagement_spl_RoBERTa_base_attention` |
+| **Version** | `0.0.1` |
+| **spaCy** | `>=3.6.0,<3.7.0` |
 | **Default Pipeline** | `transformer`, `parser`, `tagger`, `ner`, `attribute_ruler`, `lemmatizer`, `trainable_transformer`, `spancat` |
 | **Components** | `transformer`, `parser`, `tagger`, `ner`, `attribute_ruler`, `lemmatizer`, `trainable_transformer`, `spancat` |
 | **Vectors** | 0 keys, 0 unique vectors (0 dimensions) |
 | `DEP_UAS` | 0.00 |
 | `DEP_LAS` | 0.00 |
 | `DEP_LAS_PER_TYPE` | 0.00 |
+| `SENTS_P` | 93.64 |
+| `SENTS_R` | 95.78 |
+| `SENTS_F` | 94.69 |
 | `TAG_ACC` | 0.00 |
 | `ENTS_F` | 0.00 |
 | `ENTS_P` | 0.00 |
 | `ENTS_R` | 0.00 |
 | `LEMMA_ACC` | 0.00 |
+| `SPANS_SC_F` | 77.65 |
+| `SPANS_SC_P` | 78.19 |
+| `SPANS_SC_R` | 77.12 |
+| `TRAINABLE_TRANSFORMER_LOSS` | 5917.79 |
+| `SPANCAT_LOSS` | 76188.74 |

attribute_ruler/patterns CHANGED Viewed

Binary files a/attribute_ruler/patterns and b/attribute_ruler/patterns differ

config.cfg CHANGED Viewed

@@ -85,16 +85,11 @@ spans_key = ${vars.spans_key}
 threshold = 0.5
 [components.spancat.model]
-@architectures = "Attention_SpanCategorizer.v4"
-LSTMdepth = 1
-LSTMdropout = 0.0
-LSTMhidden = 200
 [components.spancat.model.reducer]
-@layers = "mean_max_reducer.v1.5"
 hidden_size = 128
-dropout = 0.0
-depth = 1
 [components.spancat.model.scorer]
 @layers = "spacy.LinearLogistic.v1"
@@ -113,6 +108,7 @@ sizes = [1,2,3,4,5,6,7,8,9,10,11,12]
 [components.tagger]
 factory = "tagger"
 neg_prefix = "!"
 overwrite = false
 scorer = {"@scorers":"spacy.tagger_scorer.v1"}
@@ -151,8 +147,8 @@ max_batch_items = 4096
 set_extra_annotations = {"@annotation_setters":"spacy-transformers.null_annotation_setter.v1"}
 [components.transformer.model]
-@architectures = "spacy-transformers.TransformerModel.v3"
 name = "roberta-base"
 mixed_precision = false
 [components.transformer.model.get_spans]
@@ -199,6 +195,7 @@ eval_frequency = 200
 frozen_components = ["transformer","parser","tagger","ner","attribute_ruler","lemmatizer"]
 annotating_components = ["parser"]
 before_to_disk = null
 [training.batcher]
 @batchers = "spacy.batch_by_words.v1"

 threshold = 0.5
 [components.spancat.model]
+@architectures = "Attention_SpanCategorizer.v3"
 [components.spancat.model.reducer]
+@layers = "spacy.mean_max_reducer.v1"
 hidden_size = 128
 [components.spancat.model.scorer]
 @layers = "spacy.LinearLogistic.v1"
 [components.tagger]
 factory = "tagger"
+label_smoothing = 0.0
 neg_prefix = "!"
 overwrite = false
 scorer = {"@scorers":"spacy.tagger_scorer.v1"}
 set_extra_annotations = {"@annotation_setters":"spacy-transformers.null_annotation_setter.v1"}
 [components.transformer.model]
 name = "roberta-base"
+@architectures = "spacy-transformers.TransformerModel.v3"
 mixed_precision = false
 [components.transformer.model.get_spans]
 frozen_components = ["transformer","parser","tagger","ner","attribute_ruler","lemmatizer"]
 annotating_components = ["parser"]
 before_to_disk = null
+before_update = null
 [training.batcher]
 @batchers = "spacy.batch_by_words.v1"

custom_functions.py CHANGED Viewed

@@ -368,9 +368,7 @@ def build_spancat_LSTM_model(
         tok2vec: Model[List[Doc], List[Floats2d]],
         reducer: Model[Ragged, Floats2d],
         scorer: Model[Floats2d, Floats2d],
-        LSTMdepth: int = 1,
-        LSTMdropout: float = 0.0,
-        LSTMhidden: int = 200) -> Model[Tuple[List[Doc], Ragged], Floats2d]:
     """Build a span categorizer model, given a token-to-vector model, a
     reducer model to map the sequence of vectors for each span down to a single
     vector, and a scorer model to map the vectors to probabilities.
@@ -385,18 +383,17 @@ def build_spancat_LSTM_model(
             0,
             chain(
                 tok2vec,
-                PyTorchLSTM(nI=768,
-                            nO=LSTMhidden,
-                            bi=True,
-                            depth=LSTMdepth,
-                            dropout=LSTMdropout),
                 cast(Model[List[Floats2d], Ragged], list2ragged()))))
     model = chain(
         embedding,
         extract_spans(),
-        ParametricAttention(nO = width),
         reducer,
         scorer,
     )

         tok2vec: Model[List[Doc], List[Floats2d]],
         reducer: Model[Ragged, Floats2d],
         scorer: Model[Floats2d, Floats2d],
+) -> Model[Tuple[List[Doc], Ragged], Floats2d]:
     """Build a span categorizer model, given a token-to-vector model, a
     reducer model to map the sequence of vectors for each span down to a single
     vector, and a scorer model to map the vectors to probabilities.
             0,
             chain(
                 tok2vec,
                 cast(Model[List[Floats2d], Ragged], list2ragged()))))
+    attention_layer = chain(
+                ParametricAttention(nO = width),
+                list2ragged())
     model = chain(
         embedding,
+        attention_layer,
         extract_spans(),
         reducer,
         scorer,
     )

en_engagement_spl_RoBERTa_base_attention-any-py3-none-any.whl CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d645450810f3d7ad0f9567642780fce0ede7d726fcbc5d62f0d48b7f39e80295
-size 903169587

 version https://git-lfs.github.com/spec/v1
+oid sha256:a2b2dd5c15ced10fb287fd7b894d189522d585bdfe8bd743c2d26ffff2df02ae
+size 903886799

meta.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
   "lang":"en",
   "name":"engagement_spl_RoBERTa_base_attention",
-  "version":"0.0.2",
   "description":"",
   "author":"",
   "email":"",
   "url":"",
   "license":"",
-  "spacy_version":">=3.4.4,<3.5.0",
-  "spacy_git_version":"77833bfef",
   "vectors":{
     "width":0,
     "vectors":0,
@@ -186,9 +186,9 @@
     "dep_uas":0.0,
     "dep_las":0.0,
     "dep_las_per_type":0.0,
-    "sents_p":0.8981900452,
-    "sents_r":0.9313782991,
-    "sents_f":0.9144831558,
     "tag_acc":0.0,
     "ents_f":0.0,
     "ents_p":0.0,
@@ -204,17 +204,17 @@
         "r":0.0,
         "f":0.0
       },
-      "COUNTER":{
         "p":0.0,
         "r":0.0,
         "f":0.0
       },
-      "PROCLAIM":{
         "p":0.0,
         "r":0.0,
         "f":0.0
       },
-      "PERSON":{
         "p":0.0,
         "r":0.0,
         "f":0.0
@@ -224,6 +224,11 @@
         "r":0.0,
         "f":0.0
       },
       "ORG":{
         "p":0.0,
         "r":0.0,
@@ -269,27 +274,22 @@
         "r":0.0,
         "f":0.0
       },
-      "LAW":{
-        "p":0.0,
-        "r":0.0,
-        "f":0.0
-      },
-      "NORP":{
         "p":0.0,
         "r":0.0,
         "f":0.0
       },
-      "GPE":{
         "p":0.0,
         "r":0.0,
         "f":0.0
       },
-      "QUANTITY":{
         "p":0.0,
         "r":0.0,
         "f":0.0
       },
-      "WORK_OF_ART":{
         "p":0.0,
         "r":0.0,
         "f":0.0
@@ -316,14 +316,14 @@
       }
     },
     "lemma_acc":0.0,
-    "spans_sc_f":0.7699386503,
-    "spans_sc_p":0.7783750258,
-    "spans_sc_r":0.7616831883,
-    "trainable_transformer_loss":4.8252773336,
-    "spancat_loss":685.7182957505
   },
   "requirements":[
-    "spacy-transformers>=1.1.8,<1.2.0",
-    "spacy-experimental>=0.6.1,<0.7.0"
   ]
 }

 {
   "lang":"en",
   "name":"engagement_spl_RoBERTa_base_attention",
+  "version":"0.0.1",
   "description":"",
   "author":"",
   "email":"",
   "url":"",
   "license":"",
+  "spacy_version":">=3.6.0,<3.7.0",
+  "spacy_git_version":"6fc153a26",
   "vectors":{
     "width":0,
     "vectors":0,
     "dep_uas":0.0,
     "dep_las":0.0,
     "dep_las_per_type":0.0,
+    "sents_p":0.936353211,
+    "sents_r":0.957771261,
+    "sents_f":0.9469411424,
     "tag_acc":0.0,
     "ents_f":0.0,
     "ents_p":0.0,
         "r":0.0,
         "f":0.0
       },
+      "PROCLAIM":{
         "p":0.0,
         "r":0.0,
         "f":0.0
       },
+      "COUNTER":{
         "p":0.0,
         "r":0.0,
         "f":0.0
       },
+      "NORP":{
         "p":0.0,
         "r":0.0,
         "f":0.0
         "r":0.0,
         "f":0.0
       },
+      "PERSON":{
+        "p":0.0,
+        "r":0.0,
+        "f":0.0
+      },
       "ORG":{
         "p":0.0,
         "r":0.0,
         "r":0.0,
         "f":0.0
       },
+      "GPE":{
         "p":0.0,
         "r":0.0,
         "f":0.0
       },
+      "QUANTITY":{
         "p":0.0,
         "r":0.0,
         "f":0.0
       },
+      "WORK_OF_ART":{
         "p":0.0,
         "r":0.0,
         "f":0.0
       },
+      "LAW":{
         "p":0.0,
         "r":0.0,
         "f":0.0
       }
     },
     "lemma_acc":0.0,
+    "spans_sc_f":0.7765328988,
+    "spans_sc_p":0.7819487179,
+    "spans_sc_r":0.7711915841,
+    "trainable_transformer_loss":59.1778603495,
+    "spancat_loss":761.8874162047
   },
   "requirements":[
+    "spacy-transformers>=1.2.5,<1.3.0",
+    "spacy-experimental>=0.6.4,<0.7.0"
   ]
 }

ner/model CHANGED Viewed

Binary files a/ner/model and b/ner/model differ

parser/model CHANGED Viewed

Binary files a/parser/model and b/parser/model differ

spancat/cfg CHANGED Viewed

@@ -13,5 +13,7 @@
   ],
   "spans_key":"sc",
   "threshold":0.5,
-  "max_positive":null
 }

   ],
   "spans_key":"sc",
   "threshold":0.5,
+  "max_positive":null,
+  "negative_weight":null,
+  "allow_overlap":true
 }

spancat/model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a619bfcf65a09d7ae3530f875da94ff971cb9cc9541c75a46ba323935c6e99e5
-size 4025694

 version https://git-lfs.github.com/spec/v1
+oid sha256:57f0eae0e1a723c68852e60899998d0ab54d3c5dd3a9605b47c87568f5e1c46f
+size 4731308

tagger/cfg CHANGED Viewed

@@ -1,4 +1,5 @@
 {
   "labels":[
     "$",
     "''",

 {
+  "label_smoothing":0.0,
   "labels":[
     "$",
     "''",

tagger/model CHANGED Viewed

Binary files a/tagger/model and b/tagger/model differ

tokenizer CHANGED Viewed

The diff for this file is too large to render. See raw diff

trainable_transformer/model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0563af895d09415d3a4bb71890938adf4e29777c45ff9d3ebf484677d74f8101
-size 502027816

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe7414c3a1d546d9d1e5e579db20f3b41d324d07e083d16fff4de6861996948b
+size 502028268

transformer/model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5cb2327f9fbf15d08de679e5cfd9b1ae1fc4c565d3f3438d8e627d85a3c577a3
-size 502027925

 version https://git-lfs.github.com/spec/v1
+oid sha256:bb9fc57108532fd3a96a6c638e5a4c55c19990e900eac50266b189f1c23da3bf
+size 502028329

vocab/strings.json CHANGED Viewed

@@ -3384,6 +3384,7 @@
   "3500",
   "35087.38",
   "350Ms",
   "350ms",
   "351",
   "351.2",
@@ -68891,7 +68892,6 @@
   "pennzoil",
   "pens",
   "pensacola",
-  "pensee",
   "pensees",
   "pension",
   "pensions",
@@ -86547,7 +86547,6 @@
   "wolves",
   "womack",
   "woman",
-  "womanize",
   "womanizing",
   "womanly",
   "womans",

   "3500",
   "35087.38",
   "350Ms",
+  "350m",
   "350ms",
   "351",
   "351.2",
   "pennzoil",
   "pens",
   "pensacola",
   "pensees",
   "pension",
   "pensions",
   "wolves",
   "womack",
   "woman",
   "womanizing",
   "womanly",
   "womans",