Update spaCy pipeline

Browse files

Files changed (8) hide show

.ipynb_checkpoints/meta-checkpoint.json +99 -0
README.md +15 -28
config.cfg +3 -18
custom_factories.py +15 -0
en_grammar_checker-any-py3-none-any.whl +2 -2
meta.json +51 -102
tokenizer +2 -2
vocab/strings.json +2 -2

.ipynb_checkpoints/meta-checkpoint.json ADDED Viewed

	@@ -0,0 +1,99 @@

+{
+  "lang":"en",
+  "name":"grammar_checker",
+  "version":"1.0.1",
+  "description":"Essay Grammar Checker",
+  "author":"Irina Proskurina",
+  "email":"",
+  "url":"",
+  "license":"CC BY-SA 3.0",
+  "spacy_version":">=3.4.4,<3.5.0",
+  "parent_package":"spacy",
+  "requirements":[
+    "spacy-transformers>=1.0.0,<1.1.0"
+  ],
+  "sources":[
+    {
+      "license":"MIT"
+    }
+  ],
+  "vectors":{
+    "width":0,
+    "vectors":0,
+    "keys":0,
+    "name":null
+  },
+  "pipeline":
+    "errors",
+  "components":"errors",
+  "labels":{
+  },
+  "performance":{
+    "spans_errors_p":0.7937892339,
+    "spans_errors_r":0.4476503759,
+    "spans_errors_f":0.5724644939,
+    "spans_errors_per_type":{
+    "Numerals":{
+      "p":0.7313328681,
+      "r":0.577092511,
+      "f":0.6451215759
+    },
+    "lex_item_choice":{
+      "p":0.7750791975,
+      "r":0.1950571353,
+      "f":0.3116772824
+    },
+    "Articles":{
+      "p":0.785046729,
+      "r":0.4552258065,
+      "f":0.5762822607
+    },
+    "Punctuation":{
+      "p":0.6955835962,
+      "r":0.2376077586,
+      "f":0.3542168675
+    },
+    "Prepositions":{
+      "p":0.8163471241,
+      "r":0.3766294227,
+      "f":0.5154507805
+    },
+    "Formational_affixes":{
+      "p":0.7269700333,
+      "r":0.6031307551,
+      "f":0.6592853548
+    },
+    "Agreement_errors":{
+      "p":0.7909018356,
+      "r":0.5164147994,
+      "f":0.6248423707
+    },
+    "Capitalisation":{
+      "p":0.8034148593,
+      "r":0.7899274047,
+      "f":0.7966140471
+    },
+    "Noun_number":{
+      "p":0.8251445087,
+      "r":0.5558079169,
+      "f":0.6642109345
+    },
+    "Tense_choice":{
+      "p":0.7827648115,
+      "r":0.5369458128,
+      "f":0.6369612856
+    },
+    "Spelling":{
+      "p":0.886746988,
+      "r":0.4357608052,
+      "f":0.5843588726
+    }
+  }
+  },
+  "speed":2779.5295317788,
+  "spacy_git_version":"61dfdd9fb",
+  "disabled":[
+  ]
+}

README.md CHANGED Viewed

@@ -1,34 +1,21 @@
 ---
 tags:
-- Token Classification
-- spacy
-- SpanCategorizer
-- grammar_checker
-- essay_checker
 language:
 - en
 license: cc-by-sa-3.0
 ---
-# Essay Grammar Checker
-Essay Grammar Checker trained on [Russian Error-Annotated Learner English Corpus](https://realec.org).
-## Training information
-The checker consists of 6 pipelines each trained on specific error types.
-Error Categories used for pipeline mapping:
-```
-    "spelling":{"Spelling", "Capitalisation"},
-    "punctuation": {"Punctuation"},
-    "articles": {"Articles"},
-    "vocabulary": {"lex_item_choice", "lex_part_choice",
-                   'Category_confusion','Formational_affixes'},
-    "grammar_major": {'Tense_choice','Prepositions','Agreement_errors', 'Redundant_comp'},
-    "grammar_minor": {'Word_order','Noun_number', 'Numerals','Verb_pattern', 'Determiners'}
-```
-[Detailed information](https://github.com/upunaprosk/grammar_checker)
-[Example usage in Colab](https://github.com/upunaprosk/grammar_checker/blob/master/grammar_checker_example_usage.ipynb)

 ---
 tags:
+- spacy
 language:
 - en
 license: cc-by-sa-3.0
+model-index:
+- name: en_grammar_checker
+  results: []
 ---
+| Feature | Description |
+| --- | --- |
+| **Name** | `en_grammar_checker` |
+| **Version** | `1.0.1` |
+| **spaCy** | `>=3.4.4,<3.5.0` |
+| **Default Pipeline** | `errors` |
+| **Components** | `errors` |
+| **Vectors** | 0 keys, 0 unique vectors (0 dimensions) |
+| **Sources** | n/a |
+| **License** | n/a |
+| **Author** | [n/a]() |

config.cfg CHANGED Viewed

@@ -10,7 +10,7 @@ gpu_allocator = null
 [nlp]
 lang = "en"
-pipeline = ["punctuation","spelling","articles","grammar_major","grammar_minor","vocabulary"]
 disabled = []
 before_creation = null
 after_creation = null
@@ -20,23 +20,8 @@ tokenizer = {"@tokenizers":"spacy.Tokenizer.v1"}
 [components]
-[components.articles]
-factory = "articles"
-[components.grammar_major]
-factory = "grammar_major"
-[components.grammar_minor]
-factory = "grammar_minor"
-[components.punctuation]
-factory = "punctuation"
-[components.spelling]
-factory = "spelling"
-[components.vocabulary]
-factory = "vocabulary"
 [corpora]

 [nlp]
 lang = "en"
+pipeline = ["errors"]
 disabled = []
 before_creation = null
 after_creation = null
 [components]
+[components.errors]
+factory = "errors"
 [corpora]

custom_factories.py ADDED Viewed

	@@ -0,0 +1,15 @@

+import spacy
+from spacy.language import Language
+from pathlib import Path
+from spacy.util import get_model_meta
+model_path = Path(__file__).parent
+meta = get_model_meta(model_path)
+data_dir = f"{meta['lang']}_{meta['name']}-{meta['version']}"
+components_path = model_path / data_dir / "training"
+@Language.component("errors")
+def errors(doc):
+    nlp_vocabulary = spacy.load(components_path)
+    return nlp_vocabulary(doc)

en_grammar_checker-any-py3-none-any.whl CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f0a808972cae10f9b445a2435a70ee3664f8433086d3b3862febe7679cfb321e
-size 2441454414

 version https://git-lfs.github.com/spec/v1
+oid sha256:f240edb3c8aff37ea6bcb74b636a06920d77bde9dfff47dace902c0fc61e2063
+size 27098

meta.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
   "lang":"en",
   "name":"grammar_checker",
-  "version":"1.0.0",
   "description":"Essay Grammar Checker",
   "author":"Irina Proskurina",
   "email":"",
   "url":"",
   "license":"CC BY-SA 3.0",
-  "spacy_version":">=3.3.0,<3.4.0",
   "parent_package":"spacy",
   "requirements":[
     "spacy-transformers>=1.0.0,<1.1.0"
@@ -24,128 +24,77 @@
     "name":null
   },
   "pipeline":[
-    "punctuation",
-    "spelling",
-    "articles",
-    "grammar_major",
-    "grammar_minor",
-    "vocabulary"
   ],
   "components":[
-    "punctuation",
-    "spelling",
-    "articles",
-    "grammar_major",
-    "grammar_minor",
-    "vocabulary"
   ],
   "labels":{
   },
   "performance":{
-    "spans_articles_p":0.8274481176,
-    "spans_articles_r":0.8197202306,
-    "spans_articles_f":0.823566046,
-    "spans_punctuation_p":0.8723066455,
-    "spans_punctuation_r":0.6734372264,
-    "spans_punctuation_f":0.7600790514,
-    "spans_spelling_p":0.9037660231,
-    "spans_spelling_r":0.9159588014,
-    "spans_spelling_f":0.9098215644,
-    "spans_spelling_per_type":{
-      "Spelling":{
-        "p":0.9044968253,
-        "r":0.9227970539,
-        "f":0.9135553018
-      },
-      "Capitalisation":{
-        "p":0.8959762655,
-        "r":0.8483146067,
-        "f":0.8714942736
-      }
-    },
-    "spans_vocabulary_p":0.8326700274,
-    "spans_vocabulary_r":0.4697166234,
-    "spans_vocabulary_f":0.6006188,
-    "spans_vocabulary_per_type":{
-      "lex_part_choice":{
-        "p":0.8783783784,
-        "r":0.0741444867,
-        "f":0.1367461431
       },
       "lex_item_choice":{
-        "p":0.8219627873,
-        "r":0.5290802348,
-        "f":0.6437755977
       },
-      "Category_confusion":{
-        "p":0.84472708,
-        "r":0.5153572583,
-        "f":0.6401606426
       },
-      "Formational_affixes":{
-        "p":0.8892307692,
-        "r":0.5608020699,
-        "f":0.6878222927
-      }
-    },
-    "spans_grammar_minor_p":0.8690835299,
-    "spans_grammar_minor_r":0.7119557892,
-    "spans_grammar_minor_f":0.7827117807,
-    "spans_grammar_minor_per_type":{
-      "Verb_pattern":{
-        "p":0.7399617591,
-        "r":0.2491951062,
-        "f":0.3728323699
-      },
-      "Noun_number":{
-        "p":0.8889171489,
-        "r":0.9032758286,
-        "f":0.8960389694
       },
-      "Word_order":{
-        "p":0.8179384203,
-        "r":0.2189179506,
-        "f":0.3453928773
       },
-      "Numerals":{
-        "p":0.7062761506,
-        "r":0.602426838,
-        "f":0.6502311248
       },
-      "Determiners":{
-        "p":0.5853658537,
-        "r":0.0231884058,
-        "f":0.0446096654
-      }
-    },
-    "spans_grammar_major_p":0.8694734373,
-    "spans_grammar_major_r":0.6123730074,
-    "spans_grammar_major_f":0.7186197538,
-    "spans_grammar_major_per_type":{
       "Agreement_errors":{
-        "p":0.8953090397,
-        "r":0.7739296902,
-        "f":0.8302062914
       },
-      "Prepositions":{
-        "p":0.881741712,
-        "r":0.5715202053,
-        "f":0.6935201401
       },
-      "Redundant_comp":{
-        "p":0.8028656126,
-        "r":0.314191802,
-        "f":0.4516397999
       },
       "Tense_choice":{
-        "p":0.86231523,
-        "r":0.7354107649,
-        "f":0.7938231022
       }
     }
   },
-  "speed":5613.7287946692,
   "spacy_git_version":"61dfdd9fb",
   "disabled":[

 {
   "lang":"en",
   "name":"grammar_checker",
+  "version":"1.0.1",
   "description":"Essay Grammar Checker",
   "author":"Irina Proskurina",
   "email":"",
   "url":"",
   "license":"CC BY-SA 3.0",
+  "spacy_version":">=3.4.4,<3.5.0",
   "parent_package":"spacy",
   "requirements":[
     "spacy-transformers>=1.0.0,<1.1.0"
     "name":null
   },
   "pipeline":[
+    "errors"
   ],
   "components":[
+    "errors"
   ],
   "labels":{
   },
   "performance":{
+    "spans_errors_p":0.7937892339,
+    "spans_errors_r":0.4476503759,
+    "spans_errors_f":0.5724644939,
+    "spans_errors_per_type":{
+      "Numerals":{
+        "p":0.7313328681,
+        "r":0.577092511,
+        "f":0.6451215759
       },
       "lex_item_choice":{
+        "p":0.7750791975,
+        "r":0.1950571353,
+        "f":0.3116772824
       },
+      "Articles":{
+        "p":0.785046729,
+        "r":0.4552258065,
+        "f":0.5762822607
       },
+      "Punctuation":{
+        "p":0.6955835962,
+        "r":0.2376077586,
+        "f":0.3542168675
       },
+      "Prepositions":{
+        "p":0.8163471241,
+        "r":0.3766294227,
+        "f":0.5154507805
       },
+      "Formational_affixes":{
+        "p":0.7269700333,
+        "r":0.6031307551,
+        "f":0.6592853548
       },
       "Agreement_errors":{
+        "p":0.7909018356,
+        "r":0.5164147994,
+        "f":0.6248423707
       },
+      "Capitalisation":{
+        "p":0.8034148593,
+        "r":0.7899274047,
+        "f":0.7966140471
       },
+      "Noun_number":{
+        "p":0.8251445087,
+        "r":0.5558079169,
+        "f":0.6642109345
       },
       "Tense_choice":{
+        "p":0.7827648115,
+        "r":0.5369458128,
+        "f":0.6369612856
+      },
+      "Spelling":{
+        "p":0.886746988,
+        "r":0.4357608052,
+        "f":0.5843588726
       }
     }
   },
+  "speed":2779.5295317788,
   "spacy_git_version":"61dfdd9fb",
   "disabled":[

tokenizer CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f0f3f5297dc14c5fd94488174149bd87b5f24dff28e6be993eb3ea7a92e53417
-size 78126

 version https://git-lfs.github.com/spec/v1
+oid sha256:24ad4ddf9a27837484c7fe2ae8a454167cfc9604ef2e7740a2e74a39cc2c1bc3
+size 76990

vocab/strings.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6833af47d0c2d495d15d4781b4a39d7066075dfde086d647e2e3f079777f64fd
-size 13062

 version https://git-lfs.github.com/spec/v1
+oid sha256:b0341677b1e682df9d40e4e944d83860fbff48c547e2251da6885f2bc6a3fa29
+size 12938