Update spaCy pipeline

Browse files

Files changed (9) hide show

README.md +12 -2
config.cfg +97 -31
en_grammar_checker-any-py3-none-any.whl +2 -2
meta.json +16 -16
spancat/cfg +18 -0
spancat/model +3 -0
transformer/cfg +3 -0
transformer/model +3 -0
vocab/strings.json +2 -2

README.md CHANGED Viewed

@@ -8,6 +8,8 @@ model-index:
 - name: en_grammar_checker
   results: []
 ---
 | Feature | Description |
 | --- | --- |
 | **Name** | `en_grammar_checker` |
@@ -17,5 +19,13 @@ model-index:
 | **Components** | `errors` |
 | **Vectors** | 0 keys, 0 unique vectors (0 dimensions) |
 | **Sources** | n/a |
-| **License** | n/a |
-| **Author** | [n/a]() |

 - name: en_grammar_checker
   results: []
 ---
+Essay Grammar Checker
 | Feature | Description |
 | --- | --- |
 | **Name** | `en_grammar_checker` |
 | **Components** | `errors` |
 | **Vectors** | 0 keys, 0 unique vectors (0 dimensions) |
 | **Sources** | n/a |
+| **License** | `CC BY-SA 3.0` |
+| **Author** | [Irina Proskurina]() |
+### Accuracy
+| Type | Score |
+| --- | --- |
+| `SPANS_ERRORS_P` | 79.38 |
+| `SPANS_ERRORS_R` | 44.77 |
+| `SPANS_ERRORS_F` | 57.25 |

config.cfg CHANGED Viewed

@@ -1,77 +1,124 @@
 [paths]
-train = null
-dev = null
 vectors = null
 init_tok2vec = null
 [system]
 seed = 0
-gpu_allocator = null
 [nlp]
 lang = "en"
-pipeline = ["errors"]
 disabled = []
 before_creation = null
 after_creation = null
 after_pipeline_creation = null
-batch_size = 1000
 tokenizer = {"@tokenizers":"spacy.Tokenizer.v1"}
 [components]
-[components.errors]
-factory = "errors"
 [corpora]
 [corpora.dev]
 @readers = "spacy.Corpus.v1"
-path = ${paths.dev}
-gold_preproc = false
 max_length = 0
 limit = 0
 augmenter = null
 [corpora.train]
 @readers = "spacy.Corpus.v1"
-path = ${paths.train}
-gold_preproc = false
 max_length = 0
 limit = 0
 augmenter = null
 [training]
-seed = ${system.seed}
-gpu_allocator = ${system.gpu_allocator}
 dropout = 0.1
-accumulate_gradient = 1
 patience = 1600
 max_epochs = 0
 max_steps = 20000
 eval_frequency = 200
 frozen_components = []
 annotating_components = []
-dev_corpus = "corpora.dev"
-train_corpus = "corpora.train"
 before_to_disk = null
 [training.batcher]
-@batchers = "spacy.batch_by_words.v1"
-discard_oversize = false
-tolerance = 0.2
 get_length = null
-[training.batcher.size]
-@schedules = "compounding.v1"
-start = 100
-stop = 1000
-compound = 1.001
-t = 0.0
 [training.logger]
-@loggers = "spacy.ConsoleLogger.v1"
-progress_bar = false
 [training.optimizer]
 @optimizers = "Adam.v1"
@@ -82,15 +129,34 @@ L2 = 0.01
 grad_clip = 1.0
 use_averages = false
 eps = 0.00000001
-learn_rate = 0.001
 [training.score_weights]
 [pretraining]
 [initialize]
-vectors = ${paths.vectors}
-init_tok2vec = ${paths.init_tok2vec}
 vocab_data = null
 lookups = null
 before_init = null

 [paths]
+train = "./realec/train.spacy"
+dev = "./realec/dev.spacy"
 vectors = null
 init_tok2vec = null
 [system]
+gpu_allocator = "pytorch"
 seed = 0
 [nlp]
 lang = "en"
+pipeline = ["transformer","spancat"]
+batch_size = 16
 disabled = []
 before_creation = null
 after_creation = null
 after_pipeline_creation = null
 tokenizer = {"@tokenizers":"spacy.Tokenizer.v1"}
 [components]
+[components.spancat]
+factory = "spancat"
+max_positive = null
+scorer = {"@scorers":"spacy.spancat_scorer.v1"}
+spans_key = "errors"
+threshold = 0.5
+[components.spancat.model]
+@architectures = "spacy.SpanCategorizer.v1"
+[components.spancat.model.reducer]
+@layers = "spacy.mean_max_reducer.v1"
+hidden_size = 128
+[components.spancat.model.scorer]
+@layers = "spacy.LinearLogistic.v1"
+nO = null
+nI = null
+[components.spancat.model.tok2vec]
+@architectures = "spacy-transformers.TransformerListener.v1"
+grad_factor = 1.0
+pooling = {"@layers":"reduce_mean.v1"}
+upstream = "*"
+[components.spancat.suggester]
+@misc = "spacy.ngram_suggester.v1"
+sizes = [1,2,3]
+[components.transformer]
+factory = "transformer"
+max_batch_items = 4096
+set_extra_annotations = {"@annotation_setters":"spacy-transformers.null_annotation_setter.v1"}
+[components.transformer.model]
+@architectures = "spacy-transformers.TransformerModel.v3"
+name = "bert-base-cased"
+mixed_precision = false
+[components.transformer.model.get_spans]
+@span_getters = "spacy-transformers.strided_spans.v1"
+window = 128
+stride = 96
+[components.transformer.model.grad_scaler_config]
+[components.transformer.model.tokenizer_config]
+use_fast = true
+[components.transformer.model.transformer_config]
 [corpora]
 [corpora.dev]
 @readers = "spacy.Corpus.v1"
+path = "./realec/dev.spacy"
 max_length = 0
+gold_preproc = false
 limit = 0
 augmenter = null
 [corpora.train]
 @readers = "spacy.Corpus.v1"
+path = "./realec/train.spacy"
 max_length = 0
+gold_preproc = false
 limit = 0
 augmenter = null
 [training]
+accumulate_gradient = 3
+dev_corpus = "corpora.dev"
+train_corpus = "corpora.train"
+seed = 0
+gpu_allocator = "pytorch"
 dropout = 0.1
 patience = 1600
 max_epochs = 0
 max_steps = 20000
 eval_frequency = 200
 frozen_components = []
 annotating_components = []
 before_to_disk = null
 [training.batcher]
+@batchers = "spacy.batch_by_padded.v1"
+discard_oversize = true
+size = 2000
+buffer = 256
 get_length = null
 [training.logger]
+@loggers = "spacy.WandbLogger.v3"
+project_name = "my-awesome-project"
+remove_config_values = ["paths.train","paths.dev","corpora.train.path","corpora.dev.path"]
+log_dataset_dir = null
+entity = null
+run_name = "grammar-checker"
+model_log_interval = null
 [training.optimizer]
 @optimizers = "Adam.v1"
 grad_clip = 1.0
 use_averages = false
 eps = 0.00000001
+[training.optimizer.learn_rate]
+@schedules = "warmup_linear.v1"
+warmup_steps = 250
+total_steps = 20000
+initial_rate = 0.00005
 [training.score_weights]
+spans_sc_f = 0.5
+spans_sc_p = 0.0
+spans_sc_r = 0.0
+spans_Agreement_errors_f = 0.06
+spans_Articles_f = 0.03
+spans_Capitalisation_f = 0.05
+spans_Formational_affixes_f = 0.1
+spans_Noun_number_f = 0.04
+spans_Numerals_f = 0.06
+spans_Prepositions_f = 0.05
+spans_Punctuation_f = 0.03
+spans_Spelling_f = 0.02
+spans_Tense_choice_f = 0.03
+spans_lex_item_choice_f = 0.03
 [pretraining]
 [initialize]
+vectors = null
+init_tok2vec = null
 vocab_data = null
 lookups = null
 before_init = null

en_grammar_checker-any-py3-none-any.whl CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:483f6941367174edb71452d6c4f82fdf61aae1b35c3755a91e8cf4d58688cbcf
-size 406916683

 version https://git-lfs.github.com/spec/v1
+oid sha256:bce34b4aa2e04c41a3fada9ada855e4745a8ca7e8858e63b672f569c2255fdc6
+size 406893070

meta.json CHANGED Viewed

@@ -8,15 +8,20 @@
   "url":"",
   "license":"CC BY-SA 3.0",
   "spacy_version":">=3.4.4,<3.5.0",
-  "spacy_git_version":"61dfdd9fb",
   "vectors":{
     "width":0,
     "vectors":0,
     "keys":0,
     "name":null
-  },
-  "labels":{
   },
   "pipeline":[
     "errors"
@@ -24,18 +29,9 @@
   "components":[
     "errors"
   ],
-  "disabled":[
-  ],
-  "parent_package":"spacy",
-  "requirements":[
-    "spacy-transformers>=1.0.0,<1.1.0"
-  ],
-  "sources":[
-    {
-      "license":"MIT"
-    }
-  ],
   "performance":{
     "spans_errors_p":0.7937892339,
     "spans_errors_r":0.4476503759,
@@ -98,5 +94,9 @@
       }
     }
   },
-  "speed":2779.5295317788
 }

   "url":"",
   "license":"CC BY-SA 3.0",
   "spacy_version":">=3.4.4,<3.5.0",
+  "parent_package":"spacy",
+  "requirements":[
+    "spacy-transformers>=1.0.0,<1.1.0"
+  ],
+  "sources":[
+    {
+      "license":"MIT"
+    }
+  ],
   "vectors":{
     "width":0,
     "vectors":0,
     "keys":0,
     "name":null
   },
   "pipeline":[
     "errors"
   "components":[
     "errors"
   ],
+  "labels":{
+  },
   "performance":{
     "spans_errors_p":0.7937892339,
     "spans_errors_r":0.4476503759,
       }
     }
   },
+  "speed":2779.5295317788,
+  "spacy_git_version":"61dfdd9fb",
+  "disabled":[
+  ]
 }

spancat/cfg ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "labels":[
+    "Numerals",
+    "lex_item_choice",
+    "Articles",
+    "Punctuation",
+    "Prepositions",
+    "Formational_affixes",
+    "Agreement_errors",
+    "Capitalisation",
+    "Noun_number",
+    "Tense_choice",
+    "Spelling"
+  ],
+  "spans_key":"errors",
+  "threshold":0.5,
+  "max_positive":null
+}

spancat/model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0644468a3433a24fac0c4eff33e9a6626a1eabf81407b933c942d1d83f69e84d
+size 4728651

transformer/cfg ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "max_batch_items":4096
+}

transformer/model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:295f882fecfc711a4d7a52b89365526b8fcf308a8c092f91da73a9bba8b80629
+size 434208063

vocab/strings.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b0341677b1e682df9d40e4e944d83860fbff48c547e2251da6885f2bc6a3fa29
-size 12938

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a64eed47943544dafc1dabe9d0f6c26399acf4d59c10d9cdd1c31ba85168f82
+size 176610