Update spaCy pipeline

Browse files

Files changed (10) hide show

.gitattributes +1 -0
README.md +10 -16
config.cfg +41 -37
en_pipeline-any-py3-none-any.whl +2 -2
meta.json +11 -30
spancat/cfg +8 -0
spancat/model +3 -0
tokenizer +0 -0
transformer/model +2 -2
vocab/strings.json +0 -0

.gitattributes CHANGED Viewed

@@ -35,3 +35,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 en_pipeline-any-py3-none-any.whl filter=lfs diff=lfs merge=lfs -text
 textcat/model filter=lfs diff=lfs merge=lfs -text
 transformer/model filter=lfs diff=lfs merge=lfs -text

 en_pipeline-any-py3-none-any.whl filter=lfs diff=lfs merge=lfs -text
 textcat/model filter=lfs diff=lfs merge=lfs -text
 transformer/model filter=lfs diff=lfs merge=lfs -text
+spancat/model filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,7 +1,6 @@
 ---
 tags:
 - spacy
-- text-classification
 language:
 - en
 model-index:
@@ -12,9 +11,9 @@ model-index:
 | --- | --- |
 | **Name** | `en_pipeline` |
 | **Version** | `0.0.0` |
-| **spaCy** | `>=3.5.1,<3.6.0` |
-| **Default Pipeline** | `transformer`, `textcat` |
-| **Components** | `transformer`, `textcat` |
 | **Vectors** | 0 keys, 0 unique vectors (0 dimensions) |
 | **Sources** | n/a |
 | **License** | n/a |
@@ -24,11 +23,11 @@ model-index:
 <details>
-<summary>View label scheme (2 labels for 1 components)</summary>
 | Component | Labels |
 | --- | --- |
-| **`textcat`** | `POS`, `NEG` |
 </details>
@@ -36,13 +35,8 @@ model-index:
 | Type | Score |
 | --- | --- |
-| `CATS_SCORE` | 91.77 |
-| `CATS_MICRO_P` | 91.78 |
-| `CATS_MICRO_R` | 91.78 |
-| `CATS_MICRO_F` | 91.78 |
-| `CATS_MACRO_P` | 91.90 |
-| `CATS_MACRO_R` | 91.74 |
-| `CATS_MACRO_F` | 91.77 |
-| `CATS_MACRO_AUC` | 97.20 |
-| `TRANSFORMER_LOSS` | 2920.28 |
-| `TEXTCAT_LOSS` | 307.66 |

 ---
 tags:
 - spacy
 language:
 - en
 model-index:
 | --- | --- |
 | **Name** | `en_pipeline` |
 | **Version** | `0.0.0` |
+| **spaCy** | `>=3.4.4,<3.5.0` |
+| **Default Pipeline** | `transformer`, `spancat` |
+| **Components** | `transformer`, `spancat` |
 | **Vectors** | 0 keys, 0 unique vectors (0 dimensions) |
 | **Sources** | n/a |
 | **License** | n/a |
 <details>
+<summary>View label scheme (1 labels for 1 components)</summary>
 | Component | Labels |
 | --- | --- |
+| **`spancat`** | `Collocation calque` |
 </details>
 | Type | Score |
 | --- | --- |
+| `SPANS_SC_F` | 78.65 |
+| `SPANS_SC_P` | 79.55 |
+| `SPANS_SC_R` | 77.78 |
+| `TRANSFORMER_LOSS` | 7535.29 |
+| `SPANCAT_LOSS` | 148493.75 |

config.cfg CHANGED Viewed

@@ -1,6 +1,6 @@
 [paths]
-train = "./train.spacy"
-dev = "./test.spacy"
 vectors = null
 init_tok2vec = null
@@ -10,8 +10,8 @@ seed = 0
 [nlp]
 lang = "en"
-pipeline = ["transformer","textcat"]
-batch_size = 128
 disabled = []
 before_creation = null
 after_creation = null
@@ -20,28 +20,35 @@ tokenizer = {"@tokenizers":"spacy.Tokenizer.v1"}
 [components]
-[components.textcat]
-factory = "textcat"
-scorer = {"@scorers":"spacy.textcat_scorer.v2"}
-threshold = 0.0
-[components.textcat.model]
-@architectures = "spacy.TextCatEnsemble.v2"
-nO = null
-[components.textcat.model.linear_model]
-@architectures = "spacy.TextCatBOW.v2"
-exclusive_classes = true
-ngram_size = 1
-no_output_layer = false
 nO = null
-[components.textcat.model.tok2vec]
 @architectures = "spacy-transformers.TransformerListener.v1"
 grad_factor = 1.0
 pooling = {"@layers":"reduce_mean.v1"}
 upstream = "*"
 [components.transformer]
 factory = "transformer"
 max_batch_items = 4096
@@ -49,7 +56,7 @@ set_extra_annotations = {"@annotation_setters":"spacy-transformers.null_annotati
 [components.transformer.model]
 @architectures = "spacy-transformers.TransformerModel.v3"
-name = "bert-base-uncased"
 mixed_precision = false
 [components.transformer.model.get_spans]
@@ -68,7 +75,7 @@ use_fast = true
 [corpora.dev]
 @readers = "spacy.Corpus.v1"
-path = ${paths.dev}
 max_length = 0
 gold_preproc = false
 limit = 0
@@ -76,7 +83,7 @@ augmenter = null
 [corpora.train]
 @readers = "spacy.Corpus.v1"
-path = ${paths.train}
 max_length = 0
 gold_preproc = false
 limit = 0
@@ -86,8 +93,8 @@ augmenter = null
 accumulate_gradient = 3
 dev_corpus = "corpora.dev"
 train_corpus = "corpora.train"
-seed = ${system.seed}
-gpu_allocator = ${system.gpu_allocator}
 dropout = 0.1
 patience = 1600
 max_epochs = 0
@@ -96,7 +103,6 @@ eval_frequency = 200
 frozen_components = []
 annotating_components = []
 before_to_disk = null
-before_update = null
 [training.batcher]
 @batchers = "spacy.batch_by_padded.v1"
@@ -106,8 +112,13 @@ buffer = 256
 get_length = null
 [training.logger]
-@loggers = "spacy.ConsoleLogger.v1"
-progress_bar = true
 [training.optimizer]
 @optimizers = "Adam.v1"
@@ -126,22 +137,15 @@ total_steps = 20000
 initial_rate = 0.00005
 [training.score_weights]
-cats_score = 1.0
-cats_score_desc = null
-cats_micro_p = null
-cats_micro_r = null
-cats_micro_f = null
-cats_macro_p = null
-cats_macro_r = null
-cats_macro_f = null
-cats_macro_auc = null
-cats_f_per_type = null
 [pretraining]
 [initialize]
-vectors = ${paths.vectors}
-init_tok2vec = ${paths.init_tok2vec}
 vocab_data = null
 lookups = null
 before_init = null

 [paths]
+train = "./realec/train.spacy"
+dev = "./realec/dev.spacy"
 vectors = null
 init_tok2vec = null
 [nlp]
 lang = "en"
+pipeline = ["transformer","spancat"]
+batch_size = 16
 disabled = []
 before_creation = null
 after_creation = null
 [components]
+[components.spancat]
+factory = "spancat"
+max_positive = null
+scorer = {"@scorers":"spacy.spancat_scorer.v1"}
+spans_key = "sc"
+threshold = 0.5
+[components.spancat.model]
+@architectures = "spacy.SpanCategorizer.v1"
+[components.spancat.model.reducer]
+@layers = "spacy.mean_max_reducer.v1"
+hidden_size = 128
+[components.spancat.model.scorer]
+@layers = "spacy.LinearLogistic.v1"
 nO = null
+nI = null
+[components.spancat.model.tok2vec]
 @architectures = "spacy-transformers.TransformerListener.v1"
 grad_factor = 1.0
 pooling = {"@layers":"reduce_mean.v1"}
 upstream = "*"
+[components.spancat.suggester]
+@misc = "spacy.ngram_suggester.v1"
+sizes = [1,2,3]
 [components.transformer]
 factory = "transformer"
 max_batch_items = 4096
 [components.transformer.model]
 @architectures = "spacy-transformers.TransformerModel.v3"
+name = "roberta-base"
 mixed_precision = false
 [components.transformer.model.get_spans]
 [corpora.dev]
 @readers = "spacy.Corpus.v1"
+path = "./dev_new.spacy"
 max_length = 0
 gold_preproc = false
 limit = 0
 [corpora.train]
 @readers = "spacy.Corpus.v1"
+path = "./train_new.spacy"
 max_length = 0
 gold_preproc = false
 limit = 0
 accumulate_gradient = 3
 dev_corpus = "corpora.dev"
 train_corpus = "corpora.train"
+seed = 0
+gpu_allocator = "pytorch"
 dropout = 0.1
 patience = 1600
 max_epochs = 0
 frozen_components = []
 annotating_components = []
 before_to_disk = null
 [training.batcher]
 @batchers = "spacy.batch_by_padded.v1"
 get_length = null
 [training.logger]
+@loggers = "spacy.WandbLogger.v3"
+project_name = "my-awesome-project"
+remove_config_values = ["paths.train","paths.dev","corpora.train.path","corpora.dev.path"]
+log_dataset_dir = null
+entity = null
+run_name = "grammar-checker"
+model_log_interval = null
 [training.optimizer]
 @optimizers = "Adam.v1"
 initial_rate = 0.00005
 [training.score_weights]
+spans_sc_f = 1.0
+spans_sc_p = 0.0
+spans_sc_r = 0.0
 [pretraining]
 [initialize]
+vectors = null
+init_tok2vec = null
 vocab_data = null
 lookups = null
 before_init = null

en_pipeline-any-py3-none-any.whl CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e35e7f065ebdc23d16a1ef3496befde1f383d45a057dd2ae32ab1d64bf778e02
-size 412661622

 version https://git-lfs.github.com/spec/v1
+oid sha256:b3c18fb55ea1df716bcfba73e5dc56088a12cf5d913f27f4efce4969a85c07a4
+size 429989617

meta.json CHANGED Viewed

@@ -7,7 +7,7 @@
   "email":"",
   "url":"",
   "license":"",
-  "spacy_version":">=3.5.1,<3.6.0",
   "spacy_git_version":"Unknown",
   "vectors":{
     "width":0,
@@ -19,48 +19,29 @@
     "transformer":[
     ],
-    "textcat":[
-      "POS",
-      "NEG"
     ]
   },
   "pipeline":[
     "transformer",
-    "textcat"
   ],
   "components":[
     "transformer",
-    "textcat"
   ],
   "disabled":[
   ],
   "performance":{
-    "cats_score":0.9176602658,
-    "cats_score_desc":"macro F",
-    "cats_micro_p":0.9177777778,
-    "cats_micro_r":0.9177777778,
-    "cats_micro_f":0.9177777778,
-    "cats_macro_p":0.9189851078,
-    "cats_macro_r":0.917437174,
-    "cats_macro_f":0.9176602658,
-    "cats_macro_auc":0.9720394737,
-    "cats_f_per_type":{
-      "POS":{
-        "p":0.9383886256,
-        "r":0.8918918919,
-        "f":0.9145496536
-      },
-      "NEG":{
-        "p":0.89958159,
-        "r":0.9429824561,
-        "f":0.9207708779
-      }
-    },
-    "transformer_loss":29.2027841461,
-    "textcat_loss":3.076644832
   },
   "requirements":[
-    "spacy-transformers>=1.2.2,<1.3.0"
   ]
 }

   "email":"",
   "url":"",
   "license":"",
+  "spacy_version":">=3.4.4,<3.5.0",
   "spacy_git_version":"Unknown",
   "vectors":{
     "width":0,
     "transformer":[
     ],
+    "spancat":[
+      "Collocation calque"
     ]
   },
   "pipeline":[
     "transformer",
+    "spancat"
   ],
   "components":[
     "transformer",
+    "spancat"
   ],
   "disabled":[
   ],
   "performance":{
+    "spans_sc_f":0.7865168539,
+    "spans_sc_p":0.7954545455,
+    "spans_sc_r":0.7777777778,
+    "transformer_loss":75.3529010877,
+    "spancat_loss":1484.9374902405
   },
   "requirements":[
+    "spacy-transformers>=1.2.1,<1.3.0"
   ]
 }

spancat/cfg ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "labels":[
+    "Collocation calque"
+  ],
+  "spans_key":"sc",
+  "threshold":0.5,
+  "max_positive":null
+}

spancat/model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f87221448a074d1c96d0e147e20962654614d0c20d79f1573af97256e0ca67b3
+size 4723491

tokenizer CHANGED Viewed

The diff for this file is too large to render. See raw diff

transformer/model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6d0701461020db1519d06f02a0fabb24b27c4021afdbf1471b7200399f0b4055
-size 438956545

 version https://git-lfs.github.com/spec/v1
+oid sha256:af10117af5973ed22ffdadc9022168ca709b348568937a25abdf65d7c84649aa
+size 502030680

vocab/strings.json CHANGED Viewed

The diff for this file is too large to render. See raw diff