Update spaCy pipeline

Browse files

Files changed (10) hide show

README.md +9 -6
accuracy.json +10 -7
attribute_ruler/patterns +0 -0
config.cfg +23 -18
meta.json +13 -10
senter/cfg +1 -1
tagger/cfg +2 -1
vocab/strings.json +2 -2
vocab/vectors.cfg +3 -0
zh_core_web_lg-any-py3-none-any.whl +2 -2

README.md CHANGED Viewed

@@ -63,8 +63,8 @@ Chinese pipeline optimized for CPU. Components: tok2vec, tagger, parser, senter,
 | Feature | Description |
 | --- | --- |
 | **Name** | `zh_core_web_lg` |
-| **Version** | `3.1.0` |
-| **spaCy** | `>=3.1.0,<3.2.0` |
 | **Default Pipeline** | `tok2vec`, `tagger`, `parser`, `attribute_ruler`, `ner` |
 | **Components** | `tok2vec`, `tagger`, `parser`, `senter`, `attribute_ruler`, `ner` |
 | **Vectors** | 500000 keys, 500000 unique vectors (300 dimensions) |
@@ -92,12 +92,15 @@ Chinese pipeline optimized for CPU. Components: tok2vec, tagger, parser, senter,
 | Type | Score |
 | --- | --- |
 | `TOKEN_ACC` | 97.88 |
 | `TAG_ACC` | 90.37 |
 | `DEP_UAS` | 70.69 |
 | `DEP_LAS` | 65.55 |
 | `ENTS_P` | 73.59 |
 | `ENTS_R` | 69.11 |
-| `ENTS_F` | 71.28 |
-| `SENTS_P` | 78.96 |
-| `SENTS_R` | 72.86 |
-| `SENTS_F` | 75.79 |

 | Feature | Description |
 | --- | --- |
 | **Name** | `zh_core_web_lg` |
+| **Version** | `3.2.0` |
+| **spaCy** | `>=3.2.0,<3.3.0` |
 | **Default Pipeline** | `tok2vec`, `tagger`, `parser`, `attribute_ruler`, `ner` |
 | **Components** | `tok2vec`, `tagger`, `parser`, `senter`, `attribute_ruler`, `ner` |
 | **Vectors** | 500000 keys, 500000 unique vectors (300 dimensions) |
 | Type | Score |
 | --- | --- |
 | `TOKEN_ACC` | 97.88 |
+| `TOKEN_P` | 94.58 |
+| `TOKEN_R` | 91.36 |
+| `TOKEN_F` | 92.94 |
 | `TAG_ACC` | 90.37 |
+| `SENTS_P` | 78.96 |
+| `SENTS_R` | 72.86 |
+| `SENTS_F` | 75.79 |
 | `DEP_UAS` | 70.69 |
 | `DEP_LAS` | 65.55 |
 | `ENTS_P` | 73.59 |
 | `ENTS_R` | 69.11 |
+| `ENTS_F` | 71.28 |

accuracy.json CHANGED Viewed

@@ -1,15 +1,14 @@
 {
   "token_acc": 0.9788303388,
   "tag_acc": 0.9037457747,
-  "dep_uas": 0.7069146954,
-  "dep_las": 0.6555390607,
-  "ents_p": 0.7358998362,
-  "ents_r": 0.6910989011,
-  "ents_f": 0.7127961011,
   "sents_p": 0.7896445968,
   "sents_r": 0.7286499084,
   "sents_f": 0.7579220779,
-  "speed": 9733.8076235494,
   "dep_las_per_type": {
     "dep": {
       "p": 0.4876810512,
@@ -237,6 +236,9 @@
       "f": 0.9176470588
     }
   },
   "ents_per_type": {
     "DATE": {
       "p": 0.7675925926,
@@ -328,5 +330,6 @@
       "r": 0.5555555556,
       "f": 0.5555555556
     }
-  }
 }

 {
   "token_acc": 0.9788303388,
+  "token_p": 0.9458325855,
+  "token_r": 0.9136060443,
+  "token_f": 0.9294400505,
   "tag_acc": 0.9037457747,
   "sents_p": 0.7896445968,
   "sents_r": 0.7286499084,
   "sents_f": 0.7579220779,
+  "dep_uas": 0.7069146954,
+  "dep_las": 0.6555390607,
   "dep_las_per_type": {
     "dep": {
       "p": 0.4876810512,
       "f": 0.9176470588
     }
   },
+  "ents_p": 0.7358998362,
+  "ents_r": 0.6910989011,
+  "ents_f": 0.7127961011,
   "ents_per_type": {
     "DATE": {
       "p": 0.7675925926,
       "r": 0.5555555556,
       "f": 0.5555555556
     }
+  },
+  "speed": 7127.6040150529
 }

attribute_ruler/patterns CHANGED Viewed

Binary files a/attribute_ruler/patterns and b/attribute_ruler/patterns differ

config.cfg CHANGED Viewed

@@ -1,10 +1,8 @@
 [paths]
-train = "corpus/zh-core-news/train.spacy"
-dev = "corpus/zh-core-news/dev.spacy"
-vectors = "corpus/zh_vectors"
-raw = null
 init_tok2vec = null
-vocab_data = null
 [system]
 gpu_allocator = null
@@ -27,12 +25,14 @@ segmenter = "pkuseg"
 [components.attribute_ruler]
 factory = "attribute_ruler"
 validate = false
 [components.ner]
 factory = "ner"
 incorrect_spans_key = null
 moves = null
 update_with_oracle_cut_size = 100
 [components.ner.model]
@@ -66,6 +66,7 @@ factory = "parser"
 learn_tokens = false
 min_action_freq = 30
 moves = null
 update_with_oracle_cut_size = 100
 [components.parser.model]
@@ -84,6 +85,8 @@ upstream = "tok2vec"
 [components.senter]
 factory = "senter"
 [components.senter.model]
 @architectures = "spacy.Tagger.v1"
@@ -108,6 +111,8 @@ maxout_pieces = 2
 [components.tagger]
 factory = "tagger"
 [components.tagger.model]
 @architectures = "spacy.Tagger.v1"
@@ -142,17 +147,17 @@ maxout_pieces = 3
 [corpora.dev]
 @readers = "spacy.Corpus.v1"
-limit = 0
-max_length = 0
-path = ${paths:dev}
 gold_preproc = false
 augmenter = null
 [corpora.train]
 @readers = "spacy.Corpus.v1"
-path = ${paths:train}
-max_length = 5000
 gold_preproc = false
 limit = 0
 augmenter = null
@@ -185,9 +190,8 @@ compound = 1.001
 t = 0.0
 [training.logger]
-@loggers = "spacy.WandbLogger.v1"
-project_name = "spacy-v3.0.0a2"
-remove_config_values = []
 [training.optimizer]
 @optimizers = "Adam.v1"
@@ -201,22 +205,23 @@ eps = 0.00000001
 learn_rate = 0.001
 [training.score_weights]
-tag_acc = 0.24
 dep_uas = 0.0
-dep_las = 0.24
 dep_las_per_type = null
 sents_p = null
 sents_r = null
-sents_f = 0.03
-ents_f = 0.5
 ents_p = 0.0
 ents_r = 0.0
 ents_per_type = null
 [pretraining]
 [initialize]
-vocab_data = ${paths.vocab_data}
 vectors = ${paths.vectors}
 init_tok2vec = ${paths.init_tok2vec}
 before_init = null

 [paths]
+train = null
+dev = null
+vectors = null
 init_tok2vec = null
 [system]
 gpu_allocator = null
 [components.attribute_ruler]
 factory = "attribute_ruler"
+scorer = {"@scorers":"spacy.attribute_ruler_scorer.v1"}
 validate = false
 [components.ner]
 factory = "ner"
 incorrect_spans_key = null
 moves = null
+scorer = {"@scorers":"spacy.ner_scorer.v1"}
 update_with_oracle_cut_size = 100
 [components.ner.model]
 learn_tokens = false
 min_action_freq = 30
 moves = null
+scorer = {"@scorers":"spacy.parser_scorer.v1"}
 update_with_oracle_cut_size = 100
 [components.parser.model]
 [components.senter]
 factory = "senter"
+overwrite = false
+scorer = {"@scorers":"spacy.senter_scorer.v1"}
 [components.senter.model]
 @architectures = "spacy.Tagger.v1"
 [components.tagger]
 factory = "tagger"
+overwrite = false
+scorer = {"@scorers":"spacy.tagger_scorer.v1"}
 [components.tagger.model]
 @architectures = "spacy.Tagger.v1"
 [corpora.dev]
 @readers = "spacy.Corpus.v1"
+path = ${paths.dev}
 gold_preproc = false
+max_length = 0
+limit = 0
 augmenter = null
 [corpora.train]
 @readers = "spacy.Corpus.v1"
+path = ${paths.train}
 gold_preproc = false
+max_length = 0
 limit = 0
 augmenter = null
 t = 0.0
 [training.logger]
+@loggers = "spacy.ConsoleLogger.v1"
+progress_bar = false
 [training.optimizer]
 @optimizers = "Adam.v1"
 learn_rate = 0.001
 [training.score_weights]
+tag_acc = 0.32
 dep_uas = 0.0
+dep_las = 0.32
 dep_las_per_type = null
 sents_p = null
 sents_r = null
+sents_f = 0.04
+ents_f = 0.32
 ents_p = 0.0
 ents_r = 0.0
 ents_per_type = null
+speed = 0.0
 [pretraining]
 [initialize]
+vocab_data = null
 vectors = ${paths.vectors}
 init_tok2vec = ${paths.init_tok2vec}
 before_init = null

meta.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
   "lang":"zh",
   "name":"core_web_lg",
-  "version":"3.1.0",
   "description":"Chinese pipeline optimized for CPU. Components: tok2vec, tagger, parser, senter, ner, attribute_ruler.",
   "author":"Explosion",
   "email":"contact@explosion.ai",
   "url":"https://explosion.ai",
   "license":"MIT",
-  "spacy_version":">=3.1.0,<3.2.0",
-  "spacy_git_version":"caba63b74",
   "vectors":{
     "width":300,
     "vectors":500000,
@@ -152,16 +152,15 @@
   ],
   "performance":{
     "token_acc":0.9788303388,
     "tag_acc":0.9037457747,
-    "dep_uas":0.7069146954,
-    "dep_las":0.6555390607,
-    "ents_p":0.7358998362,
-    "ents_r":0.6910989011,
-    "ents_f":0.7127961011,
     "sents_p":0.7896445968,
     "sents_r":0.7286499084,
     "sents_f":0.7579220779,
-    "speed":9733.8076235494,
     "dep_las_per_type":{
       "dep":{
         "p":0.4876810512,
@@ -389,6 +388,9 @@
         "f":0.9176470588
       }
     },
     "ents_per_type":{
       "DATE":{
         "p":0.7675925926,
@@ -480,7 +482,8 @@
         "r":0.5555555556,
         "f":0.5555555556
       }
-    }
   },
   "sources":[
     {

 {
   "lang":"zh",
   "name":"core_web_lg",
+  "version":"3.2.0",
   "description":"Chinese pipeline optimized for CPU. Components: tok2vec, tagger, parser, senter, ner, attribute_ruler.",
   "author":"Explosion",
   "email":"contact@explosion.ai",
   "url":"https://explosion.ai",
   "license":"MIT",
+  "spacy_version":">=3.2.0,<3.3.0",
+  "spacy_git_version":"bb26550e2",
   "vectors":{
     "width":300,
     "vectors":500000,
   ],
   "performance":{
     "token_acc":0.9788303388,
+    "token_p":0.9458325855,
+    "token_r":0.9136060443,
+    "token_f":0.9294400505,
     "tag_acc":0.9037457747,
     "sents_p":0.7896445968,
     "sents_r":0.7286499084,
     "sents_f":0.7579220779,
+    "dep_uas":0.7069146954,
+    "dep_las":0.6555390607,
     "dep_las_per_type":{
       "dep":{
         "p":0.4876810512,
         "f":0.9176470588
       }
     },
+    "ents_p":0.7358998362,
+    "ents_r":0.6910989011,
+    "ents_f":0.7127961011,
     "ents_per_type":{
       "DATE":{
         "p":0.7675925926,
         "r":0.5555555556,
         "f":0.5555555556
       }
+    },
+    "speed":7127.6040150529
   },
   "sources":[
     {

senter/cfg CHANGED Viewed

@@ -1,3 +1,3 @@
 {
 }

 {
+  "overwrite":false
 }

tagger/cfg CHANGED Viewed

@@ -36,5 +36,6 @@
     "VE",
     "VV",
     "X"
-  ]
 }

     "VE",
     "VV",
     "X"
+  ],
+  "overwrite":false
 }

vocab/strings.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:401539f9b54cffa79ffd8de96bdd43f4a6caff75dbb63a9cb3655696190fcfb6
-size 9845085

 version https://git-lfs.github.com/spec/v1
+oid sha256:9860bff8f8b50d10c77f43b97e932359ecb16be487fab650fd5e7ae3895101fc
+size 10513704

vocab/vectors.cfg ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "mode":"default"
+}

zh_core_web_lg-any-py3-none-any.whl CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:292a92db6ef0ef5c60756e6de7bc98bb43fdf92655b6def5fb7558e2e8cd8474
-size 603784210

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ad7469433d4402b3d24083af28f41c8b1f7da5cd016146a843b7c35efc4745f
+size 603932201