Update spaCy pipeline

Browse files

Files changed (12) hide show

README.md +11 -11
config.cfg +146 -144
en_pipeline-any-py3-none-any.whl +2 -2
meta.json +28 -28
ner/cfg +12 -12
ner/model +0 -0
ner/moves +1 -1
transformer/model +1 -1
vocab/key2row +2 -2
vocab/strings.json +2 -2
vocab/vectors +2 -2
vocab/vectors.cfg +2 -2

README.md CHANGED Viewed

@@ -13,22 +13,22 @@ model-index:
     metrics:
     - name: NER Precision
       type: precision
-      value: 0.9809885932
     - name: NER Recall
       type: recall
-      value: 0.9662921348
     - name: NER F Score
       type: f_score
-      value: 0.9735849057
 ---
 | Feature | Description |
 | --- | --- |
 | **Name** | `en_pipeline` |
 | **Version** | `0.0.0` |
 | **spaCy** | `>=3.7.5,<3.8.0` |
-| **Default Pipeline** | `tok2vec`, `ner` |
-| **Components** | `tok2vec`, `ner` |
-| **Vectors** | 514157 keys, 514157 unique vectors (300 dimensions) |
 | **Sources** | n/a |
 | **License** | n/a |
 | **Author** | [n/a]() |
@@ -49,8 +49,8 @@ model-index:
 | Type | Score |
 | --- | --- |
-| `ENTS_F` | 97.36 |
-| `ENTS_P` | 98.10 |
-| `ENTS_R` | 96.63 |
-| `TOK2VEC_LOSS` | 4351.47 |
-| `NER_LOSS` | 53052.01 |

     metrics:
     - name: NER Precision
       type: precision
+      value: 0.9877300613
     - name: NER Recall
       type: recall
+      value: 0.9962871287
     - name: NER F Score
       type: f_score
+      value: 0.9919901417
 ---
 | Feature | Description |
 | --- | --- |
 | **Name** | `en_pipeline` |
 | **Version** | `0.0.0` |
 | **spaCy** | `>=3.7.5,<3.8.0` |
+| **Default Pipeline** | `transformer`, `ner` |
+| **Components** | `transformer`, `ner` |
+| **Vectors** | 0 keys, 0 unique vectors (0 dimensions) |
 | **Sources** | n/a |
 | **License** | n/a |
 | **Author** | [n/a]() |
 | Type | Score |
 | --- | --- |
+| `ENTS_F` | 99.20 |
+| `ENTS_P` | 98.77 |
+| `ENTS_R` | 99.63 |
+| `TRANSFORMER_LOSS` | 36683.04 |
+| `NER_LOSS` | 35818.80 |

config.cfg CHANGED Viewed

@@ -1,145 +1,147 @@
-[paths]
-train = "sit/train3.spacy"
-dev = "sit/train3.spacy"
-vectors = "en_core_web_lg"
-init_tok2vec = null
-[system]
-gpu_allocator = null
-seed = 0
-[nlp]
-lang = "en"
-pipeline = ["tok2vec","ner"]
-batch_size = 1000
-disabled = []
-before_creation = null
-after_creation = null
-after_pipeline_creation = null
-tokenizer = {"@tokenizers":"spacy.Tokenizer.v1"}
-vectors = {"@vectors":"spacy.Vectors.v1"}
-[components]
-[components.ner]
-factory = "ner"
-incorrect_spans_key = null
-moves = null
-scorer = {"@scorers":"spacy.ner_scorer.v1"}
-update_with_oracle_cut_size = 100
-[components.ner.model]
-@architectures = "spacy.TransitionBasedParser.v2"
-state_type = "ner"
-extra_state_tokens = false
-hidden_width = 64
-maxout_pieces = 2
-use_upper = true
-nO = null
-[components.ner.model.tok2vec]
-@architectures = "spacy.Tok2VecListener.v1"
-width = ${components.tok2vec.model.encode.width}
-upstream = "*"
-[components.tok2vec]
-factory = "tok2vec"
-[components.tok2vec.model]
-@architectures = "spacy.Tok2Vec.v2"
-[components.tok2vec.model.embed]
-@architectures = "spacy.MultiHashEmbed.v2"
-width = ${components.tok2vec.model.encode.width}
-attrs = ["NORM","PREFIX","SUFFIX","SHAPE"]
-rows = [5000,1000,2500,2500]
-include_static_vectors = true
-[components.tok2vec.model.encode]
-@architectures = "spacy.MaxoutWindowEncoder.v2"
-width = 256
-depth = 8
-window_size = 1
-maxout_pieces = 3
-[corpora]
-[corpora.dev]
-@readers = "spacy.Corpus.v1"
-path = ${paths.dev}
-max_length = 0
-gold_preproc = false
-limit = 0
-augmenter = null
-[corpora.train]
-@readers = "spacy.Corpus.v1"
-path = ${paths.train}
-max_length = 0
-gold_preproc = false
-limit = 0
-augmenter = null
-[training]
-dev_corpus = "corpora.dev"
-train_corpus = "corpora.train"
-seed = ${system.seed}
-gpu_allocator = ${system.gpu_allocator}
-dropout = 0.1
-accumulate_gradient = 1
-patience = 1600
-max_epochs = 0
-max_steps = 20000
-eval_frequency = 200
-frozen_components = []
-annotating_components = []
-before_to_disk = null
-before_update = null
-[training.batcher]
-@batchers = "spacy.batch_by_words.v1"
-discard_oversize = false
-tolerance = 0.2
-get_length = null
-[training.batcher.size]
-@schedules = "compounding.v1"
-start = 100
-stop = 1000
-compound = 1.001
-t = 0.0
-[training.logger]
-@loggers = "spacy.ConsoleLogger.v1"
-progress_bar = false
-[training.optimizer]
-@optimizers = "Adam.v1"
-beta1 = 0.9
-beta2 = 0.999
-L2_is_weight_decay = true
-L2 = 0.01
-grad_clip = 1.0
-use_averages = false
-eps = 0.00000001
-learn_rate = 0.001
-[training.score_weights]
-ents_f = 1.0
-ents_p = 0.0
-ents_r = 0.0
-ents_per_type = null
-[pretraining]
-[initialize]
-vectors = ${paths.vectors}
-init_tok2vec = ${paths.init_tok2vec}
-vocab_data = null
-lookups = null
-before_init = null
-after_init = null
-[initialize.components]
 [initialize.tokenizer]

+[paths]
+train = "/content/drive/MyDrive/secmodel/train3.spacy"
+dev = "/content/drive/MyDrive/secmodel/train3.spacy"
+vectors = null
+init_tok2vec = null
+[system]
+gpu_allocator = "pytorch"
+seed = 0
+[nlp]
+lang = "en"
+pipeline = ["transformer","ner"]
+batch_size = 128
+disabled = []
+before_creation = null
+after_creation = null
+after_pipeline_creation = null
+tokenizer = {"@tokenizers":"spacy.Tokenizer.v1"}
+vectors = {"@vectors":"spacy.Vectors.v1"}
+[components]
+[components.ner]
+factory = "ner"
+incorrect_spans_key = null
+moves = null
+scorer = {"@scorers":"spacy.ner_scorer.v1"}
+update_with_oracle_cut_size = 100
+[components.ner.model]
+@architectures = "spacy.TransitionBasedParser.v2"
+state_type = "ner"
+extra_state_tokens = false
+hidden_width = 64
+maxout_pieces = 2
+use_upper = false
+nO = null
+[components.ner.model.tok2vec]
+@architectures = "spacy-transformers.TransformerListener.v1"
+grad_factor = 1.0
+pooling = {"@layers":"reduce_mean.v1"}
+upstream = "*"
+[components.transformer]
+factory = "transformer"
+max_batch_items = 4096
+set_extra_annotations = {"@annotation_setters":"spacy-transformers.null_annotation_setter.v1"}
+[components.transformer.model]
+@architectures = "spacy-transformers.TransformerModel.v3"
+name = "roberta-base"
+mixed_precision = false
+[components.transformer.model.get_spans]
+@span_getters = "spacy-transformers.strided_spans.v1"
+window = 128
+stride = 96
+[components.transformer.model.grad_scaler_config]
+[components.transformer.model.tokenizer_config]
+use_fast = true
+[components.transformer.model.transformer_config]
+[corpora]
+[corpora.dev]
+@readers = "spacy.Corpus.v1"
+path = ${paths.dev}
+max_length = 0
+gold_preproc = false
+limit = 0
+augmenter = null
+[corpora.train]
+@readers = "spacy.Corpus.v1"
+path = ${paths.train}
+max_length = 0
+gold_preproc = false
+limit = 0
+augmenter = null
+[training]
+accumulate_gradient = 3
+dev_corpus = "corpora.dev"
+train_corpus = "corpora.train"
+seed = ${system.seed}
+gpu_allocator = ${system.gpu_allocator}
+dropout = 0.1
+patience = 1600
+max_epochs = 0
+max_steps = 20000
+eval_frequency = 200
+frozen_components = []
+annotating_components = []
+before_to_disk = null
+before_update = null
+[training.batcher]
+@batchers = "spacy.batch_by_padded.v1"
+discard_oversize = true
+size = 2000
+buffer = 256
+get_length = null
+[training.logger]
+@loggers = "spacy.ConsoleLogger.v1"
+progress_bar = false
+[training.optimizer]
+@optimizers = "Adam.v1"
+beta1 = 0.9
+beta2 = 0.999
+L2_is_weight_decay = true
+L2 = 0.01
+grad_clip = 1.0
+use_averages = false
+eps = 0.00000001
+[training.optimizer.learn_rate]
+@schedules = "warmup_linear.v1"
+warmup_steps = 250
+total_steps = 20000
+initial_rate = 0.00005
+[training.score_weights]
+ents_f = 1.0
+ents_p = 0.0
+ents_r = 0.0
+ents_per_type = null
+[pretraining]
+[initialize]
+vectors = ${paths.vectors}
+init_tok2vec = ${paths.init_tok2vec}
+vocab_data = null
+lookups = null
+before_init = null
+after_init = null
+[initialize.components]
 [initialize.tokenizer]

en_pipeline-any-py3-none-any.whl CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:80101df649014209b9cc7184f4d506c644567157f4fe7f60d4e5cb3d63435d63
-size 606693843

 version https://git-lfs.github.com/spec/v1
+oid sha256:13f2aa9ee41c224f5308d0df8762fdfed2cdc0459bb78234277e721b764001e3
+size 425416363

meta.json CHANGED Viewed

@@ -10,13 +10,13 @@
   "spacy_version":">=3.7.5,<3.8.0",
   "spacy_git_version":"a6d0fc360",
   "vectors":{
-    "width":300,
-    "vectors":514157,
-    "keys":514157,
-    "name":"en_vectors"
   },
   "labels":{
-    "tok2vec":[
     ],
     "ner":[
@@ -33,35 +33,35 @@
     ]
   },
   "pipeline":[
-    "tok2vec",
     "ner"
   ],
   "components":[
-    "tok2vec",
     "ner"
   ],
   "disabled":[
   ],
   "performance":{
-    "ents_f":0.9735849057,
-    "ents_p":0.9809885932,
-    "ents_r":0.9662921348,
     "ents_per_type":{
       "SI UNIT ":{
-        "p":0.9794238683,
-        "r":0.9596774194,
-        "f":0.9694501018
       },
       "TIME UNIT":{
-        "p":0.9957081545,
         "r":1.0,
-        "f":0.9978494624
       },
       "NUMBER":{
-        "p":0.6666666667,
         "r":1.0,
-        "f":0.8
       },
       "THOUSANDS OPERATOR":{
         "p":1.0,
@@ -70,8 +70,8 @@
       },
       "OPERATOR":{
         "p":1.0,
-        "r":0.3333333333,
-        "f":0.5
       },
       "FRACTION":{
         "p":1.0,
@@ -79,9 +79,9 @@
         "f":1.0
       },
       "CHEMICAL TERM":{
-        "p":0.98,
-        "r":0.9245283019,
-        "f":0.9514563107
       },
       "DECIMAL":{
         "p":0.6666666667,
@@ -94,15 +94,15 @@
         "f":1.0
       },
       "RATIO":{
-        "p":0.75,
-        "r":0.75,
-        "f":0.75
       }
     },
-    "tok2vec_loss":43.5147486759,
-    "ner_loss":530.5200964366
   },
   "requirements":[
   ]
 }

   "spacy_version":">=3.7.5,<3.8.0",
   "spacy_git_version":"a6d0fc360",
   "vectors":{
+    "width":0,
+    "vectors":0,
+    "keys":0,
+    "name":null
   },
   "labels":{
+    "transformer":[
     ],
     "ner":[
     ]
   },
   "pipeline":[
+    "transformer",
     "ner"
   ],
   "components":[
+    "transformer",
     "ner"
   ],
   "disabled":[
   ],
   "performance":{
+    "ents_f":0.9919901417,
+    "ents_p":0.9877300613,
+    "ents_r":0.9962871287,
     "ents_per_type":{
       "SI UNIT ":{
+        "p":0.9841584158,
+        "r":0.994,
+        "f":0.9890547264
       },
       "TIME UNIT":{
+        "p":1.0,
         "r":1.0,
+        "f":1.0
       },
       "NUMBER":{
+        "p":1.0,
         "r":1.0,
+        "f":1.0
       },
       "THOUSANDS OPERATOR":{
         "p":1.0,
       },
       "OPERATOR":{
         "p":1.0,
+        "r":1.0,
+        "f":1.0
       },
       "FRACTION":{
         "p":1.0,
         "f":1.0
       },
       "CHEMICAL TERM":{
+        "p":0.9814814815,
+        "r":1.0,
+        "f":0.9906542056
       },
       "DECIMAL":{
         "p":0.6666666667,
         "f":1.0
       },
       "RATIO":{
+        "p":1.0,
+        "r":1.0,
+        "f":1.0
       }
     },
+    "transformer_loss":366.8304179548,
+    "ner_loss":358.1879557502
   },
   "requirements":[
+    "spacy-transformers>=1.3.5,<1.4.0"
   ]
 }

ner/cfg CHANGED Viewed

@@ -1,13 +1,13 @@
-{
-  "moves":null,
-  "update_with_oracle_cut_size":100,
-  "multitasks":[
-  ],
-  "min_action_freq":1,
-  "learn_tokens":false,
-  "beam_width":1,
-  "beam_density":0.0,
-  "beam_update_prob":0.0,
-  "incorrect_spans_key":null
 }

+{
+  "moves":null,
+  "update_with_oracle_cut_size":100,
+  "multitasks":[
+  ],
+  "min_action_freq":1,
+  "learn_tokens":false,
+  "beam_width":1,
+  "beam_density":0.0,
+  "beam_update_prob":0.0,
+  "incorrect_spans_key":null
 }

ner/model CHANGED Viewed

Binary files a/ner/model and b/ner/model differ

ner/moves CHANGED Viewed

@@ -1 +1 @@

- ��moves��{"0":{},"1":{"SI UNIT ":~~950~~,"TIME UNIT":447,"CHEMICAL TERM":72,"LEADING ZERO":6,"RATIO":5,"OPERATOR":3,"~~FRACTION~~":3,"~~NUMBER~~":2,"DECIMAL":2,"THOUSANDS OPERATOR":1},"2":{"SI UNIT ":~~950~~,"TIME UNIT":447,"CHEMICAL TERM":72,"LEADING ZERO":6,"RATIO":5,"OPERATOR":3,"~~FRACTION~~":3,"~~NUMBER~~":2,"DECIMAL":2,"THOUSANDS OPERATOR":1},"3":{"SI UNIT ":~~950~~,"TIME UNIT":447,"CHEMICAL TERM":72,"LEADING ZERO":6,"RATIO":5,"OPERATOR":3,"~~FRACTION~~":3,"~~NUMBER~~":2,"DECIMAL":2,"THOUSANDS OPERATOR":1},"4":{"SI UNIT ":~~950~~,"TIME UNIT":447,"CHEMICAL TERM":72,"LEADING ZERO":6,"RATIO":5,"OPERATOR":3,"~~FRACTION~~":3,"~~NUMBER~~":2,"DECIMAL":2,"THOUSANDS OPERATOR":1,"":1},"5":{"":1}}�cfg��neg_key�

+ ��moves��{"0":{},"1":{"SI UNIT ":1069,"TIME UNIT":447,"CHEMICAL TERM":72,"LEADING ZERO":6,"RATIO":5,"OPERATOR":5,"NUMBER":3,"FRACTION":3,"DECIMAL":2,"THOUSANDS OPERATOR":1},"2":{"SI UNIT ":1069,"TIME UNIT":447,"CHEMICAL TERM":72,"LEADING ZERO":6,"RATIO":5,"OPERATOR":5,"NUMBER":3,"FRACTION":3,"DECIMAL":2,"THOUSANDS OPERATOR":1},"3":{"SI UNIT ":1069,"TIME UNIT":447,"CHEMICAL TERM":72,"LEADING ZERO":6,"RATIO":5,"OPERATOR":5,"NUMBER":3,"FRACTION":3,"DECIMAL":2,"THOUSANDS OPERATOR":1},"4":{"SI UNIT ":1069,"TIME UNIT":447,"CHEMICAL TERM":72,"LEADING ZERO":6,"RATIO":5,"OPERATOR":5,"NUMBER":3,"FRACTION":3,"DECIMAL":2,"THOUSANDS OPERATOR":1,"":1},"5":{"":1}}�cfg��neg_key�

transformer/model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:14fbfcca9a1590031ade4a3d9af5afd49d7eb76f5a5f7ce9268c1242ca758d8e
 size 502026969

 version https://git-lfs.github.com/spec/v1
+oid sha256:bae57e99109ce4380620a2852aefd45e791c60743e55b3cd7c47296ea55dae5f
 size 502026969

vocab/key2row CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:31566ae010da3d399eb1d930ae142757afd2601034a4be3bdb00d18881c8c06a
-size 7066303

 version https://git-lfs.github.com/spec/v1
+oid sha256:76be8b528d0075f7aae98d6fa57a6d3c83ae480a8469e668d7b0af968995ac71
+size 1

vocab/strings.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:57cf1e27e8783cbb030e434d33c3b2f1d4db5a9e85646f57f6f6952d3f629b84
-size 11147861

 version https://git-lfs.github.com/spec/v1
+oid sha256:282296599e3b7dbbc1cdb0dcb849aff92eb335406e2e31493bd5ffced559408d
+size 25769

vocab/vectors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:234dcf234bfdf01775ae6182715d55eaacfcde8555b189f25440b56d3c39fd5d
-size 616988528

 version https://git-lfs.github.com/spec/v1
+oid sha256:14772b683e726436d5948ad3fff2b43d036ef2ebbe3458aafed6004e05a40706
+size 128

vocab/vectors.cfg CHANGED Viewed

@@ -1,3 +1,3 @@
-{
-  "mode":"default"
 }

+{
+  "mode":"default"
 }