Update spaCy pipeline

Browse files

Files changed (9) hide show

README.md +16 -11
config.cfg +26 -35
en_pipeline-any-py3-none-any.whl +2 -2
meta.json +31 -16
textcat/cfg +8 -0
textcat/model +0 -0
tokenizer +0 -0
transformer/model +2 -2
vocab/strings.json +0 -0

README.md CHANGED Viewed

@@ -1,20 +1,20 @@
 ---
 tags:
 - spacy
 language:
 - en
 model-index:
 - name: en_pipeline
   results: []
-pipeline_tag: token-classification
 ---
 | Feature | Description |
 | --- | --- |
 | **Name** | `en_pipeline` |
 | **Version** | `0.0.0` |
-| **spaCy** | `>=3.4.4,<3.5.0` |
-| **Default Pipeline** | `transformer`, `spancat` |
-| **Components** | `transformer`, `spancat` |
 | **Vectors** | 0 keys, 0 unique vectors (0 dimensions) |
 | **Sources** | n/a |
 | **License** | n/a |
@@ -24,11 +24,11 @@ pipeline_tag: token-classification
 <details>
-<summary>View label scheme (5 labels for 1 components)</summary>
 | Component | Labels |
 | --- | --- |
-| **`spancat`** | `Copying expression`, `Word form transmission`, `Transliteration`, `Synonyms`, `Tense semantics` |
 </details>
@@ -36,8 +36,13 @@ pipeline_tag: token-classification
 | Type | Score |
 | --- | --- |
-| `SPANS_SC_F` | 83.50 |
-| `SPANS_SC_P` | 91.77 |
-| `SPANS_SC_R` | 76.60 |
-| `TRANSFORMER_LOSS` | 3043.02 |
-| `SPANCAT_LOSS` | 132578.01 |

 ---
 tags:
 - spacy
+- text-classification
 language:
 - en
 model-index:
 - name: en_pipeline
   results: []
 ---
 | Feature | Description |
 | --- | --- |
 | **Name** | `en_pipeline` |
 | **Version** | `0.0.0` |
+| **spaCy** | `>=3.7.5,<3.8.0` |
+| **Default Pipeline** | `transformer`, `textcat` |
+| **Components** | `transformer`, `textcat` |
 | **Vectors** | 0 keys, 0 unique vectors (0 dimensions) |
 | **Sources** | n/a |
 | **License** | n/a |
 <details>
+<summary>View label scheme (2 labels for 1 components)</summary>
 | Component | Labels |
 | --- | --- |
+| **`textcat`** | `0.0`, `1.0` |
 </details>
 | Type | Score |
 | --- | --- |
+| `CATS_SCORE` | 92.75 |
+| `CATS_MICRO_P` | 92.75 |
+| `CATS_MICRO_R` | 92.75 |
+| `CATS_MICRO_F` | 92.75 |
+| `CATS_MACRO_P` | 92.74 |
+| `CATS_MACRO_R` | 92.76 |
+| `CATS_MACRO_F` | 92.75 |
+| `CATS_MACRO_AUC` | 97.20 |
+| `TRANSFORMER_LOSS` | 26.49 |
+| `TEXTCAT_LOSS` | 4617.23 |

config.cfg CHANGED Viewed

@@ -1,6 +1,6 @@
 [paths]
-train = "/content/train_new.spacy"
-dev = "/content/dev_new.spacy"
 vectors = null
 init_tok2vec = null
@@ -10,45 +10,33 @@ seed = 0
 [nlp]
 lang = "en"
-pipeline = ["transformer","spancat"]
 batch_size = 128
 disabled = []
 before_creation = null
 after_creation = null
 after_pipeline_creation = null
 tokenizer = {"@tokenizers":"spacy.Tokenizer.v1"}
 [components]
-[components.spancat]
-factory = "spancat"
-max_positive = null
-scorer = {"@scorers":"spacy.spancat_scorer.v1"}
-spans_key = "sc"
-threshold = 0.5
-[components.spancat.model]
-@architectures = "spacy.SpanCategorizer.v1"
-[components.spancat.model.reducer]
-@layers = "spacy.mean_max_reducer.v1"
-hidden_size = 128
-[components.spancat.model.scorer]
-@layers = "spacy.LinearLogistic.v1"
 nO = null
-nI = null
-[components.spancat.model.tok2vec]
 @architectures = "spacy-transformers.TransformerListener.v1"
 grad_factor = 1.0
 pooling = {"@layers":"reduce_mean.v1"}
 upstream = "*"
-[components.spancat.suggester]
-@misc = "spacy.ngram_suggester.v1"
-sizes = [1,2,3]
 [components.transformer]
 factory = "transformer"
 max_batch_items = 4096
@@ -97,12 +85,13 @@ seed = ${system.seed}
 gpu_allocator = ${system.gpu_allocator}
 dropout = 0.1
 patience = 1600
-max_epochs = 50
 max_steps = 20000
 eval_frequency = 200
 frozen_components = []
 annotating_components = []
 before_to_disk = null
 [training.batcher]
 @batchers = "spacy.batch_by_padded.v1"
@@ -112,13 +101,8 @@ buffer = 256
 get_length = null
 [training.logger]
-@loggers = "spacy.WandbLogger.v3"
-project_name = "2024_ouroboros"
-remove_config_values = ["paths.train","paths.dev","corpora.train.path","corpora.dev.path"]
-model_log_interval = 1000
-log_dataset_dir = null
-entity = null
-run_name = null
 [training.optimizer]
 @optimizers = "Adam.v1"
@@ -137,9 +121,16 @@ total_steps = 20000
 initial_rate = 0.00005
 [training.score_weights]
-spans_sc_f = 0.5
-spans_sc_p = 0.5
-spans_sc_r = 0.0
 [pretraining]

 [paths]
+train = "/content/train.spacy"
+dev = "/content/dev.spacy"
 vectors = null
 init_tok2vec = null
 [nlp]
 lang = "en"
+pipeline = ["transformer","textcat"]
 batch_size = 128
 disabled = []
 before_creation = null
 after_creation = null
 after_pipeline_creation = null
 tokenizer = {"@tokenizers":"spacy.Tokenizer.v1"}
+vectors = {"@vectors":"spacy.Vectors.v1"}
 [components]
+[components.textcat]
+factory = "textcat"
+scorer = {"@scorers":"spacy.textcat_scorer.v2"}
+threshold = 0.0
+[components.textcat.model]
+@architectures = "spacy.TextCatCNN.v2"
+exclusive_classes = true
 nO = null
+[components.textcat.model.tok2vec]
 @architectures = "spacy-transformers.TransformerListener.v1"
 grad_factor = 1.0
 pooling = {"@layers":"reduce_mean.v1"}
 upstream = "*"
 [components.transformer]
 factory = "transformer"
 max_batch_items = 4096
 gpu_allocator = ${system.gpu_allocator}
 dropout = 0.1
 patience = 1600
+max_epochs = 0
 max_steps = 20000
 eval_frequency = 200
 frozen_components = []
 annotating_components = []
 before_to_disk = null
+before_update = null
 [training.batcher]
 @batchers = "spacy.batch_by_padded.v1"
 get_length = null
 [training.logger]
+@loggers = "spacy.ConsoleLogger.v1"
+progress_bar = true
 [training.optimizer]
 @optimizers = "Adam.v1"
 initial_rate = 0.00005
 [training.score_weights]
+cats_score = 1.0
+cats_score_desc = null
+cats_micro_p = null
+cats_micro_r = null
+cats_micro_f = null
+cats_macro_p = null
+cats_macro_r = null
+cats_macro_f = null
+cats_macro_auc = null
+cats_f_per_type = null
 [pretraining]

en_pipeline-any-py3-none-any.whl CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e3a3f343fe60e7963225577479bf831f3f26737b6e89c7d35c84b307c503edd4
-size 436354679

 version https://git-lfs.github.com/spec/v1
+oid sha256:fc4b6d9fbc7f361daed941b6fe095316168d9b2e03e2f9052443da4667d93c7c
+size 455652929

meta.json CHANGED Viewed

@@ -7,8 +7,8 @@
   "email":"",
   "url":"",
   "license":"",
-  "spacy_version":">=3.4.4,<3.5.0",
-  "spacy_git_version":"Unknown",
   "vectors":{
     "width":0,
     "vectors":0,
@@ -19,33 +19,48 @@
     "transformer":[
     ],
-    "spancat":[
-      "Copying expression",
-      "Word form transmission",
-      "Transliteration",
-      "Synonyms",
-      "Tense semantics"
     ]
   },
   "pipeline":[
     "transformer",
-    "spancat"
   ],
   "components":[
     "transformer",
-    "spancat"
   ],
   "disabled":[
   ],
   "performance":{
-    "spans_sc_f":0.8350021768,
-    "spans_sc_p":0.9177033493,
-    "spans_sc_r":0.7659744409,
-    "transformer_loss":30.4302067425,
-    "spancat_loss":1325.7801238073
   },
   "requirements":[
-    "spacy-transformers>=1.2.1,<1.3.0"
   ]
 }

   "email":"",
   "url":"",
   "license":"",
+  "spacy_version":">=3.7.5,<3.8.0",
+  "spacy_git_version":"a6d0fc360",
   "vectors":{
     "width":0,
     "vectors":0,
     "transformer":[
     ],
+    "textcat":[
+      "0.0",
+      "1.0"
     ]
   },
   "pipeline":[
     "transformer",
+    "textcat"
   ],
   "components":[
     "transformer",
+    "textcat"
   ],
   "disabled":[
   ],
   "performance":{
+    "cats_score":0.9274664714,
+    "cats_score_desc":"macro F",
+    "cats_micro_p":0.9275,
+    "cats_micro_r":0.9275,
+    "cats_micro_f":0.9275,
+    "cats_macro_p":0.9274025193,
+    "cats_macro_r":0.927568036,
+    "cats_macro_f":0.9274664714,
+    "cats_macro_auc":0.9719873134,
+    "cats_f_per_type":{
+      "0.0":{
+        "p":0.9331366765,
+        "r":0.9249512671,
+        "f":0.9290259422
+      },
+      "1.0":{
+        "p":0.9216683622,
+        "r":0.9301848049,
+        "f":0.9259070005
+      }
+    },
+    "transformer_loss":0.2649244879,
+    "textcat_loss":46.1722830437
   },
   "requirements":[
+    "spacy-transformers>=1.3.5,<1.4.0"
   ]
 }

textcat/cfg ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "labels":[
+    "0.0",
+    "1.0"
+  ],
+  "threshold":0.0,
+  "positive_label":null
+}

textcat/model ADDED Viewed

Binary file (7.07 kB). View file

tokenizer CHANGED Viewed

The diff for this file is too large to render. See raw diff

transformer/model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:10c967cad2c0b922e1f14dcb5fb5fcb46f46ec79a33c8dd92e34a504fac1c5dc
-size 502031113

 version https://git-lfs.github.com/spec/v1
+oid sha256:f97d21817132eac87779f4acf8dacc5a89b07a27d89bd5d6ee5d78efedad0d9f
+size 502025449

vocab/strings.json CHANGED Viewed

The diff for this file is too large to render. See raw diff