Tanor commited on Jan 30

Commit

7589a4d

•

1 Parent(s): cb645ca

Update spaCy pipeline

Browse files

Files changed (18) hide show

.gitattributes +2 -0
README.md +69 -0
config.cfg +166 -0
meta.json +112 -0
ner/cfg +13 -0
ner/model +0 -0
ner/moves +1 -0
sr_pner_tesla_bcx-any-py3-none-any.whl +3 -0
tagger/cfg +23 -0
tagger/model +0 -0
tokenizer +0 -0
transformer/cfg +3 -0
transformer/model +3 -0
vocab/key2row +1 -0
vocab/lookups.bin +3 -0
vocab/strings.json +0 -0
vocab/vectors +0 -0
vocab/vectors.cfg +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+sr_pner_tesla_bcx-any-py3-none-any.whl filter=lfs diff=lfs merge=lfs -text
+transformer/model filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,69 @@

+---
+tags:
+- spacy
+- token-classification
+language:
+- sr
+license: cc-by-sa-3.0
+model-index:
+- name: sr_pner_tesla_bcx
+  results:
+  - task:
+      name: NER
+      type: token-classification
+    metrics:
+    - name: NER Precision
+      type: precision
+      value: 0.9567611119
+    - name: NER Recall
+      type: recall
+      value: 0.9640102828
+    - name: NER F Score
+      type: f_score
+      value: 0.9603720178
+  - task:
+      name: TAG
+      type: token-classification
+    metrics:
+    - name: TAG (XPOS) Accuracy
+      type: accuracy
+      value: 0.9853440156
+---
+sr_pner_tesla_bcx is a spaCy model meticulously fine-tuned for Part-of-Speech Tagging and Named Entity Recognition in Serbian language texts. This advanced model incorporates a transformer layer based on XLM-R-BERTić, enhancing its analytical capabilities. It is proficient in identifying 7 distinct categories of entities: PERS (persons), ROLE (professions), DEMO (demonyms), ORG (organizations), LOC (locations), WORK (artworks), and EVENT (events). Detailed information about these categories is available in the accompanying table. The development of this model has been made possible through the support of the Science Fund of the Republic of Serbia, under grant #7276, for the project 'Text Embeddings - Serbian Language Applications - TESLA'.
+| Feature | Description |
+| --- | --- |
+| **Name** | `sr_pner_tesla_bcx` |
+| **Version** | `1.0.0` |
+| **spaCy** | `>=3.7.2,<3.8.0` |
+| **Default Pipeline** | `transformer`, `tagger`, `ner` |
+| **Components** | `transformer`, `tagger`, `ner` |
+| **Vectors** | 0 keys, 0 unique vectors (0 dimensions) |
+| **Sources** | n/a |
+| **License** | `CC BY-SA 3.0` |
+| **Author** | [Milica Ikonić Nešić, Saša Petalinkar, Mihailo Škorić, Ranka Stanković](https://tesla.rgf.bg.ac.rs/) |
+### Label Scheme
+<details>
+<summary>View label scheme (23 labels for 2 components)</summary>
+| Component | Labels |
+| --- | --- |
+| **`tagger`** | `ADJ`, `ADP`, `ADV`, `AUX`, `CCONJ`, `DET`, `INTJ`, `NOUN`, `NUM`, `PART`, `PRON`, `PROPN`, `PUNCT`, `SCONJ`, `VERB`, `X` |
+| **`ner`** | `DEMO`, `EVENT`, `LOC`, `ORG`, `PERS`, `ROLE`, `WORK` |
+</details>
+### Accuracy
+| Type | Score |
+| --- | --- |
+| `TAG_ACC` | 98.53 |
+| `ENTS_F` | 96.04 |
+| `ENTS_P` | 95.68 |
+| `ENTS_R` | 96.40 |
+| `TRANSFORMER_LOSS` | 38869.84 |
+| `TAGGER_LOSS` | 56268.63 |
+| `NER_LOSS` | 33269.80 |

config.cfg ADDED Viewed

	@@ -0,0 +1,166 @@

+[paths]
+train = "./train.spacy"
+dev = "./dev.spacy"
+vectors = null
+init_tok2vec = null
+[system]
+gpu_allocator = "pytorch"
+seed = 0
+[nlp]
+lang = "sr"
+pipeline = ["transformer","tagger","ner"]
+batch_size = 128
+disabled = []
+before_creation = null
+after_creation = null
+after_pipeline_creation = null
+tokenizer = {"@tokenizers":"spacy.Tokenizer.v1"}
+vectors = {"@vectors":"spacy.Vectors.v1"}
+[components]
+[components.ner]
+factory = "ner"
+incorrect_spans_key = null
+moves = null
+scorer = {"@scorers":"spacy.ner_scorer.v1"}
+update_with_oracle_cut_size = 100
+[components.ner.model]
+@architectures = "spacy.TransitionBasedParser.v2"
+state_type = "ner"
+extra_state_tokens = false
+hidden_width = 64
+maxout_pieces = 2
+use_upper = false
+nO = null
+[components.ner.model.tok2vec]
+@architectures = "spacy-transformers.TransformerListener.v1"
+grad_factor = 1.0
+pooling = {"@layers":"reduce_mean.v1"}
+upstream = "*"
+[components.tagger]
+factory = "tagger"
+label_smoothing = 0.0
+neg_prefix = "!"
+overwrite = false
+scorer = {"@scorers":"spacy.tagger_scorer.v1"}
+[components.tagger.model]
+@architectures = "spacy.Tagger.v2"
+nO = null
+normalize = false
+[components.tagger.model.tok2vec]
+@architectures = "spacy-transformers.TransformerListener.v1"
+grad_factor = 1.0
+pooling = {"@layers":"reduce_mean.v1"}
+upstream = "*"
+[components.transformer]
+factory = "transformer"
+max_batch_items = 4096
+set_extra_annotations = {"@annotation_setters":"spacy-transformers.null_annotation_setter.v1"}
+[components.transformer.model]
+@architectures = "spacy-transformers.TransformerModel.v3"
+name = "classla/xlm-r-bertic"
+mixed_precision = false
+[components.transformer.model.get_spans]
+@span_getters = "spacy-transformers.strided_spans.v1"
+window = 128
+stride = 96
+[components.transformer.model.grad_scaler_config]
+[components.transformer.model.tokenizer_config]
+use_fast = true
+[components.transformer.model.transformer_config]
+[corpora]
+[corpora.dev]
+@readers = "spacy.Corpus.v1"
+path = ${paths.dev}
+max_length = 0
+gold_preproc = false
+limit = 0
+augmenter = null
+[corpora.train]
+@readers = "spacy.Corpus.v1"
+path = ${paths.train}
+max_length = 0
+gold_preproc = false
+limit = 0
+augmenter = null
+[training]
+accumulate_gradient = 3
+dev_corpus = "corpora.dev"
+train_corpus = "corpora.train"
+annotating_components = ["tagger"]
+seed = ${system.seed}
+gpu_allocator = ${system.gpu_allocator}
+dropout = 0.1
+patience = 1600
+max_epochs = 0
+max_steps = 20000
+eval_frequency = 200
+frozen_components = []
+before_to_disk = null
+before_update = null
+[training.batcher]
+@batchers = "spacy.batch_by_padded.v1"
+discard_oversize = true
+size = 2000
+buffer = 256
+get_length = null
+[training.logger]
+@loggers = "spacy.ConsoleLogger.v1"
+progress_bar = false
+[training.optimizer]
+@optimizers = "Adam.v1"
+beta1 = 0.9
+beta2 = 0.999
+L2_is_weight_decay = true
+L2 = 0.01
+grad_clip = 1.0
+use_averages = false
+eps = 0.00000001
+[training.optimizer.learn_rate]
+@schedules = "warmup_linear.v1"
+warmup_steps = 250
+total_steps = 20000
+initial_rate = 0.00005
+[training.score_weights]
+tag_acc = 0.5
+ents_f = 0.5
+ents_p = 0.0
+ents_r = 0.0
+ents_per_type = null
+[pretraining]
+[initialize]
+vectors = ${paths.vectors}
+init_tok2vec = ${paths.init_tok2vec}
+vocab_data = null
+lookups = null
+before_init = null
+after_init = null
+[initialize.components]
+[initialize.tokenizer]

meta.json ADDED Viewed

	@@ -0,0 +1,112 @@

+{
+  "lang":"sr",
+  "name":"pner_tesla_bcx",
+  "version":"1.0.0",
+  "description":"sr_pner_tesla_bcx is a spaCy model meticulously fine-tuned for Part-of-Speech Tagging and Named Entity Recognition in Serbian language texts. This advanced model incorporates a transformer layer based on XLM-R-BERTi\u0107, enhancing its analytical capabilities. It is proficient in identifying 7 distinct categories of entities: PERS (persons), ROLE (professions), DEMO (demonyms), ORG (organizations), LOC (locations), WORK (artworks), and EVENT (events). Detailed information about these categories is available in the accompanying table. The development of this model has been made possible through the support of the Science Fund of the Republic of Serbia, under grant #7276, for the project 'Text Embeddings - Serbian Language Applications - TESLA'.",
+  "author":"Milica Ikoni\u0107 Ne\u0161i\u0107, Sa\u0161a Petalinkar, Mihailo \u0160kori\u0107, Ranka Stankovi\u0107",
+  "email":"",
+  "url":"https://tesla.rgf.bg.ac.rs/",
+  "license":"CC BY-SA 3.0",
+  "spacy_version":">=3.7.2,<3.8.0",
+  "spacy_git_version":"a89eae928",
+  "vectors":{
+    "width":0,
+    "vectors":0,
+    "keys":0,
+    "name":null
+  },
+  "labels":{
+    "transformer":[
+    ],
+    "tagger":[
+      "ADJ",
+      "ADP",
+      "ADV",
+      "AUX",
+      "CCONJ",
+      "DET",
+      "INTJ",
+      "NOUN",
+      "NUM",
+      "PART",
+      "PRON",
+      "PROPN",
+      "PUNCT",
+      "SCONJ",
+      "VERB",
+      "X"
+    ],
+    "ner":[
+      "DEMO",
+      "EVENT",
+      "LOC",
+      "ORG",
+      "PERS",
+      "ROLE",
+      "WORK"
+    ]
+  },
+  "pipeline":[
+    "transformer",
+    "tagger",
+    "ner"
+  ],
+  "components":[
+    "transformer",
+    "tagger",
+    "ner"
+  ],
+  "disabled":[
+  ],
+  "performance":{
+    "tag_acc":0.9853440156,
+    "ents_f":0.9603720178,
+    "ents_p":0.9567611119,
+    "ents_r":0.9640102828,
+    "ents_per_type":{
+      "ROLE":{
+        "p":0.8674171357,
+        "r":0.9107025607,
+        "f":0.8885329917
+      },
+      "PERS":{
+        "p":0.9881560903,
+        "r":0.991369606,
+        "f":0.9897602398
+      },
+      "LOC":{
+        "p":0.9631551635,
+        "r":0.9783869267,
+        "f":0.9707112971
+      },
+      "DEMO":{
+        "p":0.9299065421,
+        "r":0.9401574803,
+        "f":0.9350039154
+      },
+      "ORG":{
+        "p":0.8374816984,
+        "r":0.781420765,
+        "f":0.8084805654
+      },
+      "WORK":{
+        "p":0.6315789474,
+        "r":0.5070422535,
+        "f":0.5625
+      },
+      "EVENT":{
+        "p":0.5263157895,
+        "r":0.625,
+        "f":0.5714285714
+      }
+    },
+    "transformer_loss":388.6984258415,
+    "tagger_loss":562.6862918995,
+    "ner_loss":332.6980463833
+  },
+  "requirements":[
+    "spacy-transformers>=1.3.4,<1.4.0"
+  ]
+}

ner/cfg ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "moves":null,
+  "update_with_oracle_cut_size":100,
+  "multitasks":[
+  ],
+  "min_action_freq":1,
+  "learn_tokens":false,
+  "beam_width":1,
+  "beam_density":0.0,
+  "beam_update_prob":0.0,
+  "incorrect_spans_key":null
+}

ner/model ADDED Viewed

Binary file (310 kB). View file

ner/moves ADDED Viewed

	@@ -0,0 +1 @@

+ ��moves��{"0":{},"1":{"PERS":66081,"LOC":35152,"ROLE":14259,"ORG":10504,"DEMO":5087,"WORK":973,"EVENT":546},"2":{"PERS":66081,"LOC":35152,"ROLE":14259,"ORG":10504,"DEMO":5087,"WORK":973,"EVENT":546},"3":{"PERS":66081,"LOC":35152,"ROLE":14259,"ORG":10504,"DEMO":5087,"WORK":973,"EVENT":546},"4":{"PERS":66081,"LOC":35152,"ROLE":14259,"ORG":10504,"DEMO":5087,"WORK":973,"EVENT":546,"":1},"5":{"":1}}�cfg��neg_key�

sr_pner_tesla_bcx-any-py3-none-any.whl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2b34f4299321f7bf2e8cc8cc2504ed555c1dfc325f62696a1412969cba164ffc
+size 2085091101

tagger/cfg ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "label_smoothing":0.0,
+  "labels":[
+    "ADJ",
+    "ADP",
+    "ADV",
+    "AUX",
+    "CCONJ",
+    "DET",
+    "INTJ",
+    "NOUN",
+    "NUM",
+    "PART",
+    "PRON",
+    "PROPN",
+    "PUNCT",
+    "SCONJ",
+    "VERB",
+    "X"
+  ],
+  "neg_prefix":"!",
+  "overwrite":false
+}

tagger/model ADDED Viewed

Binary file (66.2 kB). View file

tokenizer ADDED Viewed

Binary file (32.6 kB). View file

transformer/cfg ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "max_batch_items":4096
+}

transformer/model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:95dbbac4ce9565e560c73f53296ce9073f6ed8bdcf30b58ee2dee4acf0b7a76b
+size 2261874822

vocab/key2row ADDED Viewed

	@@ -0,0 +1 @@


1	+ �

vocab/lookups.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:76be8b528d0075f7aae98d6fa57a6d3c83ae480a8469e668d7b0af968995ac71
+size 1

vocab/strings.json ADDED Viewed

The diff for this file is too large to render. See raw diff

vocab/vectors ADDED Viewed

Binary file (128 Bytes). View file

vocab/vectors.cfg ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "mode":"default"
+}