model dump

Browse files

Files changed (7) hide show

README.md +348 -0
config.json +67 -0
pytorch_model.bin +3 -0
special_tokens_map.json +1 -0
tokenizer.json +0 -0
tokenizer_config.json +1 -0
train.args +1 -0

README.md ADDED Viewed

	@@ -0,0 +1,348 @@

+---
+language:
+- orv
+license: apache-2.0
+library_name: transformers
+tags:
+- part-of-speech
+- token-classification
+datasets:
+- universal_dependencies
+metrics:
+- accuracy
+model-index:
+- name: xlm-roberta-base-ft-udpos28-orv
+  results:
+  - task:
+      type: token-classification
+      name: Part-of-Speech Tagging
+    dataset:
+      type: universal_dependencies
+      name: Universal Dependencies v2.8
+    metrics:
+      - type: accuracy
+        name: English Test accuracy
+        value: 79.4
+      - type: accuracy
+        name: Dutch Test accuracy
+        value: 77.8
+      - type: accuracy
+        name: German Test accuracy
+        value: 79.3
+      - type: accuracy
+        name: Italian Test accuracy
+        value: 77.5
+      - type: accuracy
+        name: French Test accuracy
+        value: 75.2
+      - type: accuracy
+        name: Spanish Test accuracy
+        value: 77.2
+      - type: accuracy
+        name: Russian Test accuracy
+        value: 87.9
+      - type: accuracy
+        name: Swedish Test accuracy
+        value: 83.0
+      - type: accuracy
+        name: Norwegian Test accuracy
+        value: 78.6
+      - type: accuracy
+        name: Danish Test accuracy
+        value: 82.9
+      - type: accuracy
+        name: Low Saxon Test accuracy
+        value: 58.9
+      - type: accuracy
+        name: Akkadian Test accuracy
+        value: 41.8
+      - type: accuracy
+        name: Armenian Test accuracy
+        value: 82.7
+      - type: accuracy
+        name: Welsh Test accuracy
+        value: 64.3
+      - type: accuracy
+        name: Old East Slavic Test accuracy
+        value: 91.0
+      - type: accuracy
+        name: Albanian Test accuracy
+        value: 73.4
+      - type: accuracy
+        name: Slovenian Test accuracy
+        value: 73.8
+      - type: accuracy
+        name: Guajajara Test accuracy
+        value: 41.7
+      - type: accuracy
+        name: Kurmanji Test accuracy
+        value: 76.7
+      - type: accuracy
+        name: Turkish Test accuracy
+        value: 73.5
+      - type: accuracy
+        name: Finnish Test accuracy
+        value: 83.0
+      - type: accuracy
+        name: Indonesian Test accuracy
+        value: 78.9
+      - type: accuracy
+        name: Ukrainian Test accuracy
+        value: 86.7
+      - type: accuracy
+        name: Polish Test accuracy
+        value: 85.5
+      - type: accuracy
+        name: Portuguese Test accuracy
+        value: 79.5
+      - type: accuracy
+        name: Kazakh Test accuracy
+        value: 79.7
+      - type: accuracy
+        name: Latin Test accuracy
+        value: 80.9
+      - type: accuracy
+        name: Old French Test accuracy
+        value: 60.5
+      - type: accuracy
+        name: Buryat Test accuracy
+        value: 59.8
+      - type: accuracy
+        name: Kaapor Test accuracy
+        value: 27.1
+      - type: accuracy
+        name: Korean Test accuracy
+        value: 61.0
+      - type: accuracy
+        name: Estonian Test accuracy
+        value: 83.9
+      - type: accuracy
+        name: Croatian Test accuracy
+        value: 84.7
+      - type: accuracy
+        name: Gothic Test accuracy
+        value: 33.1
+      - type: accuracy
+        name: Swiss German Test accuracy
+        value: 53.5
+      - type: accuracy
+        name: Assyrian Test accuracy
+        value: 15.7
+      - type: accuracy
+        name: North Sami Test accuracy
+        value: 39.9
+      - type: accuracy
+        name: Naija Test accuracy
+        value: 41.9
+      - type: accuracy
+        name: Latvian Test accuracy
+        value: 85.7
+      - type: accuracy
+        name: Chinese Test accuracy
+        value: 42.7
+      - type: accuracy
+        name: Tagalog Test accuracy
+        value: 73.5
+      - type: accuracy
+        name: Bambara Test accuracy
+        value: 29.5
+      - type: accuracy
+        name: Lithuanian Test accuracy
+        value: 86.1
+      - type: accuracy
+        name: Galician Test accuracy
+        value: 77.7
+      - type: accuracy
+        name: Vietnamese Test accuracy
+        value: 64.8
+      - type: accuracy
+        name: Greek Test accuracy
+        value: 73.8
+      - type: accuracy
+        name: Catalan Test accuracy
+        value: 74.2
+      - type: accuracy
+        name: Czech Test accuracy
+        value: 85.0
+      - type: accuracy
+        name: Erzya Test accuracy
+        value: 46.1
+      - type: accuracy
+        name: Bhojpuri Test accuracy
+        value: 56.8
+      - type: accuracy
+        name: Thai Test accuracy
+        value: 60.6
+      - type: accuracy
+        name: Marathi Test accuracy
+        value: 84.0
+      - type: accuracy
+        name: Basque Test accuracy
+        value: 77.2
+      - type: accuracy
+        name: Slovak Test accuracy
+        value: 84.3
+      - type: accuracy
+        name: Kiche Test accuracy
+        value: 35.3
+      - type: accuracy
+        name: Yoruba Test accuracy
+        value: 29.9
+      - type: accuracy
+        name: Warlpiri Test accuracy
+        value: 33.6
+      - type: accuracy
+        name: Tamil Test accuracy
+        value: 84.3
+      - type: accuracy
+        name: Maltese Test accuracy
+        value: 32.0
+      - type: accuracy
+        name: Ancient Greek Test accuracy
+        value: 65.7
+      - type: accuracy
+        name: Icelandic Test accuracy
+        value: 81.6
+      - type: accuracy
+        name: Mbya Guarani Test accuracy
+        value: 33.2
+      - type: accuracy
+        name: Urdu Test accuracy
+        value: 66.2
+      - type: accuracy
+        name: Romanian Test accuracy
+        value: 80.9
+      - type: accuracy
+        name: Persian Test accuracy
+        value: 74.6
+      - type: accuracy
+        name: Apurina Test accuracy
+        value: 44.6
+      - type: accuracy
+        name: Japanese Test accuracy
+        value: 35.7
+      - type: accuracy
+        name: Hungarian Test accuracy
+        value: 73.3
+      - type: accuracy
+        name: Hindi Test accuracy
+        value: 75.3
+      - type: accuracy
+        name: Classical Chinese Test accuracy
+        value: 41.5
+      - type: accuracy
+        name: Komi Permyak Test accuracy
+        value: 49.0
+      - type: accuracy
+        name: Faroese Test accuracy
+        value: 78.3
+      - type: accuracy
+        name: Sanskrit Test accuracy
+        value: 43.3
+      - type: accuracy
+        name: Livvi Test accuracy
+        value: 70.2
+      - type: accuracy
+        name: Arabic Test accuracy
+        value: 79.8
+      - type: accuracy
+        name: Wolof Test accuracy
+        value: 39.8
+      - type: accuracy
+        name: Bulgarian Test accuracy
+        value: 85.8
+      - type: accuracy
+        name: Akuntsu Test accuracy
+        value: 36.5
+      - type: accuracy
+        name: Makurap Test accuracy
+        value: 14.4
+      - type: accuracy
+        name: Kangri Test accuracy
+        value: 52.0
+      - type: accuracy
+        name: Breton Test accuracy
+        value: 58.1
+      - type: accuracy
+        name: Telugu Test accuracy
+        value: 79.9
+      - type: accuracy
+        name: Cantonese Test accuracy
+        value: 50.8
+      - type: accuracy
+        name: Old Church Slavonic Test accuracy
+        value: 78.2
+      - type: accuracy
+        name: Karelian Test accuracy
+        value: 73.5
+      - type: accuracy
+        name: Upper Sorbian Test accuracy
+        value: 76.0
+      - type: accuracy
+        name: South Levantine Arabic Test accuracy
+        value: 70.0
+      - type: accuracy
+        name: Komi Zyrian Test accuracy
+        value: 43.1
+      - type: accuracy
+        name: Irish Test accuracy
+        value: 61.1
+      - type: accuracy
+        name: Nayini Test accuracy
+        value: 53.8
+      - type: accuracy
+        name: Munduruku Test accuracy
+        value: 26.4
+      - type: accuracy
+        name: Manx Test accuracy
+        value: 44.6
+      - type: accuracy
+        name: Skolt Sami Test accuracy
+        value: 45.2
+      - type: accuracy
+        name: Afrikaans Test accuracy
+        value: 76.9
+      - type: accuracy
+        name: Old Turkish Test accuracy
+        value: 2.7
+      - type: accuracy
+        name: Tupinamba Test accuracy
+        value: 39.0
+      - type: accuracy
+        name: Belarusian Test accuracy
+        value: 89.5
+      - type: accuracy
+        name: Serbian Test accuracy
+        value: 85.1
+      - type: accuracy
+        name: Moksha Test accuracy
+        value: 42.8
+      - type: accuracy
+        name: Western Armenian Test accuracy
+        value: 77.0
+      - type: accuracy
+        name: Scottish Gaelic Test accuracy
+        value: 51.6
+      - type: accuracy
+        name: Khunsari Test accuracy
+        value: 54.1
+      - type: accuracy
+        name: Hebrew Test accuracy
+        value: 85.4
+      - type: accuracy
+        name: Uyghur Test accuracy
+        value: 74.4
+      - type: accuracy
+        name: Chukchi Test accuracy
+        value: 34.5
+---
+# XLM-RoBERTa base Universal Dependencies v2.8 POS tagging: Old East Slavic
+This model is part of our paper called:
+- Make the Best of Cross-lingual Transfer: Evidence from POS Tagging with over 100 Languages
+Check the [Space]([Space](https://huggingface.co/spaces/wietsedv/xpos)) for more details.

config.json ADDED Viewed

	@@ -0,0 +1,67 @@

+{
+  "_name_or_path": "output/xlm-roberta-base_ft_udpos28-orv/1d6ca3e8",
+  "architectures": [
+    "XLMRobertaForTokenClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "ADJ",
+    "1": "ADP",
+    "2": "ADV",
+    "3": "AUX",
+    "4": "CCONJ",
+    "5": "DET",
+    "6": "INTJ",
+    "7": "NOUN",
+    "8": "NUM",
+    "9": "PART",
+    "10": "PRON",
+    "11": "PROPN",
+    "12": "PUNCT",
+    "13": "SCONJ",
+    "14": "SYM",
+    "15": "VERB",
+    "16": "X"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "ADJ": 0,
+    "ADP": 1,
+    "ADV": 2,
+    "AUX": 3,
+    "CCONJ": 4,
+    "DET": 5,
+    "INTJ": 6,
+    "NOUN": 7,
+    "NUM": 8,
+    "PART": 9,
+    "PRON": 10,
+    "PROPN": 11,
+    "PUNCT": 12,
+    "SCONJ": 13,
+    "SYM": 14,
+    "VERB": 15,
+    "X": 16
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "xlm-roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.10.2",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 250002
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cffc3d3d2280059a76b390503bd2b97c36f8275c89889d6f6d4a6fec0eca6ac3
+size 1109946481

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "sep_token": "</s>", "pad_token": "<pad>", "cls_token": "<s>", "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": false}}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"bos_token": "<s>", "eos_token": "</s>", "sep_token": "</s>", "cls_token": "<s>", "unk_token": "<unk>", "pad_token": "<pad>", "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "add_prefix_space": true, "model_max_length": 512, "special_tokens_map_file": null, "name_or_path": "output/xlm-roberta-base_ft_udpos28-orv/1d6ca3e8", "tokenizer_class": "XLMRobertaTokenizer"}

train.args ADDED Viewed

	@@ -0,0 +1 @@


1	+ udpos -tt=token-classification -tn=udpos28 -mi=xlm-roberta-base -mt=ft --learning_rate=5e-5 --eval_steps=1000 --eval_batch_size=10 --train_batch_size=10 --multi --max_steps=1000 --overwrite_output_dir