Initial commit

Browse files

Files changed (8) hide show

.gitattributes +1 -0
config.json +95 -0
vocabulary/.lock +0 -0
vocabulary/labels.txt +17 -0
vocabulary/non_padded_namespaces.txt +2 -0
vocabulary/token_characters.txt +85 -0
vocabulary/tokens.txt +0 -0
weights.th +3 -0

.gitattributes CHANGED Viewed

@@ -14,3 +14,4 @@
 *.pb filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text

 *.pb filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text
+weights.th filter=lfs diff=lfs merge=lfs -text

config.json ADDED Viewed

	@@ -0,0 +1,95 @@

+{
+    "dataset_reader": {
+        "type": "conll2003",
+        "coding_scheme": "BIOUL",
+        "tag_label": "ner",
+        "token_indexers": {
+            "elmo": {
+                "type": "elmo_characters"
+            },
+            "token_characters": {
+                "type": "characters",
+                "min_padding_length": 3
+            },
+            "tokens": {
+                "type": "single_id",
+                "lowercase_tokens": true
+            }
+        }
+    },
+    "model": {
+        "type": "crf_tagger",
+        "dropout": 0.5,
+        "encoder": {
+            "type": "lstm",
+            "bidirectional": true,
+            "dropout": 0.5,
+            "hidden_size": 200,
+            "input_size": 1202,
+            "num_layers": 2
+        },
+        "include_start_end_transitions": false,
+        "label_encoding": "BIOUL",
+        "regularizer": {
+            "regexes": [
+                [
+                    "scalar_parameters",
+                    {
+                        "alpha": 0.1,
+                        "type": "l2"
+                    }
+                ]
+            ]
+        },
+        "text_field_embedder": {
+            "token_embedders": {
+                "elmo": {
+                    "type": "elmo_token_embedder",
+                    "do_layer_norm": false,
+                    "dropout": 0,
+                    "options_file": "https://allennlp.s3.amazonaws.com/models/elmo/2x4096_512_2048cnn_2xhighway/elmo_2x4096_512_2048cnn_2xhighway_options.json",
+                    "weight_file": "https://allennlp.s3.amazonaws.com/models/elmo/2x4096_512_2048cnn_2xhighway/elmo_2x4096_512_2048cnn_2xhighway_weights.hdf5"
+                },
+                "token_characters": {
+                    "type": "character_encoding",
+                    "embedding": {
+                        "embedding_dim": 16
+                    },
+                    "encoder": {
+                        "type": "cnn",
+                        "conv_layer_activation": "relu",
+                        "embedding_dim": 16,
+                        "ngram_filter_sizes": [
+                            3
+                        ],
+                        "num_filters": 128
+                    }
+                },
+                "tokens": {
+                    "type": "embedding",
+                    "embedding_dim": 50,
+                    "pretrained_file": "https://allennlp.s3.amazonaws.com/datasets/glove/glove.6B.50d.txt.gz",
+                    "trainable": true
+                }
+            }
+        }
+    },
+    "train_data_path": "/mnt/tank/dirkg/data/conll2003/train.txt",
+    "validation_data_path": "/mnt/tank/dirkg/data/conll2003/valid.txt",
+    "trainer": {
+        "checkpointer": {
+            "num_serialized_models_to_keep": 3
+        },
+        "grad_norm": 5,
+        "num_epochs": 75,
+        "optimizer": {
+            "type": "adam",
+            "lr": 0.001
+        },
+        "patience": 25,
+        "validation_metric": "+f1-measure-overall"
+    },
+    "data_loader": {
+        "batch_size": 64
+    }
+}

vocabulary/.lock ADDED Viewed

File without changes

vocabulary/labels.txt ADDED Viewed

	@@ -0,0 +1,17 @@

+O
+U-LOC
+B-PER
+L-PER
+U-ORG
+U-MISC
+B-ORG
+L-ORG
+U-PER
+I-ORG
+B-LOC
+L-LOC
+B-MISC
+L-MISC
+I-MISC
+I-PER
+I-LOC

vocabulary/non_padded_namespaces.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ *labels
2	+ *tags

vocabulary/token_characters.txt ADDED Viewed

	@@ -0,0 +1,85 @@

+@@UNKNOWN@@
+e
+a
+t
+n
+i
+o
+r
+s
+l
+d
+h
+c
+u
+m
+f
+p
+g
+.
+y
+w
+b
+-
+1
+,
+v
+0
+S
+A
+k
+2
+T
+9
+I
+C
+6
+E
+N
+3
+R
+M
+5
+4
+O
+B
+L
+8
+(
+)
+7
+P
+D
+G
+"
+H
+F
+'
+W
+U
+x
+K
+J
+j
+z
+:
+q
+Y
+V
+/
+$
+Z
++
+Q
+X
+;
+*
+&
+=
+%
+?
+[
+]
+!
+@
+`

vocabulary/tokens.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

weights.th ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e17080f0f5e046def78f1acca3623ec01daa842ca30f3e21fee3867a3bd91503
+size 393624561