additional commits for edo and urhobo

Browse files

Files changed (14) hide show

en-bin/main/best.ckpt +2 -2
en-bin/main/config.yaml +7 -7
en-bin/main/src_vocab.txt +0 -0
en-bin/main/trg_vocab.txt +0 -0
en-urh/{jw300-baseline → main}/English_to_Urhobo_BPE_notebook.ipynb +0 -0
en-urh/{jw300-baseline → main}/English_to_Urhobo_Word-level_notebook.ipynb +0 -0
en-urh/{jw300-baseline → main}/README.md +0 -0
en-urh/main/best.ckpt +3 -0
en-urh/main/config.yaml +85 -0
en-urh/main/drive-download-20211020T042645Z-001.zip +3 -0
en-urh/main/src_vocab.txt +0 -0
en-urh/{jw300-baseline → main}/test.en +0 -0
en-urh/{jw300-baseline → main}/test.urh +0 -0
en-urh/main/trg_vocab.txt +0 -0

en-bin/main/best.ckpt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fce36367df49ca223c81143710ecd537dbea2696be41dc8e5cef09543921c5e6
-size 184697550

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac68bafa1531f3e949b79c516db30c37910eeb5beeccad20dd7136c5eb8d555d
+size 155498304

en-bin/main/config.yaml CHANGED Viewed

@@ -4,14 +4,14 @@ name: "enbin_transformer"
 data:
     src: "en"
     trg: "bin"
-    train: "/content/drive/My Drive/masakhane/en-bin-baseline/train"
-    dev:   "/content/drive/My Drive/masakhane/en-bin-baseline/dev"
-    test:  "/content/drive/My Drive/masakhane/en-bin-baseline/test"
     level: "bpe"
     lowercase: False
     max_sent_length: 100
-    src_vocab: "/content/drive/My Drive/masakhane/en-bin-baseline/vocab-nonBPE.txt"
-    trg_vocab: "/content/drive/My Drive/masakhane/en-bin-baseline/vocab-nonBPE.txt"
 testing:
     beam_size: 5
@@ -39,11 +39,11 @@ training:
     eval_batch_type: "token"
     batch_multiplier: 1
     early_stopping_metric: "ppl"
-    epochs: 120                     # TODO: Decrease for when playing around and checking of working. Around 30 is sufficient to check if its working at all
     validation_freq: 100          # TODO: Set to at least once per epoch.
     logging_freq: 100
     eval_metric: "bleu"
-    model_dir: "/content/drive/My Drive/masakhane/en-bin-baseline/models/enbin_transformer"
     overwrite: True               # TODO: Set to True if you want to overwrite possibly existing models.
     shuffle: True
     use_cuda: True

 data:
     src: "en"
     trg: "bin"
+    train: "/content/drive/My Drive/masakhane/en-bin-baseline/train.bpe"
+    dev:   "/content/drive/My Drive/masakhane/en-bin-baseline/dev.bpe"
+    test:  "/content/drive/My Drive/masakhane/en-bin-baseline/test.bpe"
     level: "bpe"
     lowercase: False
     max_sent_length: 100
+    src_vocab: "/content/drive/My Drive/masakhane/en-bin-baseline/vocab.txt"
+    trg_vocab: "/content/drive/My Drive/masakhane/en-bin-baseline/vocab.txt"
 testing:
     beam_size: 5
     eval_batch_type: "token"
     batch_multiplier: 1
     early_stopping_metric: "ppl"
+    epochs: 400                     # TODO: Decrease for when playing around and checking of working. Around 30 is sufficient to check if its working at all
     validation_freq: 100          # TODO: Set to at least once per epoch.
     logging_freq: 100
     eval_metric: "bleu"
+    model_dir: ""
     overwrite: True               # TODO: Set to True if you want to overwrite possibly existing models.
     shuffle: True
     use_cuda: True

en-bin/main/src_vocab.txt CHANGED Viewed

The diff for this file is too large to render. See raw diff

en-bin/main/trg_vocab.txt CHANGED Viewed

The diff for this file is too large to render. See raw diff

en-urh/{jw300-baseline → main}/English_to_Urhobo_BPE_notebook.ipynb RENAMED Viewed

File without changes

en-urh/{jw300-baseline → main}/English_to_Urhobo_Word-level_notebook.ipynb RENAMED Viewed

File without changes

en-urh/{jw300-baseline → main}/README.md RENAMED Viewed

File without changes

en-urh/main/best.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c4d349b6ae2fece09947cac59d66c34d8ae9464d6c5de115479cb2f99d56e30
+size 212008098

en-urh/main/config.yaml ADDED Viewed

	@@ -0,0 +1,85 @@

+name: "enurh_transformer"
+data:
+    src: "en"
+    trg: "urh"
+    train: "data/enurh/train"
+    dev:   "data/enurh/dev"
+    test:  "data/enurh/test"
+    level: "word"
+    lowercase: False
+    max_sent_length: 100
+    src_vocab: "data/enurh/vocab-nonBPE.txt"
+    trg_vocab: "data/enurh/vocab-nonBPE.txt"
+testing:
+    beam_size: 5
+    alpha: 1.0
+training:
+    #load_model: "/content/drive/My Drive/masakhane/en-urh-baseline/models/enurh_transformer/1.ckpt" # if uncommented, load a pre-trained model from this checkpoint
+    random_seed: 42
+    optimizer: "adam"
+    normalization: "tokens"
+    adam_betas: [0.9, 0.999]
+    scheduling: "plateau"           # TODO: try switching from plateau to Noam scheduling
+    patience: 5                     # For plateau: decrease learning rate by decrease_factor if validation score has not improved for this many validation rounds.
+    learning_rate_factor: 0.5       # factor for Noam scheduler (used with Transformer)
+    learning_rate_warmup: 1000      # warmup steps for Noam scheduler (used with Transformer)
+    decrease_factor: 0.7
+    loss: "crossentropy"
+    learning_rate: 0.0003
+    learning_rate_min: 0.00000001
+    weight_decay: 0.0
+    label_smoothing: 0.1
+    batch_size: 4096
+    batch_type: "token"
+    eval_batch_size: 3600
+    eval_batch_type: "token"
+    batch_multiplier: 1
+    early_stopping_metric: "ppl"
+    epochs: 150                     # TODO: Decrease for when playing around and checking of working. Around 30 is sufficient to check if its working at all
+    validation_freq: 1000           # TODO: Set to at least once per epoch.
+    logging_freq: 100
+    eval_metric: "bleu"
+    model_dir: "models/enurh_transformer"
+    overwrite: True                # TODO: Set to True if you want to overwrite possibly existing models.
+    shuffle: True
+    use_cuda: True
+    max_output_length: 100
+    print_valid_sents: [0, 1, 2, 3]
+    keep_last_ckpts: 3
+model:
+    initializer: "xavier"
+    bias_initializer: "zeros"
+    init_gain: 1.0
+    embed_initializer: "xavier"
+    embed_init_gain: 1.0
+    tied_embeddings: True
+    tied_softmax: True
+    encoder:
+        type: "transformer"
+        num_layers: 6
+        num_heads: 4             # TODO: Increase to 8 for larger data.
+        embeddings:
+            embedding_dim: 256   # TODO: Increase to 512 for larger data.
+            scale: True
+            dropout: 0.2
+        # typically ff_size = 4 x hidden_size
+        hidden_size: 256         # TODO: Increase to 512 for larger data.
+        ff_size: 1024            # TODO: Increase to 2048 for larger data.
+        dropout: 0.3
+    decoder:
+        type: "transformer"
+        num_layers: 6
+        num_heads: 4              # TODO: Increase to 8 for larger data.
+        embeddings:
+            embedding_dim: 256    # TODO: Increase to 512 for larger data.
+            scale: True
+            dropout: 0.2
+        # typically ff_size = 4 x hidden_size
+        hidden_size: 256         # TODO: Increase to 512 for larger data.
+        ff_size: 1024            # TODO: Increase to 2048 for larger data.
+        dropout: 0.3

en-urh/main/drive-download-20211020T042645Z-001.zip ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:231461f7c6bbe7fb25ab1a6662d8cf2cf755d2a5a20669e6b3bd2db893e79a81
+size 194637565

en-urh/main/src_vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

en-urh/{jw300-baseline → main}/test.en RENAMED Viewed

File without changes

en-urh/{jw300-baseline → main}/test.urh RENAMED Viewed

File without changes

en-urh/main/trg_vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff