2023-10-24 22:13:21,924 ----------------------------------------------------------------------------------------------------
2023-10-24 22:13:21,925 Model: "SequenceTagger(
  (embeddings): TransformerWordEmbeddings(
    (model): BertModel(
      (embeddings): BertEmbeddings(
        (word_embeddings): Embedding(64001, 768)
        (position_embeddings): Embedding(512, 768)
        (token_type_embeddings): Embedding(2, 768)
        (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (encoder): BertEncoder(
        (layer): ModuleList(
          (0): BertLayer(
            (attention): BertAttention(
              (self): BertSelfAttention(
                (query): Linear(in_features=768, out_features=768, bias=True)
                (key): Linear(in_features=768, out_features=768, bias=True)
                (value): Linear(in_features=768, out_features=768, bias=True)
                (dropout): Dropout(p=0.1, inplace=False)
              )
              (output): BertSelfOutput(
                (dense): Linear(in_features=768, out_features=768, bias=True)
                (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
                (dropout): Dropout(p=0.1, inplace=False)
              )
            )
            (intermediate): BertIntermediate(
              (dense): Linear(in_features=768, out_features=3072, bias=True)
              (intermediate_act_fn): GELUActivation()
            )
            (output): BertOutput(
              (dense): Linear(in_features=3072, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
          )
          (1): BertLayer(
            (attention): BertAttention(
              (self): BertSelfAttention(
                (query): Linear(in_features=768, out_features=768, bias=True)
                (key): Linear(in_features=768, out_features=768, bias=True)
                (value): Linear(in_features=768, out_features=768, bias=True)
                (dropout): Dropout(p=0.1, inplace=False)
              )
              (output): BertSelfOutput(
                (dense): Linear(in_features=768, out_features=768, bias=True)
                (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
                (dropout): Dropout(p=0.1, inplace=False)
              )
            )
            (intermediate): BertIntermediate(
              (dense): Linear(in_features=768, out_features=3072, bias=True)
              (intermediate_act_fn): GELUActivation()
            )
            (output): BertOutput(
              (dense): Linear(in_features=3072, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
          )
          (2): BertLayer(
            (attention): BertAttention(
              (self): BertSelfAttention(
                (query): Linear(in_features=768, out_features=768, bias=True)
                (key): Linear(in_features=768, out_features=768, bias=True)
                (value): Linear(in_features=768, out_features=768, bias=True)
                (dropout): Dropout(p=0.1, inplace=False)
              )
              (output): BertSelfOutput(
                (dense): Linear(in_features=768, out_features=768, bias=True)
                (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
                (dropout): Dropout(p=0.1, inplace=False)
              )
            )
            (intermediate): BertIntermediate(
              (dense): Linear(in_features=768, out_features=3072, bias=True)
              (intermediate_act_fn): GELUActivation()
            )
            (output): BertOutput(
              (dense): Linear(in_features=3072, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
          )
          (3): BertLayer(
            (attention): BertAttention(
              (self): BertSelfAttention(
                (query): Linear(in_features=768, out_features=768, bias=True)
                (key): Linear(in_features=768, out_features=768, bias=True)
                (value): Linear(in_features=768, out_features=768, bias=True)
                (dropout): Dropout(p=0.1, inplace=False)
              )
              (output): BertSelfOutput(
                (dense): Linear(in_features=768, out_features=768, bias=True)
                (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
                (dropout): Dropout(p=0.1, inplace=False)
              )
            )
            (intermediate): BertIntermediate(
              (dense): Linear(in_features=768, out_features=3072, bias=True)
              (intermediate_act_fn): GELUActivation()
            )
            (output): BertOutput(
              (dense): Linear(in_features=3072, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
          )
          (4): BertLayer(
            (attention): BertAttention(
              (self): BertSelfAttention(
                (query): Linear(in_features=768, out_features=768, bias=True)
                (key): Linear(in_features=768, out_features=768, bias=True)
                (value): Linear(in_features=768, out_features=768, bias=True)
                (dropout): Dropout(p=0.1, inplace=False)
              )
              (output): BertSelfOutput(
                (dense): Linear(in_features=768, out_features=768, bias=True)
                (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
                (dropout): Dropout(p=0.1, inplace=False)
              )
            )
            (intermediate): BertIntermediate(
              (dense): Linear(in_features=768, out_features=3072, bias=True)
              (intermediate_act_fn): GELUActivation()
            )
            (output): BertOutput(
              (dense): Linear(in_features=3072, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
          )
          (5): BertLayer(
            (attention): BertAttention(
              (self): BertSelfAttention(
                (query): Linear(in_features=768, out_features=768, bias=True)
                (key): Linear(in_features=768, out_features=768, bias=True)
                (value): Linear(in_features=768, out_features=768, bias=True)
                (dropout): Dropout(p=0.1, inplace=False)
              )
              (output): BertSelfOutput(
                (dense): Linear(in_features=768, out_features=768, bias=True)
                (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
                (dropout): Dropout(p=0.1, inplace=False)
              )
            )
            (intermediate): BertIntermediate(
              (dense): Linear(in_features=768, out_features=3072, bias=True)
              (intermediate_act_fn): GELUActivation()
            )
            (output): BertOutput(
              (dense): Linear(in_features=3072, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
          )
          (6): BertLayer(
            (attention): BertAttention(
              (self): BertSelfAttention(
                (query): Linear(in_features=768, out_features=768, bias=True)
                (key): Linear(in_features=768, out_features=768, bias=True)
                (value): Linear(in_features=768, out_features=768, bias=True)
                (dropout): Dropout(p=0.1, inplace=False)
              )
              (output): BertSelfOutput(
                (dense): Linear(in_features=768, out_features=768, bias=True)
                (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
                (dropout): Dropout(p=0.1, inplace=False)
              )
            )
            (intermediate): BertIntermediate(
              (dense): Linear(in_features=768, out_features=3072, bias=True)
              (intermediate_act_fn): GELUActivation()
            )
            (output): BertOutput(
              (dense): Linear(in_features=3072, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
          )
          (7): BertLayer(
            (attention): BertAttention(
              (self): BertSelfAttention(
                (query): Linear(in_features=768, out_features=768, bias=True)
                (key): Linear(in_features=768, out_features=768, bias=True)
                (value): Linear(in_features=768, out_features=768, bias=True)
                (dropout): Dropout(p=0.1, inplace=False)
              )
              (output): BertSelfOutput(
                (dense): Linear(in_features=768, out_features=768, bias=True)
                (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
                (dropout): Dropout(p=0.1, inplace=False)
              )
            )
            (intermediate): BertIntermediate(
              (dense): Linear(in_features=768, out_features=3072, bias=True)
              (intermediate_act_fn): GELUActivation()
            )
            (output): BertOutput(
              (dense): Linear(in_features=3072, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
          )
          (8): BertLayer(
            (attention): BertAttention(
              (self): BertSelfAttention(
                (query): Linear(in_features=768, out_features=768, bias=True)
                (key): Linear(in_features=768, out_features=768, bias=True)
                (value): Linear(in_features=768, out_features=768, bias=True)
                (dropout): Dropout(p=0.1, inplace=False)
              )
              (output): BertSelfOutput(
                (dense): Linear(in_features=768, out_features=768, bias=True)
                (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
                (dropout): Dropout(p=0.1, inplace=False)
              )
            )
            (intermediate): BertIntermediate(
              (dense): Linear(in_features=768, out_features=3072, bias=True)
              (intermediate_act_fn): GELUActivation()
            )
            (output): BertOutput(
              (dense): Linear(in_features=3072, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
          )
          (9): BertLayer(
            (attention): BertAttention(
              (self): BertSelfAttention(
                (query): Linear(in_features=768, out_features=768, bias=True)
                (key): Linear(in_features=768, out_features=768, bias=True)
                (value): Linear(in_features=768, out_features=768, bias=True)
                (dropout): Dropout(p=0.1, inplace=False)
              )
              (output): BertSelfOutput(
                (dense): Linear(in_features=768, out_features=768, bias=True)
                (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
                (dropout): Dropout(p=0.1, inplace=False)
              )
            )
            (intermediate): BertIntermediate(
              (dense): Linear(in_features=768, out_features=3072, bias=True)
              (intermediate_act_fn): GELUActivation()
            )
            (output): BertOutput(
              (dense): Linear(in_features=3072, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
          )
          (10): BertLayer(
            (attention): BertAttention(
              (self): BertSelfAttention(
                (query): Linear(in_features=768, out_features=768, bias=True)
                (key): Linear(in_features=768, out_features=768, bias=True)
                (value): Linear(in_features=768, out_features=768, bias=True)
                (dropout): Dropout(p=0.1, inplace=False)
              )
              (output): BertSelfOutput(
                (dense): Linear(in_features=768, out_features=768, bias=True)
                (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
                (dropout): Dropout(p=0.1, inplace=False)
              )
            )
            (intermediate): BertIntermediate(
              (dense): Linear(in_features=768, out_features=3072, bias=True)
              (intermediate_act_fn): GELUActivation()
            )
            (output): BertOutput(
              (dense): Linear(in_features=3072, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
          )
          (11): BertLayer(
            (attention): BertAttention(
              (self): BertSelfAttention(
                (query): Linear(in_features=768, out_features=768, bias=True)
                (key): Linear(in_features=768, out_features=768, bias=True)
                (value): Linear(in_features=768, out_features=768, bias=True)
                (dropout): Dropout(p=0.1, inplace=False)
              )
              (output): BertSelfOutput(
                (dense): Linear(in_features=768, out_features=768, bias=True)
                (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
                (dropout): Dropout(p=0.1, inplace=False)
              )
            )
            (intermediate): BertIntermediate(
              (dense): Linear(in_features=768, out_features=3072, bias=True)
              (intermediate_act_fn): GELUActivation()
            )
            (output): BertOutput(
              (dense): Linear(in_features=3072, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
          )
        )
      )
      (pooler): BertPooler(
        (dense): Linear(in_features=768, out_features=768, bias=True)
        (activation): Tanh()
      )
    )
  )
  (locked_dropout): LockedDropout(p=0.5)
  (linear): Linear(in_features=768, out_features=13, bias=True)
  (loss_function): CrossEntropyLoss()
)"
2023-10-24 22:13:21,925 ----------------------------------------------------------------------------------------------------
2023-10-24 22:13:21,926 MultiCorpus: 5777 train + 722 dev + 723 test sentences
 - NER_ICDAR_EUROPEANA Corpus: 5777 train + 722 dev + 723 test sentences - /home/ubuntu/.flair/datasets/ner_icdar_europeana/nl
2023-10-24 22:13:21,926 ----------------------------------------------------------------------------------------------------
2023-10-24 22:13:21,926 Train:  5777 sentences
2023-10-24 22:13:21,926         (train_with_dev=False, train_with_test=False)
2023-10-24 22:13:21,926 ----------------------------------------------------------------------------------------------------
2023-10-24 22:13:21,926 Training Params:
2023-10-24 22:13:21,926  - learning_rate: "5e-05" 
2023-10-24 22:13:21,926  - mini_batch_size: "4"
2023-10-24 22:13:21,926  - max_epochs: "10"
2023-10-24 22:13:21,926  - shuffle: "True"
2023-10-24 22:13:21,926 ----------------------------------------------------------------------------------------------------
2023-10-24 22:13:21,926 Plugins:
2023-10-24 22:13:21,926  - TensorboardLogger
2023-10-24 22:13:21,926  - LinearScheduler | warmup_fraction: '0.1'
2023-10-24 22:13:21,926 ----------------------------------------------------------------------------------------------------
2023-10-24 22:13:21,926 Final evaluation on model from best epoch (best-model.pt)
2023-10-24 22:13:21,926  - metric: "('micro avg', 'f1-score')"
2023-10-24 22:13:21,926 ----------------------------------------------------------------------------------------------------
2023-10-24 22:13:21,926 Computation:
2023-10-24 22:13:21,926  - compute on device: cuda:0
2023-10-24 22:13:21,926  - embedding storage: none
2023-10-24 22:13:21,926 ----------------------------------------------------------------------------------------------------
2023-10-24 22:13:21,926 Model training base path: "hmbench-icdar/nl-dbmdz/bert-base-historic-multilingual-64k-td-cased-bs4-wsFalse-e10-lr5e-05-poolingfirst-layers-1-crfFalse-1"
2023-10-24 22:13:21,926 ----------------------------------------------------------------------------------------------------
2023-10-24 22:13:21,926 ----------------------------------------------------------------------------------------------------
2023-10-24 22:13:21,926 Logging anything other than scalars to TensorBoard is currently not supported.
2023-10-24 22:13:32,380 epoch 1 - iter 144/1445 - loss 1.49559085 - time (sec): 10.45 - samples/sec: 1692.34 - lr: 0.000005 - momentum: 0.000000
2023-10-24 22:13:42,853 epoch 1 - iter 288/1445 - loss 0.87195492 - time (sec): 20.93 - samples/sec: 1683.05 - lr: 0.000010 - momentum: 0.000000
2023-10-24 22:13:53,683 epoch 1 - iter 432/1445 - loss 0.64108177 - time (sec): 31.76 - samples/sec: 1704.94 - lr: 0.000015 - momentum: 0.000000
2023-10-24 22:14:03,881 epoch 1 - iter 576/1445 - loss 0.53043413 - time (sec): 41.95 - samples/sec: 1681.07 - lr: 0.000020 - momentum: 0.000000
2023-10-24 22:14:14,069 epoch 1 - iter 720/1445 - loss 0.45645493 - time (sec): 52.14 - samples/sec: 1671.29 - lr: 0.000025 - momentum: 0.000000
2023-10-24 22:14:24,447 epoch 1 - iter 864/1445 - loss 0.40865665 - time (sec): 62.52 - samples/sec: 1666.71 - lr: 0.000030 - momentum: 0.000000
2023-10-24 22:14:34,689 epoch 1 - iter 1008/1445 - loss 0.37243246 - time (sec): 72.76 - samples/sec: 1660.47 - lr: 0.000035 - momentum: 0.000000
2023-10-24 22:14:45,375 epoch 1 - iter 1152/1445 - loss 0.34345336 - time (sec): 83.45 - samples/sec: 1663.95 - lr: 0.000040 - momentum: 0.000000
2023-10-24 22:14:55,909 epoch 1 - iter 1296/1445 - loss 0.31896611 - time (sec): 93.98 - samples/sec: 1671.51 - lr: 0.000045 - momentum: 0.000000
2023-10-24 22:15:06,686 epoch 1 - iter 1440/1445 - loss 0.29904032 - time (sec): 104.76 - samples/sec: 1677.73 - lr: 0.000050 - momentum: 0.000000
2023-10-24 22:15:07,000 ----------------------------------------------------------------------------------------------------
2023-10-24 22:15:07,001 EPOCH 1 done: loss 0.2986 - lr: 0.000050
2023-10-24 22:15:10,276 DEV : loss 0.1465490758419037 - f1-score (micro avg)  0.4443
2023-10-24 22:15:10,288 saving best model
2023-10-24 22:15:10,842 ----------------------------------------------------------------------------------------------------
2023-10-24 22:15:21,246 epoch 2 - iter 144/1445 - loss 0.11682404 - time (sec): 10.40 - samples/sec: 1638.60 - lr: 0.000049 - momentum: 0.000000
2023-10-24 22:15:31,373 epoch 2 - iter 288/1445 - loss 0.11667509 - time (sec): 20.53 - samples/sec: 1627.84 - lr: 0.000049 - momentum: 0.000000
2023-10-24 22:15:41,772 epoch 2 - iter 432/1445 - loss 0.11315670 - time (sec): 30.93 - samples/sec: 1636.53 - lr: 0.000048 - momentum: 0.000000
2023-10-24 22:15:52,605 epoch 2 - iter 576/1445 - loss 0.11090746 - time (sec): 41.76 - samples/sec: 1658.63 - lr: 0.000048 - momentum: 0.000000
2023-10-24 22:16:03,567 epoch 2 - iter 720/1445 - loss 0.10511821 - time (sec): 52.72 - samples/sec: 1678.85 - lr: 0.000047 - momentum: 0.000000
2023-10-24 22:16:14,590 epoch 2 - iter 864/1445 - loss 0.10350836 - time (sec): 63.75 - samples/sec: 1683.22 - lr: 0.000047 - momentum: 0.000000
2023-10-24 22:16:24,933 epoch 2 - iter 1008/1445 - loss 0.10362581 - time (sec): 74.09 - samples/sec: 1679.79 - lr: 0.000046 - momentum: 0.000000
2023-10-24 22:16:34,883 epoch 2 - iter 1152/1445 - loss 0.10658382 - time (sec): 84.04 - samples/sec: 1669.01 - lr: 0.000046 - momentum: 0.000000
2023-10-24 22:16:45,346 epoch 2 - iter 1296/1445 - loss 0.10667648 - time (sec): 94.50 - samples/sec: 1667.31 - lr: 0.000045 - momentum: 0.000000
2023-10-24 22:16:55,925 epoch 2 - iter 1440/1445 - loss 0.10680059 - time (sec): 105.08 - samples/sec: 1670.92 - lr: 0.000044 - momentum: 0.000000
2023-10-24 22:16:56,251 ----------------------------------------------------------------------------------------------------
2023-10-24 22:16:56,251 EPOCH 2 done: loss 0.1070 - lr: 0.000044
2023-10-24 22:16:59,958 DEV : loss 0.10742148011922836 - f1-score (micro avg)  0.7828
2023-10-24 22:16:59,970 saving best model
2023-10-24 22:17:00,625 ----------------------------------------------------------------------------------------------------
2023-10-24 22:17:11,142 epoch 3 - iter 144/1445 - loss 0.07888928 - time (sec): 10.52 - samples/sec: 1662.49 - lr: 0.000044 - momentum: 0.000000
2023-10-24 22:17:21,593 epoch 3 - iter 288/1445 - loss 0.06951416 - time (sec): 20.97 - samples/sec: 1667.45 - lr: 0.000043 - momentum: 0.000000
2023-10-24 22:17:31,937 epoch 3 - iter 432/1445 - loss 0.07610488 - time (sec): 31.31 - samples/sec: 1669.25 - lr: 0.000043 - momentum: 0.000000
2023-10-24 22:17:42,638 epoch 3 - iter 576/1445 - loss 0.07378191 - time (sec): 42.01 - samples/sec: 1677.25 - lr: 0.000042 - momentum: 0.000000
2023-10-24 22:17:53,220 epoch 3 - iter 720/1445 - loss 0.07592950 - time (sec): 52.59 - samples/sec: 1677.29 - lr: 0.000042 - momentum: 0.000000
2023-10-24 22:18:04,012 epoch 3 - iter 864/1445 - loss 0.08537831 - time (sec): 63.39 - samples/sec: 1688.53 - lr: 0.000041 - momentum: 0.000000
2023-10-24 22:18:14,355 epoch 3 - iter 1008/1445 - loss 0.09120584 - time (sec): 73.73 - samples/sec: 1674.36 - lr: 0.000041 - momentum: 0.000000
2023-10-24 22:18:24,684 epoch 3 - iter 1152/1445 - loss 0.08969195 - time (sec): 84.06 - samples/sec: 1666.85 - lr: 0.000040 - momentum: 0.000000
2023-10-24 22:18:35,249 epoch 3 - iter 1296/1445 - loss 0.08985953 - time (sec): 94.62 - samples/sec: 1667.96 - lr: 0.000039 - momentum: 0.000000
2023-10-24 22:18:45,949 epoch 3 - iter 1440/1445 - loss 0.09136075 - time (sec): 105.32 - samples/sec: 1670.01 - lr: 0.000039 - momentum: 0.000000
2023-10-24 22:18:46,238 ----------------------------------------------------------------------------------------------------
2023-10-24 22:18:46,239 EPOCH 3 done: loss 0.0915 - lr: 0.000039
2023-10-24 22:18:49,660 DEV : loss 0.11891528218984604 - f1-score (micro avg)  0.796
2023-10-24 22:18:49,672 saving best model
2023-10-24 22:18:50,385 ----------------------------------------------------------------------------------------------------
2023-10-24 22:19:00,748 epoch 4 - iter 144/1445 - loss 0.05647820 - time (sec): 10.36 - samples/sec: 1688.59 - lr: 0.000038 - momentum: 0.000000
2023-10-24 22:19:11,515 epoch 4 - iter 288/1445 - loss 0.05815810 - time (sec): 21.13 - samples/sec: 1643.99 - lr: 0.000038 - momentum: 0.000000
2023-10-24 22:19:21,630 epoch 4 - iter 432/1445 - loss 0.06297138 - time (sec): 31.24 - samples/sec: 1623.46 - lr: 0.000037 - momentum: 0.000000
2023-10-24 22:19:31,956 epoch 4 - iter 576/1445 - loss 0.06251057 - time (sec): 41.57 - samples/sec: 1617.67 - lr: 0.000037 - momentum: 0.000000
2023-10-24 22:19:42,685 epoch 4 - iter 720/1445 - loss 0.06294971 - time (sec): 52.30 - samples/sec: 1641.43 - lr: 0.000036 - momentum: 0.000000
2023-10-24 22:19:53,347 epoch 4 - iter 864/1445 - loss 0.06501619 - time (sec): 62.96 - samples/sec: 1652.80 - lr: 0.000036 - momentum: 0.000000
2023-10-24 22:20:04,252 epoch 4 - iter 1008/1445 - loss 0.06499533 - time (sec): 73.87 - samples/sec: 1658.53 - lr: 0.000035 - momentum: 0.000000
2023-10-24 22:20:14,785 epoch 4 - iter 1152/1445 - loss 0.06307111 - time (sec): 84.40 - samples/sec: 1664.21 - lr: 0.000034 - momentum: 0.000000
2023-10-24 22:20:25,350 epoch 4 - iter 1296/1445 - loss 0.06234630 - time (sec): 94.96 - samples/sec: 1664.27 - lr: 0.000034 - momentum: 0.000000
2023-10-24 22:20:35,838 epoch 4 - iter 1440/1445 - loss 0.06175381 - time (sec): 105.45 - samples/sec: 1667.05 - lr: 0.000033 - momentum: 0.000000
2023-10-24 22:20:36,143 ----------------------------------------------------------------------------------------------------
2023-10-24 22:20:36,144 EPOCH 4 done: loss 0.0619 - lr: 0.000033
2023-10-24 22:20:39,556 DEV : loss 0.1823125034570694 - f1-score (micro avg)  0.756
2023-10-24 22:20:39,567 ----------------------------------------------------------------------------------------------------
2023-10-24 22:20:50,308 epoch 5 - iter 144/1445 - loss 0.05559863 - time (sec): 10.74 - samples/sec: 1703.77 - lr: 0.000033 - momentum: 0.000000
2023-10-24 22:21:01,046 epoch 5 - iter 288/1445 - loss 0.05287999 - time (sec): 21.48 - samples/sec: 1666.13 - lr: 0.000032 - momentum: 0.000000
2023-10-24 22:21:11,592 epoch 5 - iter 432/1445 - loss 0.04559996 - time (sec): 32.02 - samples/sec: 1666.25 - lr: 0.000032 - momentum: 0.000000
2023-10-24 22:21:22,613 epoch 5 - iter 576/1445 - loss 0.04653938 - time (sec): 43.04 - samples/sec: 1678.93 - lr: 0.000031 - momentum: 0.000000
2023-10-24 22:21:32,932 epoch 5 - iter 720/1445 - loss 0.04780450 - time (sec): 53.36 - samples/sec: 1676.43 - lr: 0.000031 - momentum: 0.000000
2023-10-24 22:21:43,617 epoch 5 - iter 864/1445 - loss 0.04662656 - time (sec): 64.05 - samples/sec: 1680.93 - lr: 0.000030 - momentum: 0.000000
2023-10-24 22:21:53,610 epoch 5 - iter 1008/1445 - loss 0.04653849 - time (sec): 74.04 - samples/sec: 1668.59 - lr: 0.000029 - momentum: 0.000000
2023-10-24 22:22:04,090 epoch 5 - iter 1152/1445 - loss 0.04554055 - time (sec): 84.52 - samples/sec: 1673.76 - lr: 0.000029 - momentum: 0.000000
2023-10-24 22:22:14,414 epoch 5 - iter 1296/1445 - loss 0.04549864 - time (sec): 94.85 - samples/sec: 1665.47 - lr: 0.000028 - momentum: 0.000000
2023-10-24 22:22:24,915 epoch 5 - iter 1440/1445 - loss 0.04622108 - time (sec): 105.35 - samples/sec: 1665.43 - lr: 0.000028 - momentum: 0.000000
2023-10-24 22:22:25,341 ----------------------------------------------------------------------------------------------------
2023-10-24 22:22:25,342 EPOCH 5 done: loss 0.0462 - lr: 0.000028
2023-10-24 22:22:29,053 DEV : loss 0.14015598595142365 - f1-score (micro avg)  0.8063
2023-10-24 22:22:29,065 saving best model
2023-10-24 22:22:29,718 ----------------------------------------------------------------------------------------------------
2023-10-24 22:22:40,293 epoch 6 - iter 144/1445 - loss 0.02737257 - time (sec): 10.57 - samples/sec: 1620.84 - lr: 0.000027 - momentum: 0.000000
2023-10-24 22:22:50,766 epoch 6 - iter 288/1445 - loss 0.02987116 - time (sec): 21.05 - samples/sec: 1632.47 - lr: 0.000027 - momentum: 0.000000
2023-10-24 22:23:01,736 epoch 6 - iter 432/1445 - loss 0.03340606 - time (sec): 32.02 - samples/sec: 1665.29 - lr: 0.000026 - momentum: 0.000000
2023-10-24 22:23:12,193 epoch 6 - iter 576/1445 - loss 0.03514036 - time (sec): 42.47 - samples/sec: 1652.48 - lr: 0.000026 - momentum: 0.000000
2023-10-24 22:23:22,643 epoch 6 - iter 720/1445 - loss 0.03531426 - time (sec): 52.92 - samples/sec: 1650.42 - lr: 0.000025 - momentum: 0.000000
2023-10-24 22:23:33,304 epoch 6 - iter 864/1445 - loss 0.03610013 - time (sec): 63.58 - samples/sec: 1655.96 - lr: 0.000024 - momentum: 0.000000
2023-10-24 22:23:43,755 epoch 6 - iter 1008/1445 - loss 0.03512300 - time (sec): 74.04 - samples/sec: 1666.00 - lr: 0.000024 - momentum: 0.000000
2023-10-24 22:23:54,257 epoch 6 - iter 1152/1445 - loss 0.03710725 - time (sec): 84.54 - samples/sec: 1666.00 - lr: 0.000023 - momentum: 0.000000
2023-10-24 22:24:04,699 epoch 6 - iter 1296/1445 - loss 0.03585885 - time (sec): 94.98 - samples/sec: 1669.28 - lr: 0.000023 - momentum: 0.000000
2023-10-24 22:24:15,046 epoch 6 - iter 1440/1445 - loss 0.03557740 - time (sec): 105.33 - samples/sec: 1667.87 - lr: 0.000022 - momentum: 0.000000
2023-10-24 22:24:15,381 ----------------------------------------------------------------------------------------------------
2023-10-24 22:24:15,382 EPOCH 6 done: loss 0.0355 - lr: 0.000022
2023-10-24 22:24:18,806 DEV : loss 0.18115007877349854 - f1-score (micro avg)  0.786
2023-10-24 22:24:18,817 ----------------------------------------------------------------------------------------------------
2023-10-24 22:24:29,308 epoch 7 - iter 144/1445 - loss 0.02078286 - time (sec): 10.49 - samples/sec: 1705.63 - lr: 0.000022 - momentum: 0.000000
2023-10-24 22:24:39,999 epoch 7 - iter 288/1445 - loss 0.02962769 - time (sec): 21.18 - samples/sec: 1669.68 - lr: 0.000021 - momentum: 0.000000
2023-10-24 22:24:50,656 epoch 7 - iter 432/1445 - loss 0.02907881 - time (sec): 31.84 - samples/sec: 1653.22 - lr: 0.000021 - momentum: 0.000000
2023-10-24 22:25:01,260 epoch 7 - iter 576/1445 - loss 0.03114169 - time (sec): 42.44 - samples/sec: 1670.16 - lr: 0.000020 - momentum: 0.000000
2023-10-24 22:25:12,090 epoch 7 - iter 720/1445 - loss 0.02943001 - time (sec): 53.27 - samples/sec: 1672.86 - lr: 0.000019 - momentum: 0.000000
2023-10-24 22:25:22,358 epoch 7 - iter 864/1445 - loss 0.02860415 - time (sec): 63.54 - samples/sec: 1658.11 - lr: 0.000019 - momentum: 0.000000
2023-10-24 22:25:32,771 epoch 7 - iter 1008/1445 - loss 0.02721034 - time (sec): 73.95 - samples/sec: 1654.20 - lr: 0.000018 - momentum: 0.000000
2023-10-24 22:25:43,289 epoch 7 - iter 1152/1445 - loss 0.02659125 - time (sec): 84.47 - samples/sec: 1655.55 - lr: 0.000018 - momentum: 0.000000
2023-10-24 22:25:53,971 epoch 7 - iter 1296/1445 - loss 0.02604572 - time (sec): 95.15 - samples/sec: 1660.84 - lr: 0.000017 - momentum: 0.000000
2023-10-24 22:26:04,502 epoch 7 - iter 1440/1445 - loss 0.02528759 - time (sec): 105.68 - samples/sec: 1661.04 - lr: 0.000017 - momentum: 0.000000
2023-10-24 22:26:04,906 ----------------------------------------------------------------------------------------------------
2023-10-24 22:26:04,906 EPOCH 7 done: loss 0.0252 - lr: 0.000017
2023-10-24 22:26:08,329 DEV : loss 0.19167011976242065 - f1-score (micro avg)  0.811
2023-10-24 22:26:08,341 saving best model
2023-10-24 22:26:08,996 ----------------------------------------------------------------------------------------------------
2023-10-24 22:26:19,544 epoch 8 - iter 144/1445 - loss 0.01368515 - time (sec): 10.55 - samples/sec: 1673.27 - lr: 0.000016 - momentum: 0.000000
2023-10-24 22:26:30,355 epoch 8 - iter 288/1445 - loss 0.01538066 - time (sec): 21.36 - samples/sec: 1660.55 - lr: 0.000016 - momentum: 0.000000
2023-10-24 22:26:40,676 epoch 8 - iter 432/1445 - loss 0.01436584 - time (sec): 31.68 - samples/sec: 1675.14 - lr: 0.000015 - momentum: 0.000000
2023-10-24 22:26:51,893 epoch 8 - iter 576/1445 - loss 0.01432006 - time (sec): 42.90 - samples/sec: 1706.24 - lr: 0.000014 - momentum: 0.000000
2023-10-24 22:27:02,324 epoch 8 - iter 720/1445 - loss 0.01409563 - time (sec): 53.33 - samples/sec: 1691.08 - lr: 0.000014 - momentum: 0.000000
2023-10-24 22:27:12,778 epoch 8 - iter 864/1445 - loss 0.01487126 - time (sec): 63.78 - samples/sec: 1688.73 - lr: 0.000013 - momentum: 0.000000
2023-10-24 22:27:23,350 epoch 8 - iter 1008/1445 - loss 0.01619878 - time (sec): 74.35 - samples/sec: 1681.67 - lr: 0.000013 - momentum: 0.000000
2023-10-24 22:27:33,298 epoch 8 - iter 1152/1445 - loss 0.01597473 - time (sec): 84.30 - samples/sec: 1663.50 - lr: 0.000012 - momentum: 0.000000
2023-10-24 22:27:43,579 epoch 8 - iter 1296/1445 - loss 0.01520411 - time (sec): 94.58 - samples/sec: 1661.71 - lr: 0.000012 - momentum: 0.000000
2023-10-24 22:27:54,314 epoch 8 - iter 1440/1445 - loss 0.01673962 - time (sec): 105.32 - samples/sec: 1666.43 - lr: 0.000011 - momentum: 0.000000
2023-10-24 22:27:54,743 ----------------------------------------------------------------------------------------------------
2023-10-24 22:27:54,744 EPOCH 8 done: loss 0.0167 - lr: 0.000011
2023-10-24 22:27:58,460 DEV : loss 0.20966801047325134 - f1-score (micro avg)  0.8068
2023-10-24 22:27:58,472 ----------------------------------------------------------------------------------------------------
2023-10-24 22:28:09,302 epoch 9 - iter 144/1445 - loss 0.00335298 - time (sec): 10.83 - samples/sec: 1730.28 - lr: 0.000011 - momentum: 0.000000
2023-10-24 22:28:19,408 epoch 9 - iter 288/1445 - loss 0.00713944 - time (sec): 20.93 - samples/sec: 1674.71 - lr: 0.000010 - momentum: 0.000000
2023-10-24 22:28:30,389 epoch 9 - iter 432/1445 - loss 0.00831560 - time (sec): 31.92 - samples/sec: 1677.91 - lr: 0.000009 - momentum: 0.000000
2023-10-24 22:28:40,925 epoch 9 - iter 576/1445 - loss 0.01125306 - time (sec): 42.45 - samples/sec: 1673.19 - lr: 0.000009 - momentum: 0.000000
2023-10-24 22:28:51,398 epoch 9 - iter 720/1445 - loss 0.01066392 - time (sec): 52.92 - samples/sec: 1668.82 - lr: 0.000008 - momentum: 0.000000
2023-10-24 22:29:01,925 epoch 9 - iter 864/1445 - loss 0.00979328 - time (sec): 63.45 - samples/sec: 1673.13 - lr: 0.000008 - momentum: 0.000000
2023-10-24 22:29:12,556 epoch 9 - iter 1008/1445 - loss 0.01050402 - time (sec): 74.08 - samples/sec: 1673.14 - lr: 0.000007 - momentum: 0.000000
2023-10-24 22:29:22,908 epoch 9 - iter 1152/1445 - loss 0.01017532 - time (sec): 84.43 - samples/sec: 1671.11 - lr: 0.000007 - momentum: 0.000000
2023-10-24 22:29:33,357 epoch 9 - iter 1296/1445 - loss 0.00941237 - time (sec): 94.88 - samples/sec: 1670.19 - lr: 0.000006 - momentum: 0.000000
2023-10-24 22:29:43,936 epoch 9 - iter 1440/1445 - loss 0.00966527 - time (sec): 105.46 - samples/sec: 1667.23 - lr: 0.000006 - momentum: 0.000000
2023-10-24 22:29:44,236 ----------------------------------------------------------------------------------------------------
2023-10-24 22:29:44,236 EPOCH 9 done: loss 0.0096 - lr: 0.000006
2023-10-24 22:29:47,661 DEV : loss 0.22105184197425842 - f1-score (micro avg)  0.8086
2023-10-24 22:29:47,672 ----------------------------------------------------------------------------------------------------
2023-10-24 22:29:58,237 epoch 10 - iter 144/1445 - loss 0.00621614 - time (sec): 10.56 - samples/sec: 1652.08 - lr: 0.000005 - momentum: 0.000000
2023-10-24 22:30:08,967 epoch 10 - iter 288/1445 - loss 0.01088022 - time (sec): 21.29 - samples/sec: 1667.64 - lr: 0.000004 - momentum: 0.000000
2023-10-24 22:30:19,753 epoch 10 - iter 432/1445 - loss 0.00891142 - time (sec): 32.08 - samples/sec: 1697.21 - lr: 0.000004 - momentum: 0.000000
2023-10-24 22:30:30,666 epoch 10 - iter 576/1445 - loss 0.00890582 - time (sec): 42.99 - samples/sec: 1693.35 - lr: 0.000003 - momentum: 0.000000
2023-10-24 22:30:40,999 epoch 10 - iter 720/1445 - loss 0.00818322 - time (sec): 53.33 - samples/sec: 1679.18 - lr: 0.000003 - momentum: 0.000000
2023-10-24 22:30:51,571 epoch 10 - iter 864/1445 - loss 0.00748506 - time (sec): 63.90 - samples/sec: 1671.13 - lr: 0.000002 - momentum: 0.000000
2023-10-24 22:31:02,171 epoch 10 - iter 1008/1445 - loss 0.00750558 - time (sec): 74.50 - samples/sec: 1666.22 - lr: 0.000002 - momentum: 0.000000
2023-10-24 22:31:12,576 epoch 10 - iter 1152/1445 - loss 0.00743769 - time (sec): 84.90 - samples/sec: 1667.05 - lr: 0.000001 - momentum: 0.000000
2023-10-24 22:31:23,189 epoch 10 - iter 1296/1445 - loss 0.00721825 - time (sec): 95.52 - samples/sec: 1661.21 - lr: 0.000001 - momentum: 0.000000
2023-10-24 22:31:33,509 epoch 10 - iter 1440/1445 - loss 0.00720286 - time (sec): 105.84 - samples/sec: 1661.25 - lr: 0.000000 - momentum: 0.000000
2023-10-24 22:31:33,805 ----------------------------------------------------------------------------------------------------
2023-10-24 22:31:33,805 EPOCH 10 done: loss 0.0072 - lr: 0.000000
2023-10-24 22:31:37,236 DEV : loss 0.22644661366939545 - f1-score (micro avg)  0.8158
2023-10-24 22:31:37,249 saving best model
2023-10-24 22:31:38,458 ----------------------------------------------------------------------------------------------------
2023-10-24 22:31:38,459 Loading model from best epoch ...
2023-10-24 22:31:40,317 SequenceTagger predicts: Dictionary with 13 tags: O, S-LOC, B-LOC, E-LOC, I-LOC, S-PER, B-PER, E-PER, I-PER, S-ORG, B-ORG, E-ORG, I-ORG
2023-10-24 22:31:43,856 
Results:
- F-score (micro) 0.7971
- F-score (macro) 0.6618
- Accuracy 0.678

By class:
              precision    recall  f1-score   support

         PER     0.8545    0.7676    0.8087       482
         LOC     0.8913    0.8057    0.8463       458
         ORG     0.4130    0.2754    0.3304        69

   micro avg     0.8488    0.7512    0.7971      1009
   macro avg     0.7196    0.6162    0.6618      1009
weighted avg     0.8410    0.7512    0.7931      1009

2023-10-24 22:31:43,856 ----------------------------------------------------------------------------------------------------