2023-10-11 00:31:54,080 ----------------------------------------------------------------------------------------------------
2023-10-11 00:31:54,083 Model: "SequenceTagger(
  (embeddings): ByT5Embeddings(
    (model): T5EncoderModel(
      (shared): Embedding(384, 1472)
      (encoder): T5Stack(
        (embed_tokens): Embedding(384, 1472)
        (block): ModuleList(
          (0): T5Block(
            (layer): ModuleList(
              (0): T5LayerSelfAttention(
                (SelfAttention): T5Attention(
                  (q): Linear(in_features=1472, out_features=384, bias=False)
                  (k): Linear(in_features=1472, out_features=384, bias=False)
                  (v): Linear(in_features=1472, out_features=384, bias=False)
                  (o): Linear(in_features=384, out_features=1472, bias=False)
                  (relative_attention_bias): Embedding(32, 6)
                )
                (layer_norm): FusedRMSNorm(torch.Size([1472]), eps=1e-06, elementwise_affine=True)
                (dropout): Dropout(p=0.1, inplace=False)
              )
              (1): T5LayerFF(
                (DenseReluDense): T5DenseGatedActDense(
                  (wi_0): Linear(in_features=1472, out_features=3584, bias=False)
                  (wi_1): Linear(in_features=1472, out_features=3584, bias=False)
                  (wo): Linear(in_features=3584, out_features=1472, bias=False)
                  (dropout): Dropout(p=0.1, inplace=False)
                  (act): NewGELUActivation()
                )
                (layer_norm): FusedRMSNorm(torch.Size([1472]), eps=1e-06, elementwise_affine=True)
                (dropout): Dropout(p=0.1, inplace=False)
              )
            )
          )
          (1-11): 11 x T5Block(
            (layer): ModuleList(
              (0): T5LayerSelfAttention(
                (SelfAttention): T5Attention(
                  (q): Linear(in_features=1472, out_features=384, bias=False)
                  (k): Linear(in_features=1472, out_features=384, bias=False)
                  (v): Linear(in_features=1472, out_features=384, bias=False)
                  (o): Linear(in_features=384, out_features=1472, bias=False)
                )
                (layer_norm): FusedRMSNorm(torch.Size([1472]), eps=1e-06, elementwise_affine=True)
                (dropout): Dropout(p=0.1, inplace=False)
              )
              (1): T5LayerFF(
                (DenseReluDense): T5DenseGatedActDense(
                  (wi_0): Linear(in_features=1472, out_features=3584, bias=False)
                  (wi_1): Linear(in_features=1472, out_features=3584, bias=False)
                  (wo): Linear(in_features=3584, out_features=1472, bias=False)
                  (dropout): Dropout(p=0.1, inplace=False)
                  (act): NewGELUActivation()
                )
                (layer_norm): FusedRMSNorm(torch.Size([1472]), eps=1e-06, elementwise_affine=True)
                (dropout): Dropout(p=0.1, inplace=False)
              )
            )
          )
        )
        (final_layer_norm): FusedRMSNorm(torch.Size([1472]), eps=1e-06, elementwise_affine=True)
        (dropout): Dropout(p=0.1, inplace=False)
      )
    )
  )
  (locked_dropout): LockedDropout(p=0.5)
  (linear): Linear(in_features=1472, out_features=17, bias=True)
  (loss_function): CrossEntropyLoss()
)"
2023-10-11 00:31:54,083 ----------------------------------------------------------------------------------------------------
2023-10-11 00:31:54,083 MultiCorpus: 1166 train + 165 dev + 415 test sentences
 - NER_HIPE_2022 Corpus: 1166 train + 165 dev + 415 test sentences - /root/.flair/datasets/ner_hipe_2022/v2.1/newseye/fi/with_doc_seperator
2023-10-11 00:31:54,083 ----------------------------------------------------------------------------------------------------
2023-10-11 00:31:54,083 Train:  1166 sentences
2023-10-11 00:31:54,083         (train_with_dev=False, train_with_test=False)
2023-10-11 00:31:54,083 ----------------------------------------------------------------------------------------------------
2023-10-11 00:31:54,083 Training Params:
2023-10-11 00:31:54,083  - learning_rate: "0.00016" 
2023-10-11 00:31:54,083  - mini_batch_size: "8"
2023-10-11 00:31:54,084  - max_epochs: "10"
2023-10-11 00:31:54,084  - shuffle: "True"
2023-10-11 00:31:54,084 ----------------------------------------------------------------------------------------------------
2023-10-11 00:31:54,084 Plugins:
2023-10-11 00:31:54,084  - TensorboardLogger
2023-10-11 00:31:54,084  - LinearScheduler | warmup_fraction: '0.1'
2023-10-11 00:31:54,084 ----------------------------------------------------------------------------------------------------
2023-10-11 00:31:54,084 Final evaluation on model from best epoch (best-model.pt)
2023-10-11 00:31:54,084  - metric: "('micro avg', 'f1-score')"
2023-10-11 00:31:54,084 ----------------------------------------------------------------------------------------------------
2023-10-11 00:31:54,084 Computation:
2023-10-11 00:31:54,084  - compute on device: cuda:0
2023-10-11 00:31:54,084  - embedding storage: none
2023-10-11 00:31:54,084 ----------------------------------------------------------------------------------------------------
2023-10-11 00:31:54,084 Model training base path: "hmbench-newseye/fi-hmbyt5-preliminary/byt5-small-historic-multilingual-span20-flax-bs8-wsFalse-e10-lr0.00016-poolingfirst-layers-1-crfFalse-3"
2023-10-11 00:31:54,084 ----------------------------------------------------------------------------------------------------
2023-10-11 00:31:54,085 ----------------------------------------------------------------------------------------------------
2023-10-11 00:31:54,085 Logging anything other than scalars to TensorBoard is currently not supported.
2023-10-11 00:32:02,779 epoch 1 - iter 14/146 - loss 2.82806942 - time (sec): 8.69 - samples/sec: 431.49 - lr: 0.000014 - momentum: 0.000000
2023-10-11 00:32:12,268 epoch 1 - iter 28/146 - loss 2.81932722 - time (sec): 18.18 - samples/sec: 447.92 - lr: 0.000030 - momentum: 0.000000
2023-10-11 00:32:21,654 epoch 1 - iter 42/146 - loss 2.80887588 - time (sec): 27.57 - samples/sec: 443.61 - lr: 0.000045 - momentum: 0.000000
2023-10-11 00:32:30,455 epoch 1 - iter 56/146 - loss 2.79001925 - time (sec): 36.37 - samples/sec: 435.57 - lr: 0.000060 - momentum: 0.000000
2023-10-11 00:32:40,316 epoch 1 - iter 70/146 - loss 2.74954234 - time (sec): 46.23 - samples/sec: 447.70 - lr: 0.000076 - momentum: 0.000000
2023-10-11 00:32:50,359 epoch 1 - iter 84/146 - loss 2.69183004 - time (sec): 56.27 - samples/sec: 456.68 - lr: 0.000091 - momentum: 0.000000
2023-10-11 00:32:59,788 epoch 1 - iter 98/146 - loss 2.62431560 - time (sec): 65.70 - samples/sec: 456.55 - lr: 0.000106 - momentum: 0.000000
2023-10-11 00:33:09,461 epoch 1 - iter 112/146 - loss 2.55499292 - time (sec): 75.37 - samples/sec: 451.80 - lr: 0.000122 - momentum: 0.000000
2023-10-11 00:33:18,969 epoch 1 - iter 126/146 - loss 2.46794210 - time (sec): 84.88 - samples/sec: 452.41 - lr: 0.000137 - momentum: 0.000000
2023-10-11 00:33:28,484 epoch 1 - iter 140/146 - loss 2.38373239 - time (sec): 94.40 - samples/sec: 451.06 - lr: 0.000152 - momentum: 0.000000
2023-10-11 00:33:32,416 ----------------------------------------------------------------------------------------------------
2023-10-11 00:33:32,416 EPOCH 1 done: loss 2.3459 - lr: 0.000152
2023-10-11 00:33:37,294 DEV : loss 1.2697190046310425 - f1-score (micro avg)  0.0
2023-10-11 00:33:37,303 ----------------------------------------------------------------------------------------------------
2023-10-11 00:33:46,076 epoch 2 - iter 14/146 - loss 1.28532706 - time (sec): 8.77 - samples/sec: 430.14 - lr: 0.000158 - momentum: 0.000000
2023-10-11 00:33:55,330 epoch 2 - iter 28/146 - loss 1.18643116 - time (sec): 18.03 - samples/sec: 432.90 - lr: 0.000157 - momentum: 0.000000
2023-10-11 00:34:04,613 epoch 2 - iter 42/146 - loss 1.10584441 - time (sec): 27.31 - samples/sec: 441.81 - lr: 0.000155 - momentum: 0.000000
2023-10-11 00:34:13,560 epoch 2 - iter 56/146 - loss 1.04255237 - time (sec): 36.26 - samples/sec: 438.39 - lr: 0.000153 - momentum: 0.000000
2023-10-11 00:34:23,157 epoch 2 - iter 70/146 - loss 0.95927936 - time (sec): 45.85 - samples/sec: 446.28 - lr: 0.000152 - momentum: 0.000000
2023-10-11 00:34:32,776 epoch 2 - iter 84/146 - loss 0.93373424 - time (sec): 55.47 - samples/sec: 451.40 - lr: 0.000150 - momentum: 0.000000
2023-10-11 00:34:41,982 epoch 2 - iter 98/146 - loss 0.89334982 - time (sec): 64.68 - samples/sec: 448.77 - lr: 0.000148 - momentum: 0.000000
2023-10-11 00:34:51,404 epoch 2 - iter 112/146 - loss 0.84771656 - time (sec): 74.10 - samples/sec: 451.21 - lr: 0.000147 - momentum: 0.000000
2023-10-11 00:35:01,045 epoch 2 - iter 126/146 - loss 0.81012905 - time (sec): 83.74 - samples/sec: 452.68 - lr: 0.000145 - momentum: 0.000000
2023-10-11 00:35:10,772 epoch 2 - iter 140/146 - loss 0.78129014 - time (sec): 93.47 - samples/sec: 453.54 - lr: 0.000143 - momentum: 0.000000
2023-10-11 00:35:14,956 ----------------------------------------------------------------------------------------------------
2023-10-11 00:35:14,956 EPOCH 2 done: loss 0.7769 - lr: 0.000143
2023-10-11 00:35:20,385 DEV : loss 0.4217626750469208 - f1-score (micro avg)  0.0
2023-10-11 00:35:20,394 ----------------------------------------------------------------------------------------------------
2023-10-11 00:35:30,560 epoch 3 - iter 14/146 - loss 0.52507267 - time (sec): 10.16 - samples/sec: 487.22 - lr: 0.000141 - momentum: 0.000000
2023-10-11 00:35:40,572 epoch 3 - iter 28/146 - loss 0.47734218 - time (sec): 20.18 - samples/sec: 498.62 - lr: 0.000139 - momentum: 0.000000
2023-10-11 00:35:49,814 epoch 3 - iter 42/146 - loss 0.52236022 - time (sec): 29.42 - samples/sec: 491.47 - lr: 0.000137 - momentum: 0.000000
2023-10-11 00:35:58,140 epoch 3 - iter 56/146 - loss 0.49316258 - time (sec): 37.74 - samples/sec: 490.92 - lr: 0.000136 - momentum: 0.000000
2023-10-11 00:36:06,676 epoch 3 - iter 70/146 - loss 0.48608795 - time (sec): 46.28 - samples/sec: 493.22 - lr: 0.000134 - momentum: 0.000000
2023-10-11 00:36:15,235 epoch 3 - iter 84/146 - loss 0.46795110 - time (sec): 54.84 - samples/sec: 495.23 - lr: 0.000132 - momentum: 0.000000
2023-10-11 00:36:23,555 epoch 3 - iter 98/146 - loss 0.44959769 - time (sec): 63.16 - samples/sec: 493.81 - lr: 0.000131 - momentum: 0.000000
2023-10-11 00:36:31,553 epoch 3 - iter 112/146 - loss 0.44307766 - time (sec): 71.16 - samples/sec: 488.26 - lr: 0.000129 - momentum: 0.000000
2023-10-11 00:36:39,208 epoch 3 - iter 126/146 - loss 0.43279780 - time (sec): 78.81 - samples/sec: 482.64 - lr: 0.000127 - momentum: 0.000000
2023-10-11 00:36:47,675 epoch 3 - iter 140/146 - loss 0.42683695 - time (sec): 87.28 - samples/sec: 482.64 - lr: 0.000125 - momentum: 0.000000
2023-10-11 00:36:51,608 ----------------------------------------------------------------------------------------------------
2023-10-11 00:36:51,608 EPOCH 3 done: loss 0.4184 - lr: 0.000125
2023-10-11 00:36:57,059 DEV : loss 0.2698569595813751 - f1-score (micro avg)  0.2605
2023-10-11 00:36:57,068 saving best model
2023-10-11 00:36:57,949 ----------------------------------------------------------------------------------------------------
2023-10-11 00:37:06,223 epoch 4 - iter 14/146 - loss 0.31637424 - time (sec): 8.27 - samples/sec: 464.20 - lr: 0.000123 - momentum: 0.000000
2023-10-11 00:37:15,069 epoch 4 - iter 28/146 - loss 0.31876580 - time (sec): 17.12 - samples/sec: 488.18 - lr: 0.000121 - momentum: 0.000000
2023-10-11 00:37:23,150 epoch 4 - iter 42/146 - loss 0.30486535 - time (sec): 25.20 - samples/sec: 488.19 - lr: 0.000120 - momentum: 0.000000
2023-10-11 00:37:31,536 epoch 4 - iter 56/146 - loss 0.31674327 - time (sec): 33.59 - samples/sec: 491.25 - lr: 0.000118 - momentum: 0.000000
2023-10-11 00:37:40,236 epoch 4 - iter 70/146 - loss 0.30195569 - time (sec): 42.29 - samples/sec: 500.46 - lr: 0.000116 - momentum: 0.000000
2023-10-11 00:37:48,519 epoch 4 - iter 84/146 - loss 0.32557627 - time (sec): 50.57 - samples/sec: 499.37 - lr: 0.000115 - momentum: 0.000000
2023-10-11 00:37:56,785 epoch 4 - iter 98/146 - loss 0.31759790 - time (sec): 58.83 - samples/sec: 498.45 - lr: 0.000113 - momentum: 0.000000
2023-10-11 00:38:05,588 epoch 4 - iter 112/146 - loss 0.31022905 - time (sec): 67.64 - samples/sec: 501.32 - lr: 0.000111 - momentum: 0.000000
2023-10-11 00:38:13,906 epoch 4 - iter 126/146 - loss 0.31045555 - time (sec): 75.96 - samples/sec: 500.41 - lr: 0.000109 - momentum: 0.000000
2023-10-11 00:38:22,839 epoch 4 - iter 140/146 - loss 0.30366458 - time (sec): 84.89 - samples/sec: 499.98 - lr: 0.000108 - momentum: 0.000000
2023-10-11 00:38:26,552 ----------------------------------------------------------------------------------------------------
2023-10-11 00:38:26,552 EPOCH 4 done: loss 0.2989 - lr: 0.000108
2023-10-11 00:38:32,194 DEV : loss 0.209104984998703 - f1-score (micro avg)  0.4208
2023-10-11 00:38:32,206 saving best model
2023-10-11 00:38:39,160 ----------------------------------------------------------------------------------------------------
2023-10-11 00:38:49,119 epoch 5 - iter 14/146 - loss 0.25760456 - time (sec): 9.96 - samples/sec: 452.21 - lr: 0.000105 - momentum: 0.000000
2023-10-11 00:38:58,893 epoch 5 - iter 28/146 - loss 0.23471806 - time (sec): 19.73 - samples/sec: 438.29 - lr: 0.000104 - momentum: 0.000000
2023-10-11 00:39:08,357 epoch 5 - iter 42/146 - loss 0.26661266 - time (sec): 29.19 - samples/sec: 432.83 - lr: 0.000102 - momentum: 0.000000
2023-10-11 00:39:17,448 epoch 5 - iter 56/146 - loss 0.28286595 - time (sec): 38.28 - samples/sec: 428.20 - lr: 0.000100 - momentum: 0.000000
2023-10-11 00:39:27,150 epoch 5 - iter 70/146 - loss 0.26401052 - time (sec): 47.99 - samples/sec: 427.81 - lr: 0.000099 - momentum: 0.000000
2023-10-11 00:39:37,205 epoch 5 - iter 84/146 - loss 0.25154027 - time (sec): 58.04 - samples/sec: 433.92 - lr: 0.000097 - momentum: 0.000000
2023-10-11 00:39:47,492 epoch 5 - iter 98/146 - loss 0.24582348 - time (sec): 68.33 - samples/sec: 443.59 - lr: 0.000095 - momentum: 0.000000
2023-10-11 00:39:57,217 epoch 5 - iter 112/146 - loss 0.23536220 - time (sec): 78.05 - samples/sec: 444.78 - lr: 0.000093 - momentum: 0.000000
2023-10-11 00:40:06,736 epoch 5 - iter 126/146 - loss 0.23213010 - time (sec): 87.57 - samples/sec: 445.89 - lr: 0.000092 - momentum: 0.000000
2023-10-11 00:40:16,105 epoch 5 - iter 140/146 - loss 0.22807507 - time (sec): 96.94 - samples/sec: 444.47 - lr: 0.000090 - momentum: 0.000000
2023-10-11 00:40:19,721 ----------------------------------------------------------------------------------------------------
2023-10-11 00:40:19,722 EPOCH 5 done: loss 0.2286 - lr: 0.000090
2023-10-11 00:40:26,552 DEV : loss 0.17275798320770264 - f1-score (micro avg)  0.533
2023-10-11 00:40:26,563 saving best model
2023-10-11 00:40:34,103 ----------------------------------------------------------------------------------------------------
2023-10-11 00:40:43,731 epoch 6 - iter 14/146 - loss 0.14647893 - time (sec): 9.62 - samples/sec: 508.91 - lr: 0.000088 - momentum: 0.000000
2023-10-11 00:40:52,055 epoch 6 - iter 28/146 - loss 0.15333865 - time (sec): 17.95 - samples/sec: 475.21 - lr: 0.000086 - momentum: 0.000000
2023-10-11 00:41:00,745 epoch 6 - iter 42/146 - loss 0.15603887 - time (sec): 26.64 - samples/sec: 476.53 - lr: 0.000084 - momentum: 0.000000
2023-10-11 00:41:09,885 epoch 6 - iter 56/146 - loss 0.14799884 - time (sec): 35.78 - samples/sec: 480.65 - lr: 0.000083 - momentum: 0.000000
2023-10-11 00:41:18,384 epoch 6 - iter 70/146 - loss 0.16215169 - time (sec): 44.28 - samples/sec: 478.17 - lr: 0.000081 - momentum: 0.000000
2023-10-11 00:41:28,260 epoch 6 - iter 84/146 - loss 0.17969819 - time (sec): 54.15 - samples/sec: 492.60 - lr: 0.000079 - momentum: 0.000000
2023-10-11 00:41:36,809 epoch 6 - iter 98/146 - loss 0.17881606 - time (sec): 62.70 - samples/sec: 489.82 - lr: 0.000077 - momentum: 0.000000
2023-10-11 00:41:45,394 epoch 6 - iter 112/146 - loss 0.17728906 - time (sec): 71.29 - samples/sec: 488.60 - lr: 0.000076 - momentum: 0.000000
2023-10-11 00:41:54,314 epoch 6 - iter 126/146 - loss 0.17321844 - time (sec): 80.21 - samples/sec: 486.73 - lr: 0.000074 - momentum: 0.000000
2023-10-11 00:42:02,929 epoch 6 - iter 140/146 - loss 0.17286199 - time (sec): 88.82 - samples/sec: 481.50 - lr: 0.000072 - momentum: 0.000000
2023-10-11 00:42:06,597 ----------------------------------------------------------------------------------------------------
2023-10-11 00:42:06,597 EPOCH 6 done: loss 0.1704 - lr: 0.000072
2023-10-11 00:42:12,450 DEV : loss 0.1590806394815445 - f1-score (micro avg)  0.6079
2023-10-11 00:42:12,460 saving best model
2023-10-11 00:42:19,778 ----------------------------------------------------------------------------------------------------
2023-10-11 00:42:29,140 epoch 7 - iter 14/146 - loss 0.13574474 - time (sec): 9.36 - samples/sec: 494.46 - lr: 0.000070 - momentum: 0.000000
2023-10-11 00:42:38,694 epoch 7 - iter 28/146 - loss 0.13424153 - time (sec): 18.91 - samples/sec: 501.67 - lr: 0.000068 - momentum: 0.000000
2023-10-11 00:42:47,777 epoch 7 - iter 42/146 - loss 0.13292302 - time (sec): 27.99 - samples/sec: 487.31 - lr: 0.000067 - momentum: 0.000000
2023-10-11 00:42:56,399 epoch 7 - iter 56/146 - loss 0.12583950 - time (sec): 36.62 - samples/sec: 476.75 - lr: 0.000065 - momentum: 0.000000
2023-10-11 00:43:05,449 epoch 7 - iter 70/146 - loss 0.12456020 - time (sec): 45.67 - samples/sec: 471.05 - lr: 0.000063 - momentum: 0.000000
2023-10-11 00:43:13,769 epoch 7 - iter 84/146 - loss 0.12805783 - time (sec): 53.99 - samples/sec: 469.43 - lr: 0.000061 - momentum: 0.000000
2023-10-11 00:43:22,866 epoch 7 - iter 98/146 - loss 0.13275272 - time (sec): 63.08 - samples/sec: 473.50 - lr: 0.000060 - momentum: 0.000000
2023-10-11 00:43:31,148 epoch 7 - iter 112/146 - loss 0.13262712 - time (sec): 71.37 - samples/sec: 465.17 - lr: 0.000058 - momentum: 0.000000
2023-10-11 00:43:40,630 epoch 7 - iter 126/146 - loss 0.13489647 - time (sec): 80.85 - samples/sec: 470.22 - lr: 0.000056 - momentum: 0.000000
2023-10-11 00:43:50,153 epoch 7 - iter 140/146 - loss 0.13471555 - time (sec): 90.37 - samples/sec: 475.26 - lr: 0.000055 - momentum: 0.000000
2023-10-11 00:43:53,631 ----------------------------------------------------------------------------------------------------
2023-10-11 00:43:53,631 EPOCH 7 done: loss 0.1341 - lr: 0.000055
2023-10-11 00:43:59,885 DEV : loss 0.1412263810634613 - f1-score (micro avg)  0.7484
2023-10-11 00:43:59,896 saving best model
2023-10-11 00:44:04,148 ----------------------------------------------------------------------------------------------------
2023-10-11 00:44:14,108 epoch 8 - iter 14/146 - loss 0.11916361 - time (sec): 9.96 - samples/sec: 527.93 - lr: 0.000052 - momentum: 0.000000
2023-10-11 00:44:22,742 epoch 8 - iter 28/146 - loss 0.13021523 - time (sec): 18.59 - samples/sec: 481.62 - lr: 0.000051 - momentum: 0.000000
2023-10-11 00:44:31,277 epoch 8 - iter 42/146 - loss 0.12227977 - time (sec): 27.12 - samples/sec: 474.15 - lr: 0.000049 - momentum: 0.000000
2023-10-11 00:44:39,841 epoch 8 - iter 56/146 - loss 0.12444551 - time (sec): 35.69 - samples/sec: 479.15 - lr: 0.000047 - momentum: 0.000000
2023-10-11 00:44:48,733 epoch 8 - iter 70/146 - loss 0.12722021 - time (sec): 44.58 - samples/sec: 483.62 - lr: 0.000045 - momentum: 0.000000
2023-10-11 00:44:57,112 epoch 8 - iter 84/146 - loss 0.12712166 - time (sec): 52.96 - samples/sec: 476.71 - lr: 0.000044 - momentum: 0.000000
2023-10-11 00:45:05,995 epoch 8 - iter 98/146 - loss 0.12123456 - time (sec): 61.84 - samples/sec: 474.22 - lr: 0.000042 - momentum: 0.000000
2023-10-11 00:45:15,792 epoch 8 - iter 112/146 - loss 0.11590990 - time (sec): 71.64 - samples/sec: 470.71 - lr: 0.000040 - momentum: 0.000000
2023-10-11 00:45:25,852 epoch 8 - iter 126/146 - loss 0.11272017 - time (sec): 81.70 - samples/sec: 467.06 - lr: 0.000039 - momentum: 0.000000
2023-10-11 00:45:35,986 epoch 8 - iter 140/146 - loss 0.11288497 - time (sec): 91.83 - samples/sec: 462.69 - lr: 0.000037 - momentum: 0.000000
2023-10-11 00:45:40,161 ----------------------------------------------------------------------------------------------------
2023-10-11 00:45:40,161 EPOCH 8 done: loss 0.1126 - lr: 0.000037
2023-10-11 00:45:46,862 DEV : loss 0.13121522963047028 - f1-score (micro avg)  0.7425
2023-10-11 00:45:46,873 ----------------------------------------------------------------------------------------------------
2023-10-11 00:45:56,825 epoch 9 - iter 14/146 - loss 0.12532790 - time (sec): 9.95 - samples/sec: 472.51 - lr: 0.000035 - momentum: 0.000000
2023-10-11 00:46:07,362 epoch 9 - iter 28/146 - loss 0.10275371 - time (sec): 20.49 - samples/sec: 455.04 - lr: 0.000033 - momentum: 0.000000
2023-10-11 00:46:16,396 epoch 9 - iter 42/146 - loss 0.09731750 - time (sec): 29.52 - samples/sec: 445.90 - lr: 0.000031 - momentum: 0.000000
2023-10-11 00:46:26,755 epoch 9 - iter 56/146 - loss 0.09793219 - time (sec): 39.88 - samples/sec: 442.79 - lr: 0.000029 - momentum: 0.000000
2023-10-11 00:46:36,624 epoch 9 - iter 70/146 - loss 0.09884983 - time (sec): 49.75 - samples/sec: 441.18 - lr: 0.000028 - momentum: 0.000000
2023-10-11 00:46:46,452 epoch 9 - iter 84/146 - loss 0.09904834 - time (sec): 59.58 - samples/sec: 441.88 - lr: 0.000026 - momentum: 0.000000
2023-10-11 00:46:56,310 epoch 9 - iter 98/146 - loss 0.09634791 - time (sec): 69.43 - samples/sec: 438.61 - lr: 0.000024 - momentum: 0.000000
2023-10-11 00:47:06,018 epoch 9 - iter 112/146 - loss 0.09264175 - time (sec): 79.14 - samples/sec: 439.24 - lr: 0.000023 - momentum: 0.000000
2023-10-11 00:47:15,964 epoch 9 - iter 126/146 - loss 0.09617828 - time (sec): 89.09 - samples/sec: 438.73 - lr: 0.000021 - momentum: 0.000000
2023-10-11 00:47:25,790 epoch 9 - iter 140/146 - loss 0.09910015 - time (sec): 98.91 - samples/sec: 435.56 - lr: 0.000019 - momentum: 0.000000
2023-10-11 00:47:29,342 ----------------------------------------------------------------------------------------------------
2023-10-11 00:47:29,343 EPOCH 9 done: loss 0.0986 - lr: 0.000019
2023-10-11 00:47:36,270 DEV : loss 0.1271078884601593 - f1-score (micro avg)  0.78
2023-10-11 00:47:36,281 saving best model
2023-10-11 00:47:42,280 ----------------------------------------------------------------------------------------------------
2023-10-11 00:47:51,489 epoch 10 - iter 14/146 - loss 0.10220196 - time (sec): 9.21 - samples/sec: 498.35 - lr: 0.000017 - momentum: 0.000000
2023-10-11 00:48:01,979 epoch 10 - iter 28/146 - loss 0.10097503 - time (sec): 19.70 - samples/sec: 463.65 - lr: 0.000015 - momentum: 0.000000
2023-10-11 00:48:11,849 epoch 10 - iter 42/146 - loss 0.10253434 - time (sec): 29.57 - samples/sec: 471.18 - lr: 0.000013 - momentum: 0.000000
2023-10-11 00:48:21,454 epoch 10 - iter 56/146 - loss 0.09627103 - time (sec): 39.17 - samples/sec: 475.71 - lr: 0.000012 - momentum: 0.000000
2023-10-11 00:48:29,986 epoch 10 - iter 70/146 - loss 0.09699707 - time (sec): 47.70 - samples/sec: 474.22 - lr: 0.000010 - momentum: 0.000000
2023-10-11 00:48:39,413 epoch 10 - iter 84/146 - loss 0.09278009 - time (sec): 57.13 - samples/sec: 472.41 - lr: 0.000008 - momentum: 0.000000
2023-10-11 00:48:47,745 epoch 10 - iter 98/146 - loss 0.09014855 - time (sec): 65.46 - samples/sec: 460.60 - lr: 0.000007 - momentum: 0.000000
2023-10-11 00:48:56,979 epoch 10 - iter 112/146 - loss 0.09219331 - time (sec): 74.70 - samples/sec: 463.89 - lr: 0.000005 - momentum: 0.000000
2023-10-11 00:49:05,736 epoch 10 - iter 126/146 - loss 0.09003232 - time (sec): 83.45 - samples/sec: 462.88 - lr: 0.000003 - momentum: 0.000000
2023-10-11 00:49:14,622 epoch 10 - iter 140/146 - loss 0.09300204 - time (sec): 92.34 - samples/sec: 462.35 - lr: 0.000002 - momentum: 0.000000
2023-10-11 00:49:18,215 ----------------------------------------------------------------------------------------------------
2023-10-11 00:49:18,215 EPOCH 10 done: loss 0.0927 - lr: 0.000002
2023-10-11 00:49:24,001 DEV : loss 0.1254645138978958 - f1-score (micro avg)  0.779
2023-10-11 00:49:24,961 ----------------------------------------------------------------------------------------------------
2023-10-11 00:49:24,963 Loading model from best epoch ...
2023-10-11 00:49:29,153 SequenceTagger predicts: Dictionary with 17 tags: O, S-LOC, B-LOC, E-LOC, I-LOC, S-PER, B-PER, E-PER, I-PER, S-ORG, B-ORG, E-ORG, I-ORG, S-HumanProd, B-HumanProd, E-HumanProd, I-HumanProd
2023-10-11 00:49:42,185 
Results:
- F-score (micro) 0.7087
- F-score (macro) 0.628
- Accuracy 0.5675

By class:
              precision    recall  f1-score   support

         PER     0.7895    0.8190    0.8039       348
         LOC     0.5805    0.7739    0.6634       261
         ORG     0.2979    0.2692    0.2828        52
   HumanProd     0.8000    0.7273    0.7619        22

   micro avg     0.6662    0.7570    0.7087       683
   macro avg     0.6170    0.6474    0.6280       683
weighted avg     0.6725    0.7570    0.7092       683

2023-10-11 00:49:42,185 ----------------------------------------------------------------------------------------------------