2023-10-11 06:34:05,203 ----------------------------------------------------------------------------------------------------
2023-10-11 06:34:05,205 Model: "SequenceTagger(
  (embeddings): ByT5Embeddings(
    (model): T5EncoderModel(
      (shared): Embedding(384, 1472)
      (encoder): T5Stack(
        (embed_tokens): Embedding(384, 1472)
        (block): ModuleList(
          (0): T5Block(
            (layer): ModuleList(
              (0): T5LayerSelfAttention(
                (SelfAttention): T5Attention(
                  (q): Linear(in_features=1472, out_features=384, bias=False)
                  (k): Linear(in_features=1472, out_features=384, bias=False)
                  (v): Linear(in_features=1472, out_features=384, bias=False)
                  (o): Linear(in_features=384, out_features=1472, bias=False)
                  (relative_attention_bias): Embedding(32, 6)
                )
                (layer_norm): FusedRMSNorm(torch.Size([1472]), eps=1e-06, elementwise_affine=True)
                (dropout): Dropout(p=0.1, inplace=False)
              )
              (1): T5LayerFF(
                (DenseReluDense): T5DenseGatedActDense(
                  (wi_0): Linear(in_features=1472, out_features=3584, bias=False)
                  (wi_1): Linear(in_features=1472, out_features=3584, bias=False)
                  (wo): Linear(in_features=3584, out_features=1472, bias=False)
                  (dropout): Dropout(p=0.1, inplace=False)
                  (act): NewGELUActivation()
                )
                (layer_norm): FusedRMSNorm(torch.Size([1472]), eps=1e-06, elementwise_affine=True)
                (dropout): Dropout(p=0.1, inplace=False)
              )
            )
          )
          (1-11): 11 x T5Block(
            (layer): ModuleList(
              (0): T5LayerSelfAttention(
                (SelfAttention): T5Attention(
                  (q): Linear(in_features=1472, out_features=384, bias=False)
                  (k): Linear(in_features=1472, out_features=384, bias=False)
                  (v): Linear(in_features=1472, out_features=384, bias=False)
                  (o): Linear(in_features=384, out_features=1472, bias=False)
                )
                (layer_norm): FusedRMSNorm(torch.Size([1472]), eps=1e-06, elementwise_affine=True)
                (dropout): Dropout(p=0.1, inplace=False)
              )
              (1): T5LayerFF(
                (DenseReluDense): T5DenseGatedActDense(
                  (wi_0): Linear(in_features=1472, out_features=3584, bias=False)
                  (wi_1): Linear(in_features=1472, out_features=3584, bias=False)
                  (wo): Linear(in_features=3584, out_features=1472, bias=False)
                  (dropout): Dropout(p=0.1, inplace=False)
                  (act): NewGELUActivation()
                )
                (layer_norm): FusedRMSNorm(torch.Size([1472]), eps=1e-06, elementwise_affine=True)
                (dropout): Dropout(p=0.1, inplace=False)
              )
            )
          )
        )
        (final_layer_norm): FusedRMSNorm(torch.Size([1472]), eps=1e-06, elementwise_affine=True)
        (dropout): Dropout(p=0.1, inplace=False)
      )
    )
  )
  (locked_dropout): LockedDropout(p=0.5)
  (linear): Linear(in_features=1472, out_features=17, bias=True)
  (loss_function): CrossEntropyLoss()
)"
2023-10-11 06:34:05,205 ----------------------------------------------------------------------------------------------------
2023-10-11 06:34:05,206 MultiCorpus: 20847 train + 1123 dev + 3350 test sentences
 - NER_HIPE_2022 Corpus: 20847 train + 1123 dev + 3350 test sentences - /root/.flair/datasets/ner_hipe_2022/v2.1/newseye/de/with_doc_seperator
2023-10-11 06:34:05,206 ----------------------------------------------------------------------------------------------------
2023-10-11 06:34:05,206 Train:  20847 sentences
2023-10-11 06:34:05,206         (train_with_dev=False, train_with_test=False)
2023-10-11 06:34:05,206 ----------------------------------------------------------------------------------------------------
2023-10-11 06:34:05,206 Training Params:
2023-10-11 06:34:05,206  - learning_rate: "0.00016" 
2023-10-11 06:34:05,206  - mini_batch_size: "8"
2023-10-11 06:34:05,206  - max_epochs: "10"
2023-10-11 06:34:05,206  - shuffle: "True"
2023-10-11 06:34:05,207 ----------------------------------------------------------------------------------------------------
2023-10-11 06:34:05,207 Plugins:
2023-10-11 06:34:05,207  - TensorboardLogger
2023-10-11 06:34:05,207  - LinearScheduler | warmup_fraction: '0.1'
2023-10-11 06:34:05,207 ----------------------------------------------------------------------------------------------------
2023-10-11 06:34:05,207 Final evaluation on model from best epoch (best-model.pt)
2023-10-11 06:34:05,207  - metric: "('micro avg', 'f1-score')"
2023-10-11 06:34:05,207 ----------------------------------------------------------------------------------------------------
2023-10-11 06:34:05,207 Computation:
2023-10-11 06:34:05,207  - compute on device: cuda:0
2023-10-11 06:34:05,207  - embedding storage: none
2023-10-11 06:34:05,207 ----------------------------------------------------------------------------------------------------
2023-10-11 06:34:05,207 Model training base path: "hmbench-newseye/de-hmbyt5-preliminary/byt5-small-historic-multilingual-span20-flax-bs8-wsFalse-e10-lr0.00016-poolingfirst-layers-1-crfFalse-3"
2023-10-11 06:34:05,207 ----------------------------------------------------------------------------------------------------
2023-10-11 06:34:05,208 ----------------------------------------------------------------------------------------------------
2023-10-11 06:34:05,208 Logging anything other than scalars to TensorBoard is currently not supported.
2023-10-11 06:36:23,104 epoch 1 - iter 260/2606 - loss 2.79623512 - time (sec): 137.89 - samples/sec: 270.68 - lr: 0.000016 - momentum: 0.000000
2023-10-11 06:38:42,899 epoch 1 - iter 520/2606 - loss 2.51320583 - time (sec): 277.69 - samples/sec: 276.16 - lr: 0.000032 - momentum: 0.000000
2023-10-11 06:41:02,243 epoch 1 - iter 780/2606 - loss 2.13123088 - time (sec): 417.03 - samples/sec: 271.28 - lr: 0.000048 - momentum: 0.000000
2023-10-11 06:43:21,533 epoch 1 - iter 1040/2606 - loss 1.75671481 - time (sec): 556.32 - samples/sec: 268.41 - lr: 0.000064 - momentum: 0.000000
2023-10-11 06:45:41,186 epoch 1 - iter 1300/2606 - loss 1.49838201 - time (sec): 695.98 - samples/sec: 268.65 - lr: 0.000080 - momentum: 0.000000
2023-10-11 06:47:59,654 epoch 1 - iter 1560/2606 - loss 1.32866928 - time (sec): 834.44 - samples/sec: 267.37 - lr: 0.000096 - momentum: 0.000000
2023-10-11 06:50:16,336 epoch 1 - iter 1820/2606 - loss 1.20054232 - time (sec): 971.13 - samples/sec: 265.79 - lr: 0.000112 - momentum: 0.000000
2023-10-11 06:52:32,593 epoch 1 - iter 2080/2606 - loss 1.10214569 - time (sec): 1107.38 - samples/sec: 263.73 - lr: 0.000128 - momentum: 0.000000
2023-10-11 06:54:49,367 epoch 1 - iter 2340/2606 - loss 1.01185782 - time (sec): 1244.16 - samples/sec: 265.32 - lr: 0.000144 - momentum: 0.000000
2023-10-11 06:57:04,584 epoch 1 - iter 2600/2606 - loss 0.93498109 - time (sec): 1379.37 - samples/sec: 265.83 - lr: 0.000160 - momentum: 0.000000
2023-10-11 06:57:07,647 ----------------------------------------------------------------------------------------------------
2023-10-11 06:57:07,648 EPOCH 1 done: loss 0.9337 - lr: 0.000160
2023-10-11 06:57:43,437 DEV : loss 0.13330958783626556 - f1-score (micro avg)  0.3228
2023-10-11 06:57:43,490 saving best model
2023-10-11 06:57:44,505 ----------------------------------------------------------------------------------------------------
2023-10-11 06:59:57,930 epoch 2 - iter 260/2606 - loss 0.21019294 - time (sec): 133.42 - samples/sec: 276.63 - lr: 0.000158 - momentum: 0.000000
2023-10-11 07:02:09,637 epoch 2 - iter 520/2606 - loss 0.19864513 - time (sec): 265.13 - samples/sec: 276.01 - lr: 0.000156 - momentum: 0.000000
2023-10-11 07:04:22,717 epoch 2 - iter 780/2606 - loss 0.20049738 - time (sec): 398.21 - samples/sec: 282.71 - lr: 0.000155 - momentum: 0.000000
2023-10-11 07:06:32,374 epoch 2 - iter 1040/2606 - loss 0.19536494 - time (sec): 527.87 - samples/sec: 282.50 - lr: 0.000153 - momentum: 0.000000
2023-10-11 07:08:44,974 epoch 2 - iter 1300/2606 - loss 0.18944632 - time (sec): 660.47 - samples/sec: 278.93 - lr: 0.000151 - momentum: 0.000000
2023-10-11 07:10:58,600 epoch 2 - iter 1560/2606 - loss 0.18221078 - time (sec): 794.09 - samples/sec: 278.60 - lr: 0.000149 - momentum: 0.000000
2023-10-11 07:13:07,761 epoch 2 - iter 1820/2606 - loss 0.18085900 - time (sec): 923.25 - samples/sec: 276.27 - lr: 0.000148 - momentum: 0.000000
2023-10-11 07:15:22,042 epoch 2 - iter 2080/2606 - loss 0.17490813 - time (sec): 1057.53 - samples/sec: 275.53 - lr: 0.000146 - momentum: 0.000000
2023-10-11 07:17:39,559 epoch 2 - iter 2340/2606 - loss 0.17046757 - time (sec): 1195.05 - samples/sec: 275.94 - lr: 0.000144 - momentum: 0.000000
2023-10-11 07:19:55,227 epoch 2 - iter 2600/2606 - loss 0.16672440 - time (sec): 1330.72 - samples/sec: 275.49 - lr: 0.000142 - momentum: 0.000000
2023-10-11 07:19:58,227 ----------------------------------------------------------------------------------------------------
2023-10-11 07:19:58,228 EPOCH 2 done: loss 0.1664 - lr: 0.000142
2023-10-11 07:20:39,656 DEV : loss 0.1355997771024704 - f1-score (micro avg)  0.3157
2023-10-11 07:20:39,711 ----------------------------------------------------------------------------------------------------
2023-10-11 07:22:55,760 epoch 3 - iter 260/2606 - loss 0.09722056 - time (sec): 136.05 - samples/sec: 256.55 - lr: 0.000140 - momentum: 0.000000
2023-10-11 07:25:13,756 epoch 3 - iter 520/2606 - loss 0.09970387 - time (sec): 274.04 - samples/sec: 259.22 - lr: 0.000139 - momentum: 0.000000
2023-10-11 07:27:29,818 epoch 3 - iter 780/2606 - loss 0.09543305 - time (sec): 410.11 - samples/sec: 260.14 - lr: 0.000137 - momentum: 0.000000
2023-10-11 07:29:51,073 epoch 3 - iter 1040/2606 - loss 0.10146619 - time (sec): 551.36 - samples/sec: 263.99 - lr: 0.000135 - momentum: 0.000000
2023-10-11 07:32:08,639 epoch 3 - iter 1300/2606 - loss 0.10377832 - time (sec): 688.93 - samples/sec: 266.67 - lr: 0.000133 - momentum: 0.000000
2023-10-11 07:34:22,168 epoch 3 - iter 1560/2606 - loss 0.10053981 - time (sec): 822.46 - samples/sec: 266.82 - lr: 0.000132 - momentum: 0.000000
2023-10-11 07:36:35,069 epoch 3 - iter 1820/2606 - loss 0.09949351 - time (sec): 955.36 - samples/sec: 266.99 - lr: 0.000130 - momentum: 0.000000
2023-10-11 07:38:49,369 epoch 3 - iter 2080/2606 - loss 0.09938405 - time (sec): 1089.66 - samples/sec: 268.16 - lr: 0.000128 - momentum: 0.000000
2023-10-11 07:41:02,378 epoch 3 - iter 2340/2606 - loss 0.09946291 - time (sec): 1222.66 - samples/sec: 268.23 - lr: 0.000126 - momentum: 0.000000
2023-10-11 07:43:18,809 epoch 3 - iter 2600/2606 - loss 0.09852433 - time (sec): 1359.10 - samples/sec: 269.85 - lr: 0.000125 - momentum: 0.000000
2023-10-11 07:43:21,680 ----------------------------------------------------------------------------------------------------
2023-10-11 07:43:21,680 EPOCH 3 done: loss 0.0987 - lr: 0.000125
2023-10-11 07:44:02,294 DEV : loss 0.21938827633857727 - f1-score (micro avg)  0.3278
2023-10-11 07:44:02,348 saving best model
2023-10-11 07:44:08,749 ----------------------------------------------------------------------------------------------------
2023-10-11 07:46:23,521 epoch 4 - iter 260/2606 - loss 0.07666126 - time (sec): 134.77 - samples/sec: 260.80 - lr: 0.000123 - momentum: 0.000000
2023-10-11 07:48:42,647 epoch 4 - iter 520/2606 - loss 0.07094144 - time (sec): 273.89 - samples/sec: 262.46 - lr: 0.000121 - momentum: 0.000000
2023-10-11 07:51:03,507 epoch 4 - iter 780/2606 - loss 0.06881513 - time (sec): 414.75 - samples/sec: 262.90 - lr: 0.000119 - momentum: 0.000000
2023-10-11 07:53:21,938 epoch 4 - iter 1040/2606 - loss 0.07087916 - time (sec): 553.18 - samples/sec: 261.33 - lr: 0.000117 - momentum: 0.000000
2023-10-11 07:55:44,233 epoch 4 - iter 1300/2606 - loss 0.06949960 - time (sec): 695.48 - samples/sec: 265.57 - lr: 0.000116 - momentum: 0.000000
2023-10-11 07:58:00,501 epoch 4 - iter 1560/2606 - loss 0.06914117 - time (sec): 831.75 - samples/sec: 264.19 - lr: 0.000114 - momentum: 0.000000
2023-10-11 08:00:17,923 epoch 4 - iter 1820/2606 - loss 0.07037335 - time (sec): 969.17 - samples/sec: 265.35 - lr: 0.000112 - momentum: 0.000000
2023-10-11 08:02:37,656 epoch 4 - iter 2080/2606 - loss 0.07026631 - time (sec): 1108.90 - samples/sec: 268.13 - lr: 0.000110 - momentum: 0.000000
2023-10-11 08:04:51,458 epoch 4 - iter 2340/2606 - loss 0.06994160 - time (sec): 1242.70 - samples/sec: 266.75 - lr: 0.000109 - momentum: 0.000000
2023-10-11 08:07:07,399 epoch 4 - iter 2600/2606 - loss 0.07025162 - time (sec): 1378.65 - samples/sec: 266.17 - lr: 0.000107 - momentum: 0.000000
2023-10-11 08:07:10,188 ----------------------------------------------------------------------------------------------------
2023-10-11 08:07:10,189 EPOCH 4 done: loss 0.0702 - lr: 0.000107
2023-10-11 08:07:49,536 DEV : loss 0.26091474294662476 - f1-score (micro avg)  0.3583
2023-10-11 08:07:49,591 saving best model
2023-10-11 08:07:55,779 ----------------------------------------------------------------------------------------------------
2023-10-11 08:10:11,216 epoch 5 - iter 260/2606 - loss 0.03843460 - time (sec): 135.43 - samples/sec: 264.71 - lr: 0.000105 - momentum: 0.000000
2023-10-11 08:12:27,730 epoch 5 - iter 520/2606 - loss 0.04394140 - time (sec): 271.95 - samples/sec: 270.49 - lr: 0.000103 - momentum: 0.000000
2023-10-11 08:14:43,439 epoch 5 - iter 780/2606 - loss 0.04684401 - time (sec): 407.66 - samples/sec: 267.22 - lr: 0.000101 - momentum: 0.000000
2023-10-11 08:17:04,023 epoch 5 - iter 1040/2606 - loss 0.04695587 - time (sec): 548.24 - samples/sec: 265.21 - lr: 0.000100 - momentum: 0.000000
2023-10-11 08:19:25,434 epoch 5 - iter 1300/2606 - loss 0.04626700 - time (sec): 689.65 - samples/sec: 266.52 - lr: 0.000098 - momentum: 0.000000
2023-10-11 08:21:43,551 epoch 5 - iter 1560/2606 - loss 0.04788600 - time (sec): 827.77 - samples/sec: 264.81 - lr: 0.000096 - momentum: 0.000000
2023-10-11 08:23:59,805 epoch 5 - iter 1820/2606 - loss 0.04881533 - time (sec): 964.02 - samples/sec: 265.49 - lr: 0.000094 - momentum: 0.000000
2023-10-11 08:26:14,240 epoch 5 - iter 2080/2606 - loss 0.04905495 - time (sec): 1098.46 - samples/sec: 264.97 - lr: 0.000093 - momentum: 0.000000
2023-10-11 08:28:29,966 epoch 5 - iter 2340/2606 - loss 0.04807348 - time (sec): 1234.18 - samples/sec: 266.04 - lr: 0.000091 - momentum: 0.000000
2023-10-11 08:30:46,446 epoch 5 - iter 2600/2606 - loss 0.04913741 - time (sec): 1370.66 - samples/sec: 266.96 - lr: 0.000089 - momentum: 0.000000
2023-10-11 08:30:50,213 ----------------------------------------------------------------------------------------------------
2023-10-11 08:30:50,213 EPOCH 5 done: loss 0.0491 - lr: 0.000089
2023-10-11 08:31:31,103 DEV : loss 0.3354221284389496 - f1-score (micro avg)  0.3411
2023-10-11 08:31:31,156 ----------------------------------------------------------------------------------------------------
2023-10-11 08:33:39,991 epoch 6 - iter 260/2606 - loss 0.03643917 - time (sec): 128.83 - samples/sec: 261.17 - lr: 0.000087 - momentum: 0.000000
2023-10-11 08:35:50,088 epoch 6 - iter 520/2606 - loss 0.03512044 - time (sec): 258.93 - samples/sec: 263.39 - lr: 0.000085 - momentum: 0.000000
2023-10-11 08:38:01,620 epoch 6 - iter 780/2606 - loss 0.03671140 - time (sec): 390.46 - samples/sec: 267.74 - lr: 0.000084 - momentum: 0.000000
2023-10-11 08:40:10,677 epoch 6 - iter 1040/2606 - loss 0.03608106 - time (sec): 519.52 - samples/sec: 270.12 - lr: 0.000082 - momentum: 0.000000
2023-10-11 08:42:21,009 epoch 6 - iter 1300/2606 - loss 0.03705224 - time (sec): 649.85 - samples/sec: 272.84 - lr: 0.000080 - momentum: 0.000000
2023-10-11 08:44:31,388 epoch 6 - iter 1560/2606 - loss 0.03561669 - time (sec): 780.23 - samples/sec: 272.24 - lr: 0.000078 - momentum: 0.000000
2023-10-11 08:46:47,025 epoch 6 - iter 1820/2606 - loss 0.03469015 - time (sec): 915.87 - samples/sec: 275.06 - lr: 0.000077 - momentum: 0.000000
2023-10-11 08:48:58,805 epoch 6 - iter 2080/2606 - loss 0.03543369 - time (sec): 1047.65 - samples/sec: 276.49 - lr: 0.000075 - momentum: 0.000000
2023-10-11 08:51:13,324 epoch 6 - iter 2340/2606 - loss 0.03550377 - time (sec): 1182.17 - samples/sec: 278.36 - lr: 0.000073 - momentum: 0.000000
2023-10-11 08:53:25,518 epoch 6 - iter 2600/2606 - loss 0.03521598 - time (sec): 1314.36 - samples/sec: 278.94 - lr: 0.000071 - momentum: 0.000000
2023-10-11 08:53:28,410 ----------------------------------------------------------------------------------------------------
2023-10-11 08:53:28,410 EPOCH 6 done: loss 0.0353 - lr: 0.000071
2023-10-11 08:54:06,572 DEV : loss 0.4164799451828003 - f1-score (micro avg)  0.3462
2023-10-11 08:54:06,624 ----------------------------------------------------------------------------------------------------
2023-10-11 08:56:18,996 epoch 7 - iter 260/2606 - loss 0.02421613 - time (sec): 132.37 - samples/sec: 302.86 - lr: 0.000069 - momentum: 0.000000
2023-10-11 08:58:27,905 epoch 7 - iter 520/2606 - loss 0.02396377 - time (sec): 261.28 - samples/sec: 290.49 - lr: 0.000068 - momentum: 0.000000
2023-10-11 09:00:42,064 epoch 7 - iter 780/2606 - loss 0.02348941 - time (sec): 395.44 - samples/sec: 286.61 - lr: 0.000066 - momentum: 0.000000
2023-10-11 09:02:59,932 epoch 7 - iter 1040/2606 - loss 0.02640947 - time (sec): 533.31 - samples/sec: 284.72 - lr: 0.000064 - momentum: 0.000000
2023-10-11 09:05:14,117 epoch 7 - iter 1300/2606 - loss 0.02707752 - time (sec): 667.49 - samples/sec: 277.99 - lr: 0.000062 - momentum: 0.000000
2023-10-11 09:07:30,502 epoch 7 - iter 1560/2606 - loss 0.02838498 - time (sec): 803.88 - samples/sec: 277.62 - lr: 0.000061 - momentum: 0.000000
2023-10-11 09:09:45,699 epoch 7 - iter 1820/2606 - loss 0.02906200 - time (sec): 939.07 - samples/sec: 275.27 - lr: 0.000059 - momentum: 0.000000
2023-10-11 09:12:01,451 epoch 7 - iter 2080/2606 - loss 0.02815842 - time (sec): 1074.82 - samples/sec: 273.34 - lr: 0.000057 - momentum: 0.000000
2023-10-11 09:14:19,544 epoch 7 - iter 2340/2606 - loss 0.02840422 - time (sec): 1212.92 - samples/sec: 272.62 - lr: 0.000055 - momentum: 0.000000
2023-10-11 09:16:32,556 epoch 7 - iter 2600/2606 - loss 0.02795787 - time (sec): 1345.93 - samples/sec: 272.54 - lr: 0.000053 - momentum: 0.000000
2023-10-11 09:16:35,342 ----------------------------------------------------------------------------------------------------
2023-10-11 09:16:35,342 EPOCH 7 done: loss 0.0280 - lr: 0.000053
2023-10-11 09:17:14,611 DEV : loss 0.38824594020843506 - f1-score (micro avg)  0.3855
2023-10-11 09:17:14,663 saving best model
2023-10-11 09:17:17,239 ----------------------------------------------------------------------------------------------------
2023-10-11 09:19:25,024 epoch 8 - iter 260/2606 - loss 0.01471915 - time (sec): 127.78 - samples/sec: 287.72 - lr: 0.000052 - momentum: 0.000000
2023-10-11 09:21:33,496 epoch 8 - iter 520/2606 - loss 0.01972084 - time (sec): 256.25 - samples/sec: 288.86 - lr: 0.000050 - momentum: 0.000000
2023-10-11 09:23:42,553 epoch 8 - iter 780/2606 - loss 0.02027082 - time (sec): 385.31 - samples/sec: 285.92 - lr: 0.000048 - momentum: 0.000000
2023-10-11 09:25:51,832 epoch 8 - iter 1040/2606 - loss 0.01980338 - time (sec): 514.59 - samples/sec: 284.71 - lr: 0.000046 - momentum: 0.000000
2023-10-11 09:28:01,892 epoch 8 - iter 1300/2606 - loss 0.02000664 - time (sec): 644.65 - samples/sec: 285.96 - lr: 0.000045 - momentum: 0.000000
2023-10-11 09:30:12,840 epoch 8 - iter 1560/2606 - loss 0.02105758 - time (sec): 775.60 - samples/sec: 284.89 - lr: 0.000043 - momentum: 0.000000
2023-10-11 09:32:22,237 epoch 8 - iter 1820/2606 - loss 0.02052649 - time (sec): 904.99 - samples/sec: 283.61 - lr: 0.000041 - momentum: 0.000000
2023-10-11 09:34:33,876 epoch 8 - iter 2080/2606 - loss 0.02031634 - time (sec): 1036.63 - samples/sec: 283.17 - lr: 0.000039 - momentum: 0.000000
2023-10-11 09:36:45,792 epoch 8 - iter 2340/2606 - loss 0.02078787 - time (sec): 1168.55 - samples/sec: 283.56 - lr: 0.000037 - momentum: 0.000000
2023-10-11 09:38:55,539 epoch 8 - iter 2600/2606 - loss 0.02156944 - time (sec): 1298.30 - samples/sec: 282.15 - lr: 0.000036 - momentum: 0.000000
2023-10-11 09:38:58,823 ----------------------------------------------------------------------------------------------------
2023-10-11 09:38:58,823 EPOCH 8 done: loss 0.0216 - lr: 0.000036
2023-10-11 09:39:38,820 DEV : loss 0.4608902931213379 - f1-score (micro avg)  0.3699
2023-10-11 09:39:38,874 ----------------------------------------------------------------------------------------------------
2023-10-11 09:41:56,379 epoch 9 - iter 260/2606 - loss 0.01668864 - time (sec): 137.50 - samples/sec: 278.59 - lr: 0.000034 - momentum: 0.000000
2023-10-11 09:44:11,267 epoch 9 - iter 520/2606 - loss 0.01829687 - time (sec): 272.39 - samples/sec: 278.00 - lr: 0.000032 - momentum: 0.000000
2023-10-11 09:46:23,543 epoch 9 - iter 780/2606 - loss 0.01610329 - time (sec): 404.67 - samples/sec: 275.21 - lr: 0.000030 - momentum: 0.000000
2023-10-11 09:48:36,901 epoch 9 - iter 1040/2606 - loss 0.01572074 - time (sec): 538.02 - samples/sec: 271.27 - lr: 0.000029 - momentum: 0.000000
2023-10-11 09:50:50,690 epoch 9 - iter 1300/2606 - loss 0.01553277 - time (sec): 671.81 - samples/sec: 272.97 - lr: 0.000027 - momentum: 0.000000
2023-10-11 09:53:01,793 epoch 9 - iter 1560/2606 - loss 0.01493528 - time (sec): 802.92 - samples/sec: 272.20 - lr: 0.000025 - momentum: 0.000000
2023-10-11 09:55:13,466 epoch 9 - iter 1820/2606 - loss 0.01487477 - time (sec): 934.59 - samples/sec: 273.39 - lr: 0.000023 - momentum: 0.000000
2023-10-11 09:57:26,097 epoch 9 - iter 2080/2606 - loss 0.01451586 - time (sec): 1067.22 - samples/sec: 274.48 - lr: 0.000021 - momentum: 0.000000
2023-10-11 09:59:36,968 epoch 9 - iter 2340/2606 - loss 0.01514862 - time (sec): 1198.09 - samples/sec: 275.73 - lr: 0.000020 - momentum: 0.000000
2023-10-11 10:01:48,255 epoch 9 - iter 2600/2606 - loss 0.01524259 - time (sec): 1329.38 - samples/sec: 275.86 - lr: 0.000018 - momentum: 0.000000
2023-10-11 10:01:51,153 ----------------------------------------------------------------------------------------------------
2023-10-11 10:01:51,154 EPOCH 9 done: loss 0.0152 - lr: 0.000018
2023-10-11 10:02:30,205 DEV : loss 0.4856250286102295 - f1-score (micro avg)  0.3617
2023-10-11 10:02:30,256 ----------------------------------------------------------------------------------------------------
2023-10-11 10:04:42,536 epoch 10 - iter 260/2606 - loss 0.01055031 - time (sec): 132.28 - samples/sec: 275.53 - lr: 0.000016 - momentum: 0.000000
2023-10-11 10:06:53,359 epoch 10 - iter 520/2606 - loss 0.01088598 - time (sec): 263.10 - samples/sec: 273.07 - lr: 0.000014 - momentum: 0.000000
2023-10-11 10:09:05,981 epoch 10 - iter 780/2606 - loss 0.01012233 - time (sec): 395.72 - samples/sec: 273.96 - lr: 0.000013 - momentum: 0.000000
2023-10-11 10:11:17,473 epoch 10 - iter 1040/2606 - loss 0.00939882 - time (sec): 527.21 - samples/sec: 272.16 - lr: 0.000011 - momentum: 0.000000
2023-10-11 10:13:30,498 epoch 10 - iter 1300/2606 - loss 0.00948977 - time (sec): 660.24 - samples/sec: 276.86 - lr: 0.000009 - momentum: 0.000000
2023-10-11 10:15:39,670 epoch 10 - iter 1560/2606 - loss 0.00947705 - time (sec): 789.41 - samples/sec: 276.95 - lr: 0.000007 - momentum: 0.000000
2023-10-11 10:17:49,663 epoch 10 - iter 1820/2606 - loss 0.01016429 - time (sec): 919.40 - samples/sec: 277.18 - lr: 0.000005 - momentum: 0.000000
2023-10-11 10:19:59,020 epoch 10 - iter 2080/2606 - loss 0.01020035 - time (sec): 1048.76 - samples/sec: 276.58 - lr: 0.000004 - momentum: 0.000000
2023-10-11 10:22:11,668 epoch 10 - iter 2340/2606 - loss 0.01061835 - time (sec): 1181.41 - samples/sec: 278.88 - lr: 0.000002 - momentum: 0.000000
2023-10-11 10:24:23,077 epoch 10 - iter 2600/2606 - loss 0.01044635 - time (sec): 1312.82 - samples/sec: 279.05 - lr: 0.000000 - momentum: 0.000000
2023-10-11 10:24:26,217 ----------------------------------------------------------------------------------------------------
2023-10-11 10:24:26,217 EPOCH 10 done: loss 0.0104 - lr: 0.000000
2023-10-11 10:25:04,805 DEV : loss 0.4848763942718506 - f1-score (micro avg)  0.3673
2023-10-11 10:25:05,729 ----------------------------------------------------------------------------------------------------
2023-10-11 10:25:05,732 Loading model from best epoch ...
2023-10-11 10:25:09,728 SequenceTagger predicts: Dictionary with 17 tags: O, S-LOC, B-LOC, E-LOC, I-LOC, S-PER, B-PER, E-PER, I-PER, S-ORG, B-ORG, E-ORG, I-ORG, S-HumanProd, B-HumanProd, E-HumanProd, I-HumanProd
2023-10-11 10:26:46,831 
Results:
- F-score (micro) 0.4614
- F-score (macro) 0.3091
- Accuracy 0.3043

By class:
              precision    recall  f1-score   support

         LOC     0.4851    0.5783    0.5276      1214
         PER     0.4194    0.4765    0.4461       808
         ORG     0.2620    0.2635    0.2627       353
   HumanProd     0.0000    0.0000    0.0000        15

   micro avg     0.4330    0.4937    0.4614      2390
   macro avg     0.2916    0.3295    0.3091      2390
weighted avg     0.4269    0.4937    0.4576      2390

2023-10-11 10:26:46,832 ----------------------------------------------------------------------------------------------------