File size: 25,116 Bytes

7e9aef1

2023-10-06 12:02:00,712 ----------------------------------------------------------------------------------------------------
2023-10-06 12:02:00,713 Model: "SequenceTagger(
  (embeddings): ByT5Embeddings(
    (model): T5EncoderModel(
      (shared): Embedding(384, 1472)
      (encoder): T5Stack(
        (embed_tokens): Embedding(384, 1472)
        (block): ModuleList(
          (0): T5Block(
            (layer): ModuleList(
              (0): T5LayerSelfAttention(
                (SelfAttention): T5Attention(
                  (q): Linear(in_features=1472, out_features=384, bias=False)
                  (k): Linear(in_features=1472, out_features=384, bias=False)
                  (v): Linear(in_features=1472, out_features=384, bias=False)
                  (o): Linear(in_features=384, out_features=1472, bias=False)
                  (relative_attention_bias): Embedding(32, 6)
                )
                (layer_norm): T5LayerNorm()
                (dropout): Dropout(p=0.1, inplace=False)
              )
              (1): T5LayerFF(
                (DenseReluDense): T5DenseGatedActDense(
                  (wi_0): Linear(in_features=1472, out_features=3584, bias=False)
                  (wi_1): Linear(in_features=1472, out_features=3584, bias=False)
                  (wo): Linear(in_features=3584, out_features=1472, bias=False)
                  (dropout): Dropout(p=0.1, inplace=False)
                  (act): NewGELUActivation()
                )
                (layer_norm): T5LayerNorm()
                (dropout): Dropout(p=0.1, inplace=False)
              )
            )
          )
          (1-11): 11 x T5Block(
            (layer): ModuleList(
              (0): T5LayerSelfAttention(
                (SelfAttention): T5Attention(
                  (q): Linear(in_features=1472, out_features=384, bias=False)
                  (k): Linear(in_features=1472, out_features=384, bias=False)
                  (v): Linear(in_features=1472, out_features=384, bias=False)
                  (o): Linear(in_features=384, out_features=1472, bias=False)
                )
                (layer_norm): T5LayerNorm()
                (dropout): Dropout(p=0.1, inplace=False)
              )
              (1): T5LayerFF(
                (DenseReluDense): T5DenseGatedActDense(
                  (wi_0): Linear(in_features=1472, out_features=3584, bias=False)
                  (wi_1): Linear(in_features=1472, out_features=3584, bias=False)
                  (wo): Linear(in_features=3584, out_features=1472, bias=False)
                  (dropout): Dropout(p=0.1, inplace=False)
                  (act): NewGELUActivation()
                )
                (layer_norm): T5LayerNorm()
                (dropout): Dropout(p=0.1, inplace=False)
              )
            )
          )
        )
        (final_layer_norm): T5LayerNorm()
        (dropout): Dropout(p=0.1, inplace=False)
      )
    )
  )
  (locked_dropout): LockedDropout(p=0.5)
  (linear): Linear(in_features=1472, out_features=25, bias=True)
  (loss_function): CrossEntropyLoss()
)"
2023-10-06 12:02:00,714 ----------------------------------------------------------------------------------------------------
2023-10-06 12:02:00,714 MultiCorpus: 1214 train + 266 dev + 251 test sentences
 - NER_HIPE_2022 Corpus: 1214 train + 266 dev + 251 test sentences - /app/.flair/datasets/ner_hipe_2022/v2.1/ajmc/en/with_doc_seperator
2023-10-06 12:02:00,714 ----------------------------------------------------------------------------------------------------
2023-10-06 12:02:00,714 Train:  1214 sentences
2023-10-06 12:02:00,715         (train_with_dev=False, train_with_test=False)
2023-10-06 12:02:00,715 ----------------------------------------------------------------------------------------------------
2023-10-06 12:02:00,715 Training Params:
2023-10-06 12:02:00,715  - learning_rate: "0.00016" 
2023-10-06 12:02:00,715  - mini_batch_size: "8"
2023-10-06 12:02:00,715  - max_epochs: "10"
2023-10-06 12:02:00,715  - shuffle: "True"
2023-10-06 12:02:00,715 ----------------------------------------------------------------------------------------------------
2023-10-06 12:02:00,715 Plugins:
2023-10-06 12:02:00,715  - TensorboardLogger
2023-10-06 12:02:00,715  - LinearScheduler | warmup_fraction: '0.1'
2023-10-06 12:02:00,715 ----------------------------------------------------------------------------------------------------
2023-10-06 12:02:00,715 Final evaluation on model from best epoch (best-model.pt)
2023-10-06 12:02:00,715  - metric: "('micro avg', 'f1-score')"
2023-10-06 12:02:00,715 ----------------------------------------------------------------------------------------------------
2023-10-06 12:02:00,715 Computation:
2023-10-06 12:02:00,715  - compute on device: cuda:0
2023-10-06 12:02:00,715  - embedding storage: none
2023-10-06 12:02:00,715 ----------------------------------------------------------------------------------------------------
2023-10-06 12:02:00,715 Model training base path: "hmbench-ajmc/en-hmbyt5-preliminary/byt5-small-historic-multilingual-span20-flax-bs8-wsFalse-e10-lr0.00016-poolingfirst-layers-1-crfFalse-2"
2023-10-06 12:02:00,715 ----------------------------------------------------------------------------------------------------
2023-10-06 12:02:00,716 ----------------------------------------------------------------------------------------------------
2023-10-06 12:02:00,716 Logging anything other than scalars to TensorBoard is currently not supported.
2023-10-06 12:02:11,895 epoch 1 - iter 15/152 - loss 3.23637945 - time (sec): 11.18 - samples/sec: 276.71 - lr: 0.000015 - momentum: 0.000000
2023-10-06 12:02:23,232 epoch 1 - iter 30/152 - loss 3.23056237 - time (sec): 22.51 - samples/sec: 273.82 - lr: 0.000031 - momentum: 0.000000
2023-10-06 12:02:34,656 epoch 1 - iter 45/152 - loss 3.21826245 - time (sec): 33.94 - samples/sec: 276.05 - lr: 0.000046 - momentum: 0.000000
2023-10-06 12:02:46,712 epoch 1 - iter 60/152 - loss 3.19874969 - time (sec): 45.99 - samples/sec: 276.99 - lr: 0.000062 - momentum: 0.000000
2023-10-06 12:02:58,141 epoch 1 - iter 75/152 - loss 3.16240231 - time (sec): 57.42 - samples/sec: 275.75 - lr: 0.000078 - momentum: 0.000000
2023-10-06 12:03:09,690 epoch 1 - iter 90/152 - loss 3.09184866 - time (sec): 68.97 - samples/sec: 275.72 - lr: 0.000094 - momentum: 0.000000
2023-10-06 12:03:20,372 epoch 1 - iter 105/152 - loss 3.01217102 - time (sec): 79.66 - samples/sec: 273.94 - lr: 0.000109 - momentum: 0.000000
2023-10-06 12:03:31,376 epoch 1 - iter 120/152 - loss 2.91828001 - time (sec): 90.66 - samples/sec: 274.07 - lr: 0.000125 - momentum: 0.000000
2023-10-06 12:03:41,741 epoch 1 - iter 135/152 - loss 2.82691369 - time (sec): 101.02 - samples/sec: 272.84 - lr: 0.000141 - momentum: 0.000000
2023-10-06 12:03:52,791 epoch 1 - iter 150/152 - loss 2.71500413 - time (sec): 112.07 - samples/sec: 273.84 - lr: 0.000157 - momentum: 0.000000
2023-10-06 12:03:53,974 ----------------------------------------------------------------------------------------------------
2023-10-06 12:03:53,974 EPOCH 1 done: loss 2.7055 - lr: 0.000157
2023-10-06 12:04:01,808 DEV : loss 1.5486512184143066 - f1-score (micro avg)  0.0
2023-10-06 12:04:01,815 ----------------------------------------------------------------------------------------------------
2023-10-06 12:04:12,751 epoch 2 - iter 15/152 - loss 1.50030838 - time (sec): 10.93 - samples/sec: 281.31 - lr: 0.000158 - momentum: 0.000000
2023-10-06 12:04:23,678 epoch 2 - iter 30/152 - loss 1.33185743 - time (sec): 21.86 - samples/sec: 276.79 - lr: 0.000157 - momentum: 0.000000
2023-10-06 12:04:35,236 epoch 2 - iter 45/152 - loss 1.23214306 - time (sec): 33.42 - samples/sec: 275.44 - lr: 0.000155 - momentum: 0.000000
2023-10-06 12:04:46,142 epoch 2 - iter 60/152 - loss 1.14422649 - time (sec): 44.33 - samples/sec: 275.80 - lr: 0.000153 - momentum: 0.000000
2023-10-06 12:04:56,961 epoch 2 - iter 75/152 - loss 1.07649727 - time (sec): 55.14 - samples/sec: 273.52 - lr: 0.000151 - momentum: 0.000000
2023-10-06 12:05:08,495 epoch 2 - iter 90/152 - loss 1.00943491 - time (sec): 66.68 - samples/sec: 275.17 - lr: 0.000150 - momentum: 0.000000
2023-10-06 12:05:19,664 epoch 2 - iter 105/152 - loss 0.95211533 - time (sec): 77.85 - samples/sec: 275.28 - lr: 0.000148 - momentum: 0.000000
2023-10-06 12:05:30,154 epoch 2 - iter 120/152 - loss 0.92045512 - time (sec): 88.34 - samples/sec: 274.65 - lr: 0.000146 - momentum: 0.000000
2023-10-06 12:05:41,453 epoch 2 - iter 135/152 - loss 0.88873144 - time (sec): 99.64 - samples/sec: 275.74 - lr: 0.000144 - momentum: 0.000000
2023-10-06 12:05:52,434 epoch 2 - iter 150/152 - loss 0.85889893 - time (sec): 110.62 - samples/sec: 276.36 - lr: 0.000143 - momentum: 0.000000
2023-10-06 12:05:53,810 ----------------------------------------------------------------------------------------------------
2023-10-06 12:05:53,810 EPOCH 2 done: loss 0.8552 - lr: 0.000143
2023-10-06 12:06:01,705 DEV : loss 0.5358220338821411 - f1-score (micro avg)  0.0
2023-10-06 12:06:01,713 ----------------------------------------------------------------------------------------------------
2023-10-06 12:06:12,801 epoch 3 - iter 15/152 - loss 0.49234408 - time (sec): 11.09 - samples/sec: 278.45 - lr: 0.000141 - momentum: 0.000000
2023-10-06 12:06:23,338 epoch 3 - iter 30/152 - loss 0.44760087 - time (sec): 21.62 - samples/sec: 276.18 - lr: 0.000139 - momentum: 0.000000
2023-10-06 12:06:33,930 epoch 3 - iter 45/152 - loss 0.43275129 - time (sec): 32.22 - samples/sec: 275.92 - lr: 0.000137 - momentum: 0.000000
2023-10-06 12:06:46,232 epoch 3 - iter 60/152 - loss 0.42500690 - time (sec): 44.52 - samples/sec: 280.76 - lr: 0.000135 - momentum: 0.000000
2023-10-06 12:06:57,377 epoch 3 - iter 75/152 - loss 0.42265947 - time (sec): 55.66 - samples/sec: 279.97 - lr: 0.000134 - momentum: 0.000000
2023-10-06 12:07:08,635 epoch 3 - iter 90/152 - loss 0.39858999 - time (sec): 66.92 - samples/sec: 279.31 - lr: 0.000132 - momentum: 0.000000
2023-10-06 12:07:19,407 epoch 3 - iter 105/152 - loss 0.38199531 - time (sec): 77.69 - samples/sec: 277.89 - lr: 0.000130 - momentum: 0.000000
2023-10-06 12:07:30,430 epoch 3 - iter 120/152 - loss 0.37465901 - time (sec): 88.72 - samples/sec: 278.99 - lr: 0.000128 - momentum: 0.000000
2023-10-06 12:07:41,424 epoch 3 - iter 135/152 - loss 0.36271381 - time (sec): 99.71 - samples/sec: 278.43 - lr: 0.000127 - momentum: 0.000000
2023-10-06 12:07:52,291 epoch 3 - iter 150/152 - loss 0.36018016 - time (sec): 110.58 - samples/sec: 277.04 - lr: 0.000125 - momentum: 0.000000
2023-10-06 12:07:53,598 ----------------------------------------------------------------------------------------------------
2023-10-06 12:07:53,598 EPOCH 3 done: loss 0.3599 - lr: 0.000125
2023-10-06 12:08:01,407 DEV : loss 0.3210684657096863 - f1-score (micro avg)  0.488
2023-10-06 12:08:01,414 saving best model
2023-10-06 12:08:02,261 ----------------------------------------------------------------------------------------------------
2023-10-06 12:08:12,909 epoch 4 - iter 15/152 - loss 0.25179135 - time (sec): 10.65 - samples/sec: 264.71 - lr: 0.000123 - momentum: 0.000000
2023-10-06 12:08:23,932 epoch 4 - iter 30/152 - loss 0.25281864 - time (sec): 21.67 - samples/sec: 264.02 - lr: 0.000121 - momentum: 0.000000
2023-10-06 12:08:35,466 epoch 4 - iter 45/152 - loss 0.24279470 - time (sec): 33.20 - samples/sec: 268.71 - lr: 0.000119 - momentum: 0.000000
2023-10-06 12:08:46,611 epoch 4 - iter 60/152 - loss 0.24022027 - time (sec): 44.35 - samples/sec: 269.46 - lr: 0.000118 - momentum: 0.000000
2023-10-06 12:08:58,501 epoch 4 - iter 75/152 - loss 0.23491480 - time (sec): 56.24 - samples/sec: 273.32 - lr: 0.000116 - momentum: 0.000000
2023-10-06 12:09:10,362 epoch 4 - iter 90/152 - loss 0.23215777 - time (sec): 68.10 - samples/sec: 275.54 - lr: 0.000114 - momentum: 0.000000
2023-10-06 12:09:21,698 epoch 4 - iter 105/152 - loss 0.22764006 - time (sec): 79.43 - samples/sec: 275.02 - lr: 0.000112 - momentum: 0.000000
2023-10-06 12:09:32,393 epoch 4 - iter 120/152 - loss 0.22243235 - time (sec): 90.13 - samples/sec: 274.39 - lr: 0.000111 - momentum: 0.000000
2023-10-06 12:09:43,952 epoch 4 - iter 135/152 - loss 0.21993044 - time (sec): 101.69 - samples/sec: 271.75 - lr: 0.000109 - momentum: 0.000000
2023-10-06 12:09:54,757 epoch 4 - iter 150/152 - loss 0.21504401 - time (sec): 112.49 - samples/sec: 271.47 - lr: 0.000107 - momentum: 0.000000
2023-10-06 12:09:56,300 ----------------------------------------------------------------------------------------------------
2023-10-06 12:09:56,301 EPOCH 4 done: loss 0.2163 - lr: 0.000107
2023-10-06 12:10:04,248 DEV : loss 0.22751779854297638 - f1-score (micro avg)  0.687
2023-10-06 12:10:04,257 saving best model
2023-10-06 12:10:08,601 ----------------------------------------------------------------------------------------------------
2023-10-06 12:10:19,647 epoch 5 - iter 15/152 - loss 0.15951381 - time (sec): 11.04 - samples/sec: 269.83 - lr: 0.000105 - momentum: 0.000000
2023-10-06 12:10:30,188 epoch 5 - iter 30/152 - loss 0.15429107 - time (sec): 21.58 - samples/sec: 270.00 - lr: 0.000104 - momentum: 0.000000
2023-10-06 12:10:42,171 epoch 5 - iter 45/152 - loss 0.14455687 - time (sec): 33.57 - samples/sec: 276.63 - lr: 0.000102 - momentum: 0.000000
2023-10-06 12:10:53,584 epoch 5 - iter 60/152 - loss 0.14741911 - time (sec): 44.98 - samples/sec: 276.52 - lr: 0.000100 - momentum: 0.000000
2023-10-06 12:11:05,039 epoch 5 - iter 75/152 - loss 0.14554318 - time (sec): 56.44 - samples/sec: 276.72 - lr: 0.000098 - momentum: 0.000000
2023-10-06 12:11:16,575 epoch 5 - iter 90/152 - loss 0.14521097 - time (sec): 67.97 - samples/sec: 275.89 - lr: 0.000097 - momentum: 0.000000
2023-10-06 12:11:26,737 epoch 5 - iter 105/152 - loss 0.14238142 - time (sec): 78.13 - samples/sec: 273.16 - lr: 0.000095 - momentum: 0.000000
2023-10-06 12:11:37,443 epoch 5 - iter 120/152 - loss 0.14306461 - time (sec): 88.84 - samples/sec: 272.12 - lr: 0.000093 - momentum: 0.000000
2023-10-06 12:11:48,868 epoch 5 - iter 135/152 - loss 0.14286929 - time (sec): 100.26 - samples/sec: 273.02 - lr: 0.000091 - momentum: 0.000000
2023-10-06 12:12:00,148 epoch 5 - iter 150/152 - loss 0.14522024 - time (sec): 111.55 - samples/sec: 274.43 - lr: 0.000090 - momentum: 0.000000
2023-10-06 12:12:01,553 ----------------------------------------------------------------------------------------------------
2023-10-06 12:12:01,553 EPOCH 5 done: loss 0.1444 - lr: 0.000090
2023-10-06 12:12:09,579 DEV : loss 0.17563626170158386 - f1-score (micro avg)  0.7021
2023-10-06 12:12:09,587 saving best model
2023-10-06 12:12:13,967 ----------------------------------------------------------------------------------------------------
2023-10-06 12:12:24,723 epoch 6 - iter 15/152 - loss 0.12403351 - time (sec): 10.75 - samples/sec: 274.13 - lr: 0.000088 - momentum: 0.000000
2023-10-06 12:12:36,005 epoch 6 - iter 30/152 - loss 0.11700282 - time (sec): 22.04 - samples/sec: 272.00 - lr: 0.000086 - momentum: 0.000000
2023-10-06 12:12:46,760 epoch 6 - iter 45/152 - loss 0.11345796 - time (sec): 32.79 - samples/sec: 272.55 - lr: 0.000084 - momentum: 0.000000
2023-10-06 12:12:57,704 epoch 6 - iter 60/152 - loss 0.11484332 - time (sec): 43.74 - samples/sec: 272.92 - lr: 0.000082 - momentum: 0.000000
2023-10-06 12:13:08,688 epoch 6 - iter 75/152 - loss 0.10922840 - time (sec): 54.72 - samples/sec: 274.64 - lr: 0.000081 - momentum: 0.000000
2023-10-06 12:13:20,364 epoch 6 - iter 90/152 - loss 0.10891341 - time (sec): 66.40 - samples/sec: 276.42 - lr: 0.000079 - momentum: 0.000000
2023-10-06 12:13:31,121 epoch 6 - iter 105/152 - loss 0.11126689 - time (sec): 77.15 - samples/sec: 275.91 - lr: 0.000077 - momentum: 0.000000
2023-10-06 12:13:42,989 epoch 6 - iter 120/152 - loss 0.10581120 - time (sec): 89.02 - samples/sec: 276.97 - lr: 0.000075 - momentum: 0.000000
2023-10-06 12:13:54,120 epoch 6 - iter 135/152 - loss 0.10175369 - time (sec): 100.15 - samples/sec: 276.36 - lr: 0.000074 - momentum: 0.000000
2023-10-06 12:14:04,976 epoch 6 - iter 150/152 - loss 0.10151653 - time (sec): 111.01 - samples/sec: 276.63 - lr: 0.000072 - momentum: 0.000000
2023-10-06 12:14:06,092 ----------------------------------------------------------------------------------------------------
2023-10-06 12:14:06,093 EPOCH 6 done: loss 0.1013 - lr: 0.000072
2023-10-06 12:14:13,389 DEV : loss 0.1543136090040207 - f1-score (micro avg)  0.7738
2023-10-06 12:14:13,396 saving best model
2023-10-06 12:14:17,728 ----------------------------------------------------------------------------------------------------
2023-10-06 12:14:28,364 epoch 7 - iter 15/152 - loss 0.08930482 - time (sec): 10.63 - samples/sec: 290.31 - lr: 0.000070 - momentum: 0.000000
2023-10-06 12:14:38,909 epoch 7 - iter 30/152 - loss 0.06578091 - time (sec): 21.18 - samples/sec: 293.41 - lr: 0.000068 - momentum: 0.000000
2023-10-06 12:14:49,555 epoch 7 - iter 45/152 - loss 0.07308786 - time (sec): 31.83 - samples/sec: 295.61 - lr: 0.000066 - momentum: 0.000000
2023-10-06 12:15:00,223 epoch 7 - iter 60/152 - loss 0.07966302 - time (sec): 42.49 - samples/sec: 295.46 - lr: 0.000065 - momentum: 0.000000
2023-10-06 12:15:10,037 epoch 7 - iter 75/152 - loss 0.08268068 - time (sec): 52.31 - samples/sec: 293.80 - lr: 0.000063 - momentum: 0.000000
2023-10-06 12:15:19,996 epoch 7 - iter 90/152 - loss 0.08050613 - time (sec): 62.27 - samples/sec: 294.03 - lr: 0.000061 - momentum: 0.000000
2023-10-06 12:15:30,376 epoch 7 - iter 105/152 - loss 0.07816602 - time (sec): 72.65 - samples/sec: 294.44 - lr: 0.000059 - momentum: 0.000000
2023-10-06 12:15:40,470 epoch 7 - iter 120/152 - loss 0.07702418 - time (sec): 82.74 - samples/sec: 293.94 - lr: 0.000058 - momentum: 0.000000
2023-10-06 12:15:51,413 epoch 7 - iter 135/152 - loss 0.07564384 - time (sec): 93.68 - samples/sec: 294.17 - lr: 0.000056 - momentum: 0.000000
2023-10-06 12:16:01,727 epoch 7 - iter 150/152 - loss 0.07638745 - time (sec): 104.00 - samples/sec: 294.28 - lr: 0.000054 - momentum: 0.000000
2023-10-06 12:16:03,002 ----------------------------------------------------------------------------------------------------
2023-10-06 12:16:03,003 EPOCH 7 done: loss 0.0757 - lr: 0.000054
2023-10-06 12:16:10,199 DEV : loss 0.1410299688577652 - f1-score (micro avg)  0.8187
2023-10-06 12:16:10,208 saving best model
2023-10-06 12:16:14,545 ----------------------------------------------------------------------------------------------------
2023-10-06 12:16:24,980 epoch 8 - iter 15/152 - loss 0.06033134 - time (sec): 10.43 - samples/sec: 277.10 - lr: 0.000052 - momentum: 0.000000
2023-10-06 12:16:35,514 epoch 8 - iter 30/152 - loss 0.06192308 - time (sec): 20.97 - samples/sec: 287.31 - lr: 0.000050 - momentum: 0.000000
2023-10-06 12:16:45,833 epoch 8 - iter 45/152 - loss 0.05196584 - time (sec): 31.29 - samples/sec: 291.32 - lr: 0.000049 - momentum: 0.000000
2023-10-06 12:16:56,942 epoch 8 - iter 60/152 - loss 0.05954812 - time (sec): 42.40 - samples/sec: 293.57 - lr: 0.000047 - momentum: 0.000000
2023-10-06 12:17:07,250 epoch 8 - iter 75/152 - loss 0.06352304 - time (sec): 52.70 - samples/sec: 293.91 - lr: 0.000045 - momentum: 0.000000
2023-10-06 12:17:17,508 epoch 8 - iter 90/152 - loss 0.06273933 - time (sec): 62.96 - samples/sec: 291.37 - lr: 0.000043 - momentum: 0.000000
2023-10-06 12:17:28,305 epoch 8 - iter 105/152 - loss 0.06082397 - time (sec): 73.76 - samples/sec: 292.22 - lr: 0.000042 - momentum: 0.000000
2023-10-06 12:17:38,935 epoch 8 - iter 120/152 - loss 0.06101682 - time (sec): 84.39 - samples/sec: 291.45 - lr: 0.000040 - momentum: 0.000000
2023-10-06 12:17:49,247 epoch 8 - iter 135/152 - loss 0.06145730 - time (sec): 94.70 - samples/sec: 289.71 - lr: 0.000038 - momentum: 0.000000
2023-10-06 12:18:00,377 epoch 8 - iter 150/152 - loss 0.06003389 - time (sec): 105.83 - samples/sec: 289.70 - lr: 0.000036 - momentum: 0.000000
2023-10-06 12:18:01,540 ----------------------------------------------------------------------------------------------------
2023-10-06 12:18:01,540 EPOCH 8 done: loss 0.0599 - lr: 0.000036
2023-10-06 12:18:09,011 DEV : loss 0.14382629096508026 - f1-score (micro avg)  0.8183
2023-10-06 12:18:09,019 ----------------------------------------------------------------------------------------------------
2023-10-06 12:18:20,037 epoch 9 - iter 15/152 - loss 0.03421405 - time (sec): 11.02 - samples/sec: 278.41 - lr: 0.000034 - momentum: 0.000000
2023-10-06 12:18:30,568 epoch 9 - iter 30/152 - loss 0.04338140 - time (sec): 21.55 - samples/sec: 278.59 - lr: 0.000033 - momentum: 0.000000
2023-10-06 12:18:41,390 epoch 9 - iter 45/152 - loss 0.04255641 - time (sec): 32.37 - samples/sec: 275.36 - lr: 0.000031 - momentum: 0.000000
2023-10-06 12:18:52,804 epoch 9 - iter 60/152 - loss 0.04732788 - time (sec): 43.78 - samples/sec: 278.44 - lr: 0.000029 - momentum: 0.000000
2023-10-06 12:19:03,735 epoch 9 - iter 75/152 - loss 0.05095845 - time (sec): 54.71 - samples/sec: 278.79 - lr: 0.000027 - momentum: 0.000000
2023-10-06 12:19:15,387 epoch 9 - iter 90/152 - loss 0.05702162 - time (sec): 66.37 - samples/sec: 281.75 - lr: 0.000026 - momentum: 0.000000
2023-10-06 12:19:26,028 epoch 9 - iter 105/152 - loss 0.05426125 - time (sec): 77.01 - samples/sec: 279.62 - lr: 0.000024 - momentum: 0.000000
2023-10-06 12:19:37,420 epoch 9 - iter 120/152 - loss 0.05428196 - time (sec): 88.40 - samples/sec: 279.08 - lr: 0.000022 - momentum: 0.000000
2023-10-06 12:19:48,285 epoch 9 - iter 135/152 - loss 0.05402795 - time (sec): 99.26 - samples/sec: 277.60 - lr: 0.000020 - momentum: 0.000000
2023-10-06 12:19:59,301 epoch 9 - iter 150/152 - loss 0.05197514 - time (sec): 110.28 - samples/sec: 277.58 - lr: 0.000019 - momentum: 0.000000
2023-10-06 12:20:00,718 ----------------------------------------------------------------------------------------------------
2023-10-06 12:20:00,718 EPOCH 9 done: loss 0.0521 - lr: 0.000019
2023-10-06 12:20:08,506 DEV : loss 0.14206436276435852 - f1-score (micro avg)  0.8191
2023-10-06 12:20:08,515 saving best model
2023-10-06 12:20:12,858 ----------------------------------------------------------------------------------------------------
2023-10-06 12:20:23,682 epoch 10 - iter 15/152 - loss 0.06250421 - time (sec): 10.82 - samples/sec: 280.53 - lr: 0.000017 - momentum: 0.000000
2023-10-06 12:20:34,055 epoch 10 - iter 30/152 - loss 0.04309332 - time (sec): 21.19 - samples/sec: 281.25 - lr: 0.000015 - momentum: 0.000000
2023-10-06 12:20:45,084 epoch 10 - iter 45/152 - loss 0.03714810 - time (sec): 32.22 - samples/sec: 286.70 - lr: 0.000013 - momentum: 0.000000
2023-10-06 12:20:55,339 epoch 10 - iter 60/152 - loss 0.04248445 - time (sec): 42.48 - samples/sec: 289.39 - lr: 0.000012 - momentum: 0.000000
2023-10-06 12:21:06,465 epoch 10 - iter 75/152 - loss 0.04273133 - time (sec): 53.61 - samples/sec: 292.38 - lr: 0.000010 - momentum: 0.000000
2023-10-06 12:21:17,073 epoch 10 - iter 90/152 - loss 0.04245136 - time (sec): 64.21 - samples/sec: 292.79 - lr: 0.000008 - momentum: 0.000000
2023-10-06 12:21:27,178 epoch 10 - iter 105/152 - loss 0.04490524 - time (sec): 74.32 - samples/sec: 293.57 - lr: 0.000006 - momentum: 0.000000
2023-10-06 12:21:37,146 epoch 10 - iter 120/152 - loss 0.04663582 - time (sec): 84.29 - samples/sec: 292.79 - lr: 0.000005 - momentum: 0.000000
2023-10-06 12:21:47,292 epoch 10 - iter 135/152 - loss 0.04702965 - time (sec): 94.43 - samples/sec: 291.90 - lr: 0.000003 - momentum: 0.000000
2023-10-06 12:21:57,888 epoch 10 - iter 150/152 - loss 0.04626855 - time (sec): 105.03 - samples/sec: 291.32 - lr: 0.000001 - momentum: 0.000000
2023-10-06 12:21:59,175 ----------------------------------------------------------------------------------------------------
2023-10-06 12:21:59,175 EPOCH 10 done: loss 0.0459 - lr: 0.000001
2023-10-06 12:22:06,340 DEV : loss 0.14375203847885132 - f1-score (micro avg)  0.8205
2023-10-06 12:22:06,348 saving best model
2023-10-06 12:22:11,518 ----------------------------------------------------------------------------------------------------
2023-10-06 12:22:11,519 Loading model from best epoch ...
2023-10-06 12:22:14,117 SequenceTagger predicts: Dictionary with 25 tags: O, S-scope, B-scope, E-scope, I-scope, S-pers, B-pers, E-pers, I-pers, S-work, B-work, E-work, I-work, S-loc, B-loc, E-loc, I-loc, S-date, B-date, E-date, I-date, S-object, B-object, E-object, I-object
2023-10-06 12:22:20,882 
Results:
- F-score (micro) 0.7929
- F-score (macro) 0.4838
- Accuracy 0.6659

By class:
              precision    recall  f1-score   support

       scope     0.7329    0.7815    0.7564       151
        pers     0.8070    0.9583    0.8762        96
        work     0.7297    0.8526    0.7864        95
         loc     0.0000    0.0000    0.0000         3
        date     0.0000    0.0000    0.0000         3

   micro avg     0.7539    0.8362    0.7929       348
   macro avg     0.4539    0.5185    0.4838       348
weighted avg     0.7399    0.8362    0.7846       348

2023-10-06 12:22:20,882 ----------------------------------------------------------------------------------------------------