2023-10-08 20:20:45,628 ----------------------------------------------------------------------------------------------------
2023-10-08 20:20:45,629 Model: "SequenceTagger(
  (embeddings): ByT5Embeddings(
    (model): T5EncoderModel(
      (shared): Embedding(384, 1472)
      (encoder): T5Stack(
        (embed_tokens): Embedding(384, 1472)
        (block): ModuleList(
          (0): T5Block(
            (layer): ModuleList(
              (0): T5LayerSelfAttention(
                (SelfAttention): T5Attention(
                  (q): Linear(in_features=1472, out_features=384, bias=False)
                  (k): Linear(in_features=1472, out_features=384, bias=False)
                  (v): Linear(in_features=1472, out_features=384, bias=False)
                  (o): Linear(in_features=384, out_features=1472, bias=False)
                  (relative_attention_bias): Embedding(32, 6)
                )
                (layer_norm): T5LayerNorm()
                (dropout): Dropout(p=0.1, inplace=False)
              )
              (1): T5LayerFF(
                (DenseReluDense): T5DenseGatedActDense(
                  (wi_0): Linear(in_features=1472, out_features=3584, bias=False)
                  (wi_1): Linear(in_features=1472, out_features=3584, bias=False)
                  (wo): Linear(in_features=3584, out_features=1472, bias=False)
                  (dropout): Dropout(p=0.1, inplace=False)
                  (act): NewGELUActivation()
                )
                (layer_norm): T5LayerNorm()
                (dropout): Dropout(p=0.1, inplace=False)
              )
            )
          )
          (1-11): 11 x T5Block(
            (layer): ModuleList(
              (0): T5LayerSelfAttention(
                (SelfAttention): T5Attention(
                  (q): Linear(in_features=1472, out_features=384, bias=False)
                  (k): Linear(in_features=1472, out_features=384, bias=False)
                  (v): Linear(in_features=1472, out_features=384, bias=False)
                  (o): Linear(in_features=384, out_features=1472, bias=False)
                )
                (layer_norm): T5LayerNorm()
                (dropout): Dropout(p=0.1, inplace=False)
              )
              (1): T5LayerFF(
                (DenseReluDense): T5DenseGatedActDense(
                  (wi_0): Linear(in_features=1472, out_features=3584, bias=False)
                  (wi_1): Linear(in_features=1472, out_features=3584, bias=False)
                  (wo): Linear(in_features=3584, out_features=1472, bias=False)
                  (dropout): Dropout(p=0.1, inplace=False)
                  (act): NewGELUActivation()
                )
                (layer_norm): T5LayerNorm()
                (dropout): Dropout(p=0.1, inplace=False)
              )
            )
          )
        )
        (final_layer_norm): T5LayerNorm()
        (dropout): Dropout(p=0.1, inplace=False)
      )
    )
  )
  (locked_dropout): LockedDropout(p=0.5)
  (linear): Linear(in_features=1472, out_features=25, bias=True)
  (loss_function): CrossEntropyLoss()
)"
2023-10-08 20:20:45,629 ----------------------------------------------------------------------------------------------------
2023-10-08 20:20:45,630 MultiCorpus: 966 train + 219 dev + 204 test sentences
 - NER_HIPE_2022 Corpus: 966 train + 219 dev + 204 test sentences - /app/.flair/datasets/ner_hipe_2022/v2.1/ajmc/fr/with_doc_seperator
2023-10-08 20:20:45,630 ----------------------------------------------------------------------------------------------------
2023-10-08 20:20:45,630 Train:  966 sentences
2023-10-08 20:20:45,630         (train_with_dev=False, train_with_test=False)
2023-10-08 20:20:45,630 ----------------------------------------------------------------------------------------------------
2023-10-08 20:20:45,630 Training Params:
2023-10-08 20:20:45,630  - learning_rate: "0.00016" 
2023-10-08 20:20:45,630  - mini_batch_size: "8"
2023-10-08 20:20:45,630  - max_epochs: "10"
2023-10-08 20:20:45,630  - shuffle: "True"
2023-10-08 20:20:45,630 ----------------------------------------------------------------------------------------------------
2023-10-08 20:20:45,630 Plugins:
2023-10-08 20:20:45,630  - TensorboardLogger
2023-10-08 20:20:45,630  - LinearScheduler | warmup_fraction: '0.1'
2023-10-08 20:20:45,630 ----------------------------------------------------------------------------------------------------
2023-10-08 20:20:45,630 Final evaluation on model from best epoch (best-model.pt)
2023-10-08 20:20:45,631  - metric: "('micro avg', 'f1-score')"
2023-10-08 20:20:45,631 ----------------------------------------------------------------------------------------------------
2023-10-08 20:20:45,631 Computation:
2023-10-08 20:20:45,631  - compute on device: cuda:0
2023-10-08 20:20:45,631  - embedding storage: none
2023-10-08 20:20:45,631 ----------------------------------------------------------------------------------------------------
2023-10-08 20:20:45,631 Model training base path: "hmbench-ajmc/fr-hmbyt5-preliminary/byt5-small-historic-multilingual-span20-flax-bs8-wsFalse-e10-lr0.00016-poolingfirst-layers-1-crfFalse-2"
2023-10-08 20:20:45,631 ----------------------------------------------------------------------------------------------------
2023-10-08 20:20:45,631 ----------------------------------------------------------------------------------------------------
2023-10-08 20:20:45,631 Logging anything other than scalars to TensorBoard is currently not supported.
2023-10-08 20:20:54,662 epoch 1 - iter 12/121 - loss 3.22933883 - time (sec): 9.03 - samples/sec: 288.82 - lr: 0.000015 - momentum: 0.000000
2023-10-08 20:21:04,168 epoch 1 - iter 24/121 - loss 3.22358323 - time (sec): 18.54 - samples/sec: 291.86 - lr: 0.000030 - momentum: 0.000000
2023-10-08 20:21:12,604 epoch 1 - iter 36/121 - loss 3.21405829 - time (sec): 26.97 - samples/sec: 286.52 - lr: 0.000046 - momentum: 0.000000
2023-10-08 20:21:20,504 epoch 1 - iter 48/121 - loss 3.19951121 - time (sec): 34.87 - samples/sec: 283.98 - lr: 0.000062 - momentum: 0.000000
2023-10-08 20:21:28,994 epoch 1 - iter 60/121 - loss 3.16865112 - time (sec): 43.36 - samples/sec: 282.97 - lr: 0.000078 - momentum: 0.000000
2023-10-08 20:21:37,353 epoch 1 - iter 72/121 - loss 3.11383349 - time (sec): 51.72 - samples/sec: 282.21 - lr: 0.000094 - momentum: 0.000000
2023-10-08 20:21:45,864 epoch 1 - iter 84/121 - loss 3.04197392 - time (sec): 60.23 - samples/sec: 283.76 - lr: 0.000110 - momentum: 0.000000
2023-10-08 20:21:54,507 epoch 1 - iter 96/121 - loss 2.96160655 - time (sec): 68.87 - samples/sec: 284.76 - lr: 0.000126 - momentum: 0.000000
2023-10-08 20:22:03,488 epoch 1 - iter 108/121 - loss 2.87149223 - time (sec): 77.86 - samples/sec: 286.53 - lr: 0.000141 - momentum: 0.000000
2023-10-08 20:22:11,628 epoch 1 - iter 120/121 - loss 2.79180261 - time (sec): 86.00 - samples/sec: 285.62 - lr: 0.000157 - momentum: 0.000000
2023-10-08 20:22:12,178 ----------------------------------------------------------------------------------------------------
2023-10-08 20:22:12,179 EPOCH 1 done: loss 2.7843 - lr: 0.000157
2023-10-08 20:22:18,010 DEV : loss 1.8020617961883545 - f1-score (micro avg)  0.0
2023-10-08 20:22:18,016 ----------------------------------------------------------------------------------------------------
2023-10-08 20:22:26,295 epoch 2 - iter 12/121 - loss 1.79034078 - time (sec): 8.28 - samples/sec: 280.51 - lr: 0.000158 - momentum: 0.000000
2023-10-08 20:22:34,693 epoch 2 - iter 24/121 - loss 1.68290825 - time (sec): 16.68 - samples/sec: 279.32 - lr: 0.000157 - momentum: 0.000000
2023-10-08 20:22:43,634 epoch 2 - iter 36/121 - loss 1.57084579 - time (sec): 25.62 - samples/sec: 282.82 - lr: 0.000155 - momentum: 0.000000
2023-10-08 20:22:52,286 epoch 2 - iter 48/121 - loss 1.47431772 - time (sec): 34.27 - samples/sec: 282.90 - lr: 0.000153 - momentum: 0.000000
2023-10-08 20:23:01,117 epoch 2 - iter 60/121 - loss 1.37285982 - time (sec): 43.10 - samples/sec: 281.60 - lr: 0.000151 - momentum: 0.000000
2023-10-08 20:23:09,815 epoch 2 - iter 72/121 - loss 1.28865549 - time (sec): 51.80 - samples/sec: 283.62 - lr: 0.000150 - momentum: 0.000000
2023-10-08 20:23:18,306 epoch 2 - iter 84/121 - loss 1.21968032 - time (sec): 60.29 - samples/sec: 283.73 - lr: 0.000148 - momentum: 0.000000
2023-10-08 20:23:26,781 epoch 2 - iter 96/121 - loss 1.15626234 - time (sec): 68.76 - samples/sec: 283.85 - lr: 0.000146 - momentum: 0.000000
2023-10-08 20:23:34,956 epoch 2 - iter 108/121 - loss 1.10820354 - time (sec): 76.94 - samples/sec: 282.68 - lr: 0.000144 - momentum: 0.000000
2023-10-08 20:23:44,146 epoch 2 - iter 120/121 - loss 1.04246135 - time (sec): 86.13 - samples/sec: 284.29 - lr: 0.000143 - momentum: 0.000000
2023-10-08 20:23:44,922 ----------------------------------------------------------------------------------------------------
2023-10-08 20:23:44,923 EPOCH 2 done: loss 1.0365 - lr: 0.000143
2023-10-08 20:23:50,689 DEV : loss 0.643786609172821 - f1-score (micro avg)  0.0
2023-10-08 20:23:50,695 ----------------------------------------------------------------------------------------------------
2023-10-08 20:23:59,765 epoch 3 - iter 12/121 - loss 0.55356155 - time (sec): 9.07 - samples/sec: 293.97 - lr: 0.000141 - momentum: 0.000000
2023-10-08 20:24:08,933 epoch 3 - iter 24/121 - loss 0.58950453 - time (sec): 18.24 - samples/sec: 292.49 - lr: 0.000139 - momentum: 0.000000
2023-10-08 20:24:17,647 epoch 3 - iter 36/121 - loss 0.58113678 - time (sec): 26.95 - samples/sec: 289.19 - lr: 0.000137 - momentum: 0.000000
2023-10-08 20:24:25,802 epoch 3 - iter 48/121 - loss 0.57384358 - time (sec): 35.11 - samples/sec: 285.06 - lr: 0.000135 - momentum: 0.000000
2023-10-08 20:24:34,033 epoch 3 - iter 60/121 - loss 0.54981326 - time (sec): 43.34 - samples/sec: 285.46 - lr: 0.000134 - momentum: 0.000000
2023-10-08 20:24:41,969 epoch 3 - iter 72/121 - loss 0.53976976 - time (sec): 51.27 - samples/sec: 283.15 - lr: 0.000132 - momentum: 0.000000
2023-10-08 20:24:50,710 epoch 3 - iter 84/121 - loss 0.52639915 - time (sec): 60.01 - samples/sec: 283.82 - lr: 0.000130 - momentum: 0.000000
2023-10-08 20:25:00,185 epoch 3 - iter 96/121 - loss 0.49739756 - time (sec): 69.49 - samples/sec: 284.58 - lr: 0.000128 - momentum: 0.000000
2023-10-08 20:25:08,614 epoch 3 - iter 108/121 - loss 0.48425359 - time (sec): 77.92 - samples/sec: 284.54 - lr: 0.000127 - momentum: 0.000000
2023-10-08 20:25:17,227 epoch 3 - iter 120/121 - loss 0.47509796 - time (sec): 86.53 - samples/sec: 284.26 - lr: 0.000125 - momentum: 0.000000
2023-10-08 20:25:17,777 ----------------------------------------------------------------------------------------------------
2023-10-08 20:25:17,777 EPOCH 3 done: loss 0.4748 - lr: 0.000125
2023-10-08 20:25:23,591 DEV : loss 0.36890920996665955 - f1-score (micro avg)  0.1559
2023-10-08 20:25:23,597 saving best model
2023-10-08 20:25:24,450 ----------------------------------------------------------------------------------------------------
2023-10-08 20:25:33,765 epoch 4 - iter 12/121 - loss 0.27461403 - time (sec): 9.31 - samples/sec: 285.27 - lr: 0.000123 - momentum: 0.000000
2023-10-08 20:25:42,894 epoch 4 - iter 24/121 - loss 0.27755240 - time (sec): 18.44 - samples/sec: 285.97 - lr: 0.000121 - momentum: 0.000000
2023-10-08 20:25:51,154 epoch 4 - iter 36/121 - loss 0.29195280 - time (sec): 26.70 - samples/sec: 283.60 - lr: 0.000120 - momentum: 0.000000
2023-10-08 20:25:59,533 epoch 4 - iter 48/121 - loss 0.29836698 - time (sec): 35.08 - samples/sec: 280.65 - lr: 0.000118 - momentum: 0.000000
2023-10-08 20:26:07,978 epoch 4 - iter 60/121 - loss 0.30533029 - time (sec): 43.53 - samples/sec: 280.70 - lr: 0.000116 - momentum: 0.000000
2023-10-08 20:26:16,709 epoch 4 - iter 72/121 - loss 0.30075527 - time (sec): 52.26 - samples/sec: 282.52 - lr: 0.000114 - momentum: 0.000000
2023-10-08 20:26:25,827 epoch 4 - iter 84/121 - loss 0.30211257 - time (sec): 61.38 - samples/sec: 283.06 - lr: 0.000113 - momentum: 0.000000
2023-10-08 20:26:34,685 epoch 4 - iter 96/121 - loss 0.29564739 - time (sec): 70.23 - samples/sec: 283.31 - lr: 0.000111 - momentum: 0.000000
2023-10-08 20:26:43,003 epoch 4 - iter 108/121 - loss 0.29558956 - time (sec): 78.55 - samples/sec: 281.66 - lr: 0.000109 - momentum: 0.000000
2023-10-08 20:26:51,959 epoch 4 - iter 120/121 - loss 0.29013761 - time (sec): 87.51 - samples/sec: 281.39 - lr: 0.000107 - momentum: 0.000000
2023-10-08 20:26:52,417 ----------------------------------------------------------------------------------------------------
2023-10-08 20:26:52,417 EPOCH 4 done: loss 0.2902 - lr: 0.000107
2023-10-08 20:26:58,347 DEV : loss 0.249277263879776 - f1-score (micro avg)  0.5452
2023-10-08 20:26:58,353 saving best model
2023-10-08 20:27:02,710 ----------------------------------------------------------------------------------------------------
2023-10-08 20:27:11,255 epoch 5 - iter 12/121 - loss 0.27928687 - time (sec): 8.54 - samples/sec: 271.66 - lr: 0.000105 - momentum: 0.000000
2023-10-08 20:27:20,445 epoch 5 - iter 24/121 - loss 0.25512842 - time (sec): 17.73 - samples/sec: 283.64 - lr: 0.000104 - momentum: 0.000000
2023-10-08 20:27:28,658 epoch 5 - iter 36/121 - loss 0.23515344 - time (sec): 25.95 - samples/sec: 279.92 - lr: 0.000102 - momentum: 0.000000
2023-10-08 20:27:37,994 epoch 5 - iter 48/121 - loss 0.22735843 - time (sec): 35.28 - samples/sec: 282.23 - lr: 0.000100 - momentum: 0.000000
2023-10-08 20:27:46,907 epoch 5 - iter 60/121 - loss 0.22192912 - time (sec): 44.20 - samples/sec: 278.96 - lr: 0.000098 - momentum: 0.000000
2023-10-08 20:27:56,382 epoch 5 - iter 72/121 - loss 0.20974637 - time (sec): 53.67 - samples/sec: 279.54 - lr: 0.000097 - momentum: 0.000000
2023-10-08 20:28:05,425 epoch 5 - iter 84/121 - loss 0.21050078 - time (sec): 62.71 - samples/sec: 278.89 - lr: 0.000095 - momentum: 0.000000
2023-10-08 20:28:14,253 epoch 5 - iter 96/121 - loss 0.20891343 - time (sec): 71.54 - samples/sec: 276.93 - lr: 0.000093 - momentum: 0.000000
2023-10-08 20:28:22,864 epoch 5 - iter 108/121 - loss 0.20885785 - time (sec): 80.15 - samples/sec: 275.14 - lr: 0.000091 - momentum: 0.000000
2023-10-08 20:28:32,320 epoch 5 - iter 120/121 - loss 0.20712592 - time (sec): 89.61 - samples/sec: 274.96 - lr: 0.000090 - momentum: 0.000000
2023-10-08 20:28:32,796 ----------------------------------------------------------------------------------------------------
2023-10-08 20:28:32,796 EPOCH 5 done: loss 0.2071 - lr: 0.000090
2023-10-08 20:28:39,095 DEV : loss 0.19593805074691772 - f1-score (micro avg)  0.6249
2023-10-08 20:28:39,101 saving best model
2023-10-08 20:28:43,363 ----------------------------------------------------------------------------------------------------
2023-10-08 20:28:52,053 epoch 6 - iter 12/121 - loss 0.14124031 - time (sec): 8.69 - samples/sec: 257.12 - lr: 0.000088 - momentum: 0.000000
2023-10-08 20:29:01,312 epoch 6 - iter 24/121 - loss 0.16743244 - time (sec): 17.95 - samples/sec: 260.21 - lr: 0.000086 - momentum: 0.000000
2023-10-08 20:29:10,839 epoch 6 - iter 36/121 - loss 0.17141953 - time (sec): 27.47 - samples/sec: 263.19 - lr: 0.000084 - momentum: 0.000000
2023-10-08 20:29:19,263 epoch 6 - iter 48/121 - loss 0.16587158 - time (sec): 35.90 - samples/sec: 261.46 - lr: 0.000082 - momentum: 0.000000
2023-10-08 20:29:29,061 epoch 6 - iter 60/121 - loss 0.16828021 - time (sec): 45.70 - samples/sec: 261.95 - lr: 0.000081 - momentum: 0.000000
2023-10-08 20:29:37,873 epoch 6 - iter 72/121 - loss 0.16848524 - time (sec): 54.51 - samples/sec: 261.28 - lr: 0.000079 - momentum: 0.000000
2023-10-08 20:29:47,353 epoch 6 - iter 84/121 - loss 0.16521968 - time (sec): 63.99 - samples/sec: 261.70 - lr: 0.000077 - momentum: 0.000000
2023-10-08 20:29:57,527 epoch 6 - iter 96/121 - loss 0.16409736 - time (sec): 74.16 - samples/sec: 263.40 - lr: 0.000075 - momentum: 0.000000
2023-10-08 20:30:06,879 epoch 6 - iter 108/121 - loss 0.15927078 - time (sec): 83.51 - samples/sec: 263.15 - lr: 0.000074 - momentum: 0.000000
2023-10-08 20:30:16,701 epoch 6 - iter 120/121 - loss 0.15856885 - time (sec): 93.34 - samples/sec: 263.70 - lr: 0.000072 - momentum: 0.000000
2023-10-08 20:30:17,259 ----------------------------------------------------------------------------------------------------
2023-10-08 20:30:17,260 EPOCH 6 done: loss 0.1587 - lr: 0.000072
2023-10-08 20:30:23,720 DEV : loss 0.16929559409618378 - f1-score (micro avg)  0.808
2023-10-08 20:30:23,726 saving best model
2023-10-08 20:30:28,106 ----------------------------------------------------------------------------------------------------
2023-10-08 20:30:37,857 epoch 7 - iter 12/121 - loss 0.12944446 - time (sec): 9.75 - samples/sec: 272.22 - lr: 0.000070 - momentum: 0.000000
2023-10-08 20:30:47,340 epoch 7 - iter 24/121 - loss 0.14141500 - time (sec): 19.23 - samples/sec: 274.63 - lr: 0.000068 - momentum: 0.000000
2023-10-08 20:30:57,111 epoch 7 - iter 36/121 - loss 0.14016248 - time (sec): 29.00 - samples/sec: 271.62 - lr: 0.000066 - momentum: 0.000000
2023-10-08 20:31:06,846 epoch 7 - iter 48/121 - loss 0.13853899 - time (sec): 38.74 - samples/sec: 272.10 - lr: 0.000065 - momentum: 0.000000
2023-10-08 20:31:15,451 epoch 7 - iter 60/121 - loss 0.13649677 - time (sec): 47.34 - samples/sec: 271.21 - lr: 0.000063 - momentum: 0.000000
2023-10-08 20:31:25,285 epoch 7 - iter 72/121 - loss 0.14153892 - time (sec): 57.18 - samples/sec: 272.03 - lr: 0.000061 - momentum: 0.000000
2023-10-08 20:31:34,769 epoch 7 - iter 84/121 - loss 0.13594019 - time (sec): 66.66 - samples/sec: 270.82 - lr: 0.000059 - momentum: 0.000000
2023-10-08 20:31:43,353 epoch 7 - iter 96/121 - loss 0.13016134 - time (sec): 75.25 - samples/sec: 268.43 - lr: 0.000058 - momentum: 0.000000
2023-10-08 20:31:52,749 epoch 7 - iter 108/121 - loss 0.12900492 - time (sec): 84.64 - samples/sec: 267.03 - lr: 0.000056 - momentum: 0.000000
2023-10-08 20:32:01,387 epoch 7 - iter 120/121 - loss 0.12699129 - time (sec): 93.28 - samples/sec: 264.00 - lr: 0.000054 - momentum: 0.000000
2023-10-08 20:32:01,886 ----------------------------------------------------------------------------------------------------
2023-10-08 20:32:01,887 EPOCH 7 done: loss 0.1270 - lr: 0.000054
2023-10-08 20:32:08,451 DEV : loss 0.1514769345521927 - f1-score (micro avg)  0.7952
2023-10-08 20:32:08,457 ----------------------------------------------------------------------------------------------------
2023-10-08 20:32:17,430 epoch 8 - iter 12/121 - loss 0.11070488 - time (sec): 8.97 - samples/sec: 257.58 - lr: 0.000052 - momentum: 0.000000
2023-10-08 20:32:26,294 epoch 8 - iter 24/121 - loss 0.11582423 - time (sec): 17.84 - samples/sec: 259.71 - lr: 0.000051 - momentum: 0.000000
2023-10-08 20:32:35,894 epoch 8 - iter 36/121 - loss 0.11715067 - time (sec): 27.44 - samples/sec: 263.49 - lr: 0.000049 - momentum: 0.000000
2023-10-08 20:32:45,372 epoch 8 - iter 48/121 - loss 0.11666868 - time (sec): 36.91 - samples/sec: 263.56 - lr: 0.000047 - momentum: 0.000000
2023-10-08 20:32:55,071 epoch 8 - iter 60/121 - loss 0.10825251 - time (sec): 46.61 - samples/sec: 263.79 - lr: 0.000045 - momentum: 0.000000
2023-10-08 20:33:03,724 epoch 8 - iter 72/121 - loss 0.11057782 - time (sec): 55.27 - samples/sec: 261.83 - lr: 0.000044 - momentum: 0.000000
2023-10-08 20:33:13,238 epoch 8 - iter 84/121 - loss 0.10997043 - time (sec): 64.78 - samples/sec: 262.06 - lr: 0.000042 - momentum: 0.000000
2023-10-08 20:33:23,237 epoch 8 - iter 96/121 - loss 0.11055068 - time (sec): 74.78 - samples/sec: 263.56 - lr: 0.000040 - momentum: 0.000000
2023-10-08 20:33:32,720 epoch 8 - iter 108/121 - loss 0.11076208 - time (sec): 84.26 - samples/sec: 263.12 - lr: 0.000038 - momentum: 0.000000
2023-10-08 20:33:41,990 epoch 8 - iter 120/121 - loss 0.10742794 - time (sec): 93.53 - samples/sec: 262.05 - lr: 0.000037 - momentum: 0.000000
2023-10-08 20:33:42,773 ----------------------------------------------------------------------------------------------------
2023-10-08 20:33:42,774 EPOCH 8 done: loss 0.1071 - lr: 0.000037
2023-10-08 20:33:49,188 DEV : loss 0.147888645529747 - f1-score (micro avg)  0.8069
2023-10-08 20:33:49,194 ----------------------------------------------------------------------------------------------------
2023-10-08 20:33:58,303 epoch 9 - iter 12/121 - loss 0.11454532 - time (sec): 9.11 - samples/sec: 265.49 - lr: 0.000035 - momentum: 0.000000
2023-10-08 20:34:07,677 epoch 9 - iter 24/121 - loss 0.10476188 - time (sec): 18.48 - samples/sec: 263.89 - lr: 0.000033 - momentum: 0.000000
2023-10-08 20:34:17,804 epoch 9 - iter 36/121 - loss 0.09375290 - time (sec): 28.61 - samples/sec: 268.21 - lr: 0.000031 - momentum: 0.000000
2023-10-08 20:34:27,231 epoch 9 - iter 48/121 - loss 0.09265415 - time (sec): 38.04 - samples/sec: 267.04 - lr: 0.000029 - momentum: 0.000000
2023-10-08 20:34:35,949 epoch 9 - iter 60/121 - loss 0.08753107 - time (sec): 46.75 - samples/sec: 265.31 - lr: 0.000028 - momentum: 0.000000
2023-10-08 20:34:45,231 epoch 9 - iter 72/121 - loss 0.08796092 - time (sec): 56.04 - samples/sec: 263.85 - lr: 0.000026 - momentum: 0.000000
2023-10-08 20:34:54,799 epoch 9 - iter 84/121 - loss 0.08585326 - time (sec): 65.60 - samples/sec: 262.63 - lr: 0.000024 - momentum: 0.000000
2023-10-08 20:35:03,974 epoch 9 - iter 96/121 - loss 0.08754369 - time (sec): 74.78 - samples/sec: 262.20 - lr: 0.000022 - momentum: 0.000000
2023-10-08 20:35:13,424 epoch 9 - iter 108/121 - loss 0.09096343 - time (sec): 84.23 - samples/sec: 262.17 - lr: 0.000021 - momentum: 0.000000
2023-10-08 20:35:23,051 epoch 9 - iter 120/121 - loss 0.09238782 - time (sec): 93.86 - samples/sec: 262.33 - lr: 0.000019 - momentum: 0.000000
2023-10-08 20:35:23,549 ----------------------------------------------------------------------------------------------------
2023-10-08 20:35:23,549 EPOCH 9 done: loss 0.0920 - lr: 0.000019
2023-10-08 20:35:30,153 DEV : loss 0.14555731415748596 - f1-score (micro avg)  0.8155
2023-10-08 20:35:30,159 saving best model
2023-10-08 20:35:34,523 ----------------------------------------------------------------------------------------------------
2023-10-08 20:35:44,235 epoch 10 - iter 12/121 - loss 0.08735455 - time (sec): 9.71 - samples/sec: 273.33 - lr: 0.000017 - momentum: 0.000000
2023-10-08 20:35:53,165 epoch 10 - iter 24/121 - loss 0.07783909 - time (sec): 18.64 - samples/sec: 268.29 - lr: 0.000015 - momentum: 0.000000
2023-10-08 20:36:01,952 epoch 10 - iter 36/121 - loss 0.07594591 - time (sec): 27.43 - samples/sec: 266.49 - lr: 0.000013 - momentum: 0.000000
2023-10-08 20:36:11,081 epoch 10 - iter 48/121 - loss 0.08000383 - time (sec): 36.56 - samples/sec: 259.32 - lr: 0.000012 - momentum: 0.000000
2023-10-08 20:36:20,688 epoch 10 - iter 60/121 - loss 0.07915962 - time (sec): 46.16 - samples/sec: 260.58 - lr: 0.000010 - momentum: 0.000000
2023-10-08 20:36:29,307 epoch 10 - iter 72/121 - loss 0.07897937 - time (sec): 54.78 - samples/sec: 260.01 - lr: 0.000008 - momentum: 0.000000
2023-10-08 20:36:38,576 epoch 10 - iter 84/121 - loss 0.07708388 - time (sec): 64.05 - samples/sec: 259.85 - lr: 0.000006 - momentum: 0.000000
2023-10-08 20:36:48,548 epoch 10 - iter 96/121 - loss 0.07938083 - time (sec): 74.02 - samples/sec: 260.65 - lr: 0.000005 - momentum: 0.000000
2023-10-08 20:36:58,737 epoch 10 - iter 108/121 - loss 0.08403503 - time (sec): 84.21 - samples/sec: 262.05 - lr: 0.000003 - momentum: 0.000000
2023-10-08 20:37:08,377 epoch 10 - iter 120/121 - loss 0.08467019 - time (sec): 93.85 - samples/sec: 261.21 - lr: 0.000001 - momentum: 0.000000
2023-10-08 20:37:09,144 ----------------------------------------------------------------------------------------------------
2023-10-08 20:37:09,144 EPOCH 10 done: loss 0.0845 - lr: 0.000001
2023-10-08 20:37:15,607 DEV : loss 0.1435980498790741 - f1-score (micro avg)  0.8144
2023-10-08 20:37:16,487 ----------------------------------------------------------------------------------------------------
2023-10-08 20:37:16,489 Loading model from best epoch ...
2023-10-08 20:37:19,070 SequenceTagger predicts: Dictionary with 25 tags: O, S-scope, B-scope, E-scope, I-scope, S-pers, B-pers, E-pers, I-pers, S-work, B-work, E-work, I-work, S-loc, B-loc, E-loc, I-loc, S-object, B-object, E-object, I-object, S-date, B-date, E-date, I-date
2023-10-08 20:37:25,596 
Results:
- F-score (micro) 0.8022
- F-score (macro) 0.4828
- Accuracy 0.6995

By class:
              precision    recall  f1-score   support

        pers     0.8252    0.8489    0.8369       139
       scope     0.7905    0.9070    0.8448       129
        work     0.6848    0.7875    0.7326        80
         loc     0.0000    0.0000    0.0000         9
        date     0.0000    0.0000    0.0000         3

   micro avg     0.7781    0.8278    0.8022       360
   macro avg     0.4601    0.5087    0.4828       360
weighted avg     0.7541    0.8278    0.7886       360

2023-10-08 20:37:25,597 ----------------------------------------------------------------------------------------------------