stefan-it
/

hmbench-newseye-fr-hmbert_64k-bs8-wsFalse-e10-lr5e-05-poolingfirst-layers-1-crfFalse-4

+2023-10-25 17:12:05,512 ----------------------------------------------------------------------------------------------------
+2023-10-25 17:12:05,513 Model: "SequenceTagger(
+  (embeddings): TransformerWordEmbeddings(
+    (model): BertModel(
+      (embeddings): BertEmbeddings(
+        (word_embeddings): Embedding(64001, 768)
+        (position_embeddings): Embedding(512, 768)
+        (token_type_embeddings): Embedding(2, 768)
+        (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (encoder): BertEncoder(
+        (layer): ModuleList(
+          (0-11): 12 x BertLayer(
+            (attention): BertAttention(
+              (self): BertSelfAttention(
+                (query): Linear(in_features=768, out_features=768, bias=True)
+                (key): Linear(in_features=768, out_features=768, bias=True)
+                (value): Linear(in_features=768, out_features=768, bias=True)
+                (dropout): Dropout(p=0.1, inplace=False)
+              )
+              (output): BertSelfOutput(
+                (dense): Linear(in_features=768, out_features=768, bias=True)
+                (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
+                (dropout): Dropout(p=0.1, inplace=False)
+              )
+            )
+            (intermediate): BertIntermediate(
+              (dense): Linear(in_features=768, out_features=3072, bias=True)
+              (intermediate_act_fn): GELUActivation()
+            )
+            (output): BertOutput(
+              (dense): Linear(in_features=3072, out_features=768, bias=True)
+              (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
+              (dropout): Dropout(p=0.1, inplace=False)
+            )
+          )
+        )
+      )
+      (pooler): BertPooler(
+        (dense): Linear(in_features=768, out_features=768, bias=True)
+        (activation): Tanh()
+      )
+    )
+  )
+  (locked_dropout): LockedDropout(p=0.5)
+  (linear): Linear(in_features=768, out_features=17, bias=True)
+  (loss_function): CrossEntropyLoss()
+)"
+2023-10-25 17:12:05,514 ----------------------------------------------------------------------------------------------------
+2023-10-25 17:12:05,514 MultiCorpus: 7142 train + 698 dev + 2570 test sentences
+ - NER_HIPE_2022 Corpus: 7142 train + 698 dev + 2570 test sentences - /root/.flair/datasets/ner_hipe_2022/v2.1/newseye/fr/with_doc_seperator
+2023-10-25 17:12:05,514 ----------------------------------------------------------------------------------------------------
+2023-10-25 17:12:05,514 Train:  7142 sentences
+2023-10-25 17:12:05,514         (train_with_dev=False, train_with_test=False)
+2023-10-25 17:12:05,514 ----------------------------------------------------------------------------------------------------
+2023-10-25 17:12:05,514 Training Params:
+2023-10-25 17:12:05,514  - learning_rate: "5e-05"
+2023-10-25 17:12:05,514  - mini_batch_size: "8"
+2023-10-25 17:12:05,514  - max_epochs: "10"
+2023-10-25 17:12:05,514  - shuffle: "True"
+2023-10-25 17:12:05,514 ----------------------------------------------------------------------------------------------------
+2023-10-25 17:12:05,514 Plugins:
+2023-10-25 17:12:05,514  - TensorboardLogger
+2023-10-25 17:12:05,514  - LinearScheduler | warmup_fraction: '0.1'
+2023-10-25 17:12:05,515 ----------------------------------------------------------------------------------------------------
+2023-10-25 17:12:05,515 Final evaluation on model from best epoch (best-model.pt)
+2023-10-25 17:12:05,515  - metric: "('micro avg', 'f1-score')"
+2023-10-25 17:12:05,515 ----------------------------------------------------------------------------------------------------
+2023-10-25 17:12:05,515 Computation:
+2023-10-25 17:12:05,515  - compute on device: cuda:0
+2023-10-25 17:12:05,515  - embedding storage: none
+2023-10-25 17:12:05,515 ----------------------------------------------------------------------------------------------------
+2023-10-25 17:12:05,515 Model training base path: "hmbench-newseye/fr-dbmdz/bert-base-historic-multilingual-64k-td-cased-bs8-wsFalse-e10-lr5e-05-poolingfirst-layers-1-crfFalse-4"
+2023-10-25 17:12:05,515 ----------------------------------------------------------------------------------------------------
+2023-10-25 17:12:05,515 ----------------------------------------------------------------------------------------------------
+2023-10-25 17:12:05,515 Logging anything other than scalars to TensorBoard is currently not supported.
+2023-10-25 17:12:11,754 epoch 1 - iter 89/893 - loss 1.86966354 - time (sec): 6.24 - samples/sec: 4048.40 - lr: 0.000005 - momentum: 0.000000
+2023-10-25 17:12:18,158 epoch 1 - iter 178/893 - loss 1.17037592 - time (sec): 12.64 - samples/sec: 4015.73 - lr: 0.000010 - momentum: 0.000000
+2023-10-25 17:12:24,252 epoch 1 - iter 267/893 - loss 0.89779536 - time (sec): 18.74 - samples/sec: 3990.87 - lr: 0.000015 - momentum: 0.000000
+2023-10-25 17:12:30,281 epoch 1 - iter 356/893 - loss 0.72799361 - time (sec): 24.77 - samples/sec: 4021.65 - lr: 0.000020 - momentum: 0.000000
+2023-10-25 17:12:36,084 epoch 1 - iter 445/893 - loss 0.62359043 - time (sec): 30.57 - samples/sec: 4037.40 - lr: 0.000025 - momentum: 0.000000
+2023-10-25 17:12:41,987 epoch 1 - iter 534/893 - loss 0.54978542 - time (sec): 36.47 - samples/sec: 4059.93 - lr: 0.000030 - momentum: 0.000000
+2023-10-25 17:12:48,656 epoch 1 - iter 623/893 - loss 0.49086057 - time (sec): 43.14 - samples/sec: 4008.81 - lr: 0.000035 - momentum: 0.000000
+2023-10-25 17:12:54,781 epoch 1 - iter 712/893 - loss 0.44720365 - time (sec): 49.27 - samples/sec: 4036.10 - lr: 0.000040 - momentum: 0.000000
+2023-10-25 17:13:00,618 epoch 1 - iter 801/893 - loss 0.41503176 - time (sec): 55.10 - samples/sec: 4063.39 - lr: 0.000045 - momentum: 0.000000
+2023-10-25 17:13:06,507 epoch 1 - iter 890/893 - loss 0.38844168 - time (sec): 60.99 - samples/sec: 4060.90 - lr: 0.000050 - momentum: 0.000000
+2023-10-25 17:13:06,717 ----------------------------------------------------------------------------------------------------
+2023-10-25 17:13:06,717 EPOCH 1 done: loss 0.3873 - lr: 0.000050
+2023-10-25 17:13:09,813 DEV : loss 0.10254143178462982 - f1-score (micro avg)  0.7386
+2023-10-25 17:13:09,836 saving best model
+2023-10-25 17:13:10,384 ----------------------------------------------------------------------------------------------------
+2023-10-25 17:13:16,410 epoch 2 - iter 89/893 - loss 0.11297432 - time (sec): 6.02 - samples/sec: 4100.95 - lr: 0.000049 - momentum: 0.000000
+2023-10-25 17:13:22,388 epoch 2 - iter 178/893 - loss 0.10095221 - time (sec): 12.00 - samples/sec: 4091.37 - lr: 0.000049 - momentum: 0.000000
+2023-10-25 17:13:28,578 epoch 2 - iter 267/893 - loss 0.09904465 - time (sec): 18.19 - samples/sec: 4123.74 - lr: 0.000048 - momentum: 0.000000
+2023-10-25 17:13:34,706 epoch 2 - iter 356/893 - loss 0.10304399 - time (sec): 24.32 - samples/sec: 4161.23 - lr: 0.000048 - momentum: 0.000000
+2023-10-25 17:13:40,891 epoch 2 - iter 445/893 - loss 0.10290863 - time (sec): 30.50 - samples/sec: 4163.32 - lr: 0.000047 - momentum: 0.000000
+2023-10-25 17:13:46,799 epoch 2 - iter 534/893 - loss 0.10253728 - time (sec): 36.41 - samples/sec: 4138.20 - lr: 0.000047 - momentum: 0.000000
+2023-10-25 17:13:52,856 epoch 2 - iter 623/893 - loss 0.10517292 - time (sec): 42.47 - samples/sec: 4127.97 - lr: 0.000046 - momentum: 0.000000
+2023-10-25 17:13:59,058 epoch 2 - iter 712/893 - loss 0.10448830 - time (sec): 48.67 - samples/sec: 4121.70 - lr: 0.000046 - momentum: 0.000000
+2023-10-25 17:14:05,695 epoch 2 - iter 801/893 - loss 0.10541126 - time (sec): 55.31 - samples/sec: 4030.63 - lr: 0.000045 - momentum: 0.000000
+2023-10-25 17:14:11,612 epoch 2 - iter 890/893 - loss 0.10497282 - time (sec): 61.23 - samples/sec: 4053.12 - lr: 0.000044 - momentum: 0.000000
+2023-10-25 17:14:11,796 ----------------------------------------------------------------------------------------------------
+2023-10-25 17:14:11,797 EPOCH 2 done: loss 0.1048 - lr: 0.000044
+2023-10-25 17:14:15,732 DEV : loss 0.09835401922464371 - f1-score (micro avg)  0.7484
+2023-10-25 17:14:15,753 saving best model
+2023-10-25 17:14:17,077 ----------------------------------------------------------------------------------------------------
+2023-10-25 17:14:22,720 epoch 3 - iter 89/893 - loss 0.06670513 - time (sec): 5.64 - samples/sec: 4160.09 - lr: 0.000044 - momentum: 0.000000
+2023-10-25 17:14:28,626 epoch 3 - iter 178/893 - loss 0.06908344 - time (sec): 11.55 - samples/sec: 4278.75 - lr: 0.000043 - momentum: 0.000000
+2023-10-25 17:14:34,039 epoch 3 - iter 267/893 - loss 0.06482755 - time (sec): 16.96 - samples/sec: 4378.26 - lr: 0.000043 - momentum: 0.000000
+2023-10-25 17:14:39,692 epoch 3 - iter 356/893 - loss 0.06663973 - time (sec): 22.61 - samples/sec: 4381.76 - lr: 0.000042 - momentum: 0.000000
+2023-10-25 17:14:45,211 epoch 3 - iter 445/893 - loss 0.06653035 - time (sec): 28.13 - samples/sec: 4430.59 - lr: 0.000042 - momentum: 0.000000
+2023-10-25 17:14:50,834 epoch 3 - iter 534/893 - loss 0.06616108 - time (sec): 33.75 - samples/sec: 4434.83 - lr: 0.000041 - momentum: 0.000000
+2023-10-25 17:14:56,338 epoch 3 - iter 623/893 - loss 0.06517711 - time (sec): 39.26 - samples/sec: 4441.20 - lr: 0.000041 - momentum: 0.000000
+2023-10-25 17:15:01,626 epoch 3 - iter 712/893 - loss 0.06547935 - time (sec): 44.55 - samples/sec: 4424.27 - lr: 0.000040 - momentum: 0.000000
+2023-10-25 17:15:07,582 epoch 3 - iter 801/893 - loss 0.06531523 - time (sec): 50.50 - samples/sec: 4426.12 - lr: 0.000039 - momentum: 0.000000
+2023-10-25 17:15:13,138 epoch 3 - iter 890/893 - loss 0.06609427 - time (sec): 56.06 - samples/sec: 4424.89 - lr: 0.000039 - momentum: 0.000000
+2023-10-25 17:15:13,306 ----------------------------------------------------------------------------------------------------
+2023-10-25 17:15:13,306 EPOCH 3 done: loss 0.0663 - lr: 0.000039
+2023-10-25 17:15:18,728 DEV : loss 0.10818858444690704 - f1-score (micro avg)  0.78
+2023-10-25 17:15:18,750 saving best model
+2023-10-25 17:15:19,433 ----------------------------------------------------------------------------------------------------
+2023-10-25 17:15:25,434 epoch 4 - iter 89/893 - loss 0.04360221 - time (sec): 6.00 - samples/sec: 4325.89 - lr: 0.000038 - momentum: 0.000000
+2023-10-25 17:15:31,204 epoch 4 - iter 178/893 - loss 0.04758612 - time (sec): 11.77 - samples/sec: 4382.46 - lr: 0.000038 - momentum: 0.000000
+2023-10-25 17:15:36,707 epoch 4 - iter 267/893 - loss 0.04849685 - time (sec): 17.27 - samples/sec: 4342.52 - lr: 0.000037 - momentum: 0.000000
+2023-10-25 17:15:42,413 epoch 4 - iter 356/893 - loss 0.04765784 - time (sec): 22.98 - samples/sec: 4307.89 - lr: 0.000037 - momentum: 0.000000
+2023-10-25 17:15:48,360 epoch 4 - iter 445/893 - loss 0.04585792 - time (sec): 28.92 - samples/sec: 4301.93 - lr: 0.000036 - momentum: 0.000000
+2023-10-25 17:15:53,987 epoch 4 - iter 534/893 - loss 0.04678008 - time (sec): 34.55 - samples/sec: 4339.31 - lr: 0.000036 - momentum: 0.000000
+2023-10-25 17:15:59,524 epoch 4 - iter 623/893 - loss 0.04623631 - time (sec): 40.09 - samples/sec: 4325.05 - lr: 0.000035 - momentum: 0.000000
+2023-10-25 17:16:05,227 epoch 4 - iter 712/893 - loss 0.04616789 - time (sec): 45.79 - samples/sec: 4335.78 - lr: 0.000034 - momentum: 0.000000
+2023-10-25 17:16:10,897 epoch 4 - iter 801/893 - loss 0.04654488 - time (sec): 51.46 - samples/sec: 4351.22 - lr: 0.000034 - momentum: 0.000000
+2023-10-25 17:16:16,408 epoch 4 - iter 890/893 - loss 0.04626882 - time (sec): 56.97 - samples/sec: 4340.98 - lr: 0.000033 - momentum: 0.000000
+2023-10-25 17:16:16,693 ----------------------------------------------------------------------------------------------------
+2023-10-25 17:16:16,694 EPOCH 4 done: loss 0.0460 - lr: 0.000033
+2023-10-25 17:16:21,128 DEV : loss 0.14430440962314606 - f1-score (micro avg)  0.7763
+2023-10-25 17:16:21,148 ----------------------------------------------------------------------------------------------------
+2023-10-25 17:16:26,833 epoch 5 - iter 89/893 - loss 0.03076065 - time (sec): 5.68 - samples/sec: 4079.73 - lr: 0.000033 - momentum: 0.000000
+2023-10-25 17:16:32,613 epoch 5 - iter 178/893 - loss 0.03387457 - time (sec): 11.46 - samples/sec: 4189.45 - lr: 0.000032 - momentum: 0.000000
+2023-10-25 17:16:38,412 epoch 5 - iter 267/893 - loss 0.03857465 - time (sec): 17.26 - samples/sec: 4219.15 - lr: 0.000032 - momentum: 0.000000
+2023-10-25 17:16:44,270 epoch 5 - iter 356/893 - loss 0.03668496 - time (sec): 23.12 - samples/sec: 4226.11 - lr: 0.000031 - momentum: 0.000000
+2023-10-25 17:16:50,915 epoch 5 - iter 445/893 - loss 0.03779554 - time (sec): 29.77 - samples/sec: 4131.62 - lr: 0.000031 - momentum: 0.000000
+2023-10-25 17:16:56,745 epoch 5 - iter 534/893 - loss 0.03736583 - time (sec): 35.60 - samples/sec: 4160.67 - lr: 0.000030 - momentum: 0.000000
+2023-10-25 17:17:02,359 epoch 5 - iter 623/893 - loss 0.03619574 - time (sec): 41.21 - samples/sec: 4183.66 - lr: 0.000029 - momentum: 0.000000
+2023-10-25 17:17:08,388 epoch 5 - iter 712/893 - loss 0.03616854 - time (sec): 47.24 - samples/sec: 4165.28 - lr: 0.000029 - momentum: 0.000000
+2023-10-25 17:17:14,180 epoch 5 - iter 801/893 - loss 0.03605795 - time (sec): 53.03 - samples/sec: 4207.84 - lr: 0.000028 - momentum: 0.000000
+2023-10-25 17:17:19,715 epoch 5 - iter 890/893 - loss 0.03609116 - time (sec): 58.57 - samples/sec: 4231.73 - lr: 0.000028 - momentum: 0.000000
+2023-10-25 17:17:19,915 ----------------------------------------------------------------------------------------------------
+2023-10-25 17:17:19,915 EPOCH 5 done: loss 0.0361 - lr: 0.000028
+2023-10-25 17:17:23,906 DEV : loss 0.1808791607618332 - f1-score (micro avg)  0.7874
+2023-10-25 17:17:23,926 saving best model
+2023-10-25 17:17:24,575 ----------------------------------------------------------------------------------------------------
+2023-10-25 17:17:30,427 epoch 6 - iter 89/893 - loss 0.03174096 - time (sec): 5.85 - samples/sec: 4049.45 - lr: 0.000027 - momentum: 0.000000
+2023-10-25 17:17:36,184 epoch 6 - iter 178/893 - loss 0.02710066 - time (sec): 11.61 - samples/sec: 4011.60 - lr: 0.000027 - momentum: 0.000000
+2023-10-25 17:17:42,186 epoch 6 - iter 267/893 - loss 0.02807563 - time (sec): 17.61 - samples/sec: 4098.40 - lr: 0.000026 - momentum: 0.000000
+2023-10-25 17:17:48,150 epoch 6 - iter 356/893 - loss 0.02692728 - time (sec): 23.57 - samples/sec: 4121.36 - lr: 0.000026 - momentum: 0.000000
+2023-10-25 17:17:54,081 epoch 6 - iter 445/893 - loss 0.02735570 - time (sec): 29.50 - samples/sec: 4159.09 - lr: 0.000025 - momentum: 0.000000
+2023-10-25 17:18:00,130 epoch 6 - iter 534/893 - loss 0.02805044 - time (sec): 35.55 - samples/sec: 4171.09 - lr: 0.000024 - momentum: 0.000000
+2023-10-25 17:18:06,195 epoch 6 - iter 623/893 - loss 0.02725646 - time (sec): 41.62 - samples/sec: 4157.30 - lr: 0.000024 - momentum: 0.000000
+2023-10-25 17:18:12,254 epoch 6 - iter 712/893 - loss 0.02769298 - time (sec): 47.68 - samples/sec: 4162.52 - lr: 0.000023 - momentum: 0.000000
+2023-10-25 17:18:18,094 epoch 6 - iter 801/893 - loss 0.02746510 - time (sec): 53.52 - samples/sec: 4161.49 - lr: 0.000023 - momentum: 0.000000
+2023-10-25 17:18:24,001 epoch 6 - iter 890/893 - loss 0.02725677 - time (sec): 59.42 - samples/sec: 4178.69 - lr: 0.000022 - momentum: 0.000000
+2023-10-25 17:18:24,190 ----------------------------------------------------------------------------------------------------
+2023-10-25 17:18:24,190 EPOCH 6 done: loss 0.0274 - lr: 0.000022
+2023-10-25 17:18:29,212 DEV : loss 0.18829816579818726 - f1-score (micro avg)  0.8008
+2023-10-25 17:18:29,234 saving best model
+2023-10-25 17:18:29,906 ----------------------------------------------------------------------------------------------------
+2023-10-25 17:18:35,941 epoch 7 - iter 89/893 - loss 0.01515087 - time (sec): 6.03 - samples/sec: 3972.69 - lr: 0.000022 - momentum: 0.000000
+2023-10-25 17:18:41,986 epoch 7 - iter 178/893 - loss 0.02051512 - time (sec): 12.08 - samples/sec: 4024.69 - lr: 0.000021 - momentum: 0.000000
+2023-10-25 17:18:48,051 epoch 7 - iter 267/893 - loss 0.01998553 - time (sec): 18.14 - samples/sec: 4115.71 - lr: 0.000021 - momentum: 0.000000
+2023-10-25 17:18:54,021 epoch 7 - iter 356/893 - loss 0.01986934 - time (sec): 24.11 - samples/sec: 4124.11 - lr: 0.000020 - momentum: 0.000000
+2023-10-25 17:18:59,887 epoch 7 - iter 445/893 - loss 0.02129780 - time (sec): 29.98 - samples/sec: 4178.30 - lr: 0.000019 - momentum: 0.000000
+2023-10-25 17:19:05,771 epoch 7 - iter 534/893 - loss 0.02089146 - time (sec): 35.86 - samples/sec: 4208.17 - lr: 0.000019 - momentum: 0.000000
+2023-10-25 17:19:11,666 epoch 7 - iter 623/893 - loss 0.02180007 - time (sec): 41.76 - samples/sec: 4201.24 - lr: 0.000018 - momentum: 0.000000
+2023-10-25 17:19:17,316 epoch 7 - iter 712/893 - loss 0.02130021 - time (sec): 47.41 - samples/sec: 4179.67 - lr: 0.000018 - momentum: 0.000000
+2023-10-25 17:19:23,114 epoch 7 - iter 801/893 - loss 0.02092378 - time (sec): 53.21 - samples/sec: 4187.33 - lr: 0.000017 - momentum: 0.000000
+2023-10-25 17:19:29,000 epoch 7 - iter 890/893 - loss 0.02059414 - time (sec): 59.09 - samples/sec: 4200.88 - lr: 0.000017 - momentum: 0.000000
+2023-10-25 17:19:29,168 ----------------------------------------------------------------------------------------------------
+2023-10-25 17:19:29,168 EPOCH 7 done: loss 0.0206 - lr: 0.000017
+2023-10-25 17:19:33,135 DEV : loss 0.20971202850341797 - f1-score (micro avg)  0.7835
+2023-10-25 17:19:33,158 ----------------------------------------------------------------------------------------------------
+2023-10-25 17:19:39,046 epoch 8 - iter 89/893 - loss 0.01764633 - time (sec): 5.89 - samples/sec: 4379.59 - lr: 0.000016 - momentum: 0.000000
+2023-10-25 17:19:45,066 epoch 8 - iter 178/893 - loss 0.01628569 - time (sec): 11.91 - samples/sec: 4235.59 - lr: 0.000016 - momentum: 0.000000
+2023-10-25 17:19:51,714 epoch 8 - iter 267/893 - loss 0.01625886 - time (sec): 18.55 - samples/sec: 4031.94 - lr: 0.000015 - momentum: 0.000000
+2023-10-25 17:19:57,412 epoch 8 - iter 356/893 - loss 0.01628296 - time (sec): 24.25 - samples/sec: 4045.87 - lr: 0.000014 - momentum: 0.000000
+2023-10-25 17:20:03,072 epoch 8 - iter 445/893 - loss 0.01501426 - time (sec): 29.91 - samples/sec: 4086.07 - lr: 0.000014 - momentum: 0.000000
+2023-10-25 17:20:08,856 epoch 8 - iter 534/893 - loss 0.01465639 - time (sec): 35.70 - samples/sec: 4134.41 - lr: 0.000013 - momentum: 0.000000
+2023-10-25 17:20:14,511 epoch 8 - iter 623/893 - loss 0.01504650 - time (sec): 41.35 - samples/sec: 4158.41 - lr: 0.000013 - momentum: 0.000000
+2023-10-25 17:20:20,232 epoch 8 - iter 712/893 - loss 0.01458875 - time (sec): 47.07 - samples/sec: 4166.37 - lr: 0.000012 - momentum: 0.000000
+2023-10-25 17:20:26,137 epoch 8 - iter 801/893 - loss 0.01570324 - time (sec): 52.98 - samples/sec: 4186.22 - lr: 0.000012 - momentum: 0.000000
+2023-10-25 17:20:32,101 epoch 8 - iter 890/893 - loss 0.01581706 - time (sec): 58.94 - samples/sec: 4207.71 - lr: 0.000011 - momentum: 0.000000
+2023-10-25 17:20:32,280 ----------------------------------------------------------------------------------------------------
+2023-10-25 17:20:32,281 EPOCH 8 done: loss 0.0158 - lr: 0.000011
+2023-10-25 17:20:36,350 DEV : loss 0.21289943158626556 - f1-score (micro avg)  0.8
+2023-10-25 17:20:36,375 ----------------------------------------------------------------------------------------------------
+2023-10-25 17:20:42,196 epoch 9 - iter 89/893 - loss 0.00765889 - time (sec): 5.82 - samples/sec: 4349.70 - lr: 0.000011 - momentum: 0.000000
+2023-10-25 17:20:48,053 epoch 9 - iter 178/893 - loss 0.00998425 - time (sec): 11.68 - samples/sec: 4306.03 - lr: 0.000010 - momentum: 0.000000
+2023-10-25 17:20:54,019 epoch 9 - iter 267/893 - loss 0.01244333 - time (sec): 17.64 - samples/sec: 4202.39 - lr: 0.000009 - momentum: 0.000000
+2023-10-25 17:20:59,745 epoch 9 - iter 356/893 - loss 0.01212745 - time (sec): 23.37 - samples/sec: 4282.98 - lr: 0.000009 - momentum: 0.000000
+2023-10-25 17:21:05,354 epoch 9 - iter 445/893 - loss 0.01178149 - time (sec): 28.98 - samples/sec: 4326.46 - lr: 0.000008 - momentum: 0.000000
+2023-10-25 17:21:10,965 epoch 9 - iter 534/893 - loss 0.01170529 - time (sec): 34.59 - samples/sec: 4302.74 - lr: 0.000008 - momentum: 0.000000
+2023-10-25 17:21:16,851 epoch 9 - iter 623/893 - loss 0.01136873 - time (sec): 40.47 - samples/sec: 4324.76 - lr: 0.000007 - momentum: 0.000000
+2023-10-25 17:21:22,488 epoch 9 - iter 712/893 - loss 0.01142673 - time (sec): 46.11 - samples/sec: 4298.22 - lr: 0.000007 - momentum: 0.000000
+2023-10-25 17:21:28,182 epoch 9 - iter 801/893 - loss 0.01136731 - time (sec): 51.81 - samples/sec: 4291.71 - lr: 0.000006 - momentum: 0.000000
+2023-10-25 17:21:34,076 epoch 9 - iter 890/893 - loss 0.01120456 - time (sec): 57.70 - samples/sec: 4294.92 - lr: 0.000006 - momentum: 0.000000
+2023-10-25 17:21:34,259 ----------------------------------------------------------------------------------------------------
+2023-10-25 17:21:34,259 EPOCH 9 done: loss 0.0112 - lr: 0.000006
+2023-10-25 17:21:39,355 DEV : loss 0.22147664427757263 - f1-score (micro avg)  0.7981
+2023-10-25 17:21:39,378 ----------------------------------------------------------------------------------------------------
+2023-10-25 17:21:44,817 epoch 10 - iter 89/893 - loss 0.00613679 - time (sec): 5.44 - samples/sec: 4461.62 - lr: 0.000005 - momentum: 0.000000
+2023-10-25 17:21:50,598 epoch 10 - iter 178/893 - loss 0.00627718 - time (sec): 11.22 - samples/sec: 4222.26 - lr: 0.000004 - momentum: 0.000000
+2023-10-25 17:21:56,574 epoch 10 - iter 267/893 - loss 0.00759554 - time (sec): 17.19 - samples/sec: 4268.40 - lr: 0.000004 - momentum: 0.000000
+2023-10-25 17:22:02,673 epoch 10 - iter 356/893 - loss 0.00807461 - time (sec): 23.29 - samples/sec: 4232.88 - lr: 0.000003 - momentum: 0.000000
+2023-10-25 17:22:08,727 epoch 10 - iter 445/893 - loss 0.00789473 - time (sec): 29.35 - samples/sec: 4155.31 - lr: 0.000003 - momentum: 0.000000
+2023-10-25 17:22:14,934 epoch 10 - iter 534/893 - loss 0.00783961 - time (sec): 35.55 - samples/sec: 4162.38 - lr: 0.000002 - momentum: 0.000000
+2023-10-25 17:22:20,987 epoch 10 - iter 623/893 - loss 0.00764283 - time (sec): 41.61 - samples/sec: 4158.54 - lr: 0.000002 - momentum: 0.000000
+2023-10-25 17:22:26,725 epoch 10 - iter 712/893 - loss 0.00703458 - time (sec): 47.35 - samples/sec: 4144.99 - lr: 0.000001 - momentum: 0.000000
+2023-10-25 17:22:32,754 epoch 10 - iter 801/893 - loss 0.00689931 - time (sec): 53.37 - samples/sec: 4157.08 - lr: 0.000001 - momentum: 0.000000
+2023-10-25 17:22:38,960 epoch 10 - iter 890/893 - loss 0.00666490 - time (sec): 59.58 - samples/sec: 4161.77 - lr: 0.000000 - momentum: 0.000000
+2023-10-25 17:22:39,141 ----------------------------------------------------------------------------------------------------
+2023-10-25 17:22:39,141 EPOCH 10 done: loss 0.0066 - lr: 0.000000
+2023-10-25 17:22:43,875 DEV : loss 0.23105905950069427 - f1-score (micro avg)  0.8
+2023-10-25 17:22:44,387 ----------------------------------------------------------------------------------------------------
+2023-10-25 17:22:44,388 Loading model from best epoch ...
+2023-10-25 17:22:46,202 SequenceTagger predicts: Dictionary with 17 tags: O, S-PER, B-PER, E-PER, I-PER, S-LOC, B-LOC, E-LOC, I-LOC, S-ORG, B-ORG, E-ORG, I-ORG, S-HumanProd, B-HumanProd, E-HumanProd, I-HumanProd
+2023-10-25 17:22:58,838
+Results:
+- F-score (micro) 0.6773
+- F-score (macro) 0.588
+- Accuracy 0.5304
+By class:
+              precision    recall  f1-score   support
+         LOC     0.6839    0.6877    0.6858      1095
+         PER     0.7644    0.7500    0.7571      1012
+         ORG     0.4379    0.5434    0.4850       357
+   HumanProd     0.3182    0.6364    0.4242        33
+   micro avg     0.6635    0.6916    0.6773      2497
+   macro avg     0.5511    0.6544    0.5880      2497
+weighted avg     0.6765    0.6916    0.6825      2497
+2023-10-25 17:22:58,839 ----------------------------------------------------------------------------------------------------