flair-hipe-2022-ajmc-en / training.log

Upload folder using huggingface_hub

522fb74 11 months ago

No virus

25.2 kB

	2023-10-06 11:18:54,722 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:18:54,723 Model: "SequenceTagger(
	(embeddings): ByT5Embeddings(
	(model): T5EncoderModel(
	(shared): Embedding(384, 1472)
	(encoder): T5Stack(
	(embed_tokens): Embedding(384, 1472)
	(block): ModuleList(
	(0): T5Block(
	(layer): ModuleList(
	(0): T5LayerSelfAttention(
	(SelfAttention): T5Attention(
	(q): Linear(in_features=1472, out_features=384, bias=False)
	(k): Linear(in_features=1472, out_features=384, bias=False)
	(v): Linear(in_features=1472, out_features=384, bias=False)
	(o): Linear(in_features=384, out_features=1472, bias=False)
	(relative_attention_bias): Embedding(32, 6)
	)
	(layer_norm): T5LayerNorm()
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(1): T5LayerFF(
	(DenseReluDense): T5DenseGatedActDense(
	(wi_0): Linear(in_features=1472, out_features=3584, bias=False)
	(wi_1): Linear(in_features=1472, out_features=3584, bias=False)
	(wo): Linear(in_features=3584, out_features=1472, bias=False)
	(dropout): Dropout(p=0.1, inplace=False)
	(act): NewGELUActivation()
	)
	(layer_norm): T5LayerNorm()
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	)
	(1-11): 11 x T5Block(
	(layer): ModuleList(
	(0): T5LayerSelfAttention(
	(SelfAttention): T5Attention(
	(q): Linear(in_features=1472, out_features=384, bias=False)
	(k): Linear(in_features=1472, out_features=384, bias=False)
	(v): Linear(in_features=1472, out_features=384, bias=False)
	(o): Linear(in_features=384, out_features=1472, bias=False)
	)
	(layer_norm): T5LayerNorm()
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(1): T5LayerFF(
	(DenseReluDense): T5DenseGatedActDense(
	(wi_0): Linear(in_features=1472, out_features=3584, bias=False)
	(wi_1): Linear(in_features=1472, out_features=3584, bias=False)
	(wo): Linear(in_features=3584, out_features=1472, bias=False)
	(dropout): Dropout(p=0.1, inplace=False)
	(act): NewGELUActivation()
	)
	(layer_norm): T5LayerNorm()
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	)
	)
	(final_layer_norm): T5LayerNorm()
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	)
	(locked_dropout): LockedDropout(p=0.5)
	(linear): Linear(in_features=1472, out_features=25, bias=True)
	(loss_function): CrossEntropyLoss()
	)"
	2023-10-06 11:18:54,723 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:18:54,723 MultiCorpus: 1214 train + 266 dev + 251 test sentences
	- NER_HIPE_2022 Corpus: 1214 train + 266 dev + 251 test sentences - /app/.flair/datasets/ner_hipe_2022/v2.1/ajmc/en/with_doc_seperator
	2023-10-06 11:18:54,723 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:18:54,723 Train: 1214 sentences
	2023-10-06 11:18:54,723 (train_with_dev=False, train_with_test=False)
	2023-10-06 11:18:54,723 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:18:54,724 Training Params:
	2023-10-06 11:18:54,724 - learning_rate: "0.00016"
	2023-10-06 11:18:54,724 - mini_batch_size: "4"
	2023-10-06 11:18:54,724 - max_epochs: "10"
	2023-10-06 11:18:54,724 - shuffle: "True"
	2023-10-06 11:18:54,724 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:18:54,724 Plugins:
	2023-10-06 11:18:54,724 - TensorboardLogger
	2023-10-06 11:18:54,724 - LinearScheduler \| warmup_fraction: '0.1'
	2023-10-06 11:18:54,724 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:18:54,724 Final evaluation on model from best epoch (best-model.pt)
	2023-10-06 11:18:54,724 - metric: "('micro avg', 'f1-score')"
	2023-10-06 11:18:54,724 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:18:54,724 Computation:
	2023-10-06 11:18:54,724 - compute on device: cuda:0
	2023-10-06 11:18:54,724 - embedding storage: none
	2023-10-06 11:18:54,724 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:18:54,724 Model training base path: "hmbench-ajmc/en-hmbyt5-preliminary/byt5-small-historic-multilingual-span20-flax-bs4-wsFalse-e10-lr0.00016-poolingfirst-layers-1-crfFalse-2"
	2023-10-06 11:18:54,725 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:18:54,725 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:18:54,725 Logging anything other than scalars to TensorBoard is currently not supported.
	2023-10-06 11:19:06,277 epoch 1 - iter 30/304 - loss 3.23280502 - time (sec): 11.55 - samples/sec: 267.77 - lr: 0.000015 - momentum: 0.000000
	2023-10-06 11:19:17,928 epoch 1 - iter 60/304 - loss 3.22267428 - time (sec): 23.20 - samples/sec: 265.71 - lr: 0.000031 - momentum: 0.000000
	2023-10-06 11:19:29,792 epoch 1 - iter 90/304 - loss 3.20164486 - time (sec): 35.07 - samples/sec: 267.18 - lr: 0.000047 - momentum: 0.000000
	2023-10-06 11:19:42,315 epoch 1 - iter 120/304 - loss 3.14013980 - time (sec): 47.59 - samples/sec: 267.71 - lr: 0.000063 - momentum: 0.000000
	2023-10-06 11:19:54,285 epoch 1 - iter 150/304 - loss 3.04148856 - time (sec): 59.56 - samples/sec: 265.87 - lr: 0.000078 - momentum: 0.000000
	2023-10-06 11:20:06,390 epoch 1 - iter 180/304 - loss 2.92038907 - time (sec): 71.66 - samples/sec: 265.36 - lr: 0.000094 - momentum: 0.000000
	2023-10-06 11:20:17,808 epoch 1 - iter 210/304 - loss 2.80417689 - time (sec): 83.08 - samples/sec: 262.65 - lr: 0.000110 - momentum: 0.000000
	2023-10-06 11:20:29,601 epoch 1 - iter 240/304 - loss 2.66758780 - time (sec): 94.88 - samples/sec: 261.89 - lr: 0.000126 - momentum: 0.000000
	2023-10-06 11:20:40,947 epoch 1 - iter 270/304 - loss 2.53596647 - time (sec): 106.22 - samples/sec: 259.49 - lr: 0.000142 - momentum: 0.000000
	2023-10-06 11:20:53,095 epoch 1 - iter 300/304 - loss 2.37932678 - time (sec): 118.37 - samples/sec: 259.27 - lr: 0.000157 - momentum: 0.000000
	2023-10-06 11:20:54,412 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:20:54,413 EPOCH 1 done: loss 2.3668 - lr: 0.000157
	2023-10-06 11:21:02,136 DEV : loss 0.8940157890319824 - f1-score (micro avg) 0.0
	2023-10-06 11:21:02,142 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:21:14,199 epoch 2 - iter 30/304 - loss 0.84398850 - time (sec): 12.06 - samples/sec: 255.15 - lr: 0.000158 - momentum: 0.000000
	2023-10-06 11:21:26,240 epoch 2 - iter 60/304 - loss 0.71960364 - time (sec): 24.10 - samples/sec: 251.12 - lr: 0.000157 - momentum: 0.000000
	2023-10-06 11:21:38,825 epoch 2 - iter 90/304 - loss 0.69902046 - time (sec): 36.68 - samples/sec: 250.94 - lr: 0.000155 - momentum: 0.000000
	2023-10-06 11:21:50,702 epoch 2 - iter 120/304 - loss 0.65342144 - time (sec): 48.56 - samples/sec: 251.76 - lr: 0.000153 - momentum: 0.000000
	2023-10-06 11:22:02,399 epoch 2 - iter 150/304 - loss 0.61513172 - time (sec): 60.26 - samples/sec: 250.32 - lr: 0.000151 - momentum: 0.000000
	2023-10-06 11:22:14,971 epoch 2 - iter 180/304 - loss 0.57390342 - time (sec): 72.83 - samples/sec: 251.94 - lr: 0.000150 - momentum: 0.000000
	2023-10-06 11:22:27,394 epoch 2 - iter 210/304 - loss 0.53395295 - time (sec): 85.25 - samples/sec: 251.38 - lr: 0.000148 - momentum: 0.000000
	2023-10-06 11:22:38,646 epoch 2 - iter 240/304 - loss 0.51499294 - time (sec): 96.50 - samples/sec: 251.41 - lr: 0.000146 - momentum: 0.000000
	2023-10-06 11:22:50,525 epoch 2 - iter 270/304 - loss 0.49138422 - time (sec): 108.38 - samples/sec: 253.49 - lr: 0.000144 - momentum: 0.000000
	2023-10-06 11:23:01,692 epoch 2 - iter 300/304 - loss 0.47629857 - time (sec): 119.55 - samples/sec: 255.71 - lr: 0.000143 - momentum: 0.000000
	2023-10-06 11:23:03,107 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:23:03,107 EPOCH 2 done: loss 0.4747 - lr: 0.000143
	2023-10-06 11:23:10,353 DEV : loss 0.3135835826396942 - f1-score (micro avg) 0.4828
	2023-10-06 11:23:10,362 saving best model
	2023-10-06 11:23:11,216 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:23:22,416 epoch 3 - iter 30/304 - loss 0.25890649 - time (sec): 11.20 - samples/sec: 275.67 - lr: 0.000141 - momentum: 0.000000
	2023-10-06 11:23:33,344 epoch 3 - iter 60/304 - loss 0.23641783 - time (sec): 22.13 - samples/sec: 269.90 - lr: 0.000139 - momentum: 0.000000
	2023-10-06 11:23:44,494 epoch 3 - iter 90/304 - loss 0.23071244 - time (sec): 33.28 - samples/sec: 267.13 - lr: 0.000137 - momentum: 0.000000
	2023-10-06 11:23:57,028 epoch 3 - iter 120/304 - loss 0.22950828 - time (sec): 45.81 - samples/sec: 272.85 - lr: 0.000135 - momentum: 0.000000
	2023-10-06 11:24:08,444 epoch 3 - iter 150/304 - loss 0.23056855 - time (sec): 57.23 - samples/sec: 272.32 - lr: 0.000134 - momentum: 0.000000
	2023-10-06 11:24:19,960 epoch 3 - iter 180/304 - loss 0.21582432 - time (sec): 68.74 - samples/sec: 271.92 - lr: 0.000132 - momentum: 0.000000
	2023-10-06 11:24:30,924 epoch 3 - iter 210/304 - loss 0.20806992 - time (sec): 79.71 - samples/sec: 270.87 - lr: 0.000130 - momentum: 0.000000
	2023-10-06 11:24:42,169 epoch 3 - iter 240/304 - loss 0.20498504 - time (sec): 90.95 - samples/sec: 272.14 - lr: 0.000128 - momentum: 0.000000
	2023-10-06 11:24:53,388 epoch 3 - iter 270/304 - loss 0.19803346 - time (sec): 102.17 - samples/sec: 271.72 - lr: 0.000127 - momentum: 0.000000
	2023-10-06 11:25:04,448 epoch 3 - iter 300/304 - loss 0.19724389 - time (sec): 113.23 - samples/sec: 270.55 - lr: 0.000125 - momentum: 0.000000
	2023-10-06 11:25:05,785 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:25:05,785 EPOCH 3 done: loss 0.1970 - lr: 0.000125
	2023-10-06 11:25:12,953 DEV : loss 0.1839980185031891 - f1-score (micro avg) 0.6935
	2023-10-06 11:25:12,962 saving best model
	2023-10-06 11:25:17,292 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:25:28,279 epoch 4 - iter 30/304 - loss 0.12397772 - time (sec): 10.98 - samples/sec: 256.54 - lr: 0.000123 - momentum: 0.000000
	2023-10-06 11:25:39,385 epoch 4 - iter 60/304 - loss 0.12952066 - time (sec): 22.09 - samples/sec: 258.98 - lr: 0.000121 - momentum: 0.000000
	2023-10-06 11:25:50,956 epoch 4 - iter 90/304 - loss 0.12637612 - time (sec): 33.66 - samples/sec: 265.05 - lr: 0.000119 - momentum: 0.000000
	2023-10-06 11:26:02,254 epoch 4 - iter 120/304 - loss 0.12132022 - time (sec): 44.96 - samples/sec: 265.79 - lr: 0.000118 - momentum: 0.000000
	2023-10-06 11:26:14,424 epoch 4 - iter 150/304 - loss 0.12165008 - time (sec): 57.13 - samples/sec: 269.05 - lr: 0.000116 - momentum: 0.000000
	2023-10-06 11:26:26,441 epoch 4 - iter 180/304 - loss 0.11739291 - time (sec): 69.15 - samples/sec: 271.36 - lr: 0.000114 - momentum: 0.000000
	2023-10-06 11:26:37,875 epoch 4 - iter 210/304 - loss 0.11738931 - time (sec): 80.58 - samples/sec: 271.10 - lr: 0.000112 - momentum: 0.000000
	2023-10-06 11:26:48,927 epoch 4 - iter 240/304 - loss 0.11367717 - time (sec): 91.63 - samples/sec: 269.89 - lr: 0.000111 - momentum: 0.000000
	2023-10-06 11:27:00,083 epoch 4 - iter 270/304 - loss 0.11160862 - time (sec): 102.79 - samples/sec: 268.84 - lr: 0.000109 - momentum: 0.000000
	2023-10-06 11:27:11,401 epoch 4 - iter 300/304 - loss 0.10767421 - time (sec): 114.11 - samples/sec: 267.63 - lr: 0.000107 - momentum: 0.000000
	2023-10-06 11:27:12,975 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:27:12,976 EPOCH 4 done: loss 0.1083 - lr: 0.000107
	2023-10-06 11:27:20,539 DEV : loss 0.14643196761608124 - f1-score (micro avg) 0.8098
	2023-10-06 11:27:20,547 saving best model
	2023-10-06 11:27:24,869 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:27:36,104 epoch 5 - iter 30/304 - loss 0.05893097 - time (sec): 11.23 - samples/sec: 265.28 - lr: 0.000105 - momentum: 0.000000
	2023-10-06 11:27:47,508 epoch 5 - iter 60/304 - loss 0.06093974 - time (sec): 22.64 - samples/sec: 257.44 - lr: 0.000103 - momentum: 0.000000
	2023-10-06 11:28:00,110 epoch 5 - iter 90/304 - loss 0.06490850 - time (sec): 35.24 - samples/sec: 263.51 - lr: 0.000102 - momentum: 0.000000
	2023-10-06 11:28:12,105 epoch 5 - iter 120/304 - loss 0.06402128 - time (sec): 47.23 - samples/sec: 263.33 - lr: 0.000100 - momentum: 0.000000
	2023-10-06 11:28:24,220 epoch 5 - iter 150/304 - loss 0.06709653 - time (sec): 59.35 - samples/sec: 263.14 - lr: 0.000098 - momentum: 0.000000
	2023-10-06 11:28:36,465 epoch 5 - iter 180/304 - loss 0.06578819 - time (sec): 71.59 - samples/sec: 261.93 - lr: 0.000096 - momentum: 0.000000
	2023-10-06 11:28:47,721 epoch 5 - iter 210/304 - loss 0.06346072 - time (sec): 82.85 - samples/sec: 257.61 - lr: 0.000094 - momentum: 0.000000
	2023-10-06 11:28:59,136 epoch 5 - iter 240/304 - loss 0.06379421 - time (sec): 94.27 - samples/sec: 256.46 - lr: 0.000093 - momentum: 0.000000
	2023-10-06 11:29:11,538 epoch 5 - iter 270/304 - loss 0.06374858 - time (sec): 106.67 - samples/sec: 256.63 - lr: 0.000091 - momentum: 0.000000
	2023-10-06 11:29:23,757 epoch 5 - iter 300/304 - loss 0.06675049 - time (sec): 118.89 - samples/sec: 257.48 - lr: 0.000089 - momentum: 0.000000
	2023-10-06 11:29:25,281 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:29:25,282 EPOCH 5 done: loss 0.0663 - lr: 0.000089
	2023-10-06 11:29:33,343 DEV : loss 0.142156183719635 - f1-score (micro avg) 0.8237
	2023-10-06 11:29:33,350 saving best model
	2023-10-06 11:29:37,683 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:29:49,439 epoch 6 - iter 30/304 - loss 0.04719743 - time (sec): 11.75 - samples/sec: 250.80 - lr: 0.000087 - momentum: 0.000000
	2023-10-06 11:30:01,514 epoch 6 - iter 60/304 - loss 0.05141651 - time (sec): 23.83 - samples/sec: 251.54 - lr: 0.000085 - momentum: 0.000000
	2023-10-06 11:30:13,127 epoch 6 - iter 90/304 - loss 0.05337061 - time (sec): 35.44 - samples/sec: 252.16 - lr: 0.000084 - momentum: 0.000000
	2023-10-06 11:30:25,134 epoch 6 - iter 120/304 - loss 0.05387818 - time (sec): 47.45 - samples/sec: 251.55 - lr: 0.000082 - momentum: 0.000000
	2023-10-06 11:30:37,112 epoch 6 - iter 150/304 - loss 0.05061363 - time (sec): 59.43 - samples/sec: 252.88 - lr: 0.000080 - momentum: 0.000000
	2023-10-06 11:30:49,479 epoch 6 - iter 180/304 - loss 0.05163472 - time (sec): 71.79 - samples/sec: 255.63 - lr: 0.000078 - momentum: 0.000000
	2023-10-06 11:31:00,754 epoch 6 - iter 210/304 - loss 0.05441294 - time (sec): 83.07 - samples/sec: 256.26 - lr: 0.000077 - momentum: 0.000000
	2023-10-06 11:31:12,972 epoch 6 - iter 240/304 - loss 0.04984931 - time (sec): 95.29 - samples/sec: 258.76 - lr: 0.000075 - momentum: 0.000000
	2023-10-06 11:31:24,420 epoch 6 - iter 270/304 - loss 0.04806941 - time (sec): 106.73 - samples/sec: 259.32 - lr: 0.000073 - momentum: 0.000000
	2023-10-06 11:31:35,735 epoch 6 - iter 300/304 - loss 0.04815844 - time (sec): 118.05 - samples/sec: 260.13 - lr: 0.000071 - momentum: 0.000000
	2023-10-06 11:31:36,953 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:31:36,954 EPOCH 6 done: loss 0.0480 - lr: 0.000071
	2023-10-06 11:31:43,942 DEV : loss 0.15544277429580688 - f1-score (micro avg) 0.8353
	2023-10-06 11:31:43,948 saving best model
	2023-10-06 11:31:48,274 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:31:59,658 epoch 7 - iter 30/304 - loss 0.04314236 - time (sec): 11.38 - samples/sec: 271.21 - lr: 0.000069 - momentum: 0.000000
	2023-10-06 11:32:11,020 epoch 7 - iter 60/304 - loss 0.02656087 - time (sec): 22.74 - samples/sec: 273.22 - lr: 0.000068 - momentum: 0.000000
	2023-10-06 11:32:22,477 epoch 7 - iter 90/304 - loss 0.03582258 - time (sec): 34.20 - samples/sec: 275.07 - lr: 0.000066 - momentum: 0.000000
	2023-10-06 11:32:34,161 epoch 7 - iter 120/304 - loss 0.04110032 - time (sec): 45.88 - samples/sec: 273.62 - lr: 0.000064 - momentum: 0.000000
	2023-10-06 11:32:44,970 epoch 7 - iter 150/304 - loss 0.04287401 - time (sec): 56.69 - samples/sec: 271.07 - lr: 0.000062 - momentum: 0.000000
	2023-10-06 11:32:56,196 epoch 7 - iter 180/304 - loss 0.03931426 - time (sec): 67.92 - samples/sec: 269.55 - lr: 0.000061 - momentum: 0.000000
	2023-10-06 11:33:07,609 epoch 7 - iter 210/304 - loss 0.03759564 - time (sec): 79.33 - samples/sec: 269.62 - lr: 0.000059 - momentum: 0.000000
	2023-10-06 11:33:18,767 epoch 7 - iter 240/304 - loss 0.03621065 - time (sec): 90.49 - samples/sec: 268.77 - lr: 0.000057 - momentum: 0.000000
	2023-10-06 11:33:30,772 epoch 7 - iter 270/304 - loss 0.03523973 - time (sec): 102.50 - samples/sec: 268.88 - lr: 0.000055 - momentum: 0.000000
	2023-10-06 11:33:42,020 epoch 7 - iter 300/304 - loss 0.03705883 - time (sec): 113.74 - samples/sec: 269.06 - lr: 0.000054 - momentum: 0.000000
	2023-10-06 11:33:43,436 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:33:43,437 EPOCH 7 done: loss 0.0367 - lr: 0.000054
	2023-10-06 11:33:50,541 DEV : loss 0.1492297500371933 - f1-score (micro avg) 0.8435
	2023-10-06 11:33:50,548 saving best model
	2023-10-06 11:33:54,879 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:34:06,054 epoch 8 - iter 30/304 - loss 0.03218697 - time (sec): 11.17 - samples/sec: 258.75 - lr: 0.000052 - momentum: 0.000000
	2023-10-06 11:34:17,624 epoch 8 - iter 60/304 - loss 0.02731734 - time (sec): 22.74 - samples/sec: 264.88 - lr: 0.000050 - momentum: 0.000000
	2023-10-06 11:34:29,003 epoch 8 - iter 90/304 - loss 0.02188931 - time (sec): 34.12 - samples/sec: 267.10 - lr: 0.000048 - momentum: 0.000000
	2023-10-06 11:34:40,978 epoch 8 - iter 120/304 - loss 0.02915435 - time (sec): 46.10 - samples/sec: 270.00 - lr: 0.000046 - momentum: 0.000000
	2023-10-06 11:34:52,063 epoch 8 - iter 150/304 - loss 0.03216068 - time (sec): 57.18 - samples/sec: 270.89 - lr: 0.000045 - momentum: 0.000000
	2023-10-06 11:35:03,065 epoch 8 - iter 180/304 - loss 0.03239949 - time (sec): 68.18 - samples/sec: 269.05 - lr: 0.000043 - momentum: 0.000000
	2023-10-06 11:35:14,605 epoch 8 - iter 210/304 - loss 0.03143481 - time (sec): 79.72 - samples/sec: 270.36 - lr: 0.000041 - momentum: 0.000000
	2023-10-06 11:35:25,798 epoch 8 - iter 240/304 - loss 0.03117235 - time (sec): 90.92 - samples/sec: 270.52 - lr: 0.000039 - momentum: 0.000000
	2023-10-06 11:35:36,506 epoch 8 - iter 270/304 - loss 0.03155368 - time (sec): 101.62 - samples/sec: 269.96 - lr: 0.000038 - momentum: 0.000000
	2023-10-06 11:35:48,073 epoch 8 - iter 300/304 - loss 0.02966872 - time (sec): 113.19 - samples/sec: 270.86 - lr: 0.000036 - momentum: 0.000000
	2023-10-06 11:35:49,338 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:35:49,339 EPOCH 8 done: loss 0.0299 - lr: 0.000036
	2023-10-06 11:35:56,469 DEV : loss 0.15260867774486542 - f1-score (micro avg) 0.8501
	2023-10-06 11:35:56,478 saving best model
	2023-10-06 11:36:00,804 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:36:12,364 epoch 9 - iter 30/304 - loss 0.01720815 - time (sec): 11.56 - samples/sec: 265.33 - lr: 0.000034 - momentum: 0.000000
	2023-10-06 11:36:23,267 epoch 9 - iter 60/304 - loss 0.01566765 - time (sec): 22.46 - samples/sec: 267.25 - lr: 0.000032 - momentum: 0.000000
	2023-10-06 11:36:34,334 epoch 9 - iter 90/304 - loss 0.01381731 - time (sec): 33.53 - samples/sec: 265.83 - lr: 0.000030 - momentum: 0.000000
	2023-10-06 11:36:46,087 epoch 9 - iter 120/304 - loss 0.02016463 - time (sec): 45.28 - samples/sec: 269.22 - lr: 0.000029 - momentum: 0.000000
	2023-10-06 11:36:57,288 epoch 9 - iter 150/304 - loss 0.02271172 - time (sec): 56.48 - samples/sec: 270.06 - lr: 0.000027 - momentum: 0.000000
	2023-10-06 11:37:09,194 epoch 9 - iter 180/304 - loss 0.02697841 - time (sec): 68.39 - samples/sec: 273.42 - lr: 0.000025 - momentum: 0.000000
	2023-10-06 11:37:20,137 epoch 9 - iter 210/304 - loss 0.02519416 - time (sec): 79.33 - samples/sec: 271.43 - lr: 0.000023 - momentum: 0.000000
	2023-10-06 11:37:31,743 epoch 9 - iter 240/304 - loss 0.02668071 - time (sec): 90.94 - samples/sec: 271.28 - lr: 0.000022 - momentum: 0.000000
	2023-10-06 11:37:42,866 epoch 9 - iter 270/304 - loss 0.02689309 - time (sec): 102.06 - samples/sec: 269.99 - lr: 0.000020 - momentum: 0.000000
	2023-10-06 11:37:54,297 epoch 9 - iter 300/304 - loss 0.02592662 - time (sec): 113.49 - samples/sec: 269.72 - lr: 0.000018 - momentum: 0.000000
	2023-10-06 11:37:55,755 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:37:55,755 EPOCH 9 done: loss 0.0260 - lr: 0.000018
	2023-10-06 11:38:03,089 DEV : loss 0.15542393922805786 - f1-score (micro avg) 0.8548
	2023-10-06 11:38:03,096 saving best model
	2023-10-06 11:38:07,435 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:38:19,068 epoch 10 - iter 30/304 - loss 0.03378871 - time (sec): 11.63 - samples/sec: 261.03 - lr: 0.000016 - momentum: 0.000000
	2023-10-06 11:38:30,437 epoch 10 - iter 60/304 - loss 0.02038193 - time (sec): 23.00 - samples/sec: 259.17 - lr: 0.000014 - momentum: 0.000000
	2023-10-06 11:38:42,524 epoch 10 - iter 90/304 - loss 0.01635131 - time (sec): 35.09 - samples/sec: 263.31 - lr: 0.000013 - momentum: 0.000000
	2023-10-06 11:38:54,185 epoch 10 - iter 120/304 - loss 0.02086686 - time (sec): 46.75 - samples/sec: 262.96 - lr: 0.000011 - momentum: 0.000000
	2023-10-06 11:39:06,591 epoch 10 - iter 150/304 - loss 0.01965079 - time (sec): 59.15 - samples/sec: 264.95 - lr: 0.000009 - momentum: 0.000000
	2023-10-06 11:39:18,554 epoch 10 - iter 180/304 - loss 0.01872377 - time (sec): 71.12 - samples/sec: 264.36 - lr: 0.000007 - momentum: 0.000000
	2023-10-06 11:39:30,013 epoch 10 - iter 210/304 - loss 0.02004221 - time (sec): 82.58 - samples/sec: 264.22 - lr: 0.000006 - momentum: 0.000000
	2023-10-06 11:39:41,814 epoch 10 - iter 240/304 - loss 0.02224598 - time (sec): 94.38 - samples/sec: 261.48 - lr: 0.000004 - momentum: 0.000000
	2023-10-06 11:39:53,331 epoch 10 - iter 270/304 - loss 0.02227044 - time (sec): 105.89 - samples/sec: 260.31 - lr: 0.000002 - momentum: 0.000000
	2023-10-06 11:40:05,369 epoch 10 - iter 300/304 - loss 0.02142454 - time (sec): 117.93 - samples/sec: 259.44 - lr: 0.000000 - momentum: 0.000000
	2023-10-06 11:40:06,863 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:40:06,863 EPOCH 10 done: loss 0.0212 - lr: 0.000000
	2023-10-06 11:40:14,816 DEV : loss 0.15741805732250214 - f1-score (micro avg) 0.8444
	2023-10-06 11:40:15,690 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:40:15,691 Loading model from best epoch ...
	2023-10-06 11:40:18,282 SequenceTagger predicts: Dictionary with 25 tags: O, S-scope, B-scope, E-scope, I-scope, S-pers, B-pers, E-pers, I-pers, S-work, B-work, E-work, I-work, S-loc, B-loc, E-loc, I-loc, S-date, B-date, E-date, I-date, S-object, B-object, E-object, I-object
	2023-10-06 11:40:25,525
	Results:
	- F-score (micro) 0.8116
	- F-score (macro) 0.6534
	- Accuracy 0.6876

	By class:
	precision recall f1-score support

	scope 0.7564 0.7815 0.7687 151
	pers 0.7863 0.9583 0.8638 96
	work 0.7981 0.8737 0.8342 95
	loc 1.0000 0.6667 0.8000 3
	date 0.0000 0.0000 0.0000 3

	micro avg 0.7784 0.8477 0.8116 348
	macro avg 0.6682 0.6560 0.6534 348
	weighted avg 0.7716 0.8477 0.8065 348

	2023-10-06 11:40:25,525 ----------------------------------------------------------------------------------------------------