Upload folder using huggingface_hub

3bcde47 about 1 year ago

25.1 kB

	2023-10-06 11:40:49,468 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:40:49,469 Model: "SequenceTagger(
	(embeddings): ByT5Embeddings(
	(model): T5EncoderModel(
	(shared): Embedding(384, 1472)
	(encoder): T5Stack(
	(embed_tokens): Embedding(384, 1472)
	(block): ModuleList(
	(0): T5Block(
	(layer): ModuleList(
	(0): T5LayerSelfAttention(
	(SelfAttention): T5Attention(
	(q): Linear(in_features=1472, out_features=384, bias=False)
	(k): Linear(in_features=1472, out_features=384, bias=False)
	(v): Linear(in_features=1472, out_features=384, bias=False)
	(o): Linear(in_features=384, out_features=1472, bias=False)
	(relative_attention_bias): Embedding(32, 6)
	)
	(layer_norm): T5LayerNorm()
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(1): T5LayerFF(
	(DenseReluDense): T5DenseGatedActDense(
	(wi_0): Linear(in_features=1472, out_features=3584, bias=False)
	(wi_1): Linear(in_features=1472, out_features=3584, bias=False)
	(wo): Linear(in_features=3584, out_features=1472, bias=False)
	(dropout): Dropout(p=0.1, inplace=False)
	(act): NewGELUActivation()
	)
	(layer_norm): T5LayerNorm()
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	)
	(1-11): 11 x T5Block(
	(layer): ModuleList(
	(0): T5LayerSelfAttention(
	(SelfAttention): T5Attention(
	(q): Linear(in_features=1472, out_features=384, bias=False)
	(k): Linear(in_features=1472, out_features=384, bias=False)
	(v): Linear(in_features=1472, out_features=384, bias=False)
	(o): Linear(in_features=384, out_features=1472, bias=False)
	)
	(layer_norm): T5LayerNorm()
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(1): T5LayerFF(
	(DenseReluDense): T5DenseGatedActDense(
	(wi_0): Linear(in_features=1472, out_features=3584, bias=False)
	(wi_1): Linear(in_features=1472, out_features=3584, bias=False)
	(wo): Linear(in_features=3584, out_features=1472, bias=False)
	(dropout): Dropout(p=0.1, inplace=False)
	(act): NewGELUActivation()
	)
	(layer_norm): T5LayerNorm()
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	)
	)
	(final_layer_norm): T5LayerNorm()
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	)
	(locked_dropout): LockedDropout(p=0.5)
	(linear): Linear(in_features=1472, out_features=25, bias=True)
	(loss_function): CrossEntropyLoss()
	)"
	2023-10-06 11:40:49,469 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:40:49,470 MultiCorpus: 1214 train + 266 dev + 251 test sentences
	- NER_HIPE_2022 Corpus: 1214 train + 266 dev + 251 test sentences - /app/.flair/datasets/ner_hipe_2022/v2.1/ajmc/en/with_doc_seperator
	2023-10-06 11:40:49,470 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:40:49,470 Train: 1214 sentences
	2023-10-06 11:40:49,470 (train_with_dev=False, train_with_test=False)
	2023-10-06 11:40:49,470 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:40:49,470 Training Params:
	2023-10-06 11:40:49,470 - learning_rate: "0.00015"
	2023-10-06 11:40:49,470 - mini_batch_size: "8"
	2023-10-06 11:40:49,470 - max_epochs: "10"
	2023-10-06 11:40:49,470 - shuffle: "True"
	2023-10-06 11:40:49,470 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:40:49,470 Plugins:
	2023-10-06 11:40:49,470 - TensorboardLogger
	2023-10-06 11:40:49,470 - LinearScheduler \| warmup_fraction: '0.1'
	2023-10-06 11:40:49,471 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:40:49,471 Final evaluation on model from best epoch (best-model.pt)
	2023-10-06 11:40:49,471 - metric: "('micro avg', 'f1-score')"
	2023-10-06 11:40:49,471 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:40:49,471 Computation:
	2023-10-06 11:40:49,471 - compute on device: cuda:0
	2023-10-06 11:40:49,471 - embedding storage: none
	2023-10-06 11:40:49,471 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:40:49,471 Model training base path: "hmbench-ajmc/en-hmbyt5-preliminary/byt5-small-historic-multilingual-span20-flax-bs8-wsFalse-e10-lr0.00015-poolingfirst-layers-1-crfFalse-2"
	2023-10-06 11:40:49,471 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:40:49,471 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:40:49,471 Logging anything other than scalars to TensorBoard is currently not supported.
	2023-10-06 11:41:00,549 epoch 1 - iter 15/152 - loss 3.23650866 - time (sec): 11.08 - samples/sec: 279.23 - lr: 0.000014 - momentum: 0.000000
	2023-10-06 11:41:11,564 epoch 1 - iter 30/152 - loss 3.23109334 - time (sec): 22.09 - samples/sec: 279.07 - lr: 0.000029 - momentum: 0.000000
	2023-10-06 11:41:22,776 epoch 1 - iter 45/152 - loss 3.21953383 - time (sec): 33.30 - samples/sec: 281.32 - lr: 0.000043 - momentum: 0.000000
	2023-10-06 11:41:34,625 epoch 1 - iter 60/152 - loss 3.20155482 - time (sec): 45.15 - samples/sec: 282.16 - lr: 0.000058 - momentum: 0.000000
	2023-10-06 11:41:45,889 epoch 1 - iter 75/152 - loss 3.17002476 - time (sec): 56.42 - samples/sec: 280.68 - lr: 0.000073 - momentum: 0.000000
	2023-10-06 11:41:57,404 epoch 1 - iter 90/152 - loss 3.10578049 - time (sec): 67.93 - samples/sec: 279.94 - lr: 0.000088 - momentum: 0.000000
	2023-10-06 11:42:08,171 epoch 1 - iter 105/152 - loss 3.03046549 - time (sec): 78.70 - samples/sec: 277.27 - lr: 0.000103 - momentum: 0.000000
	2023-10-06 11:42:19,288 epoch 1 - iter 120/152 - loss 2.94097459 - time (sec): 89.82 - samples/sec: 276.65 - lr: 0.000117 - momentum: 0.000000
	2023-10-06 11:42:29,686 epoch 1 - iter 135/152 - loss 2.85356329 - time (sec): 100.21 - samples/sec: 275.04 - lr: 0.000132 - momentum: 0.000000
	2023-10-06 11:42:40,876 epoch 1 - iter 150/152 - loss 2.74658756 - time (sec): 111.40 - samples/sec: 275.49 - lr: 0.000147 - momentum: 0.000000
	2023-10-06 11:42:42,072 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:42:42,072 EPOCH 1 done: loss 2.7375 - lr: 0.000147
	2023-10-06 11:42:49,696 DEV : loss 1.626281976699829 - f1-score (micro avg) 0.0
	2023-10-06 11:42:49,703 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:43:00,883 epoch 2 - iter 15/152 - loss 1.58388197 - time (sec): 11.18 - samples/sec: 275.18 - lr: 0.000148 - momentum: 0.000000
	2023-10-06 11:43:11,945 epoch 2 - iter 30/152 - loss 1.42058436 - time (sec): 22.24 - samples/sec: 272.07 - lr: 0.000147 - momentum: 0.000000
	2023-10-06 11:43:23,461 epoch 2 - iter 45/152 - loss 1.32006778 - time (sec): 33.76 - samples/sec: 272.69 - lr: 0.000145 - momentum: 0.000000
	2023-10-06 11:43:34,246 epoch 2 - iter 60/152 - loss 1.22909384 - time (sec): 44.54 - samples/sec: 274.46 - lr: 0.000144 - momentum: 0.000000
	2023-10-06 11:43:44,957 epoch 2 - iter 75/152 - loss 1.15585388 - time (sec): 55.25 - samples/sec: 272.98 - lr: 0.000142 - momentum: 0.000000
	2023-10-06 11:43:56,489 epoch 2 - iter 90/152 - loss 1.08103450 - time (sec): 66.78 - samples/sec: 274.73 - lr: 0.000140 - momentum: 0.000000
	2023-10-06 11:44:07,713 epoch 2 - iter 105/152 - loss 1.01665926 - time (sec): 78.01 - samples/sec: 274.71 - lr: 0.000139 - momentum: 0.000000
	2023-10-06 11:44:18,325 epoch 2 - iter 120/152 - loss 0.97879470 - time (sec): 88.62 - samples/sec: 273.78 - lr: 0.000137 - momentum: 0.000000
	2023-10-06 11:44:29,862 epoch 2 - iter 135/152 - loss 0.94440775 - time (sec): 100.16 - samples/sec: 274.31 - lr: 0.000135 - momentum: 0.000000
	2023-10-06 11:44:40,800 epoch 2 - iter 150/152 - loss 0.91769126 - time (sec): 111.10 - samples/sec: 275.17 - lr: 0.000134 - momentum: 0.000000
	2023-10-06 11:44:42,166 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:44:42,166 EPOCH 2 done: loss 0.9140 - lr: 0.000134
	2023-10-06 11:44:50,048 DEV : loss 0.6008118987083435 - f1-score (micro avg) 0.0
	2023-10-06 11:44:50,056 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:45:01,236 epoch 3 - iter 15/152 - loss 0.54124878 - time (sec): 11.18 - samples/sec: 276.16 - lr: 0.000132 - momentum: 0.000000
	2023-10-06 11:45:11,760 epoch 3 - iter 30/152 - loss 0.48867766 - time (sec): 21.70 - samples/sec: 275.18 - lr: 0.000130 - momentum: 0.000000
	2023-10-06 11:45:22,405 epoch 3 - iter 45/152 - loss 0.47061111 - time (sec): 32.35 - samples/sec: 274.80 - lr: 0.000129 - momentum: 0.000000
	2023-10-06 11:45:34,805 epoch 3 - iter 60/152 - loss 0.46014139 - time (sec): 44.75 - samples/sec: 279.32 - lr: 0.000127 - momentum: 0.000000
	2023-10-06 11:45:46,070 epoch 3 - iter 75/152 - loss 0.45667027 - time (sec): 56.01 - samples/sec: 278.22 - lr: 0.000125 - momentum: 0.000000
	2023-10-06 11:45:57,360 epoch 3 - iter 90/152 - loss 0.42982243 - time (sec): 67.30 - samples/sec: 277.73 - lr: 0.000124 - momentum: 0.000000
	2023-10-06 11:46:08,146 epoch 3 - iter 105/152 - loss 0.41230990 - time (sec): 78.09 - samples/sec: 276.48 - lr: 0.000122 - momentum: 0.000000
	2023-10-06 11:46:19,262 epoch 3 - iter 120/152 - loss 0.40429627 - time (sec): 89.20 - samples/sec: 277.46 - lr: 0.000120 - momentum: 0.000000
	2023-10-06 11:46:30,403 epoch 3 - iter 135/152 - loss 0.39232877 - time (sec): 100.35 - samples/sec: 276.66 - lr: 0.000119 - momentum: 0.000000
	2023-10-06 11:46:41,323 epoch 3 - iter 150/152 - loss 0.38949799 - time (sec): 111.26 - samples/sec: 275.33 - lr: 0.000117 - momentum: 0.000000
	2023-10-06 11:46:42,635 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:46:42,636 EPOCH 3 done: loss 0.3892 - lr: 0.000117
	2023-10-06 11:46:50,526 DEV : loss 0.339983731508255 - f1-score (micro avg) 0.5211
	2023-10-06 11:46:50,533 saving best model
	2023-10-06 11:46:51,379 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:47:01,879 epoch 4 - iter 15/152 - loss 0.27249716 - time (sec): 10.50 - samples/sec: 268.42 - lr: 0.000115 - momentum: 0.000000
	2023-10-06 11:47:13,041 epoch 4 - iter 30/152 - loss 0.27502400 - time (sec): 21.66 - samples/sec: 264.12 - lr: 0.000114 - momentum: 0.000000
	2023-10-06 11:47:24,522 epoch 4 - iter 45/152 - loss 0.26296682 - time (sec): 33.14 - samples/sec: 269.21 - lr: 0.000112 - momentum: 0.000000
	2023-10-06 11:47:35,706 epoch 4 - iter 60/152 - loss 0.26165441 - time (sec): 44.33 - samples/sec: 269.59 - lr: 0.000110 - momentum: 0.000000
	2023-10-06 11:47:47,542 epoch 4 - iter 75/152 - loss 0.25680579 - time (sec): 56.16 - samples/sec: 273.69 - lr: 0.000109 - momentum: 0.000000
	2023-10-06 11:47:59,396 epoch 4 - iter 90/152 - loss 0.25394861 - time (sec): 68.02 - samples/sec: 275.88 - lr: 0.000107 - momentum: 0.000000
	2023-10-06 11:48:10,598 epoch 4 - iter 105/152 - loss 0.24979844 - time (sec): 79.22 - samples/sec: 275.77 - lr: 0.000105 - momentum: 0.000000
	2023-10-06 11:48:21,274 epoch 4 - iter 120/152 - loss 0.24458649 - time (sec): 89.89 - samples/sec: 275.11 - lr: 0.000104 - momentum: 0.000000
	2023-10-06 11:48:32,019 epoch 4 - iter 135/152 - loss 0.24155398 - time (sec): 100.64 - samples/sec: 274.59 - lr: 0.000102 - momentum: 0.000000
	2023-10-06 11:48:42,875 epoch 4 - iter 150/152 - loss 0.23636777 - time (sec): 111.50 - samples/sec: 273.90 - lr: 0.000101 - momentum: 0.000000
	2023-10-06 11:48:44,397 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:48:44,398 EPOCH 4 done: loss 0.2378 - lr: 0.000101
	2023-10-06 11:48:52,277 DEV : loss 0.24833999574184418 - f1-score (micro avg) 0.6874
	2023-10-06 11:48:52,284 saving best model
	2023-10-06 11:48:56,646 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:49:07,702 epoch 5 - iter 15/152 - loss 0.18384846 - time (sec): 11.05 - samples/sec: 269.57 - lr: 0.000099 - momentum: 0.000000
	2023-10-06 11:49:18,526 epoch 5 - iter 30/152 - loss 0.17133826 - time (sec): 21.88 - samples/sec: 266.38 - lr: 0.000097 - momentum: 0.000000
	2023-10-06 11:49:30,508 epoch 5 - iter 45/152 - loss 0.16088395 - time (sec): 33.86 - samples/sec: 274.24 - lr: 0.000095 - momentum: 0.000000
	2023-10-06 11:49:41,771 epoch 5 - iter 60/152 - loss 0.16433942 - time (sec): 45.12 - samples/sec: 275.64 - lr: 0.000094 - momentum: 0.000000
	2023-10-06 11:49:53,169 epoch 5 - iter 75/152 - loss 0.16163685 - time (sec): 56.52 - samples/sec: 276.30 - lr: 0.000092 - momentum: 0.000000
	2023-10-06 11:50:04,680 epoch 5 - iter 90/152 - loss 0.16120892 - time (sec): 68.03 - samples/sec: 275.65 - lr: 0.000091 - momentum: 0.000000
	2023-10-06 11:50:14,958 epoch 5 - iter 105/152 - loss 0.15841038 - time (sec): 78.31 - samples/sec: 272.54 - lr: 0.000089 - momentum: 0.000000
	2023-10-06 11:50:25,602 epoch 5 - iter 120/152 - loss 0.15944779 - time (sec): 88.95 - samples/sec: 271.77 - lr: 0.000087 - momentum: 0.000000
	2023-10-06 11:50:36,931 epoch 5 - iter 135/152 - loss 0.15939219 - time (sec): 100.28 - samples/sec: 272.97 - lr: 0.000086 - momentum: 0.000000
	2023-10-06 11:50:48,188 epoch 5 - iter 150/152 - loss 0.16161550 - time (sec): 111.54 - samples/sec: 274.44 - lr: 0.000084 - momentum: 0.000000
	2023-10-06 11:50:49,578 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:50:49,579 EPOCH 5 done: loss 0.1608 - lr: 0.000084
	2023-10-06 11:50:57,499 DEV : loss 0.18905217945575714 - f1-score (micro avg) 0.7007
	2023-10-06 11:50:57,506 saving best model
	2023-10-06 11:51:01,895 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:51:12,689 epoch 6 - iter 15/152 - loss 0.14202084 - time (sec): 10.79 - samples/sec: 273.16 - lr: 0.000082 - momentum: 0.000000
	2023-10-06 11:51:23,857 epoch 6 - iter 30/152 - loss 0.13186308 - time (sec): 21.96 - samples/sec: 272.95 - lr: 0.000080 - momentum: 0.000000
	2023-10-06 11:51:34,639 epoch 6 - iter 45/152 - loss 0.12753401 - time (sec): 32.74 - samples/sec: 272.95 - lr: 0.000079 - momentum: 0.000000
	2023-10-06 11:51:45,662 epoch 6 - iter 60/152 - loss 0.13110037 - time (sec): 43.77 - samples/sec: 272.73 - lr: 0.000077 - momentum: 0.000000
	2023-10-06 11:51:56,695 epoch 6 - iter 75/152 - loss 0.12500236 - time (sec): 54.80 - samples/sec: 274.24 - lr: 0.000076 - momentum: 0.000000
	2023-10-06 11:52:08,333 epoch 6 - iter 90/152 - loss 0.12450013 - time (sec): 66.44 - samples/sec: 276.25 - lr: 0.000074 - momentum: 0.000000
	2023-10-06 11:52:19,166 epoch 6 - iter 105/152 - loss 0.12628717 - time (sec): 77.27 - samples/sec: 275.49 - lr: 0.000072 - momentum: 0.000000
	2023-10-06 11:52:31,180 epoch 6 - iter 120/152 - loss 0.12035512 - time (sec): 89.28 - samples/sec: 276.16 - lr: 0.000071 - momentum: 0.000000
	2023-10-06 11:52:42,487 epoch 6 - iter 135/152 - loss 0.11594502 - time (sec): 100.59 - samples/sec: 275.16 - lr: 0.000069 - momentum: 0.000000
	2023-10-06 11:52:53,613 epoch 6 - iter 150/152 - loss 0.11549344 - time (sec): 111.72 - samples/sec: 274.87 - lr: 0.000067 - momentum: 0.000000
	2023-10-06 11:52:54,788 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:52:54,788 EPOCH 6 done: loss 0.1152 - lr: 0.000067
	2023-10-06 11:53:02,686 DEV : loss 0.16070891916751862 - f1-score (micro avg) 0.7552
	2023-10-06 11:53:02,693 saving best model
	2023-10-06 11:53:07,043 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:53:18,238 epoch 7 - iter 15/152 - loss 0.10658676 - time (sec): 11.19 - samples/sec: 275.80 - lr: 0.000066 - momentum: 0.000000
	2023-10-06 11:53:29,396 epoch 7 - iter 30/152 - loss 0.07982796 - time (sec): 22.35 - samples/sec: 278.02 - lr: 0.000064 - momentum: 0.000000
	2023-10-06 11:53:40,897 epoch 7 - iter 45/152 - loss 0.08533241 - time (sec): 33.85 - samples/sec: 277.91 - lr: 0.000062 - momentum: 0.000000
	2023-10-06 11:53:52,246 epoch 7 - iter 60/152 - loss 0.09230543 - time (sec): 45.20 - samples/sec: 277.75 - lr: 0.000061 - momentum: 0.000000
	2023-10-06 11:54:02,737 epoch 7 - iter 75/152 - loss 0.09459485 - time (sec): 55.69 - samples/sec: 275.94 - lr: 0.000059 - momentum: 0.000000
	2023-10-06 11:54:13,562 epoch 7 - iter 90/152 - loss 0.09220023 - time (sec): 66.52 - samples/sec: 275.24 - lr: 0.000057 - momentum: 0.000000
	2023-10-06 11:54:24,717 epoch 7 - iter 105/152 - loss 0.08957111 - time (sec): 77.67 - samples/sec: 275.39 - lr: 0.000056 - momentum: 0.000000
	2023-10-06 11:54:35,526 epoch 7 - iter 120/152 - loss 0.08819805 - time (sec): 88.48 - samples/sec: 274.87 - lr: 0.000054 - momentum: 0.000000
	2023-10-06 11:54:47,380 epoch 7 - iter 135/152 - loss 0.08655385 - time (sec): 100.34 - samples/sec: 274.67 - lr: 0.000052 - momentum: 0.000000
	2023-10-06 11:54:58,481 epoch 7 - iter 150/152 - loss 0.08719061 - time (sec): 111.44 - samples/sec: 274.63 - lr: 0.000051 - momentum: 0.000000
	2023-10-06 11:54:59,869 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:54:59,870 EPOCH 7 done: loss 0.0865 - lr: 0.000051
	2023-10-06 11:55:07,764 DEV : loss 0.1486317217350006 - f1-score (micro avg) 0.8097
	2023-10-06 11:55:07,771 saving best model
	2023-10-06 11:55:12,119 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:55:23,182 epoch 8 - iter 15/152 - loss 0.07126019 - time (sec): 11.06 - samples/sec: 261.37 - lr: 0.000049 - momentum: 0.000000
	2023-10-06 11:55:34,480 epoch 8 - iter 30/152 - loss 0.07210258 - time (sec): 22.36 - samples/sec: 269.42 - lr: 0.000047 - momentum: 0.000000
	2023-10-06 11:55:45,567 epoch 8 - iter 45/152 - loss 0.06136012 - time (sec): 33.45 - samples/sec: 272.50 - lr: 0.000046 - momentum: 0.000000
	2023-10-06 11:55:57,313 epoch 8 - iter 60/152 - loss 0.06922305 - time (sec): 45.19 - samples/sec: 275.41 - lr: 0.000044 - momentum: 0.000000
	2023-10-06 11:56:08,310 epoch 8 - iter 75/152 - loss 0.07252529 - time (sec): 56.19 - samples/sec: 275.68 - lr: 0.000042 - momentum: 0.000000
	2023-10-06 11:56:19,141 epoch 8 - iter 90/152 - loss 0.07195863 - time (sec): 67.02 - samples/sec: 273.72 - lr: 0.000041 - momentum: 0.000000
	2023-10-06 11:56:30,593 epoch 8 - iter 105/152 - loss 0.06975463 - time (sec): 78.47 - samples/sec: 274.67 - lr: 0.000039 - momentum: 0.000000
	2023-10-06 11:56:41,684 epoch 8 - iter 120/152 - loss 0.07045719 - time (sec): 89.56 - samples/sec: 274.61 - lr: 0.000037 - momentum: 0.000000
	2023-10-06 11:56:52,427 epoch 8 - iter 135/152 - loss 0.07062132 - time (sec): 100.31 - samples/sec: 273.51 - lr: 0.000036 - momentum: 0.000000
	2023-10-06 11:57:03,970 epoch 8 - iter 150/152 - loss 0.06850640 - time (sec): 111.85 - samples/sec: 274.11 - lr: 0.000034 - momentum: 0.000000
	2023-10-06 11:57:05,170 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:57:05,170 EPOCH 8 done: loss 0.0687 - lr: 0.000034
	2023-10-06 11:57:13,130 DEV : loss 0.14806878566741943 - f1-score (micro avg) 0.8158
	2023-10-06 11:57:13,137 saving best model
	2023-10-06 11:57:17,481 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:57:28,825 epoch 9 - iter 15/152 - loss 0.04140531 - time (sec): 11.34 - samples/sec: 270.39 - lr: 0.000032 - momentum: 0.000000
	2023-10-06 11:57:39,503 epoch 9 - iter 30/152 - loss 0.05246784 - time (sec): 22.02 - samples/sec: 272.61 - lr: 0.000031 - momentum: 0.000000
	2023-10-06 11:57:50,467 epoch 9 - iter 45/152 - loss 0.04910361 - time (sec): 32.98 - samples/sec: 270.21 - lr: 0.000029 - momentum: 0.000000
	2023-10-06 11:58:02,104 epoch 9 - iter 60/152 - loss 0.05462582 - time (sec): 44.62 - samples/sec: 273.21 - lr: 0.000027 - momentum: 0.000000
	2023-10-06 11:58:13,149 epoch 9 - iter 75/152 - loss 0.05853267 - time (sec): 55.67 - samples/sec: 274.02 - lr: 0.000026 - momentum: 0.000000
	2023-10-06 11:58:24,892 epoch 9 - iter 90/152 - loss 0.06375465 - time (sec): 67.41 - samples/sec: 277.39 - lr: 0.000024 - momentum: 0.000000
	2023-10-06 11:58:35,543 epoch 9 - iter 105/152 - loss 0.06134915 - time (sec): 78.06 - samples/sec: 275.85 - lr: 0.000022 - momentum: 0.000000
	2023-10-06 11:58:47,079 epoch 9 - iter 120/152 - loss 0.06167699 - time (sec): 89.60 - samples/sec: 275.34 - lr: 0.000021 - momentum: 0.000000
	2023-10-06 11:58:57,868 epoch 9 - iter 135/152 - loss 0.06111079 - time (sec): 100.39 - samples/sec: 274.50 - lr: 0.000019 - momentum: 0.000000
	2023-10-06 11:59:08,947 epoch 9 - iter 150/152 - loss 0.05921126 - time (sec): 111.46 - samples/sec: 274.63 - lr: 0.000018 - momentum: 0.000000
	2023-10-06 11:59:10,385 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:59:10,386 EPOCH 9 done: loss 0.0591 - lr: 0.000018
	2023-10-06 11:59:18,389 DEV : loss 0.14643555879592896 - f1-score (micro avg) 0.8242
	2023-10-06 11:59:18,397 saving best model
	2023-10-06 11:59:22,732 ----------------------------------------------------------------------------------------------------
	2023-10-06 11:59:34,011 epoch 10 - iter 15/152 - loss 0.07490235 - time (sec): 11.28 - samples/sec: 269.22 - lr: 0.000016 - momentum: 0.000000
	2023-10-06 11:59:44,906 epoch 10 - iter 30/152 - loss 0.05329799 - time (sec): 22.17 - samples/sec: 268.85 - lr: 0.000014 - momentum: 0.000000
	2023-10-06 11:59:56,562 epoch 10 - iter 45/152 - loss 0.04675656 - time (sec): 33.83 - samples/sec: 273.12 - lr: 0.000012 - momentum: 0.000000
	2023-10-06 12:00:07,483 epoch 10 - iter 60/152 - loss 0.05173666 - time (sec): 44.75 - samples/sec: 274.71 - lr: 0.000011 - momentum: 0.000000
	2023-10-06 12:00:19,503 epoch 10 - iter 75/152 - loss 0.05175693 - time (sec): 56.77 - samples/sec: 276.08 - lr: 0.000009 - momentum: 0.000000
	2023-10-06 12:00:30,825 epoch 10 - iter 90/152 - loss 0.05105866 - time (sec): 68.09 - samples/sec: 276.12 - lr: 0.000008 - momentum: 0.000000
	2023-10-06 12:00:41,699 epoch 10 - iter 105/152 - loss 0.05368124 - time (sec): 78.97 - samples/sec: 276.30 - lr: 0.000006 - momentum: 0.000000
	2023-10-06 12:00:52,416 epoch 10 - iter 120/152 - loss 0.05547270 - time (sec): 89.68 - samples/sec: 275.17 - lr: 0.000004 - momentum: 0.000000
	2023-10-06 12:01:03,172 epoch 10 - iter 135/152 - loss 0.05575050 - time (sec): 100.44 - samples/sec: 274.45 - lr: 0.000003 - momentum: 0.000000
	2023-10-06 12:01:14,256 epoch 10 - iter 150/152 - loss 0.05479050 - time (sec): 111.52 - samples/sec: 274.36 - lr: 0.000001 - momentum: 0.000000
	2023-10-06 12:01:15,634 ----------------------------------------------------------------------------------------------------
	2023-10-06 12:01:15,634 EPOCH 10 done: loss 0.0545 - lr: 0.000001
	2023-10-06 12:01:23,704 DEV : loss 0.14744949340820312 - f1-score (micro avg) 0.8233
	2023-10-06 12:01:24,608 ----------------------------------------------------------------------------------------------------
	2023-10-06 12:01:24,617 Loading model from best epoch ...
	2023-10-06 12:01:28,740 SequenceTagger predicts: Dictionary with 25 tags: O, S-scope, B-scope, E-scope, I-scope, S-pers, B-pers, E-pers, I-pers, S-work, B-work, E-work, I-work, S-loc, B-loc, E-loc, I-loc, S-date, B-date, E-date, I-date, S-object, B-object, E-object, I-object
	2023-10-06 12:01:35,956
	Results:
	- F-score (micro) 0.8049
	- F-score (macro) 0.4917
	- Accuracy 0.6813

	By class:
	precision recall f1-score support

	scope 0.7391 0.7881 0.7628 151
	pers 0.8070 0.9583 0.8762 96
	work 0.7636 0.8842 0.8195 95
	loc 0.0000 0.0000 0.0000 3
	date 0.0000 0.0000 0.0000 3

	micro avg 0.7662 0.8477 0.8049 348
	macro avg 0.4620 0.5261 0.4917 348
	weighted avg 0.7518 0.8477 0.7964 348

	2023-10-06 12:01:35,956 ----------------------------------------------------------------------------------------------------