Upload folder using huggingface_hub

bff1c25 about 1 year ago

24.1 kB

	2023-10-13 09:24:54,182 ----------------------------------------------------------------------------------------------------
	2023-10-13 09:24:54,183 Model: "SequenceTagger(
	(embeddings): TransformerWordEmbeddings(
	(model): BertModel(
	(embeddings): BertEmbeddings(
	(word_embeddings): Embedding(32001, 768)
	(position_embeddings): Embedding(512, 768)
	(token_type_embeddings): Embedding(2, 768)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(encoder): BertEncoder(
	(layer): ModuleList(
	(0-11): 12 x BertLayer(
	(attention): BertAttention(
	(self): BertSelfAttention(
	(query): Linear(in_features=768, out_features=768, bias=True)
	(key): Linear(in_features=768, out_features=768, bias=True)
	(value): Linear(in_features=768, out_features=768, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): BertSelfOutput(
	(dense): Linear(in_features=768, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): BertIntermediate(
	(dense): Linear(in_features=768, out_features=3072, bias=True)
	(intermediate_act_fn): GELUActivation()
	)
	(output): BertOutput(
	(dense): Linear(in_features=3072, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	)
	)
	(pooler): BertPooler(
	(dense): Linear(in_features=768, out_features=768, bias=True)
	(activation): Tanh()
	)
	)
	)
	(locked_dropout): LockedDropout(p=0.5)
	(linear): Linear(in_features=768, out_features=25, bias=True)
	(loss_function): CrossEntropyLoss()
	)"
	2023-10-13 09:24:54,183 ----------------------------------------------------------------------------------------------------
	2023-10-13 09:24:54,183 MultiCorpus: 1214 train + 266 dev + 251 test sentences
	- NER_HIPE_2022 Corpus: 1214 train + 266 dev + 251 test sentences - /root/.flair/datasets/ner_hipe_2022/v2.1/ajmc/en/with_doc_seperator
	2023-10-13 09:24:54,183 ----------------------------------------------------------------------------------------------------
	2023-10-13 09:24:54,183 Train: 1214 sentences
	2023-10-13 09:24:54,183 (train_with_dev=False, train_with_test=False)
	2023-10-13 09:24:54,183 ----------------------------------------------------------------------------------------------------
	2023-10-13 09:24:54,183 Training Params:
	2023-10-13 09:24:54,183 - learning_rate: "5e-05"
	2023-10-13 09:24:54,183 - mini_batch_size: "4"
	2023-10-13 09:24:54,183 - max_epochs: "10"
	2023-10-13 09:24:54,183 - shuffle: "True"
	2023-10-13 09:24:54,183 ----------------------------------------------------------------------------------------------------
	2023-10-13 09:24:54,183 Plugins:
	2023-10-13 09:24:54,184 - LinearScheduler \| warmup_fraction: '0.1'
	2023-10-13 09:24:54,184 ----------------------------------------------------------------------------------------------------
	2023-10-13 09:24:54,184 Final evaluation on model from best epoch (best-model.pt)
	2023-10-13 09:24:54,184 - metric: "('micro avg', 'f1-score')"
	2023-10-13 09:24:54,184 ----------------------------------------------------------------------------------------------------
	2023-10-13 09:24:54,184 Computation:
	2023-10-13 09:24:54,184 - compute on device: cuda:0
	2023-10-13 09:24:54,184 - embedding storage: none
	2023-10-13 09:24:54,184 ----------------------------------------------------------------------------------------------------
	2023-10-13 09:24:54,184 Model training base path: "hmbench-ajmc/en-dbmdz/bert-base-historic-multilingual-cased-bs4-wsFalse-e10-lr5e-05-poolingfirst-layers-1-crfFalse-3"
	2023-10-13 09:24:54,184 ----------------------------------------------------------------------------------------------------
	2023-10-13 09:24:54,184 ----------------------------------------------------------------------------------------------------
	2023-10-13 09:24:55,668 epoch 1 - iter 30/304 - loss 3.06399738 - time (sec): 1.48 - samples/sec: 2127.62 - lr: 0.000005 - momentum: 0.000000
	2023-10-13 09:24:57,203 epoch 1 - iter 60/304 - loss 2.26158163 - time (sec): 3.02 - samples/sec: 2025.00 - lr: 0.000010 - momentum: 0.000000
	2023-10-13 09:24:58,809 epoch 1 - iter 90/304 - loss 1.75579198 - time (sec): 4.62 - samples/sec: 1964.93 - lr: 0.000015 - momentum: 0.000000
	2023-10-13 09:25:00,392 epoch 1 - iter 120/304 - loss 1.46459955 - time (sec): 6.21 - samples/sec: 1979.38 - lr: 0.000020 - momentum: 0.000000
	2023-10-13 09:25:02,019 epoch 1 - iter 150/304 - loss 1.24942060 - time (sec): 7.83 - samples/sec: 1974.58 - lr: 0.000025 - momentum: 0.000000
	2023-10-13 09:25:03,606 epoch 1 - iter 180/304 - loss 1.08919783 - time (sec): 9.42 - samples/sec: 1964.07 - lr: 0.000029 - momentum: 0.000000
	2023-10-13 09:25:05,190 epoch 1 - iter 210/304 - loss 0.97371069 - time (sec): 11.00 - samples/sec: 1993.42 - lr: 0.000034 - momentum: 0.000000
	2023-10-13 09:25:06,718 epoch 1 - iter 240/304 - loss 0.90345855 - time (sec): 12.53 - samples/sec: 1963.22 - lr: 0.000039 - momentum: 0.000000
	2023-10-13 09:25:08,149 epoch 1 - iter 270/304 - loss 0.83443013 - time (sec): 13.96 - samples/sec: 1969.09 - lr: 0.000044 - momentum: 0.000000
	2023-10-13 09:25:09,678 epoch 1 - iter 300/304 - loss 0.77115655 - time (sec): 15.49 - samples/sec: 1980.61 - lr: 0.000049 - momentum: 0.000000
	2023-10-13 09:25:09,898 ----------------------------------------------------------------------------------------------------
	2023-10-13 09:25:09,898 EPOCH 1 done: loss 0.7659 - lr: 0.000049
	2023-10-13 09:25:10,999 DEV : loss 0.1917836219072342 - f1-score (micro avg) 0.6731
	2023-10-13 09:25:11,006 saving best model
	2023-10-13 09:25:11,357 ----------------------------------------------------------------------------------------------------
	2023-10-13 09:25:12,871 epoch 2 - iter 30/304 - loss 0.19001675 - time (sec): 1.51 - samples/sec: 1817.12 - lr: 0.000049 - momentum: 0.000000
	2023-10-13 09:25:14,370 epoch 2 - iter 60/304 - loss 0.16332851 - time (sec): 3.01 - samples/sec: 1913.15 - lr: 0.000049 - momentum: 0.000000
	2023-10-13 09:25:15,833 epoch 2 - iter 90/304 - loss 0.17518968 - time (sec): 4.47 - samples/sec: 1930.72 - lr: 0.000048 - momentum: 0.000000
	2023-10-13 09:25:17,205 epoch 2 - iter 120/304 - loss 0.16320078 - time (sec): 5.85 - samples/sec: 2039.49 - lr: 0.000048 - momentum: 0.000000
	2023-10-13 09:25:18,550 epoch 2 - iter 150/304 - loss 0.15631235 - time (sec): 7.19 - samples/sec: 2112.46 - lr: 0.000047 - momentum: 0.000000
	2023-10-13 09:25:19,859 epoch 2 - iter 180/304 - loss 0.15100832 - time (sec): 8.50 - samples/sec: 2141.52 - lr: 0.000047 - momentum: 0.000000
	2023-10-13 09:25:21,180 epoch 2 - iter 210/304 - loss 0.14814376 - time (sec): 9.82 - samples/sec: 2181.33 - lr: 0.000046 - momentum: 0.000000
	2023-10-13 09:25:22,527 epoch 2 - iter 240/304 - loss 0.13961372 - time (sec): 11.17 - samples/sec: 2181.57 - lr: 0.000046 - momentum: 0.000000
	2023-10-13 09:25:23,843 epoch 2 - iter 270/304 - loss 0.13518424 - time (sec): 12.48 - samples/sec: 2209.33 - lr: 0.000045 - momentum: 0.000000
	2023-10-13 09:25:25,172 epoch 2 - iter 300/304 - loss 0.14038691 - time (sec): 13.81 - samples/sec: 2221.89 - lr: 0.000045 - momentum: 0.000000
	2023-10-13 09:25:25,342 ----------------------------------------------------------------------------------------------------
	2023-10-13 09:25:25,343 EPOCH 2 done: loss 0.1393 - lr: 0.000045
	2023-10-13 09:25:26,383 DEV : loss 0.16002638638019562 - f1-score (micro avg) 0.7846
	2023-10-13 09:25:26,395 saving best model
	2023-10-13 09:25:26,852 ----------------------------------------------------------------------------------------------------
	2023-10-13 09:25:28,435 epoch 3 - iter 30/304 - loss 0.06790292 - time (sec): 1.58 - samples/sec: 1897.09 - lr: 0.000044 - momentum: 0.000000
	2023-10-13 09:25:29,990 epoch 3 - iter 60/304 - loss 0.08312541 - time (sec): 3.14 - samples/sec: 1889.26 - lr: 0.000043 - momentum: 0.000000
	2023-10-13 09:25:31,541 epoch 3 - iter 90/304 - loss 0.07538342 - time (sec): 4.69 - samples/sec: 1894.44 - lr: 0.000043 - momentum: 0.000000
	2023-10-13 09:25:33,194 epoch 3 - iter 120/304 - loss 0.07350489 - time (sec): 6.34 - samples/sec: 1875.91 - lr: 0.000042 - momentum: 0.000000
	2023-10-13 09:25:34,793 epoch 3 - iter 150/304 - loss 0.08069146 - time (sec): 7.94 - samples/sec: 1908.79 - lr: 0.000042 - momentum: 0.000000
	2023-10-13 09:25:36,339 epoch 3 - iter 180/304 - loss 0.08343527 - time (sec): 9.48 - samples/sec: 1940.93 - lr: 0.000041 - momentum: 0.000000
	2023-10-13 09:25:37,918 epoch 3 - iter 210/304 - loss 0.08407638 - time (sec): 11.06 - samples/sec: 1914.86 - lr: 0.000041 - momentum: 0.000000
	2023-10-13 09:25:39,421 epoch 3 - iter 240/304 - loss 0.08240695 - time (sec): 12.57 - samples/sec: 1932.36 - lr: 0.000040 - momentum: 0.000000
	2023-10-13 09:25:40,786 epoch 3 - iter 270/304 - loss 0.08431923 - time (sec): 13.93 - samples/sec: 1970.97 - lr: 0.000040 - momentum: 0.000000
	2023-10-13 09:25:42,132 epoch 3 - iter 300/304 - loss 0.08278814 - time (sec): 15.28 - samples/sec: 2004.54 - lr: 0.000039 - momentum: 0.000000
	2023-10-13 09:25:42,303 ----------------------------------------------------------------------------------------------------
	2023-10-13 09:25:42,303 EPOCH 3 done: loss 0.0823 - lr: 0.000039
	2023-10-13 09:25:43,252 DEV : loss 0.17538176476955414 - f1-score (micro avg) 0.8167
	2023-10-13 09:25:43,262 saving best model
	2023-10-13 09:25:43,838 ----------------------------------------------------------------------------------------------------
	2023-10-13 09:25:45,202 epoch 4 - iter 30/304 - loss 0.06052743 - time (sec): 1.36 - samples/sec: 2137.33 - lr: 0.000038 - momentum: 0.000000
	2023-10-13 09:25:46,545 epoch 4 - iter 60/304 - loss 0.04582401 - time (sec): 2.70 - samples/sec: 2176.13 - lr: 0.000038 - momentum: 0.000000
	2023-10-13 09:25:47,896 epoch 4 - iter 90/304 - loss 0.06348942 - time (sec): 4.06 - samples/sec: 2217.37 - lr: 0.000037 - momentum: 0.000000
	2023-10-13 09:25:49,209 epoch 4 - iter 120/304 - loss 0.06958931 - time (sec): 5.37 - samples/sec: 2286.77 - lr: 0.000037 - momentum: 0.000000
	2023-10-13 09:25:50,506 epoch 4 - iter 150/304 - loss 0.06465443 - time (sec): 6.66 - samples/sec: 2293.94 - lr: 0.000036 - momentum: 0.000000
	2023-10-13 09:25:51,861 epoch 4 - iter 180/304 - loss 0.05834462 - time (sec): 8.02 - samples/sec: 2263.26 - lr: 0.000036 - momentum: 0.000000
	2023-10-13 09:25:53,208 epoch 4 - iter 210/304 - loss 0.05591947 - time (sec): 9.37 - samples/sec: 2274.03 - lr: 0.000035 - momentum: 0.000000
	2023-10-13 09:25:54,577 epoch 4 - iter 240/304 - loss 0.06178706 - time (sec): 10.74 - samples/sec: 2276.87 - lr: 0.000035 - momentum: 0.000000
	2023-10-13 09:25:55,923 epoch 4 - iter 270/304 - loss 0.06195653 - time (sec): 12.08 - samples/sec: 2268.21 - lr: 0.000034 - momentum: 0.000000
	2023-10-13 09:25:57,273 epoch 4 - iter 300/304 - loss 0.06233097 - time (sec): 13.43 - samples/sec: 2274.92 - lr: 0.000033 - momentum: 0.000000
	2023-10-13 09:25:57,454 ----------------------------------------------------------------------------------------------------
	2023-10-13 09:25:57,454 EPOCH 4 done: loss 0.0639 - lr: 0.000033
	2023-10-13 09:25:58,407 DEV : loss 0.21819397807121277 - f1-score (micro avg) 0.8037
	2023-10-13 09:25:58,416 ----------------------------------------------------------------------------------------------------
	2023-10-13 09:25:59,792 epoch 5 - iter 30/304 - loss 0.06028989 - time (sec): 1.37 - samples/sec: 2232.46 - lr: 0.000033 - momentum: 0.000000
	2023-10-13 09:26:01,374 epoch 5 - iter 60/304 - loss 0.04886804 - time (sec): 2.96 - samples/sec: 2132.90 - lr: 0.000032 - momentum: 0.000000
	2023-10-13 09:26:02,931 epoch 5 - iter 90/304 - loss 0.04157150 - time (sec): 4.51 - samples/sec: 2031.33 - lr: 0.000032 - momentum: 0.000000
	2023-10-13 09:26:04,453 epoch 5 - iter 120/304 - loss 0.04799012 - time (sec): 6.04 - samples/sec: 2026.96 - lr: 0.000031 - momentum: 0.000000
	2023-10-13 09:26:05,965 epoch 5 - iter 150/304 - loss 0.04485221 - time (sec): 7.55 - samples/sec: 2045.94 - lr: 0.000031 - momentum: 0.000000
	2023-10-13 09:26:07,487 epoch 5 - iter 180/304 - loss 0.05156410 - time (sec): 9.07 - samples/sec: 2041.58 - lr: 0.000030 - momentum: 0.000000
	2023-10-13 09:26:09,009 epoch 5 - iter 210/304 - loss 0.05474022 - time (sec): 10.59 - samples/sec: 2041.70 - lr: 0.000030 - momentum: 0.000000
	2023-10-13 09:26:10,532 epoch 5 - iter 240/304 - loss 0.05293665 - time (sec): 12.11 - samples/sec: 2045.66 - lr: 0.000029 - momentum: 0.000000
	2023-10-13 09:26:12,016 epoch 5 - iter 270/304 - loss 0.04984029 - time (sec): 13.60 - samples/sec: 2023.60 - lr: 0.000028 - momentum: 0.000000
	2023-10-13 09:26:13,500 epoch 5 - iter 300/304 - loss 0.04969734 - time (sec): 15.08 - samples/sec: 2033.61 - lr: 0.000028 - momentum: 0.000000
	2023-10-13 09:26:13,681 ----------------------------------------------------------------------------------------------------
	2023-10-13 09:26:13,681 EPOCH 5 done: loss 0.0503 - lr: 0.000028
	2023-10-13 09:26:14,665 DEV : loss 0.2147764265537262 - f1-score (micro avg) 0.8219
	2023-10-13 09:26:14,674 saving best model
	2023-10-13 09:26:15,374 ----------------------------------------------------------------------------------------------------
	2023-10-13 09:26:17,145 epoch 6 - iter 30/304 - loss 0.03857010 - time (sec): 1.77 - samples/sec: 2027.32 - lr: 0.000027 - momentum: 0.000000
	2023-10-13 09:26:18,495 epoch 6 - iter 60/304 - loss 0.03065086 - time (sec): 3.12 - samples/sec: 2067.04 - lr: 0.000027 - momentum: 0.000000
	2023-10-13 09:26:19,867 epoch 6 - iter 90/304 - loss 0.02994557 - time (sec): 4.49 - samples/sec: 2091.38 - lr: 0.000026 - momentum: 0.000000
	2023-10-13 09:26:21,188 epoch 6 - iter 120/304 - loss 0.02589307 - time (sec): 5.81 - samples/sec: 2162.40 - lr: 0.000026 - momentum: 0.000000
	2023-10-13 09:26:22,502 epoch 6 - iter 150/304 - loss 0.02925331 - time (sec): 7.13 - samples/sec: 2177.44 - lr: 0.000025 - momentum: 0.000000
	2023-10-13 09:26:23,830 epoch 6 - iter 180/304 - loss 0.03045963 - time (sec): 8.45 - samples/sec: 2200.63 - lr: 0.000025 - momentum: 0.000000
	2023-10-13 09:26:25,156 epoch 6 - iter 210/304 - loss 0.03381298 - time (sec): 9.78 - samples/sec: 2213.88 - lr: 0.000024 - momentum: 0.000000
	2023-10-13 09:26:26,482 epoch 6 - iter 240/304 - loss 0.04034034 - time (sec): 11.11 - samples/sec: 2221.95 - lr: 0.000023 - momentum: 0.000000
	2023-10-13 09:26:28,098 epoch 6 - iter 270/304 - loss 0.04229335 - time (sec): 12.72 - samples/sec: 2184.74 - lr: 0.000023 - momentum: 0.000000
	2023-10-13 09:26:29,647 epoch 6 - iter 300/304 - loss 0.03913055 - time (sec): 14.27 - samples/sec: 2143.57 - lr: 0.000022 - momentum: 0.000000
	2023-10-13 09:26:29,844 ----------------------------------------------------------------------------------------------------
	2023-10-13 09:26:29,844 EPOCH 6 done: loss 0.0387 - lr: 0.000022
	2023-10-13 09:26:30,791 DEV : loss 0.2286389172077179 - f1-score (micro avg) 0.8308
	2023-10-13 09:26:30,799 saving best model
	2023-10-13 09:26:31,330 ----------------------------------------------------------------------------------------------------
	2023-10-13 09:26:32,757 epoch 7 - iter 30/304 - loss 0.01753161 - time (sec): 1.43 - samples/sec: 2105.43 - lr: 0.000022 - momentum: 0.000000
	2023-10-13 09:26:34,149 epoch 7 - iter 60/304 - loss 0.02359718 - time (sec): 2.82 - samples/sec: 2127.05 - lr: 0.000021 - momentum: 0.000000
	2023-10-13 09:26:35,712 epoch 7 - iter 90/304 - loss 0.02659548 - time (sec): 4.38 - samples/sec: 2061.77 - lr: 0.000021 - momentum: 0.000000
	2023-10-13 09:26:37,401 epoch 7 - iter 120/304 - loss 0.02435644 - time (sec): 6.07 - samples/sec: 1988.68 - lr: 0.000020 - momentum: 0.000000
	2023-10-13 09:26:38,887 epoch 7 - iter 150/304 - loss 0.02337589 - time (sec): 7.56 - samples/sec: 2001.08 - lr: 0.000020 - momentum: 0.000000
	2023-10-13 09:26:40,301 epoch 7 - iter 180/304 - loss 0.02205755 - time (sec): 8.97 - samples/sec: 2016.95 - lr: 0.000019 - momentum: 0.000000
	2023-10-13 09:26:41,704 epoch 7 - iter 210/304 - loss 0.02284182 - time (sec): 10.37 - samples/sec: 2035.89 - lr: 0.000018 - momentum: 0.000000
	2023-10-13 09:26:43,080 epoch 7 - iter 240/304 - loss 0.02205146 - time (sec): 11.75 - samples/sec: 2068.84 - lr: 0.000018 - momentum: 0.000000
	2023-10-13 09:26:44,430 epoch 7 - iter 270/304 - loss 0.02110901 - time (sec): 13.10 - samples/sec: 2110.95 - lr: 0.000017 - momentum: 0.000000
	2023-10-13 09:26:45,801 epoch 7 - iter 300/304 - loss 0.02295478 - time (sec): 14.47 - samples/sec: 2121.90 - lr: 0.000017 - momentum: 0.000000
	2023-10-13 09:26:45,968 ----------------------------------------------------------------------------------------------------
	2023-10-13 09:26:45,968 EPOCH 7 done: loss 0.0243 - lr: 0.000017
	2023-10-13 09:26:47,032 DEV : loss 0.22793522477149963 - f1-score (micro avg) 0.82
	2023-10-13 09:26:47,041 ----------------------------------------------------------------------------------------------------
	2023-10-13 09:26:48,649 epoch 8 - iter 30/304 - loss 0.02012554 - time (sec): 1.61 - samples/sec: 1908.27 - lr: 0.000016 - momentum: 0.000000
	2023-10-13 09:26:50,121 epoch 8 - iter 60/304 - loss 0.03760001 - time (sec): 3.08 - samples/sec: 2113.10 - lr: 0.000016 - momentum: 0.000000
	2023-10-13 09:26:51,446 epoch 8 - iter 90/304 - loss 0.03699049 - time (sec): 4.40 - samples/sec: 2134.31 - lr: 0.000015 - momentum: 0.000000
	2023-10-13 09:26:52,785 epoch 8 - iter 120/304 - loss 0.02855817 - time (sec): 5.74 - samples/sec: 2134.70 - lr: 0.000015 - momentum: 0.000000
	2023-10-13 09:26:54,136 epoch 8 - iter 150/304 - loss 0.02421875 - time (sec): 7.09 - samples/sec: 2139.98 - lr: 0.000014 - momentum: 0.000000
	2023-10-13 09:26:55,501 epoch 8 - iter 180/304 - loss 0.02334823 - time (sec): 8.46 - samples/sec: 2171.59 - lr: 0.000013 - momentum: 0.000000
	2023-10-13 09:26:56,844 epoch 8 - iter 210/304 - loss 0.02066826 - time (sec): 9.80 - samples/sec: 2177.53 - lr: 0.000013 - momentum: 0.000000
	2023-10-13 09:26:58,225 epoch 8 - iter 240/304 - loss 0.02086912 - time (sec): 11.18 - samples/sec: 2183.75 - lr: 0.000012 - momentum: 0.000000
	2023-10-13 09:26:59,612 epoch 8 - iter 270/304 - loss 0.01956457 - time (sec): 12.57 - samples/sec: 2191.52 - lr: 0.000012 - momentum: 0.000000
	2023-10-13 09:27:00,937 epoch 8 - iter 300/304 - loss 0.01786150 - time (sec): 13.89 - samples/sec: 2201.82 - lr: 0.000011 - momentum: 0.000000
	2023-10-13 09:27:01,119 ----------------------------------------------------------------------------------------------------
	2023-10-13 09:27:01,119 EPOCH 8 done: loss 0.0176 - lr: 0.000011
	2023-10-13 09:27:02,108 DEV : loss 0.23265127837657928 - f1-score (micro avg) 0.8329
	2023-10-13 09:27:02,116 saving best model
	2023-10-13 09:27:02,688 ----------------------------------------------------------------------------------------------------
	2023-10-13 09:27:04,022 epoch 9 - iter 30/304 - loss 0.00303313 - time (sec): 1.33 - samples/sec: 2189.12 - lr: 0.000011 - momentum: 0.000000
	2023-10-13 09:27:05,339 epoch 9 - iter 60/304 - loss 0.00552285 - time (sec): 2.65 - samples/sec: 2302.98 - lr: 0.000010 - momentum: 0.000000
	2023-10-13 09:27:06,919 epoch 9 - iter 90/304 - loss 0.01349350 - time (sec): 4.23 - samples/sec: 2171.18 - lr: 0.000010 - momentum: 0.000000
	2023-10-13 09:27:08,480 epoch 9 - iter 120/304 - loss 0.01134152 - time (sec): 5.79 - samples/sec: 2095.53 - lr: 0.000009 - momentum: 0.000000
	2023-10-13 09:27:09,969 epoch 9 - iter 150/304 - loss 0.01043367 - time (sec): 7.28 - samples/sec: 2084.32 - lr: 0.000008 - momentum: 0.000000
	2023-10-13 09:27:11,341 epoch 9 - iter 180/304 - loss 0.01395282 - time (sec): 8.65 - samples/sec: 2143.20 - lr: 0.000008 - momentum: 0.000000
	2023-10-13 09:27:12,656 epoch 9 - iter 210/304 - loss 0.01191362 - time (sec): 9.96 - samples/sec: 2186.36 - lr: 0.000007 - momentum: 0.000000
	2023-10-13 09:27:13,983 epoch 9 - iter 240/304 - loss 0.01338057 - time (sec): 11.29 - samples/sec: 2200.15 - lr: 0.000007 - momentum: 0.000000
	2023-10-13 09:27:15,300 epoch 9 - iter 270/304 - loss 0.01401480 - time (sec): 12.61 - samples/sec: 2205.21 - lr: 0.000006 - momentum: 0.000000
	2023-10-13 09:27:16,611 epoch 9 - iter 300/304 - loss 0.01441779 - time (sec): 13.92 - samples/sec: 2204.16 - lr: 0.000006 - momentum: 0.000000
	2023-10-13 09:27:16,780 ----------------------------------------------------------------------------------------------------
	2023-10-13 09:27:16,780 EPOCH 9 done: loss 0.0144 - lr: 0.000006
	2023-10-13 09:27:17,805 DEV : loss 0.23394043743610382 - f1-score (micro avg) 0.8382
	2023-10-13 09:27:17,813 saving best model
	2023-10-13 09:27:18,306 ----------------------------------------------------------------------------------------------------
	2023-10-13 09:27:19,615 epoch 10 - iter 30/304 - loss 0.00012268 - time (sec): 1.31 - samples/sec: 2299.01 - lr: 0.000005 - momentum: 0.000000
	2023-10-13 09:27:21,071 epoch 10 - iter 60/304 - loss 0.00771760 - time (sec): 2.76 - samples/sec: 2169.58 - lr: 0.000005 - momentum: 0.000000
	2023-10-13 09:27:22,447 epoch 10 - iter 90/304 - loss 0.00707183 - time (sec): 4.14 - samples/sec: 2237.43 - lr: 0.000004 - momentum: 0.000000
	2023-10-13 09:27:23,716 epoch 10 - iter 120/304 - loss 0.00573922 - time (sec): 5.41 - samples/sec: 2269.24 - lr: 0.000003 - momentum: 0.000000
	2023-10-13 09:27:25,018 epoch 10 - iter 150/304 - loss 0.00512078 - time (sec): 6.71 - samples/sec: 2269.99 - lr: 0.000003 - momentum: 0.000000
	2023-10-13 09:27:26,486 epoch 10 - iter 180/304 - loss 0.00554864 - time (sec): 8.18 - samples/sec: 2230.80 - lr: 0.000002 - momentum: 0.000000
	2023-10-13 09:27:27,854 epoch 10 - iter 210/304 - loss 0.01123371 - time (sec): 9.55 - samples/sec: 2231.16 - lr: 0.000002 - momentum: 0.000000
	2023-10-13 09:27:29,159 epoch 10 - iter 240/304 - loss 0.01078583 - time (sec): 10.85 - samples/sec: 2263.55 - lr: 0.000001 - momentum: 0.000000
	2023-10-13 09:27:30,514 epoch 10 - iter 270/304 - loss 0.00961352 - time (sec): 12.21 - samples/sec: 2263.25 - lr: 0.000001 - momentum: 0.000000
	2023-10-13 09:27:31,830 epoch 10 - iter 300/304 - loss 0.01062488 - time (sec): 13.52 - samples/sec: 2267.98 - lr: 0.000000 - momentum: 0.000000
	2023-10-13 09:27:31,999 ----------------------------------------------------------------------------------------------------
	2023-10-13 09:27:32,000 EPOCH 10 done: loss 0.0105 - lr: 0.000000
	2023-10-13 09:27:33,026 DEV : loss 0.22849875688552856 - f1-score (micro avg) 0.8405
	2023-10-13 09:27:33,033 saving best model
	2023-10-13 09:27:33,864 ----------------------------------------------------------------------------------------------------
	2023-10-13 09:27:33,865 Loading model from best epoch ...
	2023-10-13 09:27:35,338 SequenceTagger predicts: Dictionary with 25 tags: O, S-scope, B-scope, E-scope, I-scope, S-pers, B-pers, E-pers, I-pers, S-work, B-work, E-work, I-work, S-loc, B-loc, E-loc, I-loc, S-date, B-date, E-date, I-date, S-object, B-object, E-object, I-object
	2023-10-13 09:27:36,493
	Results:
	- F-score (micro) 0.7887
	- F-score (macro) 0.6409
	- Accuracy 0.6614

	By class:
	precision recall f1-score support

	scope 0.7469 0.8013 0.7732 151
	work 0.7130 0.8632 0.7810 95
	pers 0.7928 0.9167 0.8502 96
	date 0.0000 0.0000 0.0000 3
	loc 1.0000 0.6667 0.8000 3

	micro avg 0.7418 0.8420 0.7887 348
	macro avg 0.6505 0.6496 0.6409 348
	weighted avg 0.7461 0.8420 0.7901 348

	2023-10-13 09:27:36,493 ----------------------------------------------------------------------------------------------------