Upload folder using huggingface_hub

0f25e0e 8 months ago

No virus

23.8 kB

	2023-10-13 10:52:51,862 ----------------------------------------------------------------------------------------------------
	2023-10-13 10:52:51,863 Model: "SequenceTagger(
	(embeddings): TransformerWordEmbeddings(
	(model): BertModel(
	(embeddings): BertEmbeddings(
	(word_embeddings): Embedding(32001, 768)
	(position_embeddings): Embedding(512, 768)
	(token_type_embeddings): Embedding(2, 768)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(encoder): BertEncoder(
	(layer): ModuleList(
	(0-11): 12 x BertLayer(
	(attention): BertAttention(
	(self): BertSelfAttention(
	(query): Linear(in_features=768, out_features=768, bias=True)
	(key): Linear(in_features=768, out_features=768, bias=True)
	(value): Linear(in_features=768, out_features=768, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): BertSelfOutput(
	(dense): Linear(in_features=768, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): BertIntermediate(
	(dense): Linear(in_features=768, out_features=3072, bias=True)
	(intermediate_act_fn): GELUActivation()
	)
	(output): BertOutput(
	(dense): Linear(in_features=3072, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	)
	)
	(pooler): BertPooler(
	(dense): Linear(in_features=768, out_features=768, bias=True)
	(activation): Tanh()
	)
	)
	)
	(locked_dropout): LockedDropout(p=0.5)
	(linear): Linear(in_features=768, out_features=25, bias=True)
	(loss_function): CrossEntropyLoss()
	)"
	2023-10-13 10:52:51,863 ----------------------------------------------------------------------------------------------------
	2023-10-13 10:52:51,863 MultiCorpus: 966 train + 219 dev + 204 test sentences
	- NER_HIPE_2022 Corpus: 966 train + 219 dev + 204 test sentences - /root/.flair/datasets/ner_hipe_2022/v2.1/ajmc/fr/with_doc_seperator
	2023-10-13 10:52:51,863 ----------------------------------------------------------------------------------------------------
	2023-10-13 10:52:51,863 Train: 966 sentences
	2023-10-13 10:52:51,863 (train_with_dev=False, train_with_test=False)
	2023-10-13 10:52:51,864 ----------------------------------------------------------------------------------------------------
	2023-10-13 10:52:51,864 Training Params:
	2023-10-13 10:52:51,864 - learning_rate: "3e-05"
	2023-10-13 10:52:51,864 - mini_batch_size: "8"
	2023-10-13 10:52:51,864 - max_epochs: "10"
	2023-10-13 10:52:51,864 - shuffle: "True"
	2023-10-13 10:52:51,864 ----------------------------------------------------------------------------------------------------
	2023-10-13 10:52:51,864 Plugins:
	2023-10-13 10:52:51,864 - LinearScheduler \| warmup_fraction: '0.1'
	2023-10-13 10:52:51,864 ----------------------------------------------------------------------------------------------------
	2023-10-13 10:52:51,864 Final evaluation on model from best epoch (best-model.pt)
	2023-10-13 10:52:51,864 - metric: "('micro avg', 'f1-score')"
	2023-10-13 10:52:51,864 ----------------------------------------------------------------------------------------------------
	2023-10-13 10:52:51,864 Computation:
	2023-10-13 10:52:51,864 - compute on device: cuda:0
	2023-10-13 10:52:51,864 - embedding storage: none
	2023-10-13 10:52:51,864 ----------------------------------------------------------------------------------------------------
	2023-10-13 10:52:51,864 Model training base path: "hmbench-ajmc/fr-dbmdz/bert-base-historic-multilingual-cased-bs8-wsFalse-e10-lr3e-05-poolingfirst-layers-1-crfFalse-3"
	2023-10-13 10:52:51,864 ----------------------------------------------------------------------------------------------------
	2023-10-13 10:52:51,864 ----------------------------------------------------------------------------------------------------
	2023-10-13 10:52:52,646 epoch 1 - iter 12/121 - loss 3.17909121 - time (sec): 0.78 - samples/sec: 3191.49 - lr: 0.000003 - momentum: 0.000000
	2023-10-13 10:52:53,385 epoch 1 - iter 24/121 - loss 3.04171075 - time (sec): 1.52 - samples/sec: 3278.44 - lr: 0.000006 - momentum: 0.000000
	2023-10-13 10:52:54,131 epoch 1 - iter 36/121 - loss 2.68471780 - time (sec): 2.27 - samples/sec: 3268.31 - lr: 0.000009 - momentum: 0.000000
	2023-10-13 10:52:54,886 epoch 1 - iter 48/121 - loss 2.18077509 - time (sec): 3.02 - samples/sec: 3339.99 - lr: 0.000012 - momentum: 0.000000
	2023-10-13 10:52:55,555 epoch 1 - iter 60/121 - loss 1.89943784 - time (sec): 3.69 - samples/sec: 3351.90 - lr: 0.000015 - momentum: 0.000000
	2023-10-13 10:52:56,263 epoch 1 - iter 72/121 - loss 1.70681167 - time (sec): 4.40 - samples/sec: 3323.28 - lr: 0.000018 - momentum: 0.000000
	2023-10-13 10:52:57,018 epoch 1 - iter 84/121 - loss 1.55089129 - time (sec): 5.15 - samples/sec: 3344.29 - lr: 0.000021 - momentum: 0.000000
	2023-10-13 10:52:57,730 epoch 1 - iter 96/121 - loss 1.41823689 - time (sec): 5.86 - samples/sec: 3357.05 - lr: 0.000024 - momentum: 0.000000
	2023-10-13 10:52:58,467 epoch 1 - iter 108/121 - loss 1.31140615 - time (sec): 6.60 - samples/sec: 3327.21 - lr: 0.000027 - momentum: 0.000000
	2023-10-13 10:52:59,227 epoch 1 - iter 120/121 - loss 1.20901818 - time (sec): 7.36 - samples/sec: 3343.62 - lr: 0.000030 - momentum: 0.000000
	2023-10-13 10:52:59,275 ----------------------------------------------------------------------------------------------------
	2023-10-13 10:52:59,276 EPOCH 1 done: loss 1.2054 - lr: 0.000030
	2023-10-13 10:53:00,226 DEV : loss 0.316750168800354 - f1-score (micro avg) 0.4575
	2023-10-13 10:53:00,231 saving best model
	2023-10-13 10:53:00,624 ----------------------------------------------------------------------------------------------------
	2023-10-13 10:53:01,327 epoch 2 - iter 12/121 - loss 0.26638783 - time (sec): 0.70 - samples/sec: 3329.16 - lr: 0.000030 - momentum: 0.000000
	2023-10-13 10:53:02,158 epoch 2 - iter 24/121 - loss 0.27055334 - time (sec): 1.53 - samples/sec: 3347.41 - lr: 0.000029 - momentum: 0.000000
	2023-10-13 10:53:02,889 epoch 2 - iter 36/121 - loss 0.28884933 - time (sec): 2.26 - samples/sec: 3350.55 - lr: 0.000029 - momentum: 0.000000
	2023-10-13 10:53:03,616 epoch 2 - iter 48/121 - loss 0.27153507 - time (sec): 2.99 - samples/sec: 3360.27 - lr: 0.000029 - momentum: 0.000000
	2023-10-13 10:53:04,305 epoch 2 - iter 60/121 - loss 0.26375086 - time (sec): 3.68 - samples/sec: 3363.97 - lr: 0.000028 - momentum: 0.000000
	2023-10-13 10:53:05,026 epoch 2 - iter 72/121 - loss 0.25241819 - time (sec): 4.40 - samples/sec: 3411.47 - lr: 0.000028 - momentum: 0.000000
	2023-10-13 10:53:05,811 epoch 2 - iter 84/121 - loss 0.24193642 - time (sec): 5.19 - samples/sec: 3391.97 - lr: 0.000028 - momentum: 0.000000
	2023-10-13 10:53:06,479 epoch 2 - iter 96/121 - loss 0.24201310 - time (sec): 5.85 - samples/sec: 3369.37 - lr: 0.000027 - momentum: 0.000000
	2023-10-13 10:53:07,162 epoch 2 - iter 108/121 - loss 0.23640591 - time (sec): 6.54 - samples/sec: 3365.98 - lr: 0.000027 - momentum: 0.000000
	2023-10-13 10:53:07,871 epoch 2 - iter 120/121 - loss 0.22750859 - time (sec): 7.25 - samples/sec: 3390.32 - lr: 0.000027 - momentum: 0.000000
	2023-10-13 10:53:07,942 ----------------------------------------------------------------------------------------------------
	2023-10-13 10:53:07,942 EPOCH 2 done: loss 0.2265 - lr: 0.000027
	2023-10-13 10:53:08,764 DEV : loss 0.14802373945713043 - f1-score (micro avg) 0.728
	2023-10-13 10:53:08,770 saving best model
	2023-10-13 10:53:09,250 ----------------------------------------------------------------------------------------------------
	2023-10-13 10:53:10,116 epoch 3 - iter 12/121 - loss 0.15042699 - time (sec): 0.86 - samples/sec: 2892.89 - lr: 0.000026 - momentum: 0.000000
	2023-10-13 10:53:10,895 epoch 3 - iter 24/121 - loss 0.14247391 - time (sec): 1.64 - samples/sec: 2899.89 - lr: 0.000026 - momentum: 0.000000
	2023-10-13 10:53:11,630 epoch 3 - iter 36/121 - loss 0.13500773 - time (sec): 2.38 - samples/sec: 3007.99 - lr: 0.000026 - momentum: 0.000000
	2023-10-13 10:53:12,398 epoch 3 - iter 48/121 - loss 0.14469855 - time (sec): 3.15 - samples/sec: 3033.06 - lr: 0.000025 - momentum: 0.000000
	2023-10-13 10:53:13,131 epoch 3 - iter 60/121 - loss 0.14634721 - time (sec): 3.88 - samples/sec: 3073.73 - lr: 0.000025 - momentum: 0.000000
	2023-10-13 10:53:13,966 epoch 3 - iter 72/121 - loss 0.14036761 - time (sec): 4.71 - samples/sec: 3076.55 - lr: 0.000025 - momentum: 0.000000
	2023-10-13 10:53:14,726 epoch 3 - iter 84/121 - loss 0.12993783 - time (sec): 5.47 - samples/sec: 3094.89 - lr: 0.000024 - momentum: 0.000000
	2023-10-13 10:53:15,578 epoch 3 - iter 96/121 - loss 0.12808239 - time (sec): 6.33 - samples/sec: 3097.84 - lr: 0.000024 - momentum: 0.000000
	2023-10-13 10:53:16,414 epoch 3 - iter 108/121 - loss 0.12575730 - time (sec): 7.16 - samples/sec: 3039.72 - lr: 0.000024 - momentum: 0.000000
	2023-10-13 10:53:17,216 epoch 3 - iter 120/121 - loss 0.12426082 - time (sec): 7.96 - samples/sec: 3090.22 - lr: 0.000023 - momentum: 0.000000
	2023-10-13 10:53:17,270 ----------------------------------------------------------------------------------------------------
	2023-10-13 10:53:17,270 EPOCH 3 done: loss 0.1242 - lr: 0.000023
	2023-10-13 10:53:18,158 DEV : loss 0.11766723543405533 - f1-score (micro avg) 0.8489
	2023-10-13 10:53:18,164 saving best model
	2023-10-13 10:53:18,717 ----------------------------------------------------------------------------------------------------
	2023-10-13 10:53:19,616 epoch 4 - iter 12/121 - loss 0.07434890 - time (sec): 0.90 - samples/sec: 2819.16 - lr: 0.000023 - momentum: 0.000000
	2023-10-13 10:53:20,508 epoch 4 - iter 24/121 - loss 0.08274365 - time (sec): 1.79 - samples/sec: 2707.12 - lr: 0.000023 - momentum: 0.000000
	2023-10-13 10:53:21,373 epoch 4 - iter 36/121 - loss 0.06977141 - time (sec): 2.65 - samples/sec: 2783.84 - lr: 0.000022 - momentum: 0.000000
	2023-10-13 10:53:22,273 epoch 4 - iter 48/121 - loss 0.07499834 - time (sec): 3.55 - samples/sec: 2839.70 - lr: 0.000022 - momentum: 0.000000
	2023-10-13 10:53:23,081 epoch 4 - iter 60/121 - loss 0.08046941 - time (sec): 4.36 - samples/sec: 2864.23 - lr: 0.000022 - momentum: 0.000000
	2023-10-13 10:53:23,839 epoch 4 - iter 72/121 - loss 0.07741985 - time (sec): 5.12 - samples/sec: 2855.44 - lr: 0.000021 - momentum: 0.000000
	2023-10-13 10:53:24,674 epoch 4 - iter 84/121 - loss 0.07963593 - time (sec): 5.95 - samples/sec: 2856.23 - lr: 0.000021 - momentum: 0.000000
	2023-10-13 10:53:25,501 epoch 4 - iter 96/121 - loss 0.08226614 - time (sec): 6.78 - samples/sec: 2883.71 - lr: 0.000021 - momentum: 0.000000
	2023-10-13 10:53:26,306 epoch 4 - iter 108/121 - loss 0.08636397 - time (sec): 7.59 - samples/sec: 2918.44 - lr: 0.000020 - momentum: 0.000000
	2023-10-13 10:53:27,129 epoch 4 - iter 120/121 - loss 0.08610454 - time (sec): 8.41 - samples/sec: 2934.47 - lr: 0.000020 - momentum: 0.000000
	2023-10-13 10:53:27,184 ----------------------------------------------------------------------------------------------------
	2023-10-13 10:53:27,184 EPOCH 4 done: loss 0.0860 - lr: 0.000020
	2023-10-13 10:53:27,974 DEV : loss 0.11788605898618698 - f1-score (micro avg) 0.8339
	2023-10-13 10:53:27,980 ----------------------------------------------------------------------------------------------------
	2023-10-13 10:53:28,776 epoch 5 - iter 12/121 - loss 0.06113326 - time (sec): 0.79 - samples/sec: 3226.47 - lr: 0.000020 - momentum: 0.000000
	2023-10-13 10:53:29,565 epoch 5 - iter 24/121 - loss 0.06172437 - time (sec): 1.58 - samples/sec: 3269.17 - lr: 0.000019 - momentum: 0.000000
	2023-10-13 10:53:30,391 epoch 5 - iter 36/121 - loss 0.06194669 - time (sec): 2.41 - samples/sec: 3177.27 - lr: 0.000019 - momentum: 0.000000
	2023-10-13 10:53:31,182 epoch 5 - iter 48/121 - loss 0.06213729 - time (sec): 3.20 - samples/sec: 3124.14 - lr: 0.000019 - momentum: 0.000000
	2023-10-13 10:53:31,876 epoch 5 - iter 60/121 - loss 0.06305799 - time (sec): 3.89 - samples/sec: 3202.91 - lr: 0.000018 - momentum: 0.000000
	2023-10-13 10:53:32,589 epoch 5 - iter 72/121 - loss 0.06106691 - time (sec): 4.61 - samples/sec: 3199.91 - lr: 0.000018 - momentum: 0.000000
	2023-10-13 10:53:33,306 epoch 5 - iter 84/121 - loss 0.06108503 - time (sec): 5.32 - samples/sec: 3194.25 - lr: 0.000018 - momentum: 0.000000
	2023-10-13 10:53:34,083 epoch 5 - iter 96/121 - loss 0.06172086 - time (sec): 6.10 - samples/sec: 3190.68 - lr: 0.000017 - momentum: 0.000000
	2023-10-13 10:53:34,852 epoch 5 - iter 108/121 - loss 0.05853778 - time (sec): 6.87 - samples/sec: 3223.07 - lr: 0.000017 - momentum: 0.000000
	2023-10-13 10:53:35,627 epoch 5 - iter 120/121 - loss 0.05812999 - time (sec): 7.64 - samples/sec: 3220.68 - lr: 0.000017 - momentum: 0.000000
	2023-10-13 10:53:35,679 ----------------------------------------------------------------------------------------------------
	2023-10-13 10:53:35,679 EPOCH 5 done: loss 0.0587 - lr: 0.000017
	2023-10-13 10:53:36,465 DEV : loss 0.11372210830450058 - f1-score (micro avg) 0.8467
	2023-10-13 10:53:36,472 ----------------------------------------------------------------------------------------------------
	2023-10-13 10:53:37,213 epoch 6 - iter 12/121 - loss 0.05085270 - time (sec): 0.74 - samples/sec: 3183.40 - lr: 0.000016 - momentum: 0.000000
	2023-10-13 10:53:37,967 epoch 6 - iter 24/121 - loss 0.04445369 - time (sec): 1.49 - samples/sec: 3282.50 - lr: 0.000016 - momentum: 0.000000
	2023-10-13 10:53:38,677 epoch 6 - iter 36/121 - loss 0.04652242 - time (sec): 2.20 - samples/sec: 3171.47 - lr: 0.000016 - momentum: 0.000000
	2023-10-13 10:53:39,517 epoch 6 - iter 48/121 - loss 0.04882430 - time (sec): 3.04 - samples/sec: 3240.01 - lr: 0.000015 - momentum: 0.000000
	2023-10-13 10:53:40,333 epoch 6 - iter 60/121 - loss 0.04403158 - time (sec): 3.86 - samples/sec: 3206.96 - lr: 0.000015 - momentum: 0.000000
	2023-10-13 10:53:41,145 epoch 6 - iter 72/121 - loss 0.04512615 - time (sec): 4.67 - samples/sec: 3158.95 - lr: 0.000015 - momentum: 0.000000
	2023-10-13 10:53:41,926 epoch 6 - iter 84/121 - loss 0.04169450 - time (sec): 5.45 - samples/sec: 3151.10 - lr: 0.000014 - momentum: 0.000000
	2023-10-13 10:53:42,716 epoch 6 - iter 96/121 - loss 0.04098123 - time (sec): 6.24 - samples/sec: 3167.99 - lr: 0.000014 - momentum: 0.000000
	2023-10-13 10:53:43,588 epoch 6 - iter 108/121 - loss 0.04431050 - time (sec): 7.11 - samples/sec: 3127.44 - lr: 0.000014 - momentum: 0.000000
	2023-10-13 10:53:44,408 epoch 6 - iter 120/121 - loss 0.04446614 - time (sec): 7.93 - samples/sec: 3098.04 - lr: 0.000013 - momentum: 0.000000
	2023-10-13 10:53:44,466 ----------------------------------------------------------------------------------------------------
	2023-10-13 10:53:44,466 EPOCH 6 done: loss 0.0444 - lr: 0.000013
	2023-10-13 10:53:45,326 DEV : loss 0.12393485754728317 - f1-score (micro avg) 0.8422
	2023-10-13 10:53:45,332 ----------------------------------------------------------------------------------------------------
	2023-10-13 10:53:46,107 epoch 7 - iter 12/121 - loss 0.02949832 - time (sec): 0.77 - samples/sec: 3092.83 - lr: 0.000013 - momentum: 0.000000
	2023-10-13 10:53:46,910 epoch 7 - iter 24/121 - loss 0.02670211 - time (sec): 1.58 - samples/sec: 3071.03 - lr: 0.000013 - momentum: 0.000000
	2023-10-13 10:53:47,655 epoch 7 - iter 36/121 - loss 0.02772323 - time (sec): 2.32 - samples/sec: 3273.10 - lr: 0.000012 - momentum: 0.000000
	2023-10-13 10:53:48,466 epoch 7 - iter 48/121 - loss 0.02934970 - time (sec): 3.13 - samples/sec: 3232.26 - lr: 0.000012 - momentum: 0.000000
	2023-10-13 10:53:49,214 epoch 7 - iter 60/121 - loss 0.02922209 - time (sec): 3.88 - samples/sec: 3237.42 - lr: 0.000012 - momentum: 0.000000
	2023-10-13 10:53:49,918 epoch 7 - iter 72/121 - loss 0.03081692 - time (sec): 4.59 - samples/sec: 3222.69 - lr: 0.000011 - momentum: 0.000000
	2023-10-13 10:53:50,674 epoch 7 - iter 84/121 - loss 0.03046156 - time (sec): 5.34 - samples/sec: 3168.56 - lr: 0.000011 - momentum: 0.000000
	2023-10-13 10:53:51,526 epoch 7 - iter 96/121 - loss 0.03149212 - time (sec): 6.19 - samples/sec: 3158.25 - lr: 0.000011 - momentum: 0.000000
	2023-10-13 10:53:52,273 epoch 7 - iter 108/121 - loss 0.03176728 - time (sec): 6.94 - samples/sec: 3160.03 - lr: 0.000010 - momentum: 0.000000
	2023-10-13 10:53:53,020 epoch 7 - iter 120/121 - loss 0.03220890 - time (sec): 7.69 - samples/sec: 3191.16 - lr: 0.000010 - momentum: 0.000000
	2023-10-13 10:53:53,085 ----------------------------------------------------------------------------------------------------
	2023-10-13 10:53:53,085 EPOCH 7 done: loss 0.0324 - lr: 0.000010
	2023-10-13 10:53:53,894 DEV : loss 0.1321217119693756 - f1-score (micro avg) 0.8557
	2023-10-13 10:53:53,900 saving best model
	2023-10-13 10:53:54,313 ----------------------------------------------------------------------------------------------------
	2023-10-13 10:53:54,990 epoch 8 - iter 12/121 - loss 0.01637944 - time (sec): 0.68 - samples/sec: 3611.23 - lr: 0.000010 - momentum: 0.000000
	2023-10-13 10:53:55,758 epoch 8 - iter 24/121 - loss 0.02220890 - time (sec): 1.44 - samples/sec: 3410.63 - lr: 0.000009 - momentum: 0.000000
	2023-10-13 10:53:56,516 epoch 8 - iter 36/121 - loss 0.02475902 - time (sec): 2.20 - samples/sec: 3229.05 - lr: 0.000009 - momentum: 0.000000
	2023-10-13 10:53:57,228 epoch 8 - iter 48/121 - loss 0.02561630 - time (sec): 2.91 - samples/sec: 3234.11 - lr: 0.000009 - momentum: 0.000000
	2023-10-13 10:53:57,954 epoch 8 - iter 60/121 - loss 0.02205337 - time (sec): 3.64 - samples/sec: 3282.92 - lr: 0.000008 - momentum: 0.000000
	2023-10-13 10:53:58,659 epoch 8 - iter 72/121 - loss 0.02736501 - time (sec): 4.34 - samples/sec: 3309.66 - lr: 0.000008 - momentum: 0.000000
	2023-10-13 10:53:59,396 epoch 8 - iter 84/121 - loss 0.02660597 - time (sec): 5.08 - samples/sec: 3354.20 - lr: 0.000008 - momentum: 0.000000
	2023-10-13 10:54:00,186 epoch 8 - iter 96/121 - loss 0.02589860 - time (sec): 5.87 - samples/sec: 3320.52 - lr: 0.000008 - momentum: 0.000000
	2023-10-13 10:54:00,887 epoch 8 - iter 108/121 - loss 0.02658770 - time (sec): 6.57 - samples/sec: 3305.96 - lr: 0.000007 - momentum: 0.000000
	2023-10-13 10:54:01,874 epoch 8 - iter 120/121 - loss 0.02552164 - time (sec): 7.56 - samples/sec: 3246.63 - lr: 0.000007 - momentum: 0.000000
	2023-10-13 10:54:01,937 ----------------------------------------------------------------------------------------------------
	2023-10-13 10:54:01,937 EPOCH 8 done: loss 0.0258 - lr: 0.000007
	2023-10-13 10:54:02,717 DEV : loss 0.1389080435037613 - f1-score (micro avg) 0.8518
	2023-10-13 10:54:02,723 ----------------------------------------------------------------------------------------------------
	2023-10-13 10:54:03,477 epoch 9 - iter 12/121 - loss 0.01343012 - time (sec): 0.75 - samples/sec: 3306.45 - lr: 0.000006 - momentum: 0.000000
	2023-10-13 10:54:04,235 epoch 9 - iter 24/121 - loss 0.01362673 - time (sec): 1.51 - samples/sec: 3227.59 - lr: 0.000006 - momentum: 0.000000
	2023-10-13 10:54:05,023 epoch 9 - iter 36/121 - loss 0.01640262 - time (sec): 2.30 - samples/sec: 3281.85 - lr: 0.000006 - momentum: 0.000000
	2023-10-13 10:54:05,835 epoch 9 - iter 48/121 - loss 0.01600270 - time (sec): 3.11 - samples/sec: 3287.63 - lr: 0.000006 - momentum: 0.000000
	2023-10-13 10:54:06,588 epoch 9 - iter 60/121 - loss 0.02007674 - time (sec): 3.86 - samples/sec: 3313.10 - lr: 0.000005 - momentum: 0.000000
	2023-10-13 10:54:07,335 epoch 9 - iter 72/121 - loss 0.02000602 - time (sec): 4.61 - samples/sec: 3338.46 - lr: 0.000005 - momentum: 0.000000
	2023-10-13 10:54:08,083 epoch 9 - iter 84/121 - loss 0.02068938 - time (sec): 5.36 - samples/sec: 3342.98 - lr: 0.000005 - momentum: 0.000000
	2023-10-13 10:54:08,776 epoch 9 - iter 96/121 - loss 0.01942837 - time (sec): 6.05 - samples/sec: 3335.99 - lr: 0.000004 - momentum: 0.000000
	2023-10-13 10:54:09,451 epoch 9 - iter 108/121 - loss 0.01964516 - time (sec): 6.73 - samples/sec: 3301.39 - lr: 0.000004 - momentum: 0.000000
	2023-10-13 10:54:10,108 epoch 9 - iter 120/121 - loss 0.01947091 - time (sec): 7.38 - samples/sec: 3320.85 - lr: 0.000004 - momentum: 0.000000
	2023-10-13 10:54:10,177 ----------------------------------------------------------------------------------------------------
	2023-10-13 10:54:10,177 EPOCH 9 done: loss 0.0197 - lr: 0.000004
	2023-10-13 10:54:11,065 DEV : loss 0.1477350890636444 - f1-score (micro avg) 0.8448
	2023-10-13 10:54:11,072 ----------------------------------------------------------------------------------------------------
	2023-10-13 10:54:11,873 epoch 10 - iter 12/121 - loss 0.00790083 - time (sec): 0.80 - samples/sec: 2918.50 - lr: 0.000003 - momentum: 0.000000
	2023-10-13 10:54:12,658 epoch 10 - iter 24/121 - loss 0.01090367 - time (sec): 1.58 - samples/sec: 3094.88 - lr: 0.000003 - momentum: 0.000000
	2023-10-13 10:54:13,472 epoch 10 - iter 36/121 - loss 0.01066049 - time (sec): 2.40 - samples/sec: 3166.62 - lr: 0.000003 - momentum: 0.000000
	2023-10-13 10:54:14,153 epoch 10 - iter 48/121 - loss 0.01021749 - time (sec): 3.08 - samples/sec: 3225.19 - lr: 0.000002 - momentum: 0.000000
	2023-10-13 10:54:14,906 epoch 10 - iter 60/121 - loss 0.01234905 - time (sec): 3.83 - samples/sec: 3200.23 - lr: 0.000002 - momentum: 0.000000
	2023-10-13 10:54:15,717 epoch 10 - iter 72/121 - loss 0.01159966 - time (sec): 4.64 - samples/sec: 3166.73 - lr: 0.000002 - momentum: 0.000000
	2023-10-13 10:54:16,452 epoch 10 - iter 84/121 - loss 0.01407237 - time (sec): 5.38 - samples/sec: 3172.94 - lr: 0.000001 - momentum: 0.000000
	2023-10-13 10:54:17,164 epoch 10 - iter 96/121 - loss 0.01543510 - time (sec): 6.09 - samples/sec: 3212.46 - lr: 0.000001 - momentum: 0.000000
	2023-10-13 10:54:17,929 epoch 10 - iter 108/121 - loss 0.01442978 - time (sec): 6.86 - samples/sec: 3208.39 - lr: 0.000001 - momentum: 0.000000
	2023-10-13 10:54:18,660 epoch 10 - iter 120/121 - loss 0.01626211 - time (sec): 7.59 - samples/sec: 3238.16 - lr: 0.000000 - momentum: 0.000000
	2023-10-13 10:54:18,709 ----------------------------------------------------------------------------------------------------
	2023-10-13 10:54:18,709 EPOCH 10 done: loss 0.0162 - lr: 0.000000
	2023-10-13 10:54:19,504 DEV : loss 0.14863362908363342 - f1-score (micro avg) 0.8533
	2023-10-13 10:54:20,002 ----------------------------------------------------------------------------------------------------
	2023-10-13 10:54:20,003 Loading model from best epoch ...
	2023-10-13 10:54:21,525 SequenceTagger predicts: Dictionary with 25 tags: O, S-scope, B-scope, E-scope, I-scope, S-pers, B-pers, E-pers, I-pers, S-work, B-work, E-work, I-work, S-loc, B-loc, E-loc, I-loc, S-object, B-object, E-object, I-object, S-date, B-date, E-date, I-date
	2023-10-13 10:54:22,364
	Results:
	- F-score (micro) 0.8149
	- F-score (macro) 0.5999
	- Accuracy 0.7034

	By class:
	precision recall f1-score support

	pers 0.7974 0.8777 0.8356 139
	scope 0.8551 0.9147 0.8839 129
	work 0.6526 0.7750 0.7086 80
	loc 0.8000 0.4444 0.5714 9
	date 0.0000 0.0000 0.0000 3

	micro avg 0.7826 0.8500 0.8149 360
	macro avg 0.6210 0.6024 0.5999 360
	weighted avg 0.7793 0.8500 0.8111 360

	2023-10-13 10:54:22,364 ----------------------------------------------------------------------------------------------------