Upload folder using huggingface_hub

240ab77 8 months ago

No virus

24 kB

	2023-10-13 11:05:24,965 ----------------------------------------------------------------------------------------------------
	2023-10-13 11:05:24,966 Model: "SequenceTagger(
	(embeddings): TransformerWordEmbeddings(
	(model): BertModel(
	(embeddings): BertEmbeddings(
	(word_embeddings): Embedding(32001, 768)
	(position_embeddings): Embedding(512, 768)
	(token_type_embeddings): Embedding(2, 768)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(encoder): BertEncoder(
	(layer): ModuleList(
	(0-11): 12 x BertLayer(
	(attention): BertAttention(
	(self): BertSelfAttention(
	(query): Linear(in_features=768, out_features=768, bias=True)
	(key): Linear(in_features=768, out_features=768, bias=True)
	(value): Linear(in_features=768, out_features=768, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): BertSelfOutput(
	(dense): Linear(in_features=768, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): BertIntermediate(
	(dense): Linear(in_features=768, out_features=3072, bias=True)
	(intermediate_act_fn): GELUActivation()
	)
	(output): BertOutput(
	(dense): Linear(in_features=3072, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	)
	)
	(pooler): BertPooler(
	(dense): Linear(in_features=768, out_features=768, bias=True)
	(activation): Tanh()
	)
	)
	)
	(locked_dropout): LockedDropout(p=0.5)
	(linear): Linear(in_features=768, out_features=25, bias=True)
	(loss_function): CrossEntropyLoss()
	)"
	2023-10-13 11:05:24,966 ----------------------------------------------------------------------------------------------------
	2023-10-13 11:05:24,966 MultiCorpus: 966 train + 219 dev + 204 test sentences
	- NER_HIPE_2022 Corpus: 966 train + 219 dev + 204 test sentences - /root/.flair/datasets/ner_hipe_2022/v2.1/ajmc/fr/with_doc_seperator
	2023-10-13 11:05:24,966 ----------------------------------------------------------------------------------------------------
	2023-10-13 11:05:24,966 Train: 966 sentences
	2023-10-13 11:05:24,967 (train_with_dev=False, train_with_test=False)
	2023-10-13 11:05:24,967 ----------------------------------------------------------------------------------------------------
	2023-10-13 11:05:24,967 Training Params:
	2023-10-13 11:05:24,967 - learning_rate: "3e-05"
	2023-10-13 11:05:24,967 - mini_batch_size: "4"
	2023-10-13 11:05:24,967 - max_epochs: "10"
	2023-10-13 11:05:24,967 - shuffle: "True"
	2023-10-13 11:05:24,967 ----------------------------------------------------------------------------------------------------
	2023-10-13 11:05:24,967 Plugins:
	2023-10-13 11:05:24,967 - LinearScheduler \| warmup_fraction: '0.1'
	2023-10-13 11:05:24,967 ----------------------------------------------------------------------------------------------------
	2023-10-13 11:05:24,967 Final evaluation on model from best epoch (best-model.pt)
	2023-10-13 11:05:24,967 - metric: "('micro avg', 'f1-score')"
	2023-10-13 11:05:24,967 ----------------------------------------------------------------------------------------------------
	2023-10-13 11:05:24,967 Computation:
	2023-10-13 11:05:24,967 - compute on device: cuda:0
	2023-10-13 11:05:24,967 - embedding storage: none
	2023-10-13 11:05:24,967 ----------------------------------------------------------------------------------------------------
	2023-10-13 11:05:24,967 Model training base path: "hmbench-ajmc/fr-dbmdz/bert-base-historic-multilingual-cased-bs4-wsFalse-e10-lr3e-05-poolingfirst-layers-1-crfFalse-5"
	2023-10-13 11:05:24,967 ----------------------------------------------------------------------------------------------------
	2023-10-13 11:05:24,967 ----------------------------------------------------------------------------------------------------
	2023-10-13 11:05:26,068 epoch 1 - iter 24/242 - loss 3.26045040 - time (sec): 1.10 - samples/sec: 1997.04 - lr: 0.000003 - momentum: 0.000000
	2023-10-13 11:05:27,168 epoch 1 - iter 48/242 - loss 2.88611384 - time (sec): 2.20 - samples/sec: 2190.45 - lr: 0.000006 - momentum: 0.000000
	2023-10-13 11:05:28,240 epoch 1 - iter 72/242 - loss 2.29154480 - time (sec): 3.27 - samples/sec: 2204.10 - lr: 0.000009 - momentum: 0.000000
	2023-10-13 11:05:29,304 epoch 1 - iter 96/242 - loss 1.83341707 - time (sec): 4.34 - samples/sec: 2293.36 - lr: 0.000012 - momentum: 0.000000
	2023-10-13 11:05:30,397 epoch 1 - iter 120/242 - loss 1.58399035 - time (sec): 5.43 - samples/sec: 2294.08 - lr: 0.000015 - momentum: 0.000000
	2023-10-13 11:05:31,429 epoch 1 - iter 144/242 - loss 1.41150946 - time (sec): 6.46 - samples/sec: 2255.49 - lr: 0.000018 - momentum: 0.000000
	2023-10-13 11:05:32,514 epoch 1 - iter 168/242 - loss 1.26653071 - time (sec): 7.55 - samples/sec: 2273.95 - lr: 0.000021 - momentum: 0.000000
	2023-10-13 11:05:33,561 epoch 1 - iter 192/242 - loss 1.15583293 - time (sec): 8.59 - samples/sec: 2276.18 - lr: 0.000024 - momentum: 0.000000
	2023-10-13 11:05:34,597 epoch 1 - iter 216/242 - loss 1.07012297 - time (sec): 9.63 - samples/sec: 2269.55 - lr: 0.000027 - momentum: 0.000000
	2023-10-13 11:05:35,676 epoch 1 - iter 240/242 - loss 0.98086424 - time (sec): 10.71 - samples/sec: 2285.79 - lr: 0.000030 - momentum: 0.000000
	2023-10-13 11:05:35,771 ----------------------------------------------------------------------------------------------------
	2023-10-13 11:05:35,772 EPOCH 1 done: loss 0.9715 - lr: 0.000030
	2023-10-13 11:05:36,434 DEV : loss 0.22636541724205017 - f1-score (micro avg) 0.5455
	2023-10-13 11:05:36,439 saving best model
	2023-10-13 11:05:36,829 ----------------------------------------------------------------------------------------------------
	2023-10-13 11:05:37,892 epoch 2 - iter 24/242 - loss 0.26044400 - time (sec): 1.06 - samples/sec: 2430.95 - lr: 0.000030 - momentum: 0.000000
	2023-10-13 11:05:38,995 epoch 2 - iter 48/242 - loss 0.24138370 - time (sec): 2.16 - samples/sec: 2402.11 - lr: 0.000029 - momentum: 0.000000
	2023-10-13 11:05:40,099 epoch 2 - iter 72/242 - loss 0.24308040 - time (sec): 3.27 - samples/sec: 2251.75 - lr: 0.000029 - momentum: 0.000000
	2023-10-13 11:05:41,200 epoch 2 - iter 96/242 - loss 0.23121133 - time (sec): 4.37 - samples/sec: 2271.47 - lr: 0.000029 - momentum: 0.000000
	2023-10-13 11:05:42,277 epoch 2 - iter 120/242 - loss 0.21626000 - time (sec): 5.45 - samples/sec: 2249.01 - lr: 0.000028 - momentum: 0.000000
	2023-10-13 11:05:43,360 epoch 2 - iter 144/242 - loss 0.21173941 - time (sec): 6.53 - samples/sec: 2258.81 - lr: 0.000028 - momentum: 0.000000
	2023-10-13 11:05:44,467 epoch 2 - iter 168/242 - loss 0.20705356 - time (sec): 7.64 - samples/sec: 2263.16 - lr: 0.000028 - momentum: 0.000000
	2023-10-13 11:05:45,543 epoch 2 - iter 192/242 - loss 0.20385589 - time (sec): 8.71 - samples/sec: 2270.21 - lr: 0.000027 - momentum: 0.000000
	2023-10-13 11:05:46,632 epoch 2 - iter 216/242 - loss 0.19354748 - time (sec): 9.80 - samples/sec: 2272.40 - lr: 0.000027 - momentum: 0.000000
	2023-10-13 11:05:47,701 epoch 2 - iter 240/242 - loss 0.18924590 - time (sec): 10.87 - samples/sec: 2266.50 - lr: 0.000027 - momentum: 0.000000
	2023-10-13 11:05:47,787 ----------------------------------------------------------------------------------------------------
	2023-10-13 11:05:47,787 EPOCH 2 done: loss 0.1897 - lr: 0.000027
	2023-10-13 11:05:48,562 DEV : loss 0.12835250794887543 - f1-score (micro avg) 0.7798
	2023-10-13 11:05:48,567 saving best model
	2023-10-13 11:05:49,076 ----------------------------------------------------------------------------------------------------
	2023-10-13 11:05:50,152 epoch 3 - iter 24/242 - loss 0.11671487 - time (sec): 1.07 - samples/sec: 2298.83 - lr: 0.000026 - momentum: 0.000000
	2023-10-13 11:05:51,269 epoch 3 - iter 48/242 - loss 0.13534817 - time (sec): 2.19 - samples/sec: 2253.79 - lr: 0.000026 - momentum: 0.000000
	2023-10-13 11:05:52,356 epoch 3 - iter 72/242 - loss 0.12326417 - time (sec): 3.28 - samples/sec: 2131.83 - lr: 0.000026 - momentum: 0.000000
	2023-10-13 11:05:53,448 epoch 3 - iter 96/242 - loss 0.11100839 - time (sec): 4.37 - samples/sec: 2184.35 - lr: 0.000025 - momentum: 0.000000
	2023-10-13 11:05:54,539 epoch 3 - iter 120/242 - loss 0.13168483 - time (sec): 5.46 - samples/sec: 2217.49 - lr: 0.000025 - momentum: 0.000000
	2023-10-13 11:05:55,606 epoch 3 - iter 144/242 - loss 0.13061693 - time (sec): 6.53 - samples/sec: 2255.29 - lr: 0.000025 - momentum: 0.000000
	2023-10-13 11:05:56,758 epoch 3 - iter 168/242 - loss 0.12146008 - time (sec): 7.68 - samples/sec: 2259.41 - lr: 0.000024 - momentum: 0.000000
	2023-10-13 11:05:57,846 epoch 3 - iter 192/242 - loss 0.12442545 - time (sec): 8.77 - samples/sec: 2250.68 - lr: 0.000024 - momentum: 0.000000
	2023-10-13 11:05:58,895 epoch 3 - iter 216/242 - loss 0.11859671 - time (sec): 9.82 - samples/sec: 2233.08 - lr: 0.000024 - momentum: 0.000000
	2023-10-13 11:06:00,138 epoch 3 - iter 240/242 - loss 0.11276404 - time (sec): 11.06 - samples/sec: 2215.53 - lr: 0.000023 - momentum: 0.000000
	2023-10-13 11:06:00,226 ----------------------------------------------------------------------------------------------------
	2023-10-13 11:06:00,226 EPOCH 3 done: loss 0.1117 - lr: 0.000023
	2023-10-13 11:06:00,994 DEV : loss 0.13323190808296204 - f1-score (micro avg) 0.8194
	2023-10-13 11:06:00,998 saving best model
	2023-10-13 11:06:01,497 ----------------------------------------------------------------------------------------------------
	2023-10-13 11:06:02,580 epoch 4 - iter 24/242 - loss 0.07762309 - time (sec): 1.08 - samples/sec: 2243.88 - lr: 0.000023 - momentum: 0.000000
	2023-10-13 11:06:03,674 epoch 4 - iter 48/242 - loss 0.07491095 - time (sec): 2.17 - samples/sec: 2317.40 - lr: 0.000023 - momentum: 0.000000
	2023-10-13 11:06:04,732 epoch 4 - iter 72/242 - loss 0.07455367 - time (sec): 3.23 - samples/sec: 2278.61 - lr: 0.000022 - momentum: 0.000000
	2023-10-13 11:06:05,801 epoch 4 - iter 96/242 - loss 0.07298124 - time (sec): 4.30 - samples/sec: 2281.83 - lr: 0.000022 - momentum: 0.000000
	2023-10-13 11:06:06,880 epoch 4 - iter 120/242 - loss 0.07436689 - time (sec): 5.38 - samples/sec: 2303.54 - lr: 0.000022 - momentum: 0.000000
	2023-10-13 11:06:07,956 epoch 4 - iter 144/242 - loss 0.07580398 - time (sec): 6.45 - samples/sec: 2316.56 - lr: 0.000021 - momentum: 0.000000
	2023-10-13 11:06:09,007 epoch 4 - iter 168/242 - loss 0.07131010 - time (sec): 7.50 - samples/sec: 2302.79 - lr: 0.000021 - momentum: 0.000000
	2023-10-13 11:06:10,081 epoch 4 - iter 192/242 - loss 0.07415322 - time (sec): 8.58 - samples/sec: 2275.06 - lr: 0.000021 - momentum: 0.000000
	2023-10-13 11:06:11,158 epoch 4 - iter 216/242 - loss 0.07568736 - time (sec): 9.66 - samples/sec: 2269.11 - lr: 0.000020 - momentum: 0.000000
	2023-10-13 11:06:12,274 epoch 4 - iter 240/242 - loss 0.07358843 - time (sec): 10.77 - samples/sec: 2284.71 - lr: 0.000020 - momentum: 0.000000
	2023-10-13 11:06:12,366 ----------------------------------------------------------------------------------------------------
	2023-10-13 11:06:12,367 EPOCH 4 done: loss 0.0733 - lr: 0.000020
	2023-10-13 11:06:13,140 DEV : loss 0.15198326110839844 - f1-score (micro avg) 0.8235
	2023-10-13 11:06:13,144 saving best model
	2023-10-13 11:06:13,640 ----------------------------------------------------------------------------------------------------
	2023-10-13 11:06:14,721 epoch 5 - iter 24/242 - loss 0.07274525 - time (sec): 1.08 - samples/sec: 2450.06 - lr: 0.000020 - momentum: 0.000000
	2023-10-13 11:06:15,798 epoch 5 - iter 48/242 - loss 0.06649204 - time (sec): 2.16 - samples/sec: 2319.17 - lr: 0.000019 - momentum: 0.000000
	2023-10-13 11:06:16,864 epoch 5 - iter 72/242 - loss 0.05377757 - time (sec): 3.22 - samples/sec: 2256.18 - lr: 0.000019 - momentum: 0.000000
	2023-10-13 11:06:17,955 epoch 5 - iter 96/242 - loss 0.06363114 - time (sec): 4.31 - samples/sec: 2266.28 - lr: 0.000019 - momentum: 0.000000
	2023-10-13 11:06:19,018 epoch 5 - iter 120/242 - loss 0.06437488 - time (sec): 5.38 - samples/sec: 2282.19 - lr: 0.000018 - momentum: 0.000000
	2023-10-13 11:06:20,080 epoch 5 - iter 144/242 - loss 0.05925376 - time (sec): 6.44 - samples/sec: 2295.61 - lr: 0.000018 - momentum: 0.000000
	2023-10-13 11:06:21,135 epoch 5 - iter 168/242 - loss 0.05949345 - time (sec): 7.49 - samples/sec: 2327.46 - lr: 0.000018 - momentum: 0.000000
	2023-10-13 11:06:22,293 epoch 5 - iter 192/242 - loss 0.05779375 - time (sec): 8.65 - samples/sec: 2295.53 - lr: 0.000017 - momentum: 0.000000
	2023-10-13 11:06:23,434 epoch 5 - iter 216/242 - loss 0.05891234 - time (sec): 9.79 - samples/sec: 2292.53 - lr: 0.000017 - momentum: 0.000000
	2023-10-13 11:06:24,504 epoch 5 - iter 240/242 - loss 0.05658195 - time (sec): 10.86 - samples/sec: 2265.63 - lr: 0.000017 - momentum: 0.000000
	2023-10-13 11:06:24,592 ----------------------------------------------------------------------------------------------------
	2023-10-13 11:06:24,592 EPOCH 5 done: loss 0.0566 - lr: 0.000017
	2023-10-13 11:06:25,388 DEV : loss 0.1912955939769745 - f1-score (micro avg) 0.8244
	2023-10-13 11:06:25,394 saving best model
	2023-10-13 11:06:25,910 ----------------------------------------------------------------------------------------------------
	2023-10-13 11:06:27,018 epoch 6 - iter 24/242 - loss 0.06617410 - time (sec): 1.11 - samples/sec: 2341.85 - lr: 0.000016 - momentum: 0.000000
	2023-10-13 11:06:28,113 epoch 6 - iter 48/242 - loss 0.05850652 - time (sec): 2.20 - samples/sec: 2312.88 - lr: 0.000016 - momentum: 0.000000
	2023-10-13 11:06:29,189 epoch 6 - iter 72/242 - loss 0.05073463 - time (sec): 3.28 - samples/sec: 2349.60 - lr: 0.000016 - momentum: 0.000000
	2023-10-13 11:06:30,249 epoch 6 - iter 96/242 - loss 0.04505559 - time (sec): 4.34 - samples/sec: 2262.10 - lr: 0.000015 - momentum: 0.000000
	2023-10-13 11:06:31,358 epoch 6 - iter 120/242 - loss 0.04664781 - time (sec): 5.45 - samples/sec: 2294.26 - lr: 0.000015 - momentum: 0.000000
	2023-10-13 11:06:32,443 epoch 6 - iter 144/242 - loss 0.04235768 - time (sec): 6.53 - samples/sec: 2284.89 - lr: 0.000015 - momentum: 0.000000
	2023-10-13 11:06:33,487 epoch 6 - iter 168/242 - loss 0.04469986 - time (sec): 7.57 - samples/sec: 2252.76 - lr: 0.000014 - momentum: 0.000000
	2023-10-13 11:06:34,559 epoch 6 - iter 192/242 - loss 0.04069028 - time (sec): 8.65 - samples/sec: 2243.91 - lr: 0.000014 - momentum: 0.000000
	2023-10-13 11:06:35,638 epoch 6 - iter 216/242 - loss 0.04199094 - time (sec): 9.73 - samples/sec: 2246.12 - lr: 0.000014 - momentum: 0.000000
	2023-10-13 11:06:36,707 epoch 6 - iter 240/242 - loss 0.04314476 - time (sec): 10.79 - samples/sec: 2279.24 - lr: 0.000013 - momentum: 0.000000
	2023-10-13 11:06:36,787 ----------------------------------------------------------------------------------------------------
	2023-10-13 11:06:36,787 EPOCH 6 done: loss 0.0432 - lr: 0.000013
	2023-10-13 11:06:37,614 DEV : loss 0.18537166714668274 - f1-score (micro avg) 0.8366
	2023-10-13 11:06:37,619 saving best model
	2023-10-13 11:06:38,105 ----------------------------------------------------------------------------------------------------
	2023-10-13 11:06:39,174 epoch 7 - iter 24/242 - loss 0.01600020 - time (sec): 1.06 - samples/sec: 2410.61 - lr: 0.000013 - momentum: 0.000000
	2023-10-13 11:06:40,249 epoch 7 - iter 48/242 - loss 0.02047617 - time (sec): 2.13 - samples/sec: 2366.74 - lr: 0.000013 - momentum: 0.000000
	2023-10-13 11:06:41,298 epoch 7 - iter 72/242 - loss 0.02035596 - time (sec): 3.18 - samples/sec: 2312.63 - lr: 0.000012 - momentum: 0.000000
	2023-10-13 11:06:42,362 epoch 7 - iter 96/242 - loss 0.02688458 - time (sec): 4.25 - samples/sec: 2295.53 - lr: 0.000012 - momentum: 0.000000
	2023-10-13 11:06:43,418 epoch 7 - iter 120/242 - loss 0.03084187 - time (sec): 5.30 - samples/sec: 2306.37 - lr: 0.000012 - momentum: 0.000000
	2023-10-13 11:06:44,530 epoch 7 - iter 144/242 - loss 0.02784585 - time (sec): 6.42 - samples/sec: 2310.41 - lr: 0.000011 - momentum: 0.000000
	2023-10-13 11:06:45,592 epoch 7 - iter 168/242 - loss 0.02810855 - time (sec): 7.48 - samples/sec: 2316.89 - lr: 0.000011 - momentum: 0.000000
	2023-10-13 11:06:46,663 epoch 7 - iter 192/242 - loss 0.02898516 - time (sec): 8.55 - samples/sec: 2289.84 - lr: 0.000011 - momentum: 0.000000
	2023-10-13 11:06:47,755 epoch 7 - iter 216/242 - loss 0.03038159 - time (sec): 9.64 - samples/sec: 2292.36 - lr: 0.000010 - momentum: 0.000000
	2023-10-13 11:06:48,838 epoch 7 - iter 240/242 - loss 0.02942164 - time (sec): 10.72 - samples/sec: 2287.96 - lr: 0.000010 - momentum: 0.000000
	2023-10-13 11:06:48,926 ----------------------------------------------------------------------------------------------------
	2023-10-13 11:06:48,926 EPOCH 7 done: loss 0.0292 - lr: 0.000010
	2023-10-13 11:06:49,699 DEV : loss 0.19361057877540588 - f1-score (micro avg) 0.8267
	2023-10-13 11:06:49,705 ----------------------------------------------------------------------------------------------------
	2023-10-13 11:06:50,807 epoch 8 - iter 24/242 - loss 0.02404239 - time (sec): 1.10 - samples/sec: 2441.79 - lr: 0.000010 - momentum: 0.000000
	2023-10-13 11:06:51,860 epoch 8 - iter 48/242 - loss 0.02940480 - time (sec): 2.15 - samples/sec: 2412.74 - lr: 0.000009 - momentum: 0.000000
	2023-10-13 11:06:52,944 epoch 8 - iter 72/242 - loss 0.02453911 - time (sec): 3.24 - samples/sec: 2378.28 - lr: 0.000009 - momentum: 0.000000
	2023-10-13 11:06:54,003 epoch 8 - iter 96/242 - loss 0.02656054 - time (sec): 4.30 - samples/sec: 2377.14 - lr: 0.000009 - momentum: 0.000000
	2023-10-13 11:06:55,064 epoch 8 - iter 120/242 - loss 0.02321820 - time (sec): 5.36 - samples/sec: 2394.25 - lr: 0.000008 - momentum: 0.000000
	2023-10-13 11:06:56,131 epoch 8 - iter 144/242 - loss 0.02216193 - time (sec): 6.42 - samples/sec: 2365.89 - lr: 0.000008 - momentum: 0.000000
	2023-10-13 11:06:57,207 epoch 8 - iter 168/242 - loss 0.02347826 - time (sec): 7.50 - samples/sec: 2330.07 - lr: 0.000008 - momentum: 0.000000
	2023-10-13 11:06:58,256 epoch 8 - iter 192/242 - loss 0.02405429 - time (sec): 8.55 - samples/sec: 2317.08 - lr: 0.000007 - momentum: 0.000000
	2023-10-13 11:06:59,301 epoch 8 - iter 216/242 - loss 0.02396532 - time (sec): 9.60 - samples/sec: 2330.16 - lr: 0.000007 - momentum: 0.000000
	2023-10-13 11:07:00,352 epoch 8 - iter 240/242 - loss 0.02408148 - time (sec): 10.65 - samples/sec: 2316.55 - lr: 0.000007 - momentum: 0.000000
	2023-10-13 11:07:00,434 ----------------------------------------------------------------------------------------------------
	2023-10-13 11:07:00,434 EPOCH 8 done: loss 0.0240 - lr: 0.000007
	2023-10-13 11:07:01,228 DEV : loss 0.20021933317184448 - f1-score (micro avg) 0.8436
	2023-10-13 11:07:01,233 saving best model
	2023-10-13 11:07:01,700 ----------------------------------------------------------------------------------------------------
	2023-10-13 11:07:02,768 epoch 9 - iter 24/242 - loss 0.01550654 - time (sec): 1.07 - samples/sec: 2285.05 - lr: 0.000006 - momentum: 0.000000
	2023-10-13 11:07:03,832 epoch 9 - iter 48/242 - loss 0.02270449 - time (sec): 2.13 - samples/sec: 2390.28 - lr: 0.000006 - momentum: 0.000000
	2023-10-13 11:07:04,912 epoch 9 - iter 72/242 - loss 0.02250225 - time (sec): 3.21 - samples/sec: 2420.69 - lr: 0.000006 - momentum: 0.000000
	2023-10-13 11:07:05,950 epoch 9 - iter 96/242 - loss 0.01864297 - time (sec): 4.25 - samples/sec: 2319.14 - lr: 0.000005 - momentum: 0.000000
	2023-10-13 11:07:06,989 epoch 9 - iter 120/242 - loss 0.01711462 - time (sec): 5.29 - samples/sec: 2273.59 - lr: 0.000005 - momentum: 0.000000
	2023-10-13 11:07:08,035 epoch 9 - iter 144/242 - loss 0.01565846 - time (sec): 6.33 - samples/sec: 2289.88 - lr: 0.000005 - momentum: 0.000000
	2023-10-13 11:07:09,117 epoch 9 - iter 168/242 - loss 0.01575760 - time (sec): 7.41 - samples/sec: 2321.46 - lr: 0.000004 - momentum: 0.000000
	2023-10-13 11:07:10,201 epoch 9 - iter 192/242 - loss 0.01432253 - time (sec): 8.50 - samples/sec: 2308.51 - lr: 0.000004 - momentum: 0.000000
	2023-10-13 11:07:11,232 epoch 9 - iter 216/242 - loss 0.01599132 - time (sec): 9.53 - samples/sec: 2286.85 - lr: 0.000004 - momentum: 0.000000
	2023-10-13 11:07:12,331 epoch 9 - iter 240/242 - loss 0.01606926 - time (sec): 10.63 - samples/sec: 2315.03 - lr: 0.000003 - momentum: 0.000000
	2023-10-13 11:07:12,413 ----------------------------------------------------------------------------------------------------
	2023-10-13 11:07:12,413 EPOCH 9 done: loss 0.0163 - lr: 0.000003
	2023-10-13 11:07:13,169 DEV : loss 0.1932135969400406 - f1-score (micro avg) 0.8416
	2023-10-13 11:07:13,174 ----------------------------------------------------------------------------------------------------
	2023-10-13 11:07:14,212 epoch 10 - iter 24/242 - loss 0.02167304 - time (sec): 1.04 - samples/sec: 2341.97 - lr: 0.000003 - momentum: 0.000000
	2023-10-13 11:07:15,311 epoch 10 - iter 48/242 - loss 0.01936270 - time (sec): 2.14 - samples/sec: 2426.22 - lr: 0.000003 - momentum: 0.000000
	2023-10-13 11:07:16,378 epoch 10 - iter 72/242 - loss 0.01709001 - time (sec): 3.20 - samples/sec: 2323.76 - lr: 0.000002 - momentum: 0.000000
	2023-10-13 11:07:17,441 epoch 10 - iter 96/242 - loss 0.01646947 - time (sec): 4.27 - samples/sec: 2249.78 - lr: 0.000002 - momentum: 0.000000
	2023-10-13 11:07:18,532 epoch 10 - iter 120/242 - loss 0.01471660 - time (sec): 5.36 - samples/sec: 2333.19 - lr: 0.000002 - momentum: 0.000000
	2023-10-13 11:07:19,616 epoch 10 - iter 144/242 - loss 0.01419476 - time (sec): 6.44 - samples/sec: 2307.73 - lr: 0.000001 - momentum: 0.000000
	2023-10-13 11:07:20,684 epoch 10 - iter 168/242 - loss 0.01495178 - time (sec): 7.51 - samples/sec: 2288.09 - lr: 0.000001 - momentum: 0.000000
	2023-10-13 11:07:21,742 epoch 10 - iter 192/242 - loss 0.01644886 - time (sec): 8.57 - samples/sec: 2267.34 - lr: 0.000001 - momentum: 0.000000
	2023-10-13 11:07:22,818 epoch 10 - iter 216/242 - loss 0.01509444 - time (sec): 9.64 - samples/sec: 2272.31 - lr: 0.000000 - momentum: 0.000000
	2023-10-13 11:07:23,922 epoch 10 - iter 240/242 - loss 0.01457994 - time (sec): 10.75 - samples/sec: 2285.62 - lr: 0.000000 - momentum: 0.000000
	2023-10-13 11:07:24,003 ----------------------------------------------------------------------------------------------------
	2023-10-13 11:07:24,004 EPOCH 10 done: loss 0.0145 - lr: 0.000000
	2023-10-13 11:07:24,763 DEV : loss 0.20257213711738586 - f1-score (micro avg) 0.8408
	2023-10-13 11:07:25,119 ----------------------------------------------------------------------------------------------------
	2023-10-13 11:07:25,121 Loading model from best epoch ...
	2023-10-13 11:07:26,541 SequenceTagger predicts: Dictionary with 25 tags: O, S-scope, B-scope, E-scope, I-scope, S-pers, B-pers, E-pers, I-pers, S-work, B-work, E-work, I-work, S-loc, B-loc, E-loc, I-loc, S-object, B-object, E-object, I-object, S-date, B-date, E-date, I-date
	2023-10-13 11:07:27,369
	Results:
	- F-score (micro) 0.8295
	- F-score (macro) 0.5622
	- Accuracy 0.7255

	By class:
	precision recall f1-score support

	pers 0.8414 0.8777 0.8592 139
	scope 0.8633 0.9302 0.8955 129
	work 0.6977 0.7500 0.7229 80
	loc 0.6667 0.2222 0.3333 9
	date 0.0000 0.0000 0.0000 3

	micro avg 0.8150 0.8444 0.8295 360
	macro avg 0.6138 0.5560 0.5622 360
	weighted avg 0.8059 0.8444 0.8216 360

	2023-10-13 11:07:27,369 ----------------------------------------------------------------------------------------------------