Upload folder using huggingface_hub

27186af 11 months ago

No virus

25 kB

	2023-10-08 19:45:24,608 ----------------------------------------------------------------------------------------------------
	2023-10-08 19:45:24,609 Model: "SequenceTagger(
	(embeddings): ByT5Embeddings(
	(model): T5EncoderModel(
	(shared): Embedding(384, 1472)
	(encoder): T5Stack(
	(embed_tokens): Embedding(384, 1472)
	(block): ModuleList(
	(0): T5Block(
	(layer): ModuleList(
	(0): T5LayerSelfAttention(
	(SelfAttention): T5Attention(
	(q): Linear(in_features=1472, out_features=384, bias=False)
	(k): Linear(in_features=1472, out_features=384, bias=False)
	(v): Linear(in_features=1472, out_features=384, bias=False)
	(o): Linear(in_features=384, out_features=1472, bias=False)
	(relative_attention_bias): Embedding(32, 6)
	)
	(layer_norm): T5LayerNorm()
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(1): T5LayerFF(
	(DenseReluDense): T5DenseGatedActDense(
	(wi_0): Linear(in_features=1472, out_features=3584, bias=False)
	(wi_1): Linear(in_features=1472, out_features=3584, bias=False)
	(wo): Linear(in_features=3584, out_features=1472, bias=False)
	(dropout): Dropout(p=0.1, inplace=False)
	(act): NewGELUActivation()
	)
	(layer_norm): T5LayerNorm()
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	)
	(1-11): 11 x T5Block(
	(layer): ModuleList(
	(0): T5LayerSelfAttention(
	(SelfAttention): T5Attention(
	(q): Linear(in_features=1472, out_features=384, bias=False)
	(k): Linear(in_features=1472, out_features=384, bias=False)
	(v): Linear(in_features=1472, out_features=384, bias=False)
	(o): Linear(in_features=384, out_features=1472, bias=False)
	)
	(layer_norm): T5LayerNorm()
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(1): T5LayerFF(
	(DenseReluDense): T5DenseGatedActDense(
	(wi_0): Linear(in_features=1472, out_features=3584, bias=False)
	(wi_1): Linear(in_features=1472, out_features=3584, bias=False)
	(wo): Linear(in_features=3584, out_features=1472, bias=False)
	(dropout): Dropout(p=0.1, inplace=False)
	(act): NewGELUActivation()
	)
	(layer_norm): T5LayerNorm()
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	)
	)
	(final_layer_norm): T5LayerNorm()
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	)
	(locked_dropout): LockedDropout(p=0.5)
	(linear): Linear(in_features=1472, out_features=25, bias=True)
	(loss_function): CrossEntropyLoss()
	)"
	2023-10-08 19:45:24,609 ----------------------------------------------------------------------------------------------------
	2023-10-08 19:45:24,609 MultiCorpus: 966 train + 219 dev + 204 test sentences
	- NER_HIPE_2022 Corpus: 966 train + 219 dev + 204 test sentences - /app/.flair/datasets/ner_hipe_2022/v2.1/ajmc/fr/with_doc_seperator
	2023-10-08 19:45:24,609 ----------------------------------------------------------------------------------------------------
	2023-10-08 19:45:24,609 Train: 966 sentences
	2023-10-08 19:45:24,610 (train_with_dev=False, train_with_test=False)
	2023-10-08 19:45:24,610 ----------------------------------------------------------------------------------------------------
	2023-10-08 19:45:24,610 Training Params:
	2023-10-08 19:45:24,610 - learning_rate: "0.00016"
	2023-10-08 19:45:24,610 - mini_batch_size: "4"
	2023-10-08 19:45:24,610 - max_epochs: "10"
	2023-10-08 19:45:24,610 - shuffle: "True"
	2023-10-08 19:45:24,610 ----------------------------------------------------------------------------------------------------
	2023-10-08 19:45:24,610 Plugins:
	2023-10-08 19:45:24,610 - TensorboardLogger
	2023-10-08 19:45:24,610 - LinearScheduler \| warmup_fraction: '0.1'
	2023-10-08 19:45:24,610 ----------------------------------------------------------------------------------------------------
	2023-10-08 19:45:24,610 Final evaluation on model from best epoch (best-model.pt)
	2023-10-08 19:45:24,610 - metric: "('micro avg', 'f1-score')"
	2023-10-08 19:45:24,610 ----------------------------------------------------------------------------------------------------
	2023-10-08 19:45:24,610 Computation:
	2023-10-08 19:45:24,610 - compute on device: cuda:0
	2023-10-08 19:45:24,610 - embedding storage: none
	2023-10-08 19:45:24,610 ----------------------------------------------------------------------------------------------------
	2023-10-08 19:45:24,610 Model training base path: "hmbench-ajmc/fr-hmbyt5-preliminary/byt5-small-historic-multilingual-span20-flax-bs4-wsFalse-e10-lr0.00016-poolingfirst-layers-1-crfFalse-2"
	2023-10-08 19:45:24,611 ----------------------------------------------------------------------------------------------------
	2023-10-08 19:45:24,611 ----------------------------------------------------------------------------------------------------
	2023-10-08 19:45:24,611 Logging anything other than scalars to TensorBoard is currently not supported.
	2023-10-08 19:45:34,945 epoch 1 - iter 24/242 - loss 3.22997625 - time (sec): 10.33 - samples/sec: 252.39 - lr: 0.000015 - momentum: 0.000000
	2023-10-08 19:45:46,113 epoch 1 - iter 48/242 - loss 3.21892739 - time (sec): 21.50 - samples/sec: 251.61 - lr: 0.000031 - momentum: 0.000000
	2023-10-08 19:45:55,869 epoch 1 - iter 72/242 - loss 3.20067097 - time (sec): 31.26 - samples/sec: 247.24 - lr: 0.000047 - momentum: 0.000000
	2023-10-08 19:46:05,092 epoch 1 - iter 96/242 - loss 3.16152640 - time (sec): 40.48 - samples/sec: 244.64 - lr: 0.000063 - momentum: 0.000000
	2023-10-08 19:46:14,956 epoch 1 - iter 120/242 - loss 3.07831714 - time (sec): 50.34 - samples/sec: 243.72 - lr: 0.000079 - momentum: 0.000000
	2023-10-08 19:46:24,682 epoch 1 - iter 144/242 - loss 2.97878770 - time (sec): 60.07 - samples/sec: 242.98 - lr: 0.000095 - momentum: 0.000000
	2023-10-08 19:46:34,640 epoch 1 - iter 168/242 - loss 2.86761192 - time (sec): 70.03 - samples/sec: 244.06 - lr: 0.000110 - momentum: 0.000000
	2023-10-08 19:46:44,707 epoch 1 - iter 192/242 - loss 2.74954671 - time (sec): 80.10 - samples/sec: 244.87 - lr: 0.000126 - momentum: 0.000000
	2023-10-08 19:46:55,158 epoch 1 - iter 216/242 - loss 2.61612478 - time (sec): 90.55 - samples/sec: 246.37 - lr: 0.000142 - momentum: 0.000000
	2023-10-08 19:47:04,618 epoch 1 - iter 240/242 - loss 2.50020636 - time (sec): 100.01 - samples/sec: 245.60 - lr: 0.000158 - momentum: 0.000000
	2023-10-08 19:47:05,269 ----------------------------------------------------------------------------------------------------
	2023-10-08 19:47:05,269 EPOCH 1 done: loss 2.4909 - lr: 0.000158
	2023-10-08 19:47:11,567 DEV : loss 1.099568247795105 - f1-score (micro avg) 0.0
	2023-10-08 19:47:11,572 ----------------------------------------------------------------------------------------------------
	2023-10-08 19:47:21,192 epoch 2 - iter 24/242 - loss 1.04876294 - time (sec): 9.62 - samples/sec: 241.41 - lr: 0.000158 - momentum: 0.000000
	2023-10-08 19:47:30,922 epoch 2 - iter 48/242 - loss 0.95343248 - time (sec): 19.35 - samples/sec: 240.74 - lr: 0.000157 - momentum: 0.000000
	2023-10-08 19:47:41,284 epoch 2 - iter 72/242 - loss 0.85835044 - time (sec): 29.71 - samples/sec: 243.85 - lr: 0.000155 - momentum: 0.000000
	2023-10-08 19:47:51,320 epoch 2 - iter 96/242 - loss 0.80100060 - time (sec): 39.75 - samples/sec: 243.92 - lr: 0.000153 - momentum: 0.000000
	2023-10-08 19:48:01,539 epoch 2 - iter 120/242 - loss 0.75007659 - time (sec): 49.97 - samples/sec: 242.91 - lr: 0.000151 - momentum: 0.000000
	2023-10-08 19:48:11,611 epoch 2 - iter 144/242 - loss 0.71917788 - time (sec): 60.04 - samples/sec: 244.70 - lr: 0.000150 - momentum: 0.000000
	2023-10-08 19:48:21,491 epoch 2 - iter 168/242 - loss 0.69316124 - time (sec): 69.92 - samples/sec: 244.66 - lr: 0.000148 - momentum: 0.000000
	2023-10-08 19:48:31,322 epoch 2 - iter 192/242 - loss 0.66261978 - time (sec): 79.75 - samples/sec: 244.76 - lr: 0.000146 - momentum: 0.000000
	2023-10-08 19:48:41,037 epoch 2 - iter 216/242 - loss 0.63975858 - time (sec): 89.46 - samples/sec: 243.11 - lr: 0.000144 - momentum: 0.000000
	2023-10-08 19:48:51,748 epoch 2 - iter 240/242 - loss 0.60260031 - time (sec): 100.18 - samples/sec: 244.43 - lr: 0.000142 - momentum: 0.000000
	2023-10-08 19:48:52,661 ----------------------------------------------------------------------------------------------------
	2023-10-08 19:48:52,662 EPOCH 2 done: loss 0.5991 - lr: 0.000142
	2023-10-08 19:48:59,164 DEV : loss 0.3767709732055664 - f1-score (micro avg) 0.0884
	2023-10-08 19:48:59,170 saving best model
	2023-10-08 19:49:00,024 ----------------------------------------------------------------------------------------------------
	2023-10-08 19:49:10,356 epoch 3 - iter 24/242 - loss 0.32126961 - time (sec): 10.33 - samples/sec: 258.08 - lr: 0.000141 - momentum: 0.000000
	2023-10-08 19:49:21,025 epoch 3 - iter 48/242 - loss 0.33046740 - time (sec): 21.00 - samples/sec: 254.01 - lr: 0.000139 - momentum: 0.000000
	2023-10-08 19:49:31,196 epoch 3 - iter 72/242 - loss 0.32398414 - time (sec): 31.17 - samples/sec: 250.05 - lr: 0.000137 - momentum: 0.000000
	2023-10-08 19:49:40,745 epoch 3 - iter 96/242 - loss 0.31704962 - time (sec): 40.72 - samples/sec: 245.76 - lr: 0.000135 - momentum: 0.000000
	2023-10-08 19:49:50,344 epoch 3 - iter 120/242 - loss 0.30319337 - time (sec): 50.32 - samples/sec: 245.86 - lr: 0.000134 - momentum: 0.000000
	2023-10-08 19:49:59,638 epoch 3 - iter 144/242 - loss 0.29975640 - time (sec): 59.61 - samples/sec: 243.54 - lr: 0.000132 - momentum: 0.000000
	2023-10-08 19:50:09,993 epoch 3 - iter 168/242 - loss 0.29759959 - time (sec): 69.97 - samples/sec: 243.44 - lr: 0.000130 - momentum: 0.000000
	2023-10-08 19:50:21,026 epoch 3 - iter 192/242 - loss 0.28435701 - time (sec): 81.00 - samples/sec: 244.14 - lr: 0.000128 - momentum: 0.000000
	2023-10-08 19:50:30,810 epoch 3 - iter 216/242 - loss 0.27994173 - time (sec): 90.78 - samples/sec: 244.22 - lr: 0.000126 - momentum: 0.000000
	2023-10-08 19:50:40,820 epoch 3 - iter 240/242 - loss 0.27772976 - time (sec): 100.79 - samples/sec: 244.03 - lr: 0.000125 - momentum: 0.000000
	2023-10-08 19:50:41,483 ----------------------------------------------------------------------------------------------------
	2023-10-08 19:50:41,483 EPOCH 3 done: loss 0.2782 - lr: 0.000125
	2023-10-08 19:50:47,998 DEV : loss 0.232819601893425 - f1-score (micro avg) 0.53
	2023-10-08 19:50:48,004 saving best model
	2023-10-08 19:50:52,378 ----------------------------------------------------------------------------------------------------
	2023-10-08 19:51:03,124 epoch 4 - iter 24/242 - loss 0.15471500 - time (sec): 10.74 - samples/sec: 247.29 - lr: 0.000123 - momentum: 0.000000
	2023-10-08 19:51:13,665 epoch 4 - iter 48/242 - loss 0.16110007 - time (sec): 21.29 - samples/sec: 247.77 - lr: 0.000121 - momentum: 0.000000
	2023-10-08 19:51:23,232 epoch 4 - iter 72/242 - loss 0.16918778 - time (sec): 30.85 - samples/sec: 245.46 - lr: 0.000119 - momentum: 0.000000
	2023-10-08 19:51:32,860 epoch 4 - iter 96/242 - loss 0.17023718 - time (sec): 40.48 - samples/sec: 243.23 - lr: 0.000118 - momentum: 0.000000
	2023-10-08 19:51:42,568 epoch 4 - iter 120/242 - loss 0.17776590 - time (sec): 50.19 - samples/sec: 243.44 - lr: 0.000116 - momentum: 0.000000
	2023-10-08 19:51:52,610 epoch 4 - iter 144/242 - loss 0.17672138 - time (sec): 60.23 - samples/sec: 245.12 - lr: 0.000114 - momentum: 0.000000
	2023-10-08 19:52:02,986 epoch 4 - iter 168/242 - loss 0.17895870 - time (sec): 70.61 - samples/sec: 246.05 - lr: 0.000112 - momentum: 0.000000
	2023-10-08 19:52:13,174 epoch 4 - iter 192/242 - loss 0.17606903 - time (sec): 80.79 - samples/sec: 246.28 - lr: 0.000110 - momentum: 0.000000
	2023-10-08 19:52:22,742 epoch 4 - iter 216/242 - loss 0.17725752 - time (sec): 90.36 - samples/sec: 244.85 - lr: 0.000109 - momentum: 0.000000
	2023-10-08 19:52:33,004 epoch 4 - iter 240/242 - loss 0.17294228 - time (sec): 100.62 - samples/sec: 244.71 - lr: 0.000107 - momentum: 0.000000
	2023-10-08 19:52:33,544 ----------------------------------------------------------------------------------------------------
	2023-10-08 19:52:33,544 EPOCH 4 done: loss 0.1732 - lr: 0.000107
	2023-10-08 19:52:40,051 DEV : loss 0.15743188560009003 - f1-score (micro avg) 0.7975
	2023-10-08 19:52:40,057 saving best model
	2023-10-08 19:52:44,433 ----------------------------------------------------------------------------------------------------
	2023-10-08 19:52:54,068 epoch 5 - iter 24/242 - loss 0.15996377 - time (sec): 9.63 - samples/sec: 240.93 - lr: 0.000105 - momentum: 0.000000
	2023-10-08 19:53:04,522 epoch 5 - iter 48/242 - loss 0.14548365 - time (sec): 20.09 - samples/sec: 250.40 - lr: 0.000103 - momentum: 0.000000
	2023-10-08 19:53:13,898 epoch 5 - iter 72/242 - loss 0.13218129 - time (sec): 29.46 - samples/sec: 246.51 - lr: 0.000102 - momentum: 0.000000
	2023-10-08 19:53:24,449 epoch 5 - iter 96/242 - loss 0.13047575 - time (sec): 40.01 - samples/sec: 248.86 - lr: 0.000100 - momentum: 0.000000
	2023-10-08 19:53:34,463 epoch 5 - iter 120/242 - loss 0.12745750 - time (sec): 50.03 - samples/sec: 246.44 - lr: 0.000098 - momentum: 0.000000
	2023-10-08 19:53:45,087 epoch 5 - iter 144/242 - loss 0.11817391 - time (sec): 60.65 - samples/sec: 247.36 - lr: 0.000096 - momentum: 0.000000
	2023-10-08 19:53:55,271 epoch 5 - iter 168/242 - loss 0.11997625 - time (sec): 70.84 - samples/sec: 246.91 - lr: 0.000094 - momentum: 0.000000
	2023-10-08 19:54:05,215 epoch 5 - iter 192/242 - loss 0.11890926 - time (sec): 80.78 - samples/sec: 245.26 - lr: 0.000093 - momentum: 0.000000
	2023-10-08 19:54:14,902 epoch 5 - iter 216/242 - loss 0.11924436 - time (sec): 90.47 - samples/sec: 243.77 - lr: 0.000091 - momentum: 0.000000
	2023-10-08 19:54:25,441 epoch 5 - iter 240/242 - loss 0.11795489 - time (sec): 101.01 - samples/sec: 243.94 - lr: 0.000089 - momentum: 0.000000
	2023-10-08 19:54:25,998 ----------------------------------------------------------------------------------------------------
	2023-10-08 19:54:25,998 EPOCH 5 done: loss 0.1178 - lr: 0.000089
	2023-10-08 19:54:32,741 DEV : loss 0.12743264436721802 - f1-score (micro avg) 0.8208
	2023-10-08 19:54:32,747 saving best model
	2023-10-08 19:54:37,104 ----------------------------------------------------------------------------------------------------
	2023-10-08 19:54:46,447 epoch 6 - iter 24/242 - loss 0.05946833 - time (sec): 9.34 - samples/sec: 239.14 - lr: 0.000087 - momentum: 0.000000
	2023-10-08 19:54:56,509 epoch 6 - iter 48/242 - loss 0.08074757 - time (sec): 19.40 - samples/sec: 240.69 - lr: 0.000086 - momentum: 0.000000
	2023-10-08 19:55:06,789 epoch 6 - iter 72/242 - loss 0.08837018 - time (sec): 29.68 - samples/sec: 243.60 - lr: 0.000084 - momentum: 0.000000
	2023-10-08 19:55:15,996 epoch 6 - iter 96/242 - loss 0.08681205 - time (sec): 38.89 - samples/sec: 241.35 - lr: 0.000082 - momentum: 0.000000
	2023-10-08 19:55:26,498 epoch 6 - iter 120/242 - loss 0.08911376 - time (sec): 49.39 - samples/sec: 242.35 - lr: 0.000080 - momentum: 0.000000
	2023-10-08 19:55:36,029 epoch 6 - iter 144/242 - loss 0.08938334 - time (sec): 58.92 - samples/sec: 241.70 - lr: 0.000078 - momentum: 0.000000
	2023-10-08 19:55:46,311 epoch 6 - iter 168/242 - loss 0.08788206 - time (sec): 69.21 - samples/sec: 241.98 - lr: 0.000077 - momentum: 0.000000
	2023-10-08 19:55:57,250 epoch 6 - iter 192/242 - loss 0.08854715 - time (sec): 80.14 - samples/sec: 243.74 - lr: 0.000075 - momentum: 0.000000
	2023-10-08 19:56:07,436 epoch 6 - iter 216/242 - loss 0.08459032 - time (sec): 90.33 - samples/sec: 243.30 - lr: 0.000073 - momentum: 0.000000
	2023-10-08 19:56:18,092 epoch 6 - iter 240/242 - loss 0.08333726 - time (sec): 100.99 - samples/sec: 243.73 - lr: 0.000071 - momentum: 0.000000
	2023-10-08 19:56:18,712 ----------------------------------------------------------------------------------------------------
	2023-10-08 19:56:18,713 EPOCH 6 done: loss 0.0835 - lr: 0.000071
	2023-10-08 19:56:25,205 DEV : loss 0.11654166877269745 - f1-score (micro avg) 0.8404
	2023-10-08 19:56:25,211 saving best model
	2023-10-08 19:56:26,155 ----------------------------------------------------------------------------------------------------
	2023-10-08 19:56:36,695 epoch 7 - iter 24/242 - loss 0.06293024 - time (sec): 10.54 - samples/sec: 251.85 - lr: 0.000070 - momentum: 0.000000
	2023-10-08 19:56:46,959 epoch 7 - iter 48/242 - loss 0.07168250 - time (sec): 20.80 - samples/sec: 253.91 - lr: 0.000068 - momentum: 0.000000
	2023-10-08 19:56:57,446 epoch 7 - iter 72/242 - loss 0.07005661 - time (sec): 31.29 - samples/sec: 251.77 - lr: 0.000066 - momentum: 0.000000
	2023-10-08 19:57:07,998 epoch 7 - iter 96/242 - loss 0.06701038 - time (sec): 41.84 - samples/sec: 251.93 - lr: 0.000064 - momentum: 0.000000
	2023-10-08 19:57:17,396 epoch 7 - iter 120/242 - loss 0.06522144 - time (sec): 51.24 - samples/sec: 250.59 - lr: 0.000062 - momentum: 0.000000
	2023-10-08 19:57:28,080 epoch 7 - iter 144/242 - loss 0.06970900 - time (sec): 61.92 - samples/sec: 251.18 - lr: 0.000061 - momentum: 0.000000
	2023-10-08 19:57:38,403 epoch 7 - iter 168/242 - loss 0.06773139 - time (sec): 72.25 - samples/sec: 249.88 - lr: 0.000059 - momentum: 0.000000
	2023-10-08 19:57:47,810 epoch 7 - iter 192/242 - loss 0.06432826 - time (sec): 81.65 - samples/sec: 247.36 - lr: 0.000057 - momentum: 0.000000
	2023-10-08 19:57:58,023 epoch 7 - iter 216/242 - loss 0.06417272 - time (sec): 91.87 - samples/sec: 246.03 - lr: 0.000055 - momentum: 0.000000
	2023-10-08 19:58:07,355 epoch 7 - iter 240/242 - loss 0.06233721 - time (sec): 101.20 - samples/sec: 243.34 - lr: 0.000054 - momentum: 0.000000
	2023-10-08 19:58:07,907 ----------------------------------------------------------------------------------------------------
	2023-10-08 19:58:07,908 EPOCH 7 done: loss 0.0623 - lr: 0.000054
	2023-10-08 19:58:14,365 DEV : loss 0.12197184562683105 - f1-score (micro avg) 0.8253
	2023-10-08 19:58:14,371 ----------------------------------------------------------------------------------------------------
	2023-10-08 19:58:23,968 epoch 8 - iter 24/242 - loss 0.04913621 - time (sec): 9.60 - samples/sec: 240.84 - lr: 0.000052 - momentum: 0.000000
	2023-10-08 19:58:33,485 epoch 8 - iter 48/242 - loss 0.04977968 - time (sec): 19.11 - samples/sec: 242.35 - lr: 0.000050 - momentum: 0.000000
	2023-10-08 19:58:43,764 epoch 8 - iter 72/242 - loss 0.05146262 - time (sec): 29.39 - samples/sec: 245.95 - lr: 0.000048 - momentum: 0.000000
	2023-10-08 19:58:53,956 epoch 8 - iter 96/242 - loss 0.05064168 - time (sec): 39.58 - samples/sec: 245.78 - lr: 0.000046 - momentum: 0.000000
	2023-10-08 19:59:04,411 epoch 8 - iter 120/242 - loss 0.04654593 - time (sec): 50.04 - samples/sec: 245.73 - lr: 0.000045 - momentum: 0.000000
	2023-10-08 19:59:13,765 epoch 8 - iter 144/242 - loss 0.05186997 - time (sec): 59.39 - samples/sec: 243.63 - lr: 0.000043 - momentum: 0.000000
	2023-10-08 19:59:24,144 epoch 8 - iter 168/242 - loss 0.05262190 - time (sec): 69.77 - samples/sec: 243.31 - lr: 0.000041 - momentum: 0.000000
	2023-10-08 19:59:35,045 epoch 8 - iter 192/242 - loss 0.05281831 - time (sec): 80.67 - samples/sec: 244.31 - lr: 0.000039 - momentum: 0.000000
	2023-10-08 19:59:45,315 epoch 8 - iter 216/242 - loss 0.05261827 - time (sec): 90.94 - samples/sec: 243.79 - lr: 0.000038 - momentum: 0.000000
	2023-10-08 19:59:55,268 epoch 8 - iter 240/242 - loss 0.05007550 - time (sec): 100.90 - samples/sec: 242.92 - lr: 0.000036 - momentum: 0.000000
	2023-10-08 19:59:56,094 ----------------------------------------------------------------------------------------------------
	2023-10-08 19:59:56,094 EPOCH 8 done: loss 0.0498 - lr: 0.000036
	2023-10-08 20:00:02,314 DEV : loss 0.12492693960666656 - f1-score (micro avg) 0.8346
	2023-10-08 20:00:02,323 ----------------------------------------------------------------------------------------------------
	2023-10-08 20:00:12,018 epoch 9 - iter 24/242 - loss 0.07463564 - time (sec): 9.69 - samples/sec: 249.45 - lr: 0.000034 - momentum: 0.000000
	2023-10-08 20:00:21,605 epoch 9 - iter 48/242 - loss 0.05260851 - time (sec): 19.28 - samples/sec: 252.95 - lr: 0.000032 - momentum: 0.000000
	2023-10-08 20:00:31,881 epoch 9 - iter 72/242 - loss 0.04459482 - time (sec): 29.56 - samples/sec: 259.61 - lr: 0.000030 - momentum: 0.000000
	2023-10-08 20:00:41,439 epoch 9 - iter 96/242 - loss 0.04243585 - time (sec): 39.11 - samples/sec: 259.67 - lr: 0.000029 - momentum: 0.000000
	2023-10-08 20:00:50,313 epoch 9 - iter 120/242 - loss 0.04173357 - time (sec): 47.99 - samples/sec: 258.48 - lr: 0.000027 - momentum: 0.000000
	2023-10-08 20:00:59,638 epoch 9 - iter 144/242 - loss 0.04074134 - time (sec): 57.31 - samples/sec: 257.97 - lr: 0.000025 - momentum: 0.000000
	2023-10-08 20:01:09,189 epoch 9 - iter 168/242 - loss 0.03865436 - time (sec): 66.86 - samples/sec: 257.67 - lr: 0.000023 - momentum: 0.000000
	2023-10-08 20:01:18,331 epoch 9 - iter 192/242 - loss 0.03967704 - time (sec): 76.01 - samples/sec: 257.96 - lr: 0.000022 - momentum: 0.000000
	2023-10-08 20:01:27,743 epoch 9 - iter 216/242 - loss 0.04177349 - time (sec): 85.42 - samples/sec: 258.52 - lr: 0.000020 - momentum: 0.000000
	2023-10-08 20:01:37,368 epoch 9 - iter 240/242 - loss 0.04171713 - time (sec): 95.04 - samples/sec: 259.05 - lr: 0.000018 - momentum: 0.000000
	2023-10-08 20:01:37,896 ----------------------------------------------------------------------------------------------------
	2023-10-08 20:01:37,896 EPOCH 9 done: loss 0.0415 - lr: 0.000018
	2023-10-08 20:01:43,732 DEV : loss 0.13147075474262238 - f1-score (micro avg) 0.8279
	2023-10-08 20:01:43,738 ----------------------------------------------------------------------------------------------------
	2023-10-08 20:01:53,393 epoch 10 - iter 24/242 - loss 0.03253620 - time (sec): 9.65 - samples/sec: 274.91 - lr: 0.000016 - momentum: 0.000000
	2023-10-08 20:02:02,377 epoch 10 - iter 48/242 - loss 0.03156519 - time (sec): 18.64 - samples/sec: 268.33 - lr: 0.000014 - momentum: 0.000000
	2023-10-08 20:02:11,235 epoch 10 - iter 72/242 - loss 0.03135636 - time (sec): 27.50 - samples/sec: 265.82 - lr: 0.000013 - momentum: 0.000000
	2023-10-08 20:02:20,131 epoch 10 - iter 96/242 - loss 0.03255705 - time (sec): 36.39 - samples/sec: 260.50 - lr: 0.000011 - momentum: 0.000000
	2023-10-08 20:02:29,695 epoch 10 - iter 120/242 - loss 0.03206630 - time (sec): 45.96 - samples/sec: 261.75 - lr: 0.000009 - momentum: 0.000000
	2023-10-08 20:02:38,449 epoch 10 - iter 144/242 - loss 0.03262375 - time (sec): 54.71 - samples/sec: 260.36 - lr: 0.000007 - momentum: 0.000000
	2023-10-08 20:02:47,771 epoch 10 - iter 168/242 - loss 0.03187373 - time (sec): 64.03 - samples/sec: 259.93 - lr: 0.000006 - momentum: 0.000000
	2023-10-08 20:02:57,721 epoch 10 - iter 192/242 - loss 0.03284857 - time (sec): 73.98 - samples/sec: 260.79 - lr: 0.000004 - momentum: 0.000000
	2023-10-08 20:03:07,720 epoch 10 - iter 216/242 - loss 0.03825284 - time (sec): 83.98 - samples/sec: 262.77 - lr: 0.000002 - momentum: 0.000000
	2023-10-08 20:03:17,458 epoch 10 - iter 240/242 - loss 0.03867135 - time (sec): 93.72 - samples/sec: 261.58 - lr: 0.000000 - momentum: 0.000000
	2023-10-08 20:03:18,240 ----------------------------------------------------------------------------------------------------
	2023-10-08 20:03:18,241 EPOCH 10 done: loss 0.0385 - lr: 0.000000
	2023-10-08 20:03:24,206 DEV : loss 0.13405872881412506 - f1-score (micro avg) 0.8365
	2023-10-08 20:03:25,084 ----------------------------------------------------------------------------------------------------
	2023-10-08 20:03:25,085 Loading model from best epoch ...
	2023-10-08 20:03:28,148 SequenceTagger predicts: Dictionary with 25 tags: O, S-scope, B-scope, E-scope, I-scope, S-pers, B-pers, E-pers, I-pers, S-work, B-work, E-work, I-work, S-loc, B-loc, E-loc, I-loc, S-object, B-object, E-object, I-object, S-date, B-date, E-date, I-date
	2023-10-08 20:03:33,831
	Results:
	- F-score (micro) 0.8114
	- F-score (macro) 0.489
	- Accuracy 0.717

	By class:
	precision recall f1-score support

	pers 0.8182 0.8417 0.8298 139
	scope 0.8310 0.9147 0.8708 129
	work 0.6957 0.8000 0.7442 80
	loc 0.0000 0.0000 0.0000 9
	date 0.0000 0.0000 0.0000 3

	micro avg 0.7931 0.8306 0.8114 360
	macro avg 0.4690 0.5113 0.4890 360
	weighted avg 0.7683 0.8306 0.7978 360

	2023-10-08 20:03:33,831 ----------------------------------------------------------------------------------------------------