Upload ./training.log with huggingface_hub

aa00f66 7 months ago

No virus

36.9 kB

	2023-10-24 22:13:21,924 ----------------------------------------------------------------------------------------------------
	2023-10-24 22:13:21,925 Model: "SequenceTagger(
	(embeddings): TransformerWordEmbeddings(
	(model): BertModel(
	(embeddings): BertEmbeddings(
	(word_embeddings): Embedding(64001, 768)
	(position_embeddings): Embedding(512, 768)
	(token_type_embeddings): Embedding(2, 768)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(encoder): BertEncoder(
	(layer): ModuleList(
	(0): BertLayer(
	(attention): BertAttention(
	(self): BertSelfAttention(
	(query): Linear(in_features=768, out_features=768, bias=True)
	(key): Linear(in_features=768, out_features=768, bias=True)
	(value): Linear(in_features=768, out_features=768, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): BertSelfOutput(
	(dense): Linear(in_features=768, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): BertIntermediate(
	(dense): Linear(in_features=768, out_features=3072, bias=True)
	(intermediate_act_fn): GELUActivation()
	)
	(output): BertOutput(
	(dense): Linear(in_features=3072, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(1): BertLayer(
	(attention): BertAttention(
	(self): BertSelfAttention(
	(query): Linear(in_features=768, out_features=768, bias=True)
	(key): Linear(in_features=768, out_features=768, bias=True)
	(value): Linear(in_features=768, out_features=768, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): BertSelfOutput(
	(dense): Linear(in_features=768, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): BertIntermediate(
	(dense): Linear(in_features=768, out_features=3072, bias=True)
	(intermediate_act_fn): GELUActivation()
	)
	(output): BertOutput(
	(dense): Linear(in_features=3072, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(2): BertLayer(
	(attention): BertAttention(
	(self): BertSelfAttention(
	(query): Linear(in_features=768, out_features=768, bias=True)
	(key): Linear(in_features=768, out_features=768, bias=True)
	(value): Linear(in_features=768, out_features=768, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): BertSelfOutput(
	(dense): Linear(in_features=768, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): BertIntermediate(
	(dense): Linear(in_features=768, out_features=3072, bias=True)
	(intermediate_act_fn): GELUActivation()
	)
	(output): BertOutput(
	(dense): Linear(in_features=3072, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(3): BertLayer(
	(attention): BertAttention(
	(self): BertSelfAttention(
	(query): Linear(in_features=768, out_features=768, bias=True)
	(key): Linear(in_features=768, out_features=768, bias=True)
	(value): Linear(in_features=768, out_features=768, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): BertSelfOutput(
	(dense): Linear(in_features=768, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): BertIntermediate(
	(dense): Linear(in_features=768, out_features=3072, bias=True)
	(intermediate_act_fn): GELUActivation()
	)
	(output): BertOutput(
	(dense): Linear(in_features=3072, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(4): BertLayer(
	(attention): BertAttention(
	(self): BertSelfAttention(
	(query): Linear(in_features=768, out_features=768, bias=True)
	(key): Linear(in_features=768, out_features=768, bias=True)
	(value): Linear(in_features=768, out_features=768, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): BertSelfOutput(
	(dense): Linear(in_features=768, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): BertIntermediate(
	(dense): Linear(in_features=768, out_features=3072, bias=True)
	(intermediate_act_fn): GELUActivation()
	)
	(output): BertOutput(
	(dense): Linear(in_features=3072, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(5): BertLayer(
	(attention): BertAttention(
	(self): BertSelfAttention(
	(query): Linear(in_features=768, out_features=768, bias=True)
	(key): Linear(in_features=768, out_features=768, bias=True)
	(value): Linear(in_features=768, out_features=768, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): BertSelfOutput(
	(dense): Linear(in_features=768, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): BertIntermediate(
	(dense): Linear(in_features=768, out_features=3072, bias=True)
	(intermediate_act_fn): GELUActivation()
	)
	(output): BertOutput(
	(dense): Linear(in_features=3072, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(6): BertLayer(
	(attention): BertAttention(
	(self): BertSelfAttention(
	(query): Linear(in_features=768, out_features=768, bias=True)
	(key): Linear(in_features=768, out_features=768, bias=True)
	(value): Linear(in_features=768, out_features=768, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): BertSelfOutput(
	(dense): Linear(in_features=768, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): BertIntermediate(
	(dense): Linear(in_features=768, out_features=3072, bias=True)
	(intermediate_act_fn): GELUActivation()
	)
	(output): BertOutput(
	(dense): Linear(in_features=3072, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(7): BertLayer(
	(attention): BertAttention(
	(self): BertSelfAttention(
	(query): Linear(in_features=768, out_features=768, bias=True)
	(key): Linear(in_features=768, out_features=768, bias=True)
	(value): Linear(in_features=768, out_features=768, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): BertSelfOutput(
	(dense): Linear(in_features=768, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): BertIntermediate(
	(dense): Linear(in_features=768, out_features=3072, bias=True)
	(intermediate_act_fn): GELUActivation()
	)
	(output): BertOutput(
	(dense): Linear(in_features=3072, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(8): BertLayer(
	(attention): BertAttention(
	(self): BertSelfAttention(
	(query): Linear(in_features=768, out_features=768, bias=True)
	(key): Linear(in_features=768, out_features=768, bias=True)
	(value): Linear(in_features=768, out_features=768, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): BertSelfOutput(
	(dense): Linear(in_features=768, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): BertIntermediate(
	(dense): Linear(in_features=768, out_features=3072, bias=True)
	(intermediate_act_fn): GELUActivation()
	)
	(output): BertOutput(
	(dense): Linear(in_features=3072, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(9): BertLayer(
	(attention): BertAttention(
	(self): BertSelfAttention(
	(query): Linear(in_features=768, out_features=768, bias=True)
	(key): Linear(in_features=768, out_features=768, bias=True)
	(value): Linear(in_features=768, out_features=768, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): BertSelfOutput(
	(dense): Linear(in_features=768, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): BertIntermediate(
	(dense): Linear(in_features=768, out_features=3072, bias=True)
	(intermediate_act_fn): GELUActivation()
	)
	(output): BertOutput(
	(dense): Linear(in_features=3072, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(10): BertLayer(
	(attention): BertAttention(
	(self): BertSelfAttention(
	(query): Linear(in_features=768, out_features=768, bias=True)
	(key): Linear(in_features=768, out_features=768, bias=True)
	(value): Linear(in_features=768, out_features=768, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): BertSelfOutput(
	(dense): Linear(in_features=768, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): BertIntermediate(
	(dense): Linear(in_features=768, out_features=3072, bias=True)
	(intermediate_act_fn): GELUActivation()
	)
	(output): BertOutput(
	(dense): Linear(in_features=3072, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(11): BertLayer(
	(attention): BertAttention(
	(self): BertSelfAttention(
	(query): Linear(in_features=768, out_features=768, bias=True)
	(key): Linear(in_features=768, out_features=768, bias=True)
	(value): Linear(in_features=768, out_features=768, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): BertSelfOutput(
	(dense): Linear(in_features=768, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): BertIntermediate(
	(dense): Linear(in_features=768, out_features=3072, bias=True)
	(intermediate_act_fn): GELUActivation()
	)
	(output): BertOutput(
	(dense): Linear(in_features=3072, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	)
	)
	(pooler): BertPooler(
	(dense): Linear(in_features=768, out_features=768, bias=True)
	(activation): Tanh()
	)
	)
	)
	(locked_dropout): LockedDropout(p=0.5)
	(linear): Linear(in_features=768, out_features=13, bias=True)
	(loss_function): CrossEntropyLoss()
	)"
	2023-10-24 22:13:21,925 ----------------------------------------------------------------------------------------------------
	2023-10-24 22:13:21,926 MultiCorpus: 5777 train + 722 dev + 723 test sentences
	- NER_ICDAR_EUROPEANA Corpus: 5777 train + 722 dev + 723 test sentences - /home/ubuntu/.flair/datasets/ner_icdar_europeana/nl
	2023-10-24 22:13:21,926 ----------------------------------------------------------------------------------------------------
	2023-10-24 22:13:21,926 Train: 5777 sentences
	2023-10-24 22:13:21,926 (train_with_dev=False, train_with_test=False)
	2023-10-24 22:13:21,926 ----------------------------------------------------------------------------------------------------
	2023-10-24 22:13:21,926 Training Params:
	2023-10-24 22:13:21,926 - learning_rate: "5e-05"
	2023-10-24 22:13:21,926 - mini_batch_size: "4"
	2023-10-24 22:13:21,926 - max_epochs: "10"
	2023-10-24 22:13:21,926 - shuffle: "True"
	2023-10-24 22:13:21,926 ----------------------------------------------------------------------------------------------------
	2023-10-24 22:13:21,926 Plugins:
	2023-10-24 22:13:21,926 - TensorboardLogger
	2023-10-24 22:13:21,926 - LinearScheduler \| warmup_fraction: '0.1'
	2023-10-24 22:13:21,926 ----------------------------------------------------------------------------------------------------
	2023-10-24 22:13:21,926 Final evaluation on model from best epoch (best-model.pt)
	2023-10-24 22:13:21,926 - metric: "('micro avg', 'f1-score')"
	2023-10-24 22:13:21,926 ----------------------------------------------------------------------------------------------------
	2023-10-24 22:13:21,926 Computation:
	2023-10-24 22:13:21,926 - compute on device: cuda:0
	2023-10-24 22:13:21,926 - embedding storage: none
	2023-10-24 22:13:21,926 ----------------------------------------------------------------------------------------------------
	2023-10-24 22:13:21,926 Model training base path: "hmbench-icdar/nl-dbmdz/bert-base-historic-multilingual-64k-td-cased-bs4-wsFalse-e10-lr5e-05-poolingfirst-layers-1-crfFalse-1"
	2023-10-24 22:13:21,926 ----------------------------------------------------------------------------------------------------
	2023-10-24 22:13:21,926 ----------------------------------------------------------------------------------------------------
	2023-10-24 22:13:21,926 Logging anything other than scalars to TensorBoard is currently not supported.
	2023-10-24 22:13:32,380 epoch 1 - iter 144/1445 - loss 1.49559085 - time (sec): 10.45 - samples/sec: 1692.34 - lr: 0.000005 - momentum: 0.000000
	2023-10-24 22:13:42,853 epoch 1 - iter 288/1445 - loss 0.87195492 - time (sec): 20.93 - samples/sec: 1683.05 - lr: 0.000010 - momentum: 0.000000
	2023-10-24 22:13:53,683 epoch 1 - iter 432/1445 - loss 0.64108177 - time (sec): 31.76 - samples/sec: 1704.94 - lr: 0.000015 - momentum: 0.000000
	2023-10-24 22:14:03,881 epoch 1 - iter 576/1445 - loss 0.53043413 - time (sec): 41.95 - samples/sec: 1681.07 - lr: 0.000020 - momentum: 0.000000
	2023-10-24 22:14:14,069 epoch 1 - iter 720/1445 - loss 0.45645493 - time (sec): 52.14 - samples/sec: 1671.29 - lr: 0.000025 - momentum: 0.000000
	2023-10-24 22:14:24,447 epoch 1 - iter 864/1445 - loss 0.40865665 - time (sec): 62.52 - samples/sec: 1666.71 - lr: 0.000030 - momentum: 0.000000
	2023-10-24 22:14:34,689 epoch 1 - iter 1008/1445 - loss 0.37243246 - time (sec): 72.76 - samples/sec: 1660.47 - lr: 0.000035 - momentum: 0.000000
	2023-10-24 22:14:45,375 epoch 1 - iter 1152/1445 - loss 0.34345336 - time (sec): 83.45 - samples/sec: 1663.95 - lr: 0.000040 - momentum: 0.000000
	2023-10-24 22:14:55,909 epoch 1 - iter 1296/1445 - loss 0.31896611 - time (sec): 93.98 - samples/sec: 1671.51 - lr: 0.000045 - momentum: 0.000000
	2023-10-24 22:15:06,686 epoch 1 - iter 1440/1445 - loss 0.29904032 - time (sec): 104.76 - samples/sec: 1677.73 - lr: 0.000050 - momentum: 0.000000
	2023-10-24 22:15:07,000 ----------------------------------------------------------------------------------------------------
	2023-10-24 22:15:07,001 EPOCH 1 done: loss 0.2986 - lr: 0.000050
	2023-10-24 22:15:10,276 DEV : loss 0.1465490758419037 - f1-score (micro avg) 0.4443
	2023-10-24 22:15:10,288 saving best model
	2023-10-24 22:15:10,842 ----------------------------------------------------------------------------------------------------
	2023-10-24 22:15:21,246 epoch 2 - iter 144/1445 - loss 0.11682404 - time (sec): 10.40 - samples/sec: 1638.60 - lr: 0.000049 - momentum: 0.000000
	2023-10-24 22:15:31,373 epoch 2 - iter 288/1445 - loss 0.11667509 - time (sec): 20.53 - samples/sec: 1627.84 - lr: 0.000049 - momentum: 0.000000
	2023-10-24 22:15:41,772 epoch 2 - iter 432/1445 - loss 0.11315670 - time (sec): 30.93 - samples/sec: 1636.53 - lr: 0.000048 - momentum: 0.000000
	2023-10-24 22:15:52,605 epoch 2 - iter 576/1445 - loss 0.11090746 - time (sec): 41.76 - samples/sec: 1658.63 - lr: 0.000048 - momentum: 0.000000
	2023-10-24 22:16:03,567 epoch 2 - iter 720/1445 - loss 0.10511821 - time (sec): 52.72 - samples/sec: 1678.85 - lr: 0.000047 - momentum: 0.000000
	2023-10-24 22:16:14,590 epoch 2 - iter 864/1445 - loss 0.10350836 - time (sec): 63.75 - samples/sec: 1683.22 - lr: 0.000047 - momentum: 0.000000
	2023-10-24 22:16:24,933 epoch 2 - iter 1008/1445 - loss 0.10362581 - time (sec): 74.09 - samples/sec: 1679.79 - lr: 0.000046 - momentum: 0.000000
	2023-10-24 22:16:34,883 epoch 2 - iter 1152/1445 - loss 0.10658382 - time (sec): 84.04 - samples/sec: 1669.01 - lr: 0.000046 - momentum: 0.000000
	2023-10-24 22:16:45,346 epoch 2 - iter 1296/1445 - loss 0.10667648 - time (sec): 94.50 - samples/sec: 1667.31 - lr: 0.000045 - momentum: 0.000000
	2023-10-24 22:16:55,925 epoch 2 - iter 1440/1445 - loss 0.10680059 - time (sec): 105.08 - samples/sec: 1670.92 - lr: 0.000044 - momentum: 0.000000
	2023-10-24 22:16:56,251 ----------------------------------------------------------------------------------------------------
	2023-10-24 22:16:56,251 EPOCH 2 done: loss 0.1070 - lr: 0.000044
	2023-10-24 22:16:59,958 DEV : loss 0.10742148011922836 - f1-score (micro avg) 0.7828
	2023-10-24 22:16:59,970 saving best model
	2023-10-24 22:17:00,625 ----------------------------------------------------------------------------------------------------
	2023-10-24 22:17:11,142 epoch 3 - iter 144/1445 - loss 0.07888928 - time (sec): 10.52 - samples/sec: 1662.49 - lr: 0.000044 - momentum: 0.000000
	2023-10-24 22:17:21,593 epoch 3 - iter 288/1445 - loss 0.06951416 - time (sec): 20.97 - samples/sec: 1667.45 - lr: 0.000043 - momentum: 0.000000
	2023-10-24 22:17:31,937 epoch 3 - iter 432/1445 - loss 0.07610488 - time (sec): 31.31 - samples/sec: 1669.25 - lr: 0.000043 - momentum: 0.000000
	2023-10-24 22:17:42,638 epoch 3 - iter 576/1445 - loss 0.07378191 - time (sec): 42.01 - samples/sec: 1677.25 - lr: 0.000042 - momentum: 0.000000
	2023-10-24 22:17:53,220 epoch 3 - iter 720/1445 - loss 0.07592950 - time (sec): 52.59 - samples/sec: 1677.29 - lr: 0.000042 - momentum: 0.000000
	2023-10-24 22:18:04,012 epoch 3 - iter 864/1445 - loss 0.08537831 - time (sec): 63.39 - samples/sec: 1688.53 - lr: 0.000041 - momentum: 0.000000
	2023-10-24 22:18:14,355 epoch 3 - iter 1008/1445 - loss 0.09120584 - time (sec): 73.73 - samples/sec: 1674.36 - lr: 0.000041 - momentum: 0.000000
	2023-10-24 22:18:24,684 epoch 3 - iter 1152/1445 - loss 0.08969195 - time (sec): 84.06 - samples/sec: 1666.85 - lr: 0.000040 - momentum: 0.000000
	2023-10-24 22:18:35,249 epoch 3 - iter 1296/1445 - loss 0.08985953 - time (sec): 94.62 - samples/sec: 1667.96 - lr: 0.000039 - momentum: 0.000000
	2023-10-24 22:18:45,949 epoch 3 - iter 1440/1445 - loss 0.09136075 - time (sec): 105.32 - samples/sec: 1670.01 - lr: 0.000039 - momentum: 0.000000
	2023-10-24 22:18:46,238 ----------------------------------------------------------------------------------------------------
	2023-10-24 22:18:46,239 EPOCH 3 done: loss 0.0915 - lr: 0.000039
	2023-10-24 22:18:49,660 DEV : loss 0.11891528218984604 - f1-score (micro avg) 0.796
	2023-10-24 22:18:49,672 saving best model
	2023-10-24 22:18:50,385 ----------------------------------------------------------------------------------------------------
	2023-10-24 22:19:00,748 epoch 4 - iter 144/1445 - loss 0.05647820 - time (sec): 10.36 - samples/sec: 1688.59 - lr: 0.000038 - momentum: 0.000000
	2023-10-24 22:19:11,515 epoch 4 - iter 288/1445 - loss 0.05815810 - time (sec): 21.13 - samples/sec: 1643.99 - lr: 0.000038 - momentum: 0.000000
	2023-10-24 22:19:21,630 epoch 4 - iter 432/1445 - loss 0.06297138 - time (sec): 31.24 - samples/sec: 1623.46 - lr: 0.000037 - momentum: 0.000000
	2023-10-24 22:19:31,956 epoch 4 - iter 576/1445 - loss 0.06251057 - time (sec): 41.57 - samples/sec: 1617.67 - lr: 0.000037 - momentum: 0.000000
	2023-10-24 22:19:42,685 epoch 4 - iter 720/1445 - loss 0.06294971 - time (sec): 52.30 - samples/sec: 1641.43 - lr: 0.000036 - momentum: 0.000000
	2023-10-24 22:19:53,347 epoch 4 - iter 864/1445 - loss 0.06501619 - time (sec): 62.96 - samples/sec: 1652.80 - lr: 0.000036 - momentum: 0.000000
	2023-10-24 22:20:04,252 epoch 4 - iter 1008/1445 - loss 0.06499533 - time (sec): 73.87 - samples/sec: 1658.53 - lr: 0.000035 - momentum: 0.000000
	2023-10-24 22:20:14,785 epoch 4 - iter 1152/1445 - loss 0.06307111 - time (sec): 84.40 - samples/sec: 1664.21 - lr: 0.000034 - momentum: 0.000000
	2023-10-24 22:20:25,350 epoch 4 - iter 1296/1445 - loss 0.06234630 - time (sec): 94.96 - samples/sec: 1664.27 - lr: 0.000034 - momentum: 0.000000
	2023-10-24 22:20:35,838 epoch 4 - iter 1440/1445 - loss 0.06175381 - time (sec): 105.45 - samples/sec: 1667.05 - lr: 0.000033 - momentum: 0.000000
	2023-10-24 22:20:36,143 ----------------------------------------------------------------------------------------------------
	2023-10-24 22:20:36,144 EPOCH 4 done: loss 0.0619 - lr: 0.000033
	2023-10-24 22:20:39,556 DEV : loss 0.1823125034570694 - f1-score (micro avg) 0.756
	2023-10-24 22:20:39,567 ----------------------------------------------------------------------------------------------------
	2023-10-24 22:20:50,308 epoch 5 - iter 144/1445 - loss 0.05559863 - time (sec): 10.74 - samples/sec: 1703.77 - lr: 0.000033 - momentum: 0.000000
	2023-10-24 22:21:01,046 epoch 5 - iter 288/1445 - loss 0.05287999 - time (sec): 21.48 - samples/sec: 1666.13 - lr: 0.000032 - momentum: 0.000000
	2023-10-24 22:21:11,592 epoch 5 - iter 432/1445 - loss 0.04559996 - time (sec): 32.02 - samples/sec: 1666.25 - lr: 0.000032 - momentum: 0.000000
	2023-10-24 22:21:22,613 epoch 5 - iter 576/1445 - loss 0.04653938 - time (sec): 43.04 - samples/sec: 1678.93 - lr: 0.000031 - momentum: 0.000000
	2023-10-24 22:21:32,932 epoch 5 - iter 720/1445 - loss 0.04780450 - time (sec): 53.36 - samples/sec: 1676.43 - lr: 0.000031 - momentum: 0.000000
	2023-10-24 22:21:43,617 epoch 5 - iter 864/1445 - loss 0.04662656 - time (sec): 64.05 - samples/sec: 1680.93 - lr: 0.000030 - momentum: 0.000000
	2023-10-24 22:21:53,610 epoch 5 - iter 1008/1445 - loss 0.04653849 - time (sec): 74.04 - samples/sec: 1668.59 - lr: 0.000029 - momentum: 0.000000
	2023-10-24 22:22:04,090 epoch 5 - iter 1152/1445 - loss 0.04554055 - time (sec): 84.52 - samples/sec: 1673.76 - lr: 0.000029 - momentum: 0.000000
	2023-10-24 22:22:14,414 epoch 5 - iter 1296/1445 - loss 0.04549864 - time (sec): 94.85 - samples/sec: 1665.47 - lr: 0.000028 - momentum: 0.000000
	2023-10-24 22:22:24,915 epoch 5 - iter 1440/1445 - loss 0.04622108 - time (sec): 105.35 - samples/sec: 1665.43 - lr: 0.000028 - momentum: 0.000000
	2023-10-24 22:22:25,341 ----------------------------------------------------------------------------------------------------
	2023-10-24 22:22:25,342 EPOCH 5 done: loss 0.0462 - lr: 0.000028
	2023-10-24 22:22:29,053 DEV : loss 0.14015598595142365 - f1-score (micro avg) 0.8063
	2023-10-24 22:22:29,065 saving best model
	2023-10-24 22:22:29,718 ----------------------------------------------------------------------------------------------------
	2023-10-24 22:22:40,293 epoch 6 - iter 144/1445 - loss 0.02737257 - time (sec): 10.57 - samples/sec: 1620.84 - lr: 0.000027 - momentum: 0.000000
	2023-10-24 22:22:50,766 epoch 6 - iter 288/1445 - loss 0.02987116 - time (sec): 21.05 - samples/sec: 1632.47 - lr: 0.000027 - momentum: 0.000000
	2023-10-24 22:23:01,736 epoch 6 - iter 432/1445 - loss 0.03340606 - time (sec): 32.02 - samples/sec: 1665.29 - lr: 0.000026 - momentum: 0.000000
	2023-10-24 22:23:12,193 epoch 6 - iter 576/1445 - loss 0.03514036 - time (sec): 42.47 - samples/sec: 1652.48 - lr: 0.000026 - momentum: 0.000000
	2023-10-24 22:23:22,643 epoch 6 - iter 720/1445 - loss 0.03531426 - time (sec): 52.92 - samples/sec: 1650.42 - lr: 0.000025 - momentum: 0.000000
	2023-10-24 22:23:33,304 epoch 6 - iter 864/1445 - loss 0.03610013 - time (sec): 63.58 - samples/sec: 1655.96 - lr: 0.000024 - momentum: 0.000000
	2023-10-24 22:23:43,755 epoch 6 - iter 1008/1445 - loss 0.03512300 - time (sec): 74.04 - samples/sec: 1666.00 - lr: 0.000024 - momentum: 0.000000
	2023-10-24 22:23:54,257 epoch 6 - iter 1152/1445 - loss 0.03710725 - time (sec): 84.54 - samples/sec: 1666.00 - lr: 0.000023 - momentum: 0.000000
	2023-10-24 22:24:04,699 epoch 6 - iter 1296/1445 - loss 0.03585885 - time (sec): 94.98 - samples/sec: 1669.28 - lr: 0.000023 - momentum: 0.000000
	2023-10-24 22:24:15,046 epoch 6 - iter 1440/1445 - loss 0.03557740 - time (sec): 105.33 - samples/sec: 1667.87 - lr: 0.000022 - momentum: 0.000000
	2023-10-24 22:24:15,381 ----------------------------------------------------------------------------------------------------
	2023-10-24 22:24:15,382 EPOCH 6 done: loss 0.0355 - lr: 0.000022
	2023-10-24 22:24:18,806 DEV : loss 0.18115007877349854 - f1-score (micro avg) 0.786
	2023-10-24 22:24:18,817 ----------------------------------------------------------------------------------------------------
	2023-10-24 22:24:29,308 epoch 7 - iter 144/1445 - loss 0.02078286 - time (sec): 10.49 - samples/sec: 1705.63 - lr: 0.000022 - momentum: 0.000000
	2023-10-24 22:24:39,999 epoch 7 - iter 288/1445 - loss 0.02962769 - time (sec): 21.18 - samples/sec: 1669.68 - lr: 0.000021 - momentum: 0.000000
	2023-10-24 22:24:50,656 epoch 7 - iter 432/1445 - loss 0.02907881 - time (sec): 31.84 - samples/sec: 1653.22 - lr: 0.000021 - momentum: 0.000000
	2023-10-24 22:25:01,260 epoch 7 - iter 576/1445 - loss 0.03114169 - time (sec): 42.44 - samples/sec: 1670.16 - lr: 0.000020 - momentum: 0.000000
	2023-10-24 22:25:12,090 epoch 7 - iter 720/1445 - loss 0.02943001 - time (sec): 53.27 - samples/sec: 1672.86 - lr: 0.000019 - momentum: 0.000000
	2023-10-24 22:25:22,358 epoch 7 - iter 864/1445 - loss 0.02860415 - time (sec): 63.54 - samples/sec: 1658.11 - lr: 0.000019 - momentum: 0.000000
	2023-10-24 22:25:32,771 epoch 7 - iter 1008/1445 - loss 0.02721034 - time (sec): 73.95 - samples/sec: 1654.20 - lr: 0.000018 - momentum: 0.000000
	2023-10-24 22:25:43,289 epoch 7 - iter 1152/1445 - loss 0.02659125 - time (sec): 84.47 - samples/sec: 1655.55 - lr: 0.000018 - momentum: 0.000000
	2023-10-24 22:25:53,971 epoch 7 - iter 1296/1445 - loss 0.02604572 - time (sec): 95.15 - samples/sec: 1660.84 - lr: 0.000017 - momentum: 0.000000
	2023-10-24 22:26:04,502 epoch 7 - iter 1440/1445 - loss 0.02528759 - time (sec): 105.68 - samples/sec: 1661.04 - lr: 0.000017 - momentum: 0.000000
	2023-10-24 22:26:04,906 ----------------------------------------------------------------------------------------------------
	2023-10-24 22:26:04,906 EPOCH 7 done: loss 0.0252 - lr: 0.000017
	2023-10-24 22:26:08,329 DEV : loss 0.19167011976242065 - f1-score (micro avg) 0.811
	2023-10-24 22:26:08,341 saving best model
	2023-10-24 22:26:08,996 ----------------------------------------------------------------------------------------------------
	2023-10-24 22:26:19,544 epoch 8 - iter 144/1445 - loss 0.01368515 - time (sec): 10.55 - samples/sec: 1673.27 - lr: 0.000016 - momentum: 0.000000
	2023-10-24 22:26:30,355 epoch 8 - iter 288/1445 - loss 0.01538066 - time (sec): 21.36 - samples/sec: 1660.55 - lr: 0.000016 - momentum: 0.000000
	2023-10-24 22:26:40,676 epoch 8 - iter 432/1445 - loss 0.01436584 - time (sec): 31.68 - samples/sec: 1675.14 - lr: 0.000015 - momentum: 0.000000
	2023-10-24 22:26:51,893 epoch 8 - iter 576/1445 - loss 0.01432006 - time (sec): 42.90 - samples/sec: 1706.24 - lr: 0.000014 - momentum: 0.000000
	2023-10-24 22:27:02,324 epoch 8 - iter 720/1445 - loss 0.01409563 - time (sec): 53.33 - samples/sec: 1691.08 - lr: 0.000014 - momentum: 0.000000
	2023-10-24 22:27:12,778 epoch 8 - iter 864/1445 - loss 0.01487126 - time (sec): 63.78 - samples/sec: 1688.73 - lr: 0.000013 - momentum: 0.000000
	2023-10-24 22:27:23,350 epoch 8 - iter 1008/1445 - loss 0.01619878 - time (sec): 74.35 - samples/sec: 1681.67 - lr: 0.000013 - momentum: 0.000000
	2023-10-24 22:27:33,298 epoch 8 - iter 1152/1445 - loss 0.01597473 - time (sec): 84.30 - samples/sec: 1663.50 - lr: 0.000012 - momentum: 0.000000
	2023-10-24 22:27:43,579 epoch 8 - iter 1296/1445 - loss 0.01520411 - time (sec): 94.58 - samples/sec: 1661.71 - lr: 0.000012 - momentum: 0.000000
	2023-10-24 22:27:54,314 epoch 8 - iter 1440/1445 - loss 0.01673962 - time (sec): 105.32 - samples/sec: 1666.43 - lr: 0.000011 - momentum: 0.000000
	2023-10-24 22:27:54,743 ----------------------------------------------------------------------------------------------------
	2023-10-24 22:27:54,744 EPOCH 8 done: loss 0.0167 - lr: 0.000011
	2023-10-24 22:27:58,460 DEV : loss 0.20966801047325134 - f1-score (micro avg) 0.8068
	2023-10-24 22:27:58,472 ----------------------------------------------------------------------------------------------------
	2023-10-24 22:28:09,302 epoch 9 - iter 144/1445 - loss 0.00335298 - time (sec): 10.83 - samples/sec: 1730.28 - lr: 0.000011 - momentum: 0.000000
	2023-10-24 22:28:19,408 epoch 9 - iter 288/1445 - loss 0.00713944 - time (sec): 20.93 - samples/sec: 1674.71 - lr: 0.000010 - momentum: 0.000000
	2023-10-24 22:28:30,389 epoch 9 - iter 432/1445 - loss 0.00831560 - time (sec): 31.92 - samples/sec: 1677.91 - lr: 0.000009 - momentum: 0.000000
	2023-10-24 22:28:40,925 epoch 9 - iter 576/1445 - loss 0.01125306 - time (sec): 42.45 - samples/sec: 1673.19 - lr: 0.000009 - momentum: 0.000000
	2023-10-24 22:28:51,398 epoch 9 - iter 720/1445 - loss 0.01066392 - time (sec): 52.92 - samples/sec: 1668.82 - lr: 0.000008 - momentum: 0.000000
	2023-10-24 22:29:01,925 epoch 9 - iter 864/1445 - loss 0.00979328 - time (sec): 63.45 - samples/sec: 1673.13 - lr: 0.000008 - momentum: 0.000000
	2023-10-24 22:29:12,556 epoch 9 - iter 1008/1445 - loss 0.01050402 - time (sec): 74.08 - samples/sec: 1673.14 - lr: 0.000007 - momentum: 0.000000
	2023-10-24 22:29:22,908 epoch 9 - iter 1152/1445 - loss 0.01017532 - time (sec): 84.43 - samples/sec: 1671.11 - lr: 0.000007 - momentum: 0.000000
	2023-10-24 22:29:33,357 epoch 9 - iter 1296/1445 - loss 0.00941237 - time (sec): 94.88 - samples/sec: 1670.19 - lr: 0.000006 - momentum: 0.000000
	2023-10-24 22:29:43,936 epoch 9 - iter 1440/1445 - loss 0.00966527 - time (sec): 105.46 - samples/sec: 1667.23 - lr: 0.000006 - momentum: 0.000000
	2023-10-24 22:29:44,236 ----------------------------------------------------------------------------------------------------
	2023-10-24 22:29:44,236 EPOCH 9 done: loss 0.0096 - lr: 0.000006
	2023-10-24 22:29:47,661 DEV : loss 0.22105184197425842 - f1-score (micro avg) 0.8086
	2023-10-24 22:29:47,672 ----------------------------------------------------------------------------------------------------
	2023-10-24 22:29:58,237 epoch 10 - iter 144/1445 - loss 0.00621614 - time (sec): 10.56 - samples/sec: 1652.08 - lr: 0.000005 - momentum: 0.000000
	2023-10-24 22:30:08,967 epoch 10 - iter 288/1445 - loss 0.01088022 - time (sec): 21.29 - samples/sec: 1667.64 - lr: 0.000004 - momentum: 0.000000
	2023-10-24 22:30:19,753 epoch 10 - iter 432/1445 - loss 0.00891142 - time (sec): 32.08 - samples/sec: 1697.21 - lr: 0.000004 - momentum: 0.000000
	2023-10-24 22:30:30,666 epoch 10 - iter 576/1445 - loss 0.00890582 - time (sec): 42.99 - samples/sec: 1693.35 - lr: 0.000003 - momentum: 0.000000
	2023-10-24 22:30:40,999 epoch 10 - iter 720/1445 - loss 0.00818322 - time (sec): 53.33 - samples/sec: 1679.18 - lr: 0.000003 - momentum: 0.000000
	2023-10-24 22:30:51,571 epoch 10 - iter 864/1445 - loss 0.00748506 - time (sec): 63.90 - samples/sec: 1671.13 - lr: 0.000002 - momentum: 0.000000
	2023-10-24 22:31:02,171 epoch 10 - iter 1008/1445 - loss 0.00750558 - time (sec): 74.50 - samples/sec: 1666.22 - lr: 0.000002 - momentum: 0.000000
	2023-10-24 22:31:12,576 epoch 10 - iter 1152/1445 - loss 0.00743769 - time (sec): 84.90 - samples/sec: 1667.05 - lr: 0.000001 - momentum: 0.000000
	2023-10-24 22:31:23,189 epoch 10 - iter 1296/1445 - loss 0.00721825 - time (sec): 95.52 - samples/sec: 1661.21 - lr: 0.000001 - momentum: 0.000000
	2023-10-24 22:31:33,509 epoch 10 - iter 1440/1445 - loss 0.00720286 - time (sec): 105.84 - samples/sec: 1661.25 - lr: 0.000000 - momentum: 0.000000
	2023-10-24 22:31:33,805 ----------------------------------------------------------------------------------------------------
	2023-10-24 22:31:33,805 EPOCH 10 done: loss 0.0072 - lr: 0.000000
	2023-10-24 22:31:37,236 DEV : loss 0.22644661366939545 - f1-score (micro avg) 0.8158
	2023-10-24 22:31:37,249 saving best model
	2023-10-24 22:31:38,458 ----------------------------------------------------------------------------------------------------
	2023-10-24 22:31:38,459 Loading model from best epoch ...
	2023-10-24 22:31:40,317 SequenceTagger predicts: Dictionary with 13 tags: O, S-LOC, B-LOC, E-LOC, I-LOC, S-PER, B-PER, E-PER, I-PER, S-ORG, B-ORG, E-ORG, I-ORG
	2023-10-24 22:31:43,856
	Results:
	- F-score (micro) 0.7971
	- F-score (macro) 0.6618
	- Accuracy 0.678

	By class:
	precision recall f1-score support

	PER 0.8545 0.7676 0.8087 482
	LOC 0.8913 0.8057 0.8463 458
	ORG 0.4130 0.2754 0.3304 69

	micro avg 0.8488 0.7512 0.7971 1009
	macro avg 0.7196 0.6162 0.6618 1009
	weighted avg 0.8410 0.7512 0.7931 1009

	2023-10-24 22:31:43,856 ----------------------------------------------------------------------------------------------------