Upload folder using huggingface_hub

c19f791 10 months ago

No virus

25.1 kB

	2023-10-06 09:33:07,210 ----------------------------------------------------------------------------------------------------
	2023-10-06 09:33:07,211 Model: "SequenceTagger(
	(embeddings): ByT5Embeddings(
	(model): T5EncoderModel(
	(shared): Embedding(384, 1472)
	(encoder): T5Stack(
	(embed_tokens): Embedding(384, 1472)
	(block): ModuleList(
	(0): T5Block(
	(layer): ModuleList(
	(0): T5LayerSelfAttention(
	(SelfAttention): T5Attention(
	(q): Linear(in_features=1472, out_features=384, bias=False)
	(k): Linear(in_features=1472, out_features=384, bias=False)
	(v): Linear(in_features=1472, out_features=384, bias=False)
	(o): Linear(in_features=384, out_features=1472, bias=False)
	(relative_attention_bias): Embedding(32, 6)
	)
	(layer_norm): T5LayerNorm()
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(1): T5LayerFF(
	(DenseReluDense): T5DenseGatedActDense(
	(wi_0): Linear(in_features=1472, out_features=3584, bias=False)
	(wi_1): Linear(in_features=1472, out_features=3584, bias=False)
	(wo): Linear(in_features=3584, out_features=1472, bias=False)
	(dropout): Dropout(p=0.1, inplace=False)
	(act): NewGELUActivation()
	)
	(layer_norm): T5LayerNorm()
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	)
	(1-11): 11 x T5Block(
	(layer): ModuleList(
	(0): T5LayerSelfAttention(
	(SelfAttention): T5Attention(
	(q): Linear(in_features=1472, out_features=384, bias=False)
	(k): Linear(in_features=1472, out_features=384, bias=False)
	(v): Linear(in_features=1472, out_features=384, bias=False)
	(o): Linear(in_features=384, out_features=1472, bias=False)
	)
	(layer_norm): T5LayerNorm()
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(1): T5LayerFF(
	(DenseReluDense): T5DenseGatedActDense(
	(wi_0): Linear(in_features=1472, out_features=3584, bias=False)
	(wi_1): Linear(in_features=1472, out_features=3584, bias=False)
	(wo): Linear(in_features=3584, out_features=1472, bias=False)
	(dropout): Dropout(p=0.1, inplace=False)
	(act): NewGELUActivation()
	)
	(layer_norm): T5LayerNorm()
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	)
	)
	(final_layer_norm): T5LayerNorm()
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	)
	(locked_dropout): LockedDropout(p=0.5)
	(linear): Linear(in_features=1472, out_features=25, bias=True)
	(loss_function): CrossEntropyLoss()
	)"
	2023-10-06 09:33:07,211 ----------------------------------------------------------------------------------------------------
	2023-10-06 09:33:07,212 MultiCorpus: 1214 train + 266 dev + 251 test sentences
	- NER_HIPE_2022 Corpus: 1214 train + 266 dev + 251 test sentences - /app/.flair/datasets/ner_hipe_2022/v2.1/ajmc/en/with_doc_seperator
	2023-10-06 09:33:07,212 ----------------------------------------------------------------------------------------------------
	2023-10-06 09:33:07,212 Train: 1214 sentences
	2023-10-06 09:33:07,212 (train_with_dev=False, train_with_test=False)
	2023-10-06 09:33:07,212 ----------------------------------------------------------------------------------------------------
	2023-10-06 09:33:07,212 Training Params:
	2023-10-06 09:33:07,212 - learning_rate: "0.00015"
	2023-10-06 09:33:07,212 - mini_batch_size: "4"
	2023-10-06 09:33:07,212 - max_epochs: "10"
	2023-10-06 09:33:07,212 - shuffle: "True"
	2023-10-06 09:33:07,212 ----------------------------------------------------------------------------------------------------
	2023-10-06 09:33:07,212 Plugins:
	2023-10-06 09:33:07,212 - TensorboardLogger
	2023-10-06 09:33:07,212 - LinearScheduler \| warmup_fraction: '0.1'
	2023-10-06 09:33:07,213 ----------------------------------------------------------------------------------------------------
	2023-10-06 09:33:07,213 Final evaluation on model from best epoch (best-model.pt)
	2023-10-06 09:33:07,213 - metric: "('micro avg', 'f1-score')"
	2023-10-06 09:33:07,213 ----------------------------------------------------------------------------------------------------
	2023-10-06 09:33:07,213 Computation:
	2023-10-06 09:33:07,213 - compute on device: cuda:0
	2023-10-06 09:33:07,213 - embedding storage: none
	2023-10-06 09:33:07,213 ----------------------------------------------------------------------------------------------------
	2023-10-06 09:33:07,213 Model training base path: "hmbench-ajmc/en-hmbyt5-preliminary/byt5-small-historic-multilingual-span20-flax-bs4-wsFalse-e10-lr0.00015-poolingfirst-layers-1-crfFalse-1"
	2023-10-06 09:33:07,213 ----------------------------------------------------------------------------------------------------
	2023-10-06 09:33:07,213 ----------------------------------------------------------------------------------------------------
	2023-10-06 09:33:07,213 Logging anything other than scalars to TensorBoard is currently not supported.
	2023-10-06 09:33:19,861 epoch 1 - iter 30/304 - loss 3.22766358 - time (sec): 12.65 - samples/sec: 271.61 - lr: 0.000014 - momentum: 0.000000
	2023-10-06 09:33:31,567 epoch 1 - iter 60/304 - loss 3.22012864 - time (sec): 24.35 - samples/sec: 276.84 - lr: 0.000029 - momentum: 0.000000
	2023-10-06 09:33:42,884 epoch 1 - iter 90/304 - loss 3.20085054 - time (sec): 35.67 - samples/sec: 273.01 - lr: 0.000044 - momentum: 0.000000
	2023-10-06 09:33:54,515 epoch 1 - iter 120/304 - loss 3.14263082 - time (sec): 47.30 - samples/sec: 270.00 - lr: 0.000059 - momentum: 0.000000
	2023-10-06 09:34:05,414 epoch 1 - iter 150/304 - loss 3.05331139 - time (sec): 58.20 - samples/sec: 266.99 - lr: 0.000074 - momentum: 0.000000
	2023-10-06 09:34:16,292 epoch 1 - iter 180/304 - loss 2.94790558 - time (sec): 69.08 - samples/sec: 263.78 - lr: 0.000088 - momentum: 0.000000
	2023-10-06 09:34:27,228 epoch 1 - iter 210/304 - loss 2.82602180 - time (sec): 80.01 - samples/sec: 263.91 - lr: 0.000103 - momentum: 0.000000
	2023-10-06 09:34:38,522 epoch 1 - iter 240/304 - loss 2.69128752 - time (sec): 91.31 - samples/sec: 264.00 - lr: 0.000118 - momentum: 0.000000
	2023-10-06 09:34:50,143 epoch 1 - iter 270/304 - loss 2.54261090 - time (sec): 102.93 - samples/sec: 264.22 - lr: 0.000133 - momentum: 0.000000
	2023-10-06 09:35:02,345 epoch 1 - iter 300/304 - loss 2.37796888 - time (sec): 115.13 - samples/sec: 266.62 - lr: 0.000148 - momentum: 0.000000
	2023-10-06 09:35:03,599 ----------------------------------------------------------------------------------------------------
	2023-10-06 09:35:03,599 EPOCH 1 done: loss 2.3652 - lr: 0.000148
	2023-10-06 09:35:10,578 DEV : loss 0.9551804661750793 - f1-score (micro avg) 0.0
	2023-10-06 09:35:10,585 ----------------------------------------------------------------------------------------------------
	2023-10-06 09:35:21,807 epoch 2 - iter 30/304 - loss 0.86415668 - time (sec): 11.22 - samples/sec: 273.96 - lr: 0.000148 - momentum: 0.000000
	2023-10-06 09:35:32,980 epoch 2 - iter 60/304 - loss 0.79412008 - time (sec): 22.39 - samples/sec: 269.71 - lr: 0.000147 - momentum: 0.000000
	2023-10-06 09:35:44,119 epoch 2 - iter 90/304 - loss 0.75532736 - time (sec): 33.53 - samples/sec: 271.17 - lr: 0.000145 - momentum: 0.000000
	2023-10-06 09:35:55,846 epoch 2 - iter 120/304 - loss 0.71453981 - time (sec): 45.26 - samples/sec: 277.06 - lr: 0.000143 - momentum: 0.000000
	2023-10-06 09:36:06,578 epoch 2 - iter 150/304 - loss 0.67298181 - time (sec): 55.99 - samples/sec: 273.81 - lr: 0.000142 - momentum: 0.000000
	2023-10-06 09:36:18,095 epoch 2 - iter 180/304 - loss 0.61760988 - time (sec): 67.51 - samples/sec: 272.95 - lr: 0.000140 - momentum: 0.000000
	2023-10-06 09:36:29,144 epoch 2 - iter 210/304 - loss 0.57288512 - time (sec): 78.56 - samples/sec: 271.86 - lr: 0.000139 - momentum: 0.000000
	2023-10-06 09:36:40,832 epoch 2 - iter 240/304 - loss 0.54254596 - time (sec): 90.25 - samples/sec: 272.07 - lr: 0.000137 - momentum: 0.000000
	2023-10-06 09:36:52,311 epoch 2 - iter 270/304 - loss 0.52576467 - time (sec): 101.72 - samples/sec: 272.27 - lr: 0.000135 - momentum: 0.000000
	2023-10-06 09:37:03,212 epoch 2 - iter 300/304 - loss 0.50613131 - time (sec): 112.63 - samples/sec: 272.01 - lr: 0.000134 - momentum: 0.000000
	2023-10-06 09:37:04,590 ----------------------------------------------------------------------------------------------------
	2023-10-06 09:37:04,591 EPOCH 2 done: loss 0.5027 - lr: 0.000134
	2023-10-06 09:37:11,780 DEV : loss 0.336232990026474 - f1-score (micro avg) 0.4566
	2023-10-06 09:37:11,786 saving best model
	2023-10-06 09:37:12,630 ----------------------------------------------------------------------------------------------------
	2023-10-06 09:37:24,235 epoch 3 - iter 30/304 - loss 0.27444457 - time (sec): 11.60 - samples/sec: 275.76 - lr: 0.000132 - momentum: 0.000000
	2023-10-06 09:37:35,928 epoch 3 - iter 60/304 - loss 0.24449914 - time (sec): 23.30 - samples/sec: 274.76 - lr: 0.000130 - momentum: 0.000000
	2023-10-06 09:37:46,610 epoch 3 - iter 90/304 - loss 0.23302935 - time (sec): 33.98 - samples/sec: 269.99 - lr: 0.000128 - momentum: 0.000000
	2023-10-06 09:37:58,323 epoch 3 - iter 120/304 - loss 0.24260854 - time (sec): 45.69 - samples/sec: 272.43 - lr: 0.000127 - momentum: 0.000000
	2023-10-06 09:38:09,376 epoch 3 - iter 150/304 - loss 0.23802862 - time (sec): 56.74 - samples/sec: 269.66 - lr: 0.000125 - momentum: 0.000000
	2023-10-06 09:38:20,841 epoch 3 - iter 180/304 - loss 0.23624670 - time (sec): 68.21 - samples/sec: 268.46 - lr: 0.000124 - momentum: 0.000000
	2023-10-06 09:38:32,446 epoch 3 - iter 210/304 - loss 0.22902235 - time (sec): 79.82 - samples/sec: 268.91 - lr: 0.000122 - momentum: 0.000000
	2023-10-06 09:38:44,578 epoch 3 - iter 240/304 - loss 0.22095367 - time (sec): 91.95 - samples/sec: 269.35 - lr: 0.000120 - momentum: 0.000000
	2023-10-06 09:38:56,045 epoch 3 - iter 270/304 - loss 0.21731013 - time (sec): 103.41 - samples/sec: 267.61 - lr: 0.000119 - momentum: 0.000000
	2023-10-06 09:39:07,381 epoch 3 - iter 300/304 - loss 0.21213132 - time (sec): 114.75 - samples/sec: 266.34 - lr: 0.000117 - momentum: 0.000000
	2023-10-06 09:39:08,861 ----------------------------------------------------------------------------------------------------
	2023-10-06 09:39:08,861 EPOCH 3 done: loss 0.2102 - lr: 0.000117
	2023-10-06 09:39:16,617 DEV : loss 0.1942567229270935 - f1-score (micro avg) 0.684
	2023-10-06 09:39:16,624 saving best model
	2023-10-06 09:39:20,969 ----------------------------------------------------------------------------------------------------
	2023-10-06 09:39:32,511 epoch 4 - iter 30/304 - loss 0.13635077 - time (sec): 11.54 - samples/sec: 263.69 - lr: 0.000115 - momentum: 0.000000
	2023-10-06 09:39:44,587 epoch 4 - iter 60/304 - loss 0.14753714 - time (sec): 23.62 - samples/sec: 257.20 - lr: 0.000113 - momentum: 0.000000
	2023-10-06 09:39:56,161 epoch 4 - iter 90/304 - loss 0.14352309 - time (sec): 35.19 - samples/sec: 255.70 - lr: 0.000112 - momentum: 0.000000
	2023-10-06 09:40:08,129 epoch 4 - iter 120/304 - loss 0.13477672 - time (sec): 47.16 - samples/sec: 255.35 - lr: 0.000110 - momentum: 0.000000
	2023-10-06 09:40:21,195 epoch 4 - iter 150/304 - loss 0.13442818 - time (sec): 60.22 - samples/sec: 258.25 - lr: 0.000109 - momentum: 0.000000
	2023-10-06 09:40:33,220 epoch 4 - iter 180/304 - loss 0.12831180 - time (sec): 72.25 - samples/sec: 256.75 - lr: 0.000107 - momentum: 0.000000
	2023-10-06 09:40:44,736 epoch 4 - iter 210/304 - loss 0.12277323 - time (sec): 83.77 - samples/sec: 256.22 - lr: 0.000105 - momentum: 0.000000
	2023-10-06 09:40:57,033 epoch 4 - iter 240/304 - loss 0.11777950 - time (sec): 96.06 - samples/sec: 256.02 - lr: 0.000104 - momentum: 0.000000
	2023-10-06 09:41:08,651 epoch 4 - iter 270/304 - loss 0.11516771 - time (sec): 107.68 - samples/sec: 256.26 - lr: 0.000102 - momentum: 0.000000
	2023-10-06 09:41:20,678 epoch 4 - iter 300/304 - loss 0.11601501 - time (sec): 119.71 - samples/sec: 256.38 - lr: 0.000100 - momentum: 0.000000
	2023-10-06 09:41:21,943 ----------------------------------------------------------------------------------------------------
	2023-10-06 09:41:21,944 EPOCH 4 done: loss 0.1155 - lr: 0.000100
	2023-10-06 09:41:29,842 DEV : loss 0.14497919380664825 - f1-score (micro avg) 0.8184
	2023-10-06 09:41:29,848 saving best model
	2023-10-06 09:41:34,770 ----------------------------------------------------------------------------------------------------
	2023-10-06 09:41:46,883 epoch 5 - iter 30/304 - loss 0.07533132 - time (sec): 12.11 - samples/sec: 264.53 - lr: 0.000098 - momentum: 0.000000
	2023-10-06 09:41:59,065 epoch 5 - iter 60/304 - loss 0.06755720 - time (sec): 24.29 - samples/sec: 258.18 - lr: 0.000097 - momentum: 0.000000
	2023-10-06 09:42:10,872 epoch 5 - iter 90/304 - loss 0.07841830 - time (sec): 36.10 - samples/sec: 257.51 - lr: 0.000095 - momentum: 0.000000
	2023-10-06 09:42:22,235 epoch 5 - iter 120/304 - loss 0.07172348 - time (sec): 47.46 - samples/sec: 258.53 - lr: 0.000094 - momentum: 0.000000
	2023-10-06 09:42:33,384 epoch 5 - iter 150/304 - loss 0.07184241 - time (sec): 58.61 - samples/sec: 255.31 - lr: 0.000092 - momentum: 0.000000
	2023-10-06 09:42:46,240 epoch 5 - iter 180/304 - loss 0.07656051 - time (sec): 71.47 - samples/sec: 257.87 - lr: 0.000090 - momentum: 0.000000
	2023-10-06 09:42:57,906 epoch 5 - iter 210/304 - loss 0.07829839 - time (sec): 83.13 - samples/sec: 257.09 - lr: 0.000089 - momentum: 0.000000
	2023-10-06 09:43:10,505 epoch 5 - iter 240/304 - loss 0.07561320 - time (sec): 95.73 - samples/sec: 257.15 - lr: 0.000087 - momentum: 0.000000
	2023-10-06 09:43:22,497 epoch 5 - iter 270/304 - loss 0.07540018 - time (sec): 107.73 - samples/sec: 257.44 - lr: 0.000085 - momentum: 0.000000
	2023-10-06 09:43:34,347 epoch 5 - iter 300/304 - loss 0.07275885 - time (sec): 119.58 - samples/sec: 257.18 - lr: 0.000084 - momentum: 0.000000
	2023-10-06 09:43:35,554 ----------------------------------------------------------------------------------------------------
	2023-10-06 09:43:35,554 EPOCH 5 done: loss 0.0728 - lr: 0.000084
	2023-10-06 09:43:43,495 DEV : loss 0.1400863230228424 - f1-score (micro avg) 0.7981
	2023-10-06 09:43:43,502 ----------------------------------------------------------------------------------------------------
	2023-10-06 09:43:55,497 epoch 6 - iter 30/304 - loss 0.04585316 - time (sec): 11.99 - samples/sec: 259.63 - lr: 0.000082 - momentum: 0.000000
	2023-10-06 09:44:06,879 epoch 6 - iter 60/304 - loss 0.06461409 - time (sec): 23.38 - samples/sec: 253.81 - lr: 0.000080 - momentum: 0.000000
	2023-10-06 09:44:18,966 epoch 6 - iter 90/304 - loss 0.05834725 - time (sec): 35.46 - samples/sec: 256.47 - lr: 0.000079 - momentum: 0.000000
	2023-10-06 09:44:31,065 epoch 6 - iter 120/304 - loss 0.04840357 - time (sec): 47.56 - samples/sec: 256.09 - lr: 0.000077 - momentum: 0.000000
	2023-10-06 09:44:43,410 epoch 6 - iter 150/304 - loss 0.05688001 - time (sec): 59.91 - samples/sec: 257.43 - lr: 0.000075 - momentum: 0.000000
	2023-10-06 09:44:55,075 epoch 6 - iter 180/304 - loss 0.05438671 - time (sec): 71.57 - samples/sec: 257.81 - lr: 0.000074 - momentum: 0.000000
	2023-10-06 09:45:06,970 epoch 6 - iter 210/304 - loss 0.05257578 - time (sec): 83.47 - samples/sec: 256.52 - lr: 0.000072 - momentum: 0.000000
	2023-10-06 09:45:19,008 epoch 6 - iter 240/304 - loss 0.05521499 - time (sec): 95.51 - samples/sec: 256.46 - lr: 0.000070 - momentum: 0.000000
	2023-10-06 09:45:31,506 epoch 6 - iter 270/304 - loss 0.05493219 - time (sec): 108.00 - samples/sec: 256.53 - lr: 0.000069 - momentum: 0.000000
	2023-10-06 09:45:42,977 epoch 6 - iter 300/304 - loss 0.05347444 - time (sec): 119.47 - samples/sec: 255.83 - lr: 0.000067 - momentum: 0.000000
	2023-10-06 09:45:44,574 ----------------------------------------------------------------------------------------------------
	2023-10-06 09:45:44,574 EPOCH 6 done: loss 0.0537 - lr: 0.000067
	2023-10-06 09:45:52,648 DEV : loss 0.14857152104377747 - f1-score (micro avg) 0.823
	2023-10-06 09:45:52,656 saving best model
	2023-10-06 09:45:56,996 ----------------------------------------------------------------------------------------------------
	2023-10-06 09:46:08,578 epoch 7 - iter 30/304 - loss 0.04428307 - time (sec): 11.58 - samples/sec: 243.26 - lr: 0.000065 - momentum: 0.000000
	2023-10-06 09:46:20,534 epoch 7 - iter 60/304 - loss 0.05221050 - time (sec): 23.54 - samples/sec: 252.04 - lr: 0.000063 - momentum: 0.000000
	2023-10-06 09:46:32,177 epoch 7 - iter 90/304 - loss 0.05961108 - time (sec): 35.18 - samples/sec: 257.88 - lr: 0.000062 - momentum: 0.000000
	2023-10-06 09:46:44,071 epoch 7 - iter 120/304 - loss 0.04768490 - time (sec): 47.07 - samples/sec: 263.19 - lr: 0.000060 - momentum: 0.000000
	2023-10-06 09:46:55,690 epoch 7 - iter 150/304 - loss 0.04749052 - time (sec): 58.69 - samples/sec: 264.38 - lr: 0.000059 - momentum: 0.000000
	2023-10-06 09:47:06,699 epoch 7 - iter 180/304 - loss 0.04432266 - time (sec): 69.70 - samples/sec: 264.99 - lr: 0.000057 - momentum: 0.000000
	2023-10-06 09:47:17,366 epoch 7 - iter 210/304 - loss 0.04492047 - time (sec): 80.37 - samples/sec: 265.24 - lr: 0.000055 - momentum: 0.000000
	2023-10-06 09:47:29,083 epoch 7 - iter 240/304 - loss 0.04349912 - time (sec): 92.09 - samples/sec: 265.98 - lr: 0.000054 - momentum: 0.000000
	2023-10-06 09:47:40,202 epoch 7 - iter 270/304 - loss 0.04444322 - time (sec): 103.20 - samples/sec: 266.32 - lr: 0.000052 - momentum: 0.000000
	2023-10-06 09:47:51,727 epoch 7 - iter 300/304 - loss 0.04167686 - time (sec): 114.73 - samples/sec: 267.47 - lr: 0.000050 - momentum: 0.000000
	2023-10-06 09:47:53,021 ----------------------------------------------------------------------------------------------------
	2023-10-06 09:47:53,021 EPOCH 7 done: loss 0.0426 - lr: 0.000050
	2023-10-06 09:48:00,126 DEV : loss 0.15859530866146088 - f1-score (micro avg) 0.8376
	2023-10-06 09:48:00,134 saving best model
	2023-10-06 09:48:04,493 ----------------------------------------------------------------------------------------------------
	2023-10-06 09:48:16,338 epoch 8 - iter 30/304 - loss 0.01337046 - time (sec): 11.84 - samples/sec: 281.50 - lr: 0.000048 - momentum: 0.000000
	2023-10-06 09:48:27,675 epoch 8 - iter 60/304 - loss 0.02525395 - time (sec): 23.18 - samples/sec: 278.94 - lr: 0.000047 - momentum: 0.000000
	2023-10-06 09:48:38,830 epoch 8 - iter 90/304 - loss 0.02209827 - time (sec): 34.34 - samples/sec: 275.08 - lr: 0.000045 - momentum: 0.000000
	2023-10-06 09:48:49,856 epoch 8 - iter 120/304 - loss 0.03001053 - time (sec): 45.36 - samples/sec: 272.50 - lr: 0.000044 - momentum: 0.000000
	2023-10-06 09:49:01,008 epoch 8 - iter 150/304 - loss 0.02753470 - time (sec): 56.51 - samples/sec: 271.60 - lr: 0.000042 - momentum: 0.000000
	2023-10-06 09:49:12,780 epoch 8 - iter 180/304 - loss 0.03272986 - time (sec): 68.29 - samples/sec: 272.72 - lr: 0.000040 - momentum: 0.000000
	2023-10-06 09:49:22,913 epoch 8 - iter 210/304 - loss 0.03349853 - time (sec): 78.42 - samples/sec: 269.93 - lr: 0.000039 - momentum: 0.000000
	2023-10-06 09:49:34,471 epoch 8 - iter 240/304 - loss 0.03256324 - time (sec): 89.98 - samples/sec: 270.19 - lr: 0.000037 - momentum: 0.000000
	2023-10-06 09:49:45,988 epoch 8 - iter 270/304 - loss 0.03226168 - time (sec): 101.49 - samples/sec: 270.76 - lr: 0.000035 - momentum: 0.000000
	2023-10-06 09:49:57,494 epoch 8 - iter 300/304 - loss 0.03460514 - time (sec): 113.00 - samples/sec: 271.13 - lr: 0.000034 - momentum: 0.000000
	2023-10-06 09:49:58,898 ----------------------------------------------------------------------------------------------------
	2023-10-06 09:49:58,898 EPOCH 8 done: loss 0.0342 - lr: 0.000034
	2023-10-06 09:50:06,091 DEV : loss 0.16549013555049896 - f1-score (micro avg) 0.8233
	2023-10-06 09:50:06,099 ----------------------------------------------------------------------------------------------------
	2023-10-06 09:50:17,416 epoch 9 - iter 30/304 - loss 0.03607490 - time (sec): 11.32 - samples/sec: 270.33 - lr: 0.000032 - momentum: 0.000000
	2023-10-06 09:50:28,950 epoch 9 - iter 60/304 - loss 0.03611696 - time (sec): 22.85 - samples/sec: 271.38 - lr: 0.000030 - momentum: 0.000000
	2023-10-06 09:50:40,327 epoch 9 - iter 90/304 - loss 0.03683352 - time (sec): 34.23 - samples/sec: 270.37 - lr: 0.000029 - momentum: 0.000000
	2023-10-06 09:50:51,690 epoch 9 - iter 120/304 - loss 0.03545349 - time (sec): 45.59 - samples/sec: 272.34 - lr: 0.000027 - momentum: 0.000000
	2023-10-06 09:51:02,237 epoch 9 - iter 150/304 - loss 0.03053773 - time (sec): 56.14 - samples/sec: 269.86 - lr: 0.000025 - momentum: 0.000000
	2023-10-06 09:51:13,637 epoch 9 - iter 180/304 - loss 0.03153764 - time (sec): 67.54 - samples/sec: 271.24 - lr: 0.000024 - momentum: 0.000000
	2023-10-06 09:51:24,593 epoch 9 - iter 210/304 - loss 0.02897687 - time (sec): 78.49 - samples/sec: 271.56 - lr: 0.000022 - momentum: 0.000000
	2023-10-06 09:51:36,029 epoch 9 - iter 240/304 - loss 0.02913720 - time (sec): 89.93 - samples/sec: 271.78 - lr: 0.000020 - momentum: 0.000000
	2023-10-06 09:51:47,224 epoch 9 - iter 270/304 - loss 0.03177374 - time (sec): 101.12 - samples/sec: 271.57 - lr: 0.000019 - momentum: 0.000000
	2023-10-06 09:51:58,879 epoch 9 - iter 300/304 - loss 0.02970036 - time (sec): 112.78 - samples/sec: 271.13 - lr: 0.000017 - momentum: 0.000000
	2023-10-06 09:52:00,344 ----------------------------------------------------------------------------------------------------
	2023-10-06 09:52:00,344 EPOCH 9 done: loss 0.0293 - lr: 0.000017
	2023-10-06 09:52:07,303 DEV : loss 0.16596698760986328 - f1-score (micro avg) 0.8314
	2023-10-06 09:52:07,310 ----------------------------------------------------------------------------------------------------
	2023-10-06 09:52:18,366 epoch 10 - iter 30/304 - loss 0.06044261 - time (sec): 11.05 - samples/sec: 263.50 - lr: 0.000015 - momentum: 0.000000
	2023-10-06 09:52:28,920 epoch 10 - iter 60/304 - loss 0.03666508 - time (sec): 21.61 - samples/sec: 259.58 - lr: 0.000014 - momentum: 0.000000
	2023-10-06 09:52:40,817 epoch 10 - iter 90/304 - loss 0.02806714 - time (sec): 33.51 - samples/sec: 266.41 - lr: 0.000012 - momentum: 0.000000
	2023-10-06 09:52:52,604 epoch 10 - iter 120/304 - loss 0.02578416 - time (sec): 45.29 - samples/sec: 268.50 - lr: 0.000010 - momentum: 0.000000
	2023-10-06 09:53:03,970 epoch 10 - iter 150/304 - loss 0.02219939 - time (sec): 56.66 - samples/sec: 269.24 - lr: 0.000009 - momentum: 0.000000
	2023-10-06 09:53:15,393 epoch 10 - iter 180/304 - loss 0.02271526 - time (sec): 68.08 - samples/sec: 270.25 - lr: 0.000007 - momentum: 0.000000
	2023-10-06 09:53:27,194 epoch 10 - iter 210/304 - loss 0.02468534 - time (sec): 79.88 - samples/sec: 271.05 - lr: 0.000005 - momentum: 0.000000
	2023-10-06 09:53:38,242 epoch 10 - iter 240/304 - loss 0.02324976 - time (sec): 90.93 - samples/sec: 270.79 - lr: 0.000004 - momentum: 0.000000
	2023-10-06 09:53:49,359 epoch 10 - iter 270/304 - loss 0.02612149 - time (sec): 102.05 - samples/sec: 271.28 - lr: 0.000002 - momentum: 0.000000
	2023-10-06 09:54:00,387 epoch 10 - iter 300/304 - loss 0.02507619 - time (sec): 113.08 - samples/sec: 270.99 - lr: 0.000000 - momentum: 0.000000
	2023-10-06 09:54:01,674 ----------------------------------------------------------------------------------------------------
	2023-10-06 09:54:01,674 EPOCH 10 done: loss 0.0248 - lr: 0.000000
	2023-10-06 09:54:08,593 DEV : loss 0.16923761367797852 - f1-score (micro avg) 0.8304
	2023-10-06 09:54:09,441 ----------------------------------------------------------------------------------------------------
	2023-10-06 09:54:09,442 Loading model from best epoch ...
	2023-10-06 09:54:13,978 SequenceTagger predicts: Dictionary with 25 tags: O, S-scope, B-scope, E-scope, I-scope, S-pers, B-pers, E-pers, I-pers, S-work, B-work, E-work, I-work, S-loc, B-loc, E-loc, I-loc, S-date, B-date, E-date, I-date, S-object, B-object, E-object, I-object
	2023-10-06 09:54:20,511
	Results:
	- F-score (micro) 0.8066
	- F-score (macro) 0.6236
	- Accuracy 0.6837

	By class:
	precision recall f1-score support

	scope 0.7516 0.8013 0.7756 151
	pers 0.8108 0.9375 0.8696 96
	work 0.7642 0.8526 0.8060 95
	loc 0.6667 0.6667 0.6667 3
	date 0.0000 0.0000 0.0000 3

	micro avg 0.7717 0.8448 0.8066 348
	macro avg 0.5986 0.6516 0.6236 348
	weighted avg 0.7641 0.8448 0.8022 348

	2023-10-06 09:54:20,511 ----------------------------------------------------------------------------------------------------