Upload folder using huggingface_hub

f0f7e81 10 months ago

No virus

25 kB

	2023-10-08 22:42:08,190 ----------------------------------------------------------------------------------------------------
	2023-10-08 22:42:08,191 Model: "SequenceTagger(
	(embeddings): ByT5Embeddings(
	(model): T5EncoderModel(
	(shared): Embedding(384, 1472)
	(encoder): T5Stack(
	(embed_tokens): Embedding(384, 1472)
	(block): ModuleList(
	(0): T5Block(
	(layer): ModuleList(
	(0): T5LayerSelfAttention(
	(SelfAttention): T5Attention(
	(q): Linear(in_features=1472, out_features=384, bias=False)
	(k): Linear(in_features=1472, out_features=384, bias=False)
	(v): Linear(in_features=1472, out_features=384, bias=False)
	(o): Linear(in_features=384, out_features=1472, bias=False)
	(relative_attention_bias): Embedding(32, 6)
	)
	(layer_norm): T5LayerNorm()
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(1): T5LayerFF(
	(DenseReluDense): T5DenseGatedActDense(
	(wi_0): Linear(in_features=1472, out_features=3584, bias=False)
	(wi_1): Linear(in_features=1472, out_features=3584, bias=False)
	(wo): Linear(in_features=3584, out_features=1472, bias=False)
	(dropout): Dropout(p=0.1, inplace=False)
	(act): NewGELUActivation()
	)
	(layer_norm): T5LayerNorm()
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	)
	(1-11): 11 x T5Block(
	(layer): ModuleList(
	(0): T5LayerSelfAttention(
	(SelfAttention): T5Attention(
	(q): Linear(in_features=1472, out_features=384, bias=False)
	(k): Linear(in_features=1472, out_features=384, bias=False)
	(v): Linear(in_features=1472, out_features=384, bias=False)
	(o): Linear(in_features=384, out_features=1472, bias=False)
	)
	(layer_norm): T5LayerNorm()
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(1): T5LayerFF(
	(DenseReluDense): T5DenseGatedActDense(
	(wi_0): Linear(in_features=1472, out_features=3584, bias=False)
	(wi_1): Linear(in_features=1472, out_features=3584, bias=False)
	(wo): Linear(in_features=3584, out_features=1472, bias=False)
	(dropout): Dropout(p=0.1, inplace=False)
	(act): NewGELUActivation()
	)
	(layer_norm): T5LayerNorm()
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	)
	)
	(final_layer_norm): T5LayerNorm()
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	)
	(locked_dropout): LockedDropout(p=0.5)
	(linear): Linear(in_features=1472, out_features=25, bias=True)
	(loss_function): CrossEntropyLoss()
	)"
	2023-10-08 22:42:08,192 ----------------------------------------------------------------------------------------------------
	2023-10-08 22:42:08,192 MultiCorpus: 966 train + 219 dev + 204 test sentences
	- NER_HIPE_2022 Corpus: 966 train + 219 dev + 204 test sentences - /app/.flair/datasets/ner_hipe_2022/v2.1/ajmc/fr/with_doc_seperator
	2023-10-08 22:42:08,192 ----------------------------------------------------------------------------------------------------
	2023-10-08 22:42:08,192 Train: 966 sentences
	2023-10-08 22:42:08,192 (train_with_dev=False, train_with_test=False)
	2023-10-08 22:42:08,192 ----------------------------------------------------------------------------------------------------
	2023-10-08 22:42:08,192 Training Params:
	2023-10-08 22:42:08,192 - learning_rate: "0.00016"
	2023-10-08 22:42:08,192 - mini_batch_size: "8"
	2023-10-08 22:42:08,192 - max_epochs: "10"
	2023-10-08 22:42:08,192 - shuffle: "True"
	2023-10-08 22:42:08,192 ----------------------------------------------------------------------------------------------------
	2023-10-08 22:42:08,192 Plugins:
	2023-10-08 22:42:08,192 - TensorboardLogger
	2023-10-08 22:42:08,193 - LinearScheduler \| warmup_fraction: '0.1'
	2023-10-08 22:42:08,193 ----------------------------------------------------------------------------------------------------
	2023-10-08 22:42:08,193 Final evaluation on model from best epoch (best-model.pt)
	2023-10-08 22:42:08,193 - metric: "('micro avg', 'f1-score')"
	2023-10-08 22:42:08,193 ----------------------------------------------------------------------------------------------------
	2023-10-08 22:42:08,193 Computation:
	2023-10-08 22:42:08,193 - compute on device: cuda:0
	2023-10-08 22:42:08,193 - embedding storage: none
	2023-10-08 22:42:08,193 ----------------------------------------------------------------------------------------------------
	2023-10-08 22:42:08,193 Model training base path: "hmbench-ajmc/fr-hmbyt5-preliminary/byt5-small-historic-multilingual-span20-flax-bs8-wsFalse-e10-lr0.00016-poolingfirst-layers-1-crfFalse-4"
	2023-10-08 22:42:08,193 ----------------------------------------------------------------------------------------------------
	2023-10-08 22:42:08,193 ----------------------------------------------------------------------------------------------------
	2023-10-08 22:42:08,193 Logging anything other than scalars to TensorBoard is currently not supported.
	2023-10-08 22:42:17,054 epoch 1 - iter 12/121 - loss 3.24889415 - time (sec): 8.86 - samples/sec: 284.00 - lr: 0.000015 - momentum: 0.000000
	2023-10-08 22:42:25,473 epoch 1 - iter 24/121 - loss 3.24375436 - time (sec): 17.28 - samples/sec: 278.54 - lr: 0.000030 - momentum: 0.000000
	2023-10-08 22:42:34,654 epoch 1 - iter 36/121 - loss 3.23173654 - time (sec): 26.46 - samples/sec: 280.88 - lr: 0.000046 - momentum: 0.000000
	2023-10-08 22:42:43,457 epoch 1 - iter 48/121 - loss 3.21282088 - time (sec): 35.26 - samples/sec: 279.22 - lr: 0.000062 - momentum: 0.000000
	2023-10-08 22:42:52,690 epoch 1 - iter 60/121 - loss 3.17429011 - time (sec): 44.50 - samples/sec: 280.18 - lr: 0.000078 - momentum: 0.000000
	2023-10-08 22:43:01,491 epoch 1 - iter 72/121 - loss 3.11654123 - time (sec): 53.30 - samples/sec: 279.55 - lr: 0.000094 - momentum: 0.000000
	2023-10-08 22:43:10,364 epoch 1 - iter 84/121 - loss 3.04629267 - time (sec): 62.17 - samples/sec: 278.57 - lr: 0.000110 - momentum: 0.000000
	2023-10-08 22:43:19,191 epoch 1 - iter 96/121 - loss 2.97098295 - time (sec): 71.00 - samples/sec: 276.60 - lr: 0.000126 - momentum: 0.000000
	2023-10-08 22:43:28,545 epoch 1 - iter 108/121 - loss 2.88064158 - time (sec): 80.35 - samples/sec: 277.12 - lr: 0.000141 - momentum: 0.000000
	2023-10-08 22:43:37,286 epoch 1 - iter 120/121 - loss 2.79298143 - time (sec): 89.09 - samples/sec: 276.61 - lr: 0.000157 - momentum: 0.000000
	2023-10-08 22:43:37,764 ----------------------------------------------------------------------------------------------------
	2023-10-08 22:43:37,765 EPOCH 1 done: loss 2.7892 - lr: 0.000157
	2023-10-08 22:43:44,063 DEV : loss 1.7997684478759766 - f1-score (micro avg) 0.0
	2023-10-08 22:43:44,068 ----------------------------------------------------------------------------------------------------
	2023-10-08 22:43:53,168 epoch 2 - iter 12/121 - loss 1.76567829 - time (sec): 9.10 - samples/sec: 269.30 - lr: 0.000158 - momentum: 0.000000
	2023-10-08 22:44:03,022 epoch 2 - iter 24/121 - loss 1.65613451 - time (sec): 18.95 - samples/sec: 271.63 - lr: 0.000157 - momentum: 0.000000
	2023-10-08 22:44:11,666 epoch 2 - iter 36/121 - loss 1.56993594 - time (sec): 27.60 - samples/sec: 265.76 - lr: 0.000155 - momentum: 0.000000
	2023-10-08 22:44:21,012 epoch 2 - iter 48/121 - loss 1.46749385 - time (sec): 36.94 - samples/sec: 268.58 - lr: 0.000153 - momentum: 0.000000
	2023-10-08 22:44:30,207 epoch 2 - iter 60/121 - loss 1.38822825 - time (sec): 46.14 - samples/sec: 269.24 - lr: 0.000151 - momentum: 0.000000
	2023-10-08 22:44:39,123 epoch 2 - iter 72/121 - loss 1.29536092 - time (sec): 55.05 - samples/sec: 268.01 - lr: 0.000150 - momentum: 0.000000
	2023-10-08 22:44:48,775 epoch 2 - iter 84/121 - loss 1.21650287 - time (sec): 64.70 - samples/sec: 267.72 - lr: 0.000148 - momentum: 0.000000
	2023-10-08 22:44:58,943 epoch 2 - iter 96/121 - loss 1.14579444 - time (sec): 74.87 - samples/sec: 267.43 - lr: 0.000146 - momentum: 0.000000
	2023-10-08 22:45:07,881 epoch 2 - iter 108/121 - loss 1.10747235 - time (sec): 83.81 - samples/sec: 265.63 - lr: 0.000144 - momentum: 0.000000
	2023-10-08 22:45:17,047 epoch 2 - iter 120/121 - loss 1.05793351 - time (sec): 92.98 - samples/sec: 264.65 - lr: 0.000143 - momentum: 0.000000
	2023-10-08 22:45:17,580 ----------------------------------------------------------------------------------------------------
	2023-10-08 22:45:17,580 EPOCH 2 done: loss 1.0580 - lr: 0.000143
	2023-10-08 22:45:24,067 DEV : loss 0.6450902819633484 - f1-score (micro avg) 0.0
	2023-10-08 22:45:24,073 ----------------------------------------------------------------------------------------------------
	2023-10-08 22:45:32,969 epoch 3 - iter 12/121 - loss 0.63941489 - time (sec): 8.90 - samples/sec: 250.70 - lr: 0.000141 - momentum: 0.000000
	2023-10-08 22:45:42,132 epoch 3 - iter 24/121 - loss 0.62273678 - time (sec): 18.06 - samples/sec: 252.35 - lr: 0.000139 - momentum: 0.000000
	2023-10-08 22:45:52,256 epoch 3 - iter 36/121 - loss 0.60202538 - time (sec): 28.18 - samples/sec: 255.55 - lr: 0.000137 - momentum: 0.000000
	2023-10-08 22:46:00,961 epoch 3 - iter 48/121 - loss 0.58615023 - time (sec): 36.89 - samples/sec: 256.78 - lr: 0.000135 - momentum: 0.000000
	2023-10-08 22:46:10,364 epoch 3 - iter 60/121 - loss 0.56309441 - time (sec): 46.29 - samples/sec: 257.96 - lr: 0.000134 - momentum: 0.000000
	2023-10-08 22:46:19,908 epoch 3 - iter 72/121 - loss 0.54683763 - time (sec): 55.83 - samples/sec: 260.54 - lr: 0.000132 - momentum: 0.000000
	2023-10-08 22:46:29,867 epoch 3 - iter 84/121 - loss 0.53010442 - time (sec): 65.79 - samples/sec: 263.51 - lr: 0.000130 - momentum: 0.000000
	2023-10-08 22:46:40,013 epoch 3 - iter 96/121 - loss 0.50209518 - time (sec): 75.94 - samples/sec: 264.69 - lr: 0.000128 - momentum: 0.000000
	2023-10-08 22:46:48,542 epoch 3 - iter 108/121 - loss 0.48786290 - time (sec): 84.47 - samples/sec: 262.61 - lr: 0.000127 - momentum: 0.000000
	2023-10-08 22:46:57,688 epoch 3 - iter 120/121 - loss 0.47452859 - time (sec): 93.61 - samples/sec: 263.07 - lr: 0.000125 - momentum: 0.000000
	2023-10-08 22:46:58,213 ----------------------------------------------------------------------------------------------------
	2023-10-08 22:46:58,214 EPOCH 3 done: loss 0.4731 - lr: 0.000125
	2023-10-08 22:47:04,647 DEV : loss 0.37881988286972046 - f1-score (micro avg) 0.2965
	2023-10-08 22:47:04,652 saving best model
	2023-10-08 22:47:05,526 ----------------------------------------------------------------------------------------------------
	2023-10-08 22:47:14,444 epoch 4 - iter 12/121 - loss 0.46738746 - time (sec): 8.92 - samples/sec: 263.79 - lr: 0.000123 - momentum: 0.000000
	2023-10-08 22:47:24,059 epoch 4 - iter 24/121 - loss 0.40614776 - time (sec): 18.53 - samples/sec: 269.22 - lr: 0.000121 - momentum: 0.000000
	2023-10-08 22:47:34,401 epoch 4 - iter 36/121 - loss 0.36038870 - time (sec): 28.87 - samples/sec: 266.58 - lr: 0.000120 - momentum: 0.000000
	2023-10-08 22:47:43,578 epoch 4 - iter 48/121 - loss 0.34632050 - time (sec): 38.05 - samples/sec: 264.10 - lr: 0.000118 - momentum: 0.000000
	2023-10-08 22:47:53,536 epoch 4 - iter 60/121 - loss 0.33528371 - time (sec): 48.01 - samples/sec: 263.91 - lr: 0.000116 - momentum: 0.000000
	2023-10-08 22:48:03,709 epoch 4 - iter 72/121 - loss 0.31801268 - time (sec): 58.18 - samples/sec: 265.59 - lr: 0.000114 - momentum: 0.000000
	2023-10-08 22:48:12,957 epoch 4 - iter 84/121 - loss 0.30951747 - time (sec): 67.43 - samples/sec: 265.74 - lr: 0.000113 - momentum: 0.000000
	2023-10-08 22:48:21,926 epoch 4 - iter 96/121 - loss 0.30492446 - time (sec): 76.40 - samples/sec: 265.88 - lr: 0.000111 - momentum: 0.000000
	2023-10-08 22:48:30,226 epoch 4 - iter 108/121 - loss 0.30375952 - time (sec): 84.70 - samples/sec: 266.17 - lr: 0.000109 - momentum: 0.000000
	2023-10-08 22:48:38,206 epoch 4 - iter 120/121 - loss 0.29955442 - time (sec): 92.68 - samples/sec: 266.23 - lr: 0.000107 - momentum: 0.000000
	2023-10-08 22:48:38,604 ----------------------------------------------------------------------------------------------------
	2023-10-08 22:48:38,604 EPOCH 4 done: loss 0.3000 - lr: 0.000107
	2023-10-08 22:48:44,517 DEV : loss 0.26859453320503235 - f1-score (micro avg) 0.5389
	2023-10-08 22:48:44,523 saving best model
	2023-10-08 22:48:45,439 ----------------------------------------------------------------------------------------------------
	2023-10-08 22:48:53,562 epoch 5 - iter 12/121 - loss 0.22313744 - time (sec): 8.12 - samples/sec: 283.57 - lr: 0.000105 - momentum: 0.000000
	2023-10-08 22:49:02,121 epoch 5 - iter 24/121 - loss 0.21957236 - time (sec): 16.68 - samples/sec: 280.87 - lr: 0.000104 - momentum: 0.000000
	2023-10-08 22:49:11,118 epoch 5 - iter 36/121 - loss 0.22202082 - time (sec): 25.68 - samples/sec: 286.47 - lr: 0.000102 - momentum: 0.000000
	2023-10-08 22:49:19,763 epoch 5 - iter 48/121 - loss 0.22785480 - time (sec): 34.32 - samples/sec: 283.63 - lr: 0.000100 - momentum: 0.000000
	2023-10-08 22:49:28,751 epoch 5 - iter 60/121 - loss 0.22395787 - time (sec): 43.31 - samples/sec: 284.52 - lr: 0.000098 - momentum: 0.000000
	2023-10-08 22:49:37,399 epoch 5 - iter 72/121 - loss 0.22025587 - time (sec): 51.96 - samples/sec: 284.09 - lr: 0.000097 - momentum: 0.000000
	2023-10-08 22:49:46,172 epoch 5 - iter 84/121 - loss 0.22892588 - time (sec): 60.73 - samples/sec: 284.96 - lr: 0.000095 - momentum: 0.000000
	2023-10-08 22:49:55,134 epoch 5 - iter 96/121 - loss 0.22823501 - time (sec): 69.69 - samples/sec: 284.01 - lr: 0.000093 - momentum: 0.000000
	2023-10-08 22:50:03,052 epoch 5 - iter 108/121 - loss 0.22364187 - time (sec): 77.61 - samples/sec: 282.40 - lr: 0.000091 - momentum: 0.000000
	2023-10-08 22:50:11,800 epoch 5 - iter 120/121 - loss 0.21942528 - time (sec): 86.36 - samples/sec: 283.42 - lr: 0.000090 - momentum: 0.000000
	2023-10-08 22:50:12,655 ----------------------------------------------------------------------------------------------------
	2023-10-08 22:50:12,655 EPOCH 5 done: loss 0.2185 - lr: 0.000090
	2023-10-08 22:50:18,519 DEV : loss 0.21061980724334717 - f1-score (micro avg) 0.6275
	2023-10-08 22:50:18,525 saving best model
	2023-10-08 22:50:19,443 ----------------------------------------------------------------------------------------------------
	2023-10-08 22:50:27,761 epoch 6 - iter 12/121 - loss 0.17277091 - time (sec): 8.32 - samples/sec: 286.54 - lr: 0.000088 - momentum: 0.000000
	2023-10-08 22:50:36,616 epoch 6 - iter 24/121 - loss 0.16954790 - time (sec): 17.17 - samples/sec: 287.39 - lr: 0.000086 - momentum: 0.000000
	2023-10-08 22:50:45,486 epoch 6 - iter 36/121 - loss 0.17882791 - time (sec): 26.04 - samples/sec: 288.85 - lr: 0.000084 - momentum: 0.000000
	2023-10-08 22:50:53,736 epoch 6 - iter 48/121 - loss 0.16960253 - time (sec): 34.29 - samples/sec: 284.15 - lr: 0.000082 - momentum: 0.000000
	2023-10-08 22:51:02,448 epoch 6 - iter 60/121 - loss 0.17113200 - time (sec): 43.00 - samples/sec: 284.14 - lr: 0.000081 - momentum: 0.000000
	2023-10-08 22:51:11,093 epoch 6 - iter 72/121 - loss 0.17490968 - time (sec): 51.65 - samples/sec: 283.28 - lr: 0.000079 - momentum: 0.000000
	2023-10-08 22:51:19,751 epoch 6 - iter 84/121 - loss 0.17136526 - time (sec): 60.31 - samples/sec: 283.91 - lr: 0.000077 - momentum: 0.000000
	2023-10-08 22:51:28,848 epoch 6 - iter 96/121 - loss 0.16690048 - time (sec): 69.40 - samples/sec: 284.07 - lr: 0.000075 - momentum: 0.000000
	2023-10-08 22:51:37,186 epoch 6 - iter 108/121 - loss 0.16544678 - time (sec): 77.74 - samples/sec: 283.37 - lr: 0.000074 - momentum: 0.000000
	2023-10-08 22:51:45,939 epoch 6 - iter 120/121 - loss 0.16563812 - time (sec): 86.49 - samples/sec: 283.03 - lr: 0.000072 - momentum: 0.000000
	2023-10-08 22:51:46,748 ----------------------------------------------------------------------------------------------------
	2023-10-08 22:51:46,748 EPOCH 6 done: loss 0.1658 - lr: 0.000072
	2023-10-08 22:51:52,688 DEV : loss 0.16975745558738708 - f1-score (micro avg) 0.7804
	2023-10-08 22:51:52,694 saving best model
	2023-10-08 22:51:53,580 ----------------------------------------------------------------------------------------------------
	2023-10-08 22:52:02,885 epoch 7 - iter 12/121 - loss 0.11579701 - time (sec): 9.30 - samples/sec: 286.55 - lr: 0.000070 - momentum: 0.000000
	2023-10-08 22:52:10,925 epoch 7 - iter 24/121 - loss 0.13622268 - time (sec): 17.34 - samples/sec: 277.56 - lr: 0.000068 - momentum: 0.000000
	2023-10-08 22:52:19,329 epoch 7 - iter 36/121 - loss 0.12809804 - time (sec): 25.75 - samples/sec: 276.22 - lr: 0.000066 - momentum: 0.000000
	2023-10-08 22:52:28,313 epoch 7 - iter 48/121 - loss 0.12708384 - time (sec): 34.73 - samples/sec: 274.47 - lr: 0.000065 - momentum: 0.000000
	2023-10-08 22:52:36,945 epoch 7 - iter 60/121 - loss 0.12872714 - time (sec): 43.36 - samples/sec: 275.56 - lr: 0.000063 - momentum: 0.000000
	2023-10-08 22:52:45,849 epoch 7 - iter 72/121 - loss 0.12749752 - time (sec): 52.27 - samples/sec: 274.80 - lr: 0.000061 - momentum: 0.000000
	2023-10-08 22:52:54,917 epoch 7 - iter 84/121 - loss 0.12729279 - time (sec): 61.34 - samples/sec: 274.29 - lr: 0.000059 - momentum: 0.000000
	2023-10-08 22:53:03,443 epoch 7 - iter 96/121 - loss 0.12653363 - time (sec): 69.86 - samples/sec: 273.77 - lr: 0.000058 - momentum: 0.000000
	2023-10-08 22:53:13,270 epoch 7 - iter 108/121 - loss 0.12821719 - time (sec): 79.69 - samples/sec: 275.75 - lr: 0.000056 - momentum: 0.000000
	2023-10-08 22:53:22,756 epoch 7 - iter 120/121 - loss 0.12880684 - time (sec): 89.17 - samples/sec: 276.49 - lr: 0.000054 - momentum: 0.000000
	2023-10-08 22:53:23,237 ----------------------------------------------------------------------------------------------------
	2023-10-08 22:53:23,238 EPOCH 7 done: loss 0.1292 - lr: 0.000054
	2023-10-08 22:53:29,464 DEV : loss 0.15908175706863403 - f1-score (micro avg) 0.8025
	2023-10-08 22:53:29,469 saving best model
	2023-10-08 22:53:30,346 ----------------------------------------------------------------------------------------------------
	2023-10-08 22:53:39,723 epoch 8 - iter 12/121 - loss 0.09380565 - time (sec): 9.38 - samples/sec: 277.43 - lr: 0.000052 - momentum: 0.000000
	2023-10-08 22:53:48,462 epoch 8 - iter 24/121 - loss 0.09475660 - time (sec): 18.11 - samples/sec: 263.16 - lr: 0.000051 - momentum: 0.000000
	2023-10-08 22:53:57,857 epoch 8 - iter 36/121 - loss 0.09983123 - time (sec): 27.51 - samples/sec: 269.28 - lr: 0.000049 - momentum: 0.000000
	2023-10-08 22:54:06,734 epoch 8 - iter 48/121 - loss 0.10566214 - time (sec): 36.39 - samples/sec: 268.40 - lr: 0.000047 - momentum: 0.000000
	2023-10-08 22:54:15,480 epoch 8 - iter 60/121 - loss 0.11078771 - time (sec): 45.13 - samples/sec: 265.31 - lr: 0.000045 - momentum: 0.000000
	2023-10-08 22:54:24,874 epoch 8 - iter 72/121 - loss 0.11381718 - time (sec): 54.53 - samples/sec: 266.02 - lr: 0.000044 - momentum: 0.000000
	2023-10-08 22:54:34,065 epoch 8 - iter 84/121 - loss 0.11202327 - time (sec): 63.72 - samples/sec: 265.25 - lr: 0.000042 - momentum: 0.000000
	2023-10-08 22:54:43,568 epoch 8 - iter 96/121 - loss 0.11127488 - time (sec): 73.22 - samples/sec: 266.00 - lr: 0.000040 - momentum: 0.000000
	2023-10-08 22:54:53,279 epoch 8 - iter 108/121 - loss 0.11004380 - time (sec): 82.93 - samples/sec: 265.40 - lr: 0.000038 - momentum: 0.000000
	2023-10-08 22:55:02,926 epoch 8 - iter 120/121 - loss 0.10894085 - time (sec): 92.58 - samples/sec: 264.89 - lr: 0.000037 - momentum: 0.000000
	2023-10-08 22:55:03,654 ----------------------------------------------------------------------------------------------------
	2023-10-08 22:55:03,655 EPOCH 8 done: loss 0.1085 - lr: 0.000037
	2023-10-08 22:55:10,189 DEV : loss 0.14787454903125763 - f1-score (micro avg) 0.8292
	2023-10-08 22:55:10,194 saving best model
	2023-10-08 22:55:11,094 ----------------------------------------------------------------------------------------------------
	2023-10-08 22:55:22,036 epoch 9 - iter 12/121 - loss 0.07924901 - time (sec): 10.94 - samples/sec: 271.28 - lr: 0.000035 - momentum: 0.000000
	2023-10-08 22:55:31,021 epoch 9 - iter 24/121 - loss 0.08290001 - time (sec): 19.93 - samples/sec: 266.95 - lr: 0.000033 - momentum: 0.000000
	2023-10-08 22:55:39,752 epoch 9 - iter 36/121 - loss 0.08487672 - time (sec): 28.66 - samples/sec: 265.87 - lr: 0.000031 - momentum: 0.000000
	2023-10-08 22:55:48,962 epoch 9 - iter 48/121 - loss 0.09640981 - time (sec): 37.87 - samples/sec: 264.35 - lr: 0.000029 - momentum: 0.000000
	2023-10-08 22:55:58,261 epoch 9 - iter 60/121 - loss 0.09671133 - time (sec): 47.17 - samples/sec: 264.09 - lr: 0.000028 - momentum: 0.000000
	2023-10-08 22:56:06,918 epoch 9 - iter 72/121 - loss 0.09540228 - time (sec): 55.82 - samples/sec: 262.65 - lr: 0.000026 - momentum: 0.000000
	2023-10-08 22:56:16,764 epoch 9 - iter 84/121 - loss 0.09700245 - time (sec): 65.67 - samples/sec: 262.68 - lr: 0.000024 - momentum: 0.000000
	2023-10-08 22:56:26,084 epoch 9 - iter 96/121 - loss 0.09708608 - time (sec): 74.99 - samples/sec: 263.15 - lr: 0.000022 - momentum: 0.000000
	2023-10-08 22:56:35,194 epoch 9 - iter 108/121 - loss 0.09763745 - time (sec): 84.10 - samples/sec: 263.20 - lr: 0.000021 - momentum: 0.000000
	2023-10-08 22:56:44,596 epoch 9 - iter 120/121 - loss 0.09566562 - time (sec): 93.50 - samples/sec: 263.13 - lr: 0.000019 - momentum: 0.000000
	2023-10-08 22:56:45,173 ----------------------------------------------------------------------------------------------------
	2023-10-08 22:56:45,174 EPOCH 9 done: loss 0.0952 - lr: 0.000019
	2023-10-08 22:56:51,652 DEV : loss 0.14321769773960114 - f1-score (micro avg) 0.8257
	2023-10-08 22:56:51,658 ----------------------------------------------------------------------------------------------------
	2023-10-08 22:57:01,966 epoch 10 - iter 12/121 - loss 0.09113587 - time (sec): 10.31 - samples/sec: 273.12 - lr: 0.000017 - momentum: 0.000000
	2023-10-08 22:57:10,536 epoch 10 - iter 24/121 - loss 0.09256184 - time (sec): 18.88 - samples/sec: 259.59 - lr: 0.000015 - momentum: 0.000000
	2023-10-08 22:57:19,728 epoch 10 - iter 36/121 - loss 0.08650274 - time (sec): 28.07 - samples/sec: 261.00 - lr: 0.000013 - momentum: 0.000000
	2023-10-08 22:57:28,755 epoch 10 - iter 48/121 - loss 0.08409242 - time (sec): 37.10 - samples/sec: 262.32 - lr: 0.000012 - momentum: 0.000000
	2023-10-08 22:57:37,846 epoch 10 - iter 60/121 - loss 0.08236105 - time (sec): 46.19 - samples/sec: 263.13 - lr: 0.000010 - momentum: 0.000000
	2023-10-08 22:57:46,841 epoch 10 - iter 72/121 - loss 0.08181150 - time (sec): 55.18 - samples/sec: 267.35 - lr: 0.000008 - momentum: 0.000000
	2023-10-08 22:57:55,303 epoch 10 - iter 84/121 - loss 0.08382245 - time (sec): 63.64 - samples/sec: 270.10 - lr: 0.000006 - momentum: 0.000000
	2023-10-08 22:58:03,840 epoch 10 - iter 96/121 - loss 0.08569249 - time (sec): 72.18 - samples/sec: 270.82 - lr: 0.000005 - momentum: 0.000000
	2023-10-08 22:58:12,915 epoch 10 - iter 108/121 - loss 0.08968322 - time (sec): 81.26 - samples/sec: 273.57 - lr: 0.000003 - momentum: 0.000000
	2023-10-08 22:58:21,198 epoch 10 - iter 120/121 - loss 0.08682648 - time (sec): 89.54 - samples/sec: 273.96 - lr: 0.000001 - momentum: 0.000000
	2023-10-08 22:58:21,877 ----------------------------------------------------------------------------------------------------
	2023-10-08 22:58:21,877 EPOCH 10 done: loss 0.0878 - lr: 0.000001
	2023-10-08 22:58:27,712 DEV : loss 0.14467351138591766 - f1-score (micro avg) 0.8109
	2023-10-08 22:58:28,561 ----------------------------------------------------------------------------------------------------
	2023-10-08 22:58:28,563 Loading model from best epoch ...
	2023-10-08 22:58:31,430 SequenceTagger predicts: Dictionary with 25 tags: O, S-scope, B-scope, E-scope, I-scope, S-pers, B-pers, E-pers, I-pers, S-work, B-work, E-work, I-work, S-loc, B-loc, E-loc, I-loc, S-object, B-object, E-object, I-object, S-date, B-date, E-date, I-date
	2023-10-08 22:58:37,176
	Results:
	- F-score (micro) 0.7828
	- F-score (macro) 0.4692
	- Accuracy 0.6744

	By class:
	precision recall f1-score support

	pers 0.7852 0.8417 0.8125 139
	scope 0.7945 0.8992 0.8436 129
	work 0.6484 0.7375 0.6901 80
	loc 0.0000 0.0000 0.0000 9
	date 0.0000 0.0000 0.0000 3

	micro avg 0.7565 0.8111 0.7828 360
	macro avg 0.4456 0.4957 0.4692 360
	weighted avg 0.7320 0.8111 0.7694 360

	2023-10-08 22:58:37,176 ----------------------------------------------------------------------------------------------------