outlmv3_jordyvl_rvl_cdip_100_examples_per_class_2023-12-01_txt_vis_concat_enc_1_2_3_4_gate

This model is a fine-tuned version of microsoft/layoutlmv3-base on an unknown dataset. It achieves the following results on the evaluation set:

Loss: 1.0852
Accuracy: 0.755
Exit 0 Accuracy: 0.06
Exit 1 Accuracy: 0.0625
Exit 2 Accuracy: 0.0575
Exit 3 Accuracy: 0.065
Exit 4 Accuracy: 0.0775

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 2e-05
train_batch_size: 4
eval_batch_size: 2
seed: 42
gradient_accumulation_steps: 24
total_train_batch_size: 96
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: linear
num_epochs: 60

Training results

Training Loss	Epoch	Step	Validation Loss	Accuracy	Exit 0 Accuracy	Exit 1 Accuracy	Exit 2 Accuracy	Exit 3 Accuracy	Exit 4 Accuracy
No log	0.96	8	2.6886	0.155	0.055	0.0825	0.0625	0.0625	0.0625
No log	1.96	16	2.5967	0.205	0.05	0.0625	0.0625	0.0625	0.0625
No log	2.96	24	2.4863	0.2275	0.0525	0.0625	0.0625	0.08	0.0625
No log	3.96	32	2.3521	0.285	0.045	0.07	0.0725	0.065	0.065
No log	4.96	40	2.2600	0.3025	0.04	0.0675	0.05	0.065	0.0675
No log	5.96	48	2.1585	0.3425	0.035	0.0675	0.0675	0.0625	0.0625
No log	6.96	56	2.0467	0.41	0.0375	0.065	0.065	0.0575	0.0625
No log	7.96	64	1.8287	0.525	0.0375	0.0575	0.0525	0.0625	0.0625
No log	8.96	72	1.6875	0.5775	0.045	0.065	0.055	0.065	0.0575
No log	9.96	80	1.5657	0.5925	0.045	0.0575	0.05	0.065	0.0575
No log	10.96	88	1.4216	0.6325	0.05	0.075	0.045	0.0625	0.0525
No log	11.96	96	1.3001	0.6575	0.055	0.075	0.05	0.065	0.055
No log	12.96	104	1.2468	0.67	0.0575	0.075	0.055	0.065	0.0625
No log	13.96	112	1.1777	0.685	0.055	0.075	0.0575	0.06	0.055
No log	14.96	120	1.1468	0.6875	0.055	0.0775	0.0525	0.06	0.0475
No log	15.96	128	1.0561	0.72	0.055	0.08	0.0525	0.06	0.055
No log	16.96	136	1.0213	0.7175	0.055	0.085	0.05	0.0625	0.055
No log	17.96	144	1.0266	0.7125	0.055	0.085	0.055	0.06	0.055
No log	18.96	152	0.9733	0.7275	0.0525	0.0875	0.0475	0.06	0.0625
No log	19.96	160	0.9511	0.7475	0.0525	0.0775	0.055	0.06	0.065
No log	20.96	168	0.9595	0.735	0.0525	0.0675	0.055	0.06	0.06
No log	21.96	176	0.9803	0.7475	0.055	0.0675	0.055	0.06	0.07
No log	22.96	184	0.9428	0.75	0.0575	0.0675	0.0525	0.06	0.08
No log	23.96	192	0.9591	0.7275	0.0525	0.065	0.05	0.06	0.0825
No log	24.96	200	0.9216	0.7525	0.06	0.065	0.055	0.06	0.0825
No log	25.96	208	0.9194	0.7525	0.0575	0.065	0.0525	0.06	0.075
No log	26.96	216	1.0271	0.7275	0.0575	0.065	0.0525	0.06	0.075
No log	27.96	224	0.9563	0.77	0.0625	0.065	0.0525	0.06	0.0775
No log	28.96	232	0.9999	0.7275	0.0625	0.065	0.055	0.06	0.0675
No log	29.96	240	0.9599	0.76	0.0625	0.065	0.05	0.06	0.065
No log	30.96	248	0.9884	0.75	0.0625	0.065	0.05	0.06	0.0625
No log	31.96	256	1.0037	0.745	0.0625	0.0625	0.0525	0.06	0.0625
No log	32.96	264	0.9848	0.7425	0.0625	0.0625	0.0525	0.0625	0.065
No log	33.96	272	1.0081	0.7525	0.0625	0.0625	0.055	0.0625	0.065
No log	34.96	280	1.0274	0.755	0.0575	0.0625	0.055	0.0625	0.075
No log	35.96	288	1.0378	0.7525	0.0575	0.0625	0.055	0.0675	0.0725
No log	36.96	296	1.0480	0.7525	0.0625	0.065	0.0525	0.065	0.07
No log	37.96	304	1.0332	0.765	0.0625	0.065	0.0525	0.065	0.075
No log	38.96	312	1.0222	0.765	0.06	0.0625	0.0525	0.065	0.0775
No log	39.96	320	1.0709	0.75	0.06	0.0625	0.0525	0.065	0.08
No log	40.96	328	1.0426	0.755	0.06	0.0625	0.0525	0.065	0.08
No log	41.96	336	1.0789	0.74	0.06	0.0625	0.0525	0.065	0.08
No log	42.96	344	1.0492	0.765	0.06	0.0625	0.0525	0.0625	0.0775
No log	43.96	352	1.0541	0.7575	0.06	0.0625	0.0525	0.0625	0.08
No log	44.96	360	1.0620	0.755	0.06	0.0625	0.0525	0.06	0.08
No log	45.96	368	1.0514	0.7575	0.06	0.0625	0.055	0.06	0.0775
No log	46.96	376	1.0537	0.755	0.06	0.0625	0.0525	0.0625	0.0775
No log	47.96	384	1.0662	0.7575	0.06	0.0625	0.0525	0.0625	0.0775
No log	48.96	392	1.0693	0.76	0.06	0.0625	0.055	0.0625	0.08
No log	49.96	400	1.0775	0.7575	0.06	0.0625	0.055	0.0625	0.08
No log	50.96	408	1.0863	0.75	0.0575	0.0625	0.0575	0.065	0.0825
No log	51.96	416	1.0567	0.76	0.06	0.0625	0.055	0.0625	0.08
No log	52.96	424	1.0605	0.76	0.06	0.0625	0.055	0.0625	0.08
No log	53.96	432	1.0720	0.755	0.06	0.0625	0.0525	0.0625	0.08
No log	54.96	440	1.0807	0.7525	0.06	0.0625	0.0575	0.0625	0.0775
No log	55.96	448	1.0747	0.7575	0.06	0.0625	0.055	0.0625	0.0775
No log	56.96	456	1.0740	0.755	0.06	0.0625	0.06	0.065	0.08
No log	57.96	464	1.0813	0.755	0.06	0.0625	0.0575	0.065	0.0775
No log	58.96	472	1.0852	0.755	0.06	0.0625	0.0575	0.065	0.0775
No log	59.96	480	1.0852	0.755	0.06	0.0625	0.0575	0.065	0.0775

Framework versions

Transformers 4.26.1
Pytorch 1.13.1.post200
Datasets 2.9.0
Tokenizers 0.13.2

jordyvl
/

outlmv3_jordyvl_rvl_cdip_100_examples_per_class_2023-12-01_txt_vis_concat_enc_1_2_3_4_gate

outlmv3_jordyvl_rvl_cdip_100_examples_per_class_2023-12-01_txt_vis_concat_enc_1_2_3_4_gate

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions

Evaluation results