WhartonDS_ClsModel

This model is a fine-tuned version of on an unknown dataset. It achieves the following results on the evaluation set:

Loss: 0.2321
Auc Roc: 0.9733
F1: 0.9180

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 1e-05
train_batch_size: 128
eval_batch_size: 64
seed: 42
optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: cosine
num_epochs: 60

Training results

Training Loss	Epoch	Step	Validation Loss	Auc Roc	F1
0.6867	1.0	24	0.6946	0.4032	0.3328
0.669	2.0	48	0.6939	0.3556	0.3870
0.6525	3.0	72	0.6943	0.4651	0.4785
0.6385	4.0	96	0.6943	0.4137	0.3457
0.6269	5.0	120	0.6841	0.6255	0.5463
0.6056	6.0	144	0.6594	0.7160	0.5929
0.5931	7.0	168	0.6276	0.8175	0.7434
0.5769	8.0	192	0.6095	0.7805	0.6345
0.5621	9.0	216	0.5912	0.8197	0.6743
0.5431	10.0	240	0.5745	0.8568	0.7837
0.5264	11.0	264	0.5599	0.8599	0.7661
0.5138	12.0	288	0.5102	0.8799	0.8002
0.4982	13.0	312	0.5327	0.8859	0.7199
0.4885	14.0	336	0.5418	0.8999	0.7225
0.4684	15.0	360	0.5488	0.8854	0.7436
0.4539	16.0	384	0.4811	0.9111	0.8367
0.4451	17.0	408	0.4769	0.9188	0.8343
0.4359	18.0	432	0.4694	0.9203	0.8440
0.4222	19.0	456	0.4808	0.9236	0.8215
0.408	20.0	480	0.4217	0.9286	0.8658
0.3967	21.0	504	0.4193	0.9276	0.8475
0.386	22.0	528	0.4244	0.9214	0.8457
0.3873	23.0	552	0.3868	0.9431	0.8687
0.3751	24.0	576	0.3742	0.9483	0.8873
0.3679	25.0	600	0.3668	0.9478	0.8774
0.3634	26.0	624	0.3732	0.9478	0.8666
0.3557	27.0	648	0.3957	0.9495	0.8681
0.3421	28.0	672	0.3342	0.9467	0.8818
0.3424	29.0	696	0.3314	0.9519	0.8771
0.3344	30.0	720	0.3045	0.9604	0.8935
0.339	31.0	744	0.3084	0.9618	0.8988
0.3238	32.0	768	0.3854	0.9584	0.8850
0.3133	33.0	792	0.3031	0.9638	0.8988
0.317	34.0	816	0.2811	0.9649	0.9048
0.3151	35.0	840	0.2650	0.9661	0.9088
0.3137	36.0	864	0.3104	0.9647	0.8754
0.307	37.0	888	0.2695	0.9697	0.9103
0.306	38.0	912	0.2897	0.9628	0.8994
0.2928	39.0	936	0.3111	0.9640	0.8798
0.3068	40.0	960	0.2492	0.9707	0.9126
0.2963	41.0	984	0.2642	0.9703	0.9165
0.2915	42.0	1008	0.2567	0.9694	0.9141
0.2951	43.0	1032	0.2470	0.9710	0.9118
0.2891	44.0	1056	0.2389	0.9718	0.9142
0.2836	45.0	1080	0.2411	0.9724	0.9172
0.3091	46.0	1104	0.2401	0.9719	0.9134
0.2877	47.0	1128	0.2476	0.9712	0.9126
0.2777	48.0	1152	0.2516	0.9702	0.9110
0.285	49.0	1176	0.2367	0.9732	0.9180
0.2841	50.0	1200	0.2435	0.9728	0.9110
0.2809	51.0	1224	0.2388	0.9723	0.9119
0.283	52.0	1248	0.2335	0.9729	0.9165
0.2946	53.0	1272	0.2365	0.9726	0.9180
0.2924	54.0	1296	0.2338	0.9734	0.9172
0.289	55.0	1320	0.2333	0.9731	0.9165
0.2815	56.0	1344	0.2316	0.9737	0.9157
0.2808	57.0	1368	0.2333	0.9734	0.9157
0.2961	58.0	1392	0.2332	0.9735	0.9157
0.2806	59.0	1416	0.2336	0.9730	0.9126
0.274	60.0	1440	0.2321	0.9733	0.9180

Framework versions

Transformers 4.47.0
Pytorch 2.5.1+cu121
Datasets 3.2.0
Tokenizers 0.21.0

KanWasTaken
/

WhartonDS_ClsModel

WhartonDS_ClsModel

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions

Evaluation results