ardzdirect3

This model is a fine-tuned version of facebook/mms-1b-all on an unknown dataset. It achieves the following results on the evaluation set:

  • Loss: 0.3352
  • Wer: 0.3954
  • Bleu: 0.3608
  • Rouge: {'rouge1': 0.0010395010395010396, 'rouge2': 0.0, 'rougeL': 0.0010395010395010396, 'rougeLsum': 0.0010395010395010396}

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 0.001
  • train_batch_size: 8
  • eval_batch_size: 8
  • seed: 42
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 32
  • optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: linear
  • lr_scheduler_warmup_steps: 100
  • num_epochs: 100
  • mixed_precision_training: Native AMP

Training results

Training Loss Epoch Step Validation Loss Wer Bleu Rouge
2.9863 0.8316 100 0.4937 0.6871 0.0964 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.5365 1.6570 200 0.4196 0.6320 0.1448 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.5121 2.4823 300 0.3883 0.6201 0.1222 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.4701 3.3077 400 0.3702 0.6024 0.1588 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.4476 4.1331 500 0.3821 0.5980 0.1575 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.4407 4.9647 600 0.3634 0.5930 0.1459 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.4344 5.7900 700 0.3873 0.6079 0.1450 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.4132 6.6154 800 0.3444 0.5699 0.1809 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.402 7.4407 900 0.3407 0.5742 0.1865 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.4138 8.2661 1000 0.3333 0.5716 0.1840 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.3756 9.0915 1100 0.3290 0.5544 0.1948 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.3815 9.9231 1200 0.3179 0.5565 0.1954 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.3803 10.7484 1300 0.3309 0.5653 0.2007 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.3692 11.5738 1400 0.3224 0.5293 0.2181 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.3515 12.3992 1500 0.3184 0.5325 0.2108 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.3617 13.2245 1600 0.3169 0.5265 0.2133 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.3612 14.0499 1700 0.3344 0.5434 0.2035 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.3378 14.8815 1800 0.3066 0.5181 0.2336 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.3293 15.7069 1900 0.3110 0.5093 0.2416 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.3478 16.5322 2000 0.3573 0.5310 0.2230 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.3226 17.3576 2100 0.3035 0.5040 0.2425 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.3137 18.1830 2200 0.3113 0.5234 0.2316 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.3266 19.0083 2300 0.3052 0.5031 0.2428 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.2973 19.8399 2400 0.3055 0.4865 0.2619 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.3039 20.6653 2500 0.3020 0.4795 0.2696 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.3018 21.4906 2600 0.3252 0.5102 0.2383 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.3025 22.3160 2700 0.3067 0.4716 0.2763 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.2929 23.1414 2800 0.3071 0.4781 0.2687 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.2885 23.9730 2900 0.3017 0.5065 0.2563 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.2935 24.7983 3000 0.3871 0.5154 0.2333 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.2939 25.6237 3100 0.3189 0.5037 0.2514 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.2858 26.4491 3200 0.3106 0.4642 0.2885 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.2926 27.2744 3300 0.2982 0.4556 0.2999 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.274 28.0998 3400 0.3088 0.4657 0.2858 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.2681 28.9314 3500 0.3182 0.4578 0.2948 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.2799 29.7568 3600 0.2925 0.4558 0.2977 {'rouge1': 0.0010395010395010396, 'rouge2': 0.0, 'rougeL': 0.0010395010395010396, 'rougeLsum': 0.0010395010395010396}
0.258 30.5821 3700 0.3169 0.4549 0.2988 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.2634 31.4075 3800 0.2939 0.4439 0.3075 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.2555 32.2328 3900 0.2938 0.4578 0.2989 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.2577 33.0582 4000 0.3038 0.4393 0.3048 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.2445 33.8898 4100 0.2940 0.4483 0.3064 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.2436 34.7152 4200 0.2979 0.4344 0.3174 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.2456 35.5405 4300 0.2960 0.4340 0.3231 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.2364 36.3659 4400 0.2936 0.4372 0.3214 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.2329 37.1913 4500 0.3089 0.4410 0.3079 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.2425 38.0166 4600 0.3029 0.4504 0.3077 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.232 38.8482 4700 0.3002 0.4478 0.3111 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.2205 39.6736 4800 0.2974 0.4404 0.3163 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.2248 40.4990 4900 0.3078 0.4463 0.3151 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.2289 41.3243 5000 0.3009 0.4270 0.3323 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.216 42.1497 5100 0.3164 0.4360 0.3136 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.2248 42.9813 5200 0.3166 0.4440 0.3147 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.212 43.8067 5300 0.3371 0.4537 0.2978 {'rouge1': 0.0010395010395010396, 'rouge2': 0.0, 'rougeL': 0.0010395010395010396, 'rougeLsum': 0.0010395010395010396}
0.2126 44.6320 5400 0.3061 0.4247 0.3345 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.2129 45.4574 5500 0.3079 0.4335 0.3195 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.2212 46.2827 5600 0.3065 0.4250 0.3317 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.2102 47.1081 5700 0.3139 0.4373 0.3201 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.209 47.9397 5800 0.3076 0.4217 0.3273 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.2102 48.7651 5900 0.3114 0.4269 0.3208 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.2018 49.5904 6000 0.3046 0.4248 0.3326 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.1943 50.4158 6100 0.3037 0.4179 0.3387 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.1993 51.2412 6200 0.3083 0.4239 0.3283 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.2052 52.0665 6300 0.3117 0.4236 0.3274 {'rouge1': 0.0010395010395010396, 'rouge2': 0.0, 'rougeL': 0.0010395010395010396, 'rougeLsum': 0.0010395010395010396}
0.1949 52.8981 6400 0.3048 0.4182 0.3349 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.1899 53.7235 6500 0.3148 0.4175 0.3329 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.1948 54.5489 6600 0.3129 0.4211 0.3357 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.1913 55.3742 6700 0.3148 0.4158 0.3368 {'rouge1': 0.0010395010395010396, 'rouge2': 0.0, 'rougeL': 0.0010395010395010396, 'rougeLsum': 0.0010395010395010396}
0.1913 56.1996 6800 0.3163 0.4273 0.3260 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.1959 57.0249 6900 0.3086 0.4143 0.3396 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.1847 57.8565 7000 0.3149 0.4159 0.3401 {'rouge1': 0.0010395010395010396, 'rouge2': 0.0, 'rougeL': 0.0010395010395010396, 'rougeLsum': 0.0010395010395010396}
0.1838 58.6819 7100 0.3135 0.4062 0.3484 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.1962 59.5073 7200 0.3168 0.4139 0.3400 {'rouge1': 0.0010395010395010396, 'rouge2': 0.0, 'rougeL': 0.0010395010395010396, 'rougeLsum': 0.0010395010395010396}
0.1788 60.3326 7300 0.3162 0.4297 0.3252 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.1818 61.1580 7400 0.3122 0.4043 0.3543 {'rouge1': 0.0010395010395010396, 'rouge2': 0.0, 'rougeL': 0.0010395010395010396, 'rougeLsum': 0.0010395010395010396}
0.1788 61.9896 7500 0.3162 0.4279 0.3264 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.1782 62.8150 7600 0.3172 0.4151 0.3442 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.1766 63.6403 7700 0.3188 0.4102 0.3451 {'rouge1': 0.0010395010395010396, 'rouge2': 0.0, 'rougeL': 0.0010395010395010396, 'rougeLsum': 0.0010395010395010396}
0.166 64.4657 7800 0.3230 0.4218 0.3361 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.1782 65.2911 7900 0.3219 0.4102 0.3425 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.1738 66.1164 8000 0.3223 0.4108 0.3450 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.171 66.9480 8100 0.3195 0.4103 0.3452 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.1747 67.7734 8200 0.3259 0.4150 0.3386 {'rouge1': 0.0010395010395010396, 'rouge2': 0.0, 'rougeL': 0.0010395010395010396, 'rougeLsum': 0.0010395010395010396}
0.1686 68.5988 8300 0.3273 0.4155 0.3369 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.1688 69.4241 8400 0.3144 0.4154 0.3376 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.1697 70.2495 8500 0.3222 0.4048 0.3534 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.1643 71.0748 8600 0.3168 0.4083 0.3477 {'rouge1': 0.0010395010395010396, 'rouge2': 0.0, 'rougeL': 0.0010395010395010396, 'rougeLsum': 0.0010395010395010396}
0.1643 71.9064 8700 0.3206 0.4073 0.3476 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.168 72.7318 8800 0.3332 0.4115 0.3437 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.1631 73.5572 8900 0.3298 0.4032 0.3520 {'rouge1': 0.0010395010395010396, 'rouge2': 0.0, 'rougeL': 0.0010395010395010396, 'rougeLsum': 0.0010395010395010396}
0.1598 74.3825 9000 0.3245 0.4026 0.3550 {'rouge1': 0.0010395010395010396, 'rouge2': 0.0, 'rougeL': 0.0010395010395010396, 'rougeLsum': 0.0010395010395010396}
0.1602 75.2079 9100 0.3247 0.4016 0.3502 {'rouge1': 0.0010395010395010396, 'rouge2': 0.0, 'rougeL': 0.0010395010395010396, 'rougeLsum': 0.0010395010395010396}
0.1601 76.0333 9200 0.3232 0.4010 0.3579 {'rouge1': 0.0010395010395010396, 'rouge2': 0.0, 'rougeL': 0.0010395010395010396, 'rougeLsum': 0.0010395010395010396}
0.1576 76.8649 9300 0.3231 0.4006 0.3522 {'rouge1': 0.0010395010395010396, 'rouge2': 0.0, 'rougeL': 0.0010395010395010396, 'rougeLsum': 0.0010395010395010396}
0.1563 77.6902 9400 0.3274 0.4012 0.3516 {'rouge1': 0.0010395010395010396, 'rouge2': 0.0, 'rougeL': 0.0010395010395010396, 'rougeLsum': 0.0010395010395010396}
0.1623 78.5156 9500 0.3319 0.4006 0.3555 {'rouge1': 0.0010395010395010396, 'rouge2': 0.0, 'rougeL': 0.0010395010395010396, 'rougeLsum': 0.0010395010395010396}
0.1548 79.3410 9600 0.3283 0.3961 0.3623 {'rouge1': 0.0010395010395010396, 'rouge2': 0.0, 'rougeL': 0.0010395010395010396, 'rougeLsum': 0.0010395010395010396}
0.1528 80.1663 9700 0.3269 0.3999 0.3579 {'rouge1': 0.0010395010395010396, 'rouge2': 0.0, 'rougeL': 0.0010395010395010396, 'rougeLsum': 0.0010395010395010396}
0.1623 80.9979 9800 0.3296 0.4032 0.3551 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.1505 81.8233 9900 0.3332 0.4076 0.3445 {'rouge1': 0.0010395010395010396, 'rouge2': 0.0, 'rougeL': 0.0010395010395010396, 'rougeLsum': 0.0010395010395010396}
0.151 82.6486 10000 0.3267 0.4029 0.3555 {'rouge1': 0.0010395010395010396, 'rouge2': 0.0, 'rougeL': 0.0010395010395010396, 'rougeLsum': 0.0010395010395010396}
0.157 83.4740 10100 0.3336 0.4029 0.3537 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.1555 84.2994 10200 0.3352 0.4055 0.3481 {'rouge1': 0.0010395010395010396, 'rouge2': 0.0, 'rougeL': 0.0010395010395010396, 'rougeLsum': 0.0010395010395010396}
0.1478 85.1247 10300 0.3371 0.4118 0.3425 {'rouge1': 0.0010395010395010396, 'rouge2': 0.0, 'rougeL': 0.0010395010395010396, 'rougeLsum': 0.0010395010395010396}
0.1475 85.9563 10400 0.3284 0.4050 0.3493 {'rouge1': 0.0010395010395010396, 'rouge2': 0.0, 'rougeL': 0.0010395010395010396, 'rougeLsum': 0.0010395010395010396}
0.1529 86.7817 10500 0.3322 0.4018 0.3523 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.1476 87.6071 10600 0.3322 0.4010 0.3545 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.1455 88.4324 10700 0.3350 0.4011 0.3548 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.1521 89.2578 10800 0.3336 0.3979 0.3581 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.1464 90.0832 10900 0.3367 0.3989 0.3566 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.1402 90.9148 11000 0.3339 0.3978 0.3585 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.1442 91.7401 11100 0.3358 0.3960 0.3616 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.1483 92.5655 11200 0.3348 0.3958 0.3635 {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0, 'rougeLsum': 0.0}
0.142 93.3909 11300 0.3353 0.3941 0.3645 {'rouge1': 0.0010395010395010396, 'rouge2': 0.0, 'rougeL': 0.0010395010395010396, 'rougeLsum': 0.0010395010395010396}
0.1444 94.2162 11400 0.3379 0.3950 0.3620 {'rouge1': 0.0010395010395010396, 'rouge2': 0.0, 'rougeL': 0.0010395010395010396, 'rougeLsum': 0.0010395010395010396}
0.1432 95.0416 11500 0.3357 0.3970 0.3596 {'rouge1': 0.0010395010395010396, 'rouge2': 0.0, 'rougeL': 0.0010395010395010396, 'rougeLsum': 0.0010395010395010396}
0.1439 95.8732 11600 0.3343 0.3957 0.3609 {'rouge1': 0.0010395010395010396, 'rouge2': 0.0, 'rougeL': 0.0010395010395010396, 'rougeLsum': 0.0010395010395010396}
0.1429 96.6985 11700 0.3344 0.3961 0.3596 {'rouge1': 0.0010395010395010396, 'rouge2': 0.0, 'rougeL': 0.0010395010395010396, 'rougeLsum': 0.0010395010395010396}
0.1406 97.5239 11800 0.3349 0.3949 0.3605 {'rouge1': 0.0010395010395010396, 'rouge2': 0.0, 'rougeL': 0.0010395010395010396, 'rougeLsum': 0.0010395010395010396}
0.1395 98.3493 11900 0.3350 0.3962 0.3590 {'rouge1': 0.0010395010395010396, 'rouge2': 0.0, 'rougeL': 0.0010395010395010396, 'rougeLsum': 0.0010395010395010396}
0.1428 99.1746 12000 0.3352 0.3954 0.3608 {'rouge1': 0.0010395010395010396, 'rouge2': 0.0, 'rougeL': 0.0010395010395010396, 'rougeLsum': 0.0010395010395010396}

Framework versions

  • Transformers 4.49.0
  • Pytorch 2.6.0+cu124
  • Datasets 3.2.0
  • Tokenizers 0.21.0
Downloads last month
1
Safetensors
Model size
965M params
Tensor type
F32
ยท
Inference Providers NEW
This model isn't deployed by any Inference Provider. ๐Ÿ™‹ Ask for provider support

Model tree for ilyes25/ardzdirect3

Finetuned
(273)
this model