python run_speech_recognition_ctc.py --dataset_name="openslr" --model_name_or_path="facebook/wav2vec2-xls-r-300m" --dataset_config_name="SLR53" --output_dir="./wav2vec2-xls-r-300m-bengali" --overwrite_output_dir --num_train_epochs="50" --per_device_train_batch_size="32" --per_device_eval_batch_size="32" --gradient_accumulation_steps="1" --learning_rate="7.5e-5" --warmup_steps="2000" --length_column_name="input_length" --evaluation_strategy="steps" --text_column_name="sentence" --chars_to_ignore , ? . ! \- \; \: \" “ % ‘ ” � — ’ … – --save_steps="2000" --eval_steps="3000" --logging_steps="100" --layerdrop="0.0" --activation_dropout="0.1" --save_total_limit="3" --freeze_feature_encoder --feat_proj_dropout="0.0" --mask_time_prob="0.75" --mask_time_length="10" --mask_feature_prob="0.25" --mask_feature_length="64" --preprocessing_num_workers 32 --gradient_checkpointing --use_auth_token --fp16 --group_by_length --do_train --do_eval --report_to wandb --min_duration_in_seconds 0.5 --push_to_hub