Training in progress, step 500

fcbce2b almost 3 years ago

6.21 kB

	training_args.do_train: True
	01/28/2022 11:13:09 - WARNING - __main__ - Process rank: -1, device: cuda:0, n_gpu: 1distributed training: False, 16-bits training: False
	01/28/2022 11:13:09 - INFO - __main__ - Training/evaluation parameters TrainingArguments(
	_n_gpu=1,
	adafactor=False,
	adam_beta1=0.9,
	adam_beta2=0.999,
	adam_epsilon=1e-08,
	bf16=False,
	bf16_full_eval=False,
	dataloader_drop_last=False,
	dataloader_num_workers=0,
	dataloader_pin_memory=True,
	ddp_bucket_cap_mb=None,
	ddp_find_unused_parameters=None,
	debug=[],
	deepspeed=None,
	disable_tqdm=False,
	do_eval=True,
	do_predict=False,
	do_train=True,
	eval_accumulation_steps=None,
	eval_steps=500,
	evaluation_strategy=IntervalStrategy.STEPS,
	fp16=False,
	fp16_backend=auto,
	fp16_full_eval=False,
	fp16_opt_level=O1,
	gradient_accumulation_steps=4,
	gradient_checkpointing=True,
	greater_is_better=None,
	group_by_length=True,
	half_precision_backend=auto,
	hub_model_id=None,
	hub_strategy=HubStrategy.EVERY_SAVE,
	hub_token=<HUB_TOKEN>,
	ignore_data_skip=False,
	label_names=None,
	label_smoothing_factor=0.0,
	learning_rate=7.5e-07,
	length_column_name=input_length,
	load_best_model_at_end=False,
	local_rank=-1,
	log_level=-1,
	log_level_replica=-1,
	log_on_each_node=True,
	logging_dir=./output/runs/Jan28_11-13-09_arjuna,
	logging_first_step=False,
	logging_nan_inf_filter=True,
	logging_steps=100,
	logging_strategy=IntervalStrategy.STEPS,
	lr_scheduler_type=SchedulerType.LINEAR,
	max_grad_norm=1.0,
	max_steps=-1,
	metric_for_best_model=None,
	mp_parameters=,
	no_cuda=False,
	num_train_epochs=1.0,
	optim=OptimizerNames.ADAMW_HF,
	output_dir=./output,
	overwrite_output_dir=True,
	past_index=-1,
	per_device_eval_batch_size=2,
	per_device_train_batch_size=2,
	prediction_loss_only=False,
	push_to_hub=True,
	push_to_hub_model_id=None,
	push_to_hub_organization=None,
	push_to_hub_token=<PUSH_TO_HUB_TOKEN>,
	remove_unused_columns=True,
	report_to=['tensorboard'],
	resume_from_checkpoint=None,
	run_name=./output,
	save_on_each_node=False,
	save_steps=500,
	save_strategy=IntervalStrategy.STEPS,
	save_total_limit=3,
	seed=42,
	sharded_ddp=[],
	skip_memory_metrics=True,
	tf32=None,
	tpu_metrics_debug=False,
	tpu_num_cores=None,
	use_legacy_prediction_loop=False,
	warmup_ratio=0.0,
	warmup_steps=2000,
	weight_decay=0.0,
	xpu_backend=None,
	)
	do_train: True
	load train
	01/28/2022 11:13:09 - WARNING - datasets.builder - Reusing dataset common_voice (/home/cahya/.cache/huggingface/datasets/common_voice/tr/6.1.0/5693bfc0feeade582a78c2fb250bc88f52bd86f0a7f1bb22bfee67e715de30fd)
	01/28/2022 11:13:10 - WARNING - datasets.builder - Reusing dataset common_voice (/home/cahya/.cache/huggingface/datasets/common_voice/tr/6.1.0/5693bfc0feeade582a78c2fb250bc88f52bd86f0a7f1bb22bfee67e715de30fd)
	char ignored: [',', '?', '.', '!', ';', ':', '""', '%', "'", '"', "'", "'", '`', '…', '’', '»', '«', '‘', '“', '”', '�', 'é', 'û'] [,?.!;:""%'"''`…’»«‘“”�éû]
	01/28/2022 11:13:10 - WARNING - datasets.arrow_dataset - Loading cached processed dataset at /home/cahya/.cache/huggingface/datasets/common_voice/tr/6.1.0/5693bfc0feeade582a78c2fb250bc88f52bd86f0a7f1bb22bfee67e715de30fd/cache-a0df3a81748e62dd.arrow
	01/28/2022 11:13:10 - WARNING - datasets.arrow_dataset - Loading cached processed dataset at /home/cahya/.cache/huggingface/datasets/common_voice/tr/6.1.0/5693bfc0feeade582a78c2fb250bc88f52bd86f0a7f1bb22bfee67e715de30fd/cache-859966f17c7349fb.arrow
	config: Wav2Vec2Config {
	"_name_or_path": "cahya/wav2vec2-base-turkish-artificial-cv",
	"activation_dropout": 0.055,
	"adapter_kernel_size": 3,
	"adapter_stride": 2,
	"add_adapter": false,
	"apply_spec_augment": true,
	"architectures": [
	"Wav2Vec2ForCTC"
	],
	"attention_dropout": 0.094,
	"bos_token_id": 1,
	"classifier_proj_size": 256,
	"codevector_dim": 256,
	"contrastive_logits_temperature": 0.1,
	"conv_bias": false,
	"conv_dim": [
	512,
	512,
	512,
	512,
	512,
	512,
	512
	],
	"conv_kernel": [
	10,
	3,
	3,
	3,
	3,
	2,
	2
	],
	"conv_stride": [
	5,
	2,
	2,
	2,
	2,
	2,
	2
	],
	"ctc_loss_reduction": "mean",
	"ctc_zero_infinity": true,
	"diversity_loss_weight": 0.1,
	"do_stable_layer_norm": false,
	"eos_token_id": 2,
	"feat_extract_activation": "gelu",
	"feat_extract_norm": "group",
	"feat_proj_dropout": 0.04,
	"feat_quantizer_dropout": 0.0,
	"final_dropout": 0.1,
	"gradient_checkpointing": true,
	"hidden_act": "gelu",
	"hidden_dropout": 0.047,
	"hidden_size": 768,
	"initializer_range": 0.02,
	"intermediate_size": 3072,
	"layer_norm_eps": 1e-05,
	"layerdrop": 0.041,
	"mask_feature_length": 10,
	"mask_feature_min_masks": 0,
	"mask_feature_prob": 0.0,
	"mask_time_length": 10,
	"mask_time_min_masks": 2,
	"mask_time_prob": 0.4,
	"model_type": "wav2vec2",
	"num_adapter_layers": 3,
	"num_attention_heads": 12,
	"num_codevector_groups": 2,
	"num_codevectors_per_group": 320,
	"num_conv_pos_embedding_groups": 16,
	"num_conv_pos_embeddings": 128,
	"num_feat_extract_layers": 7,
	"num_hidden_layers": 12,
	"num_negatives": 100,
	"output_hidden_size": 768,
	"pad_token_id": 39,
	"proj_codevector_dim": 256,
	"tdnn_dilation": [
	1,
	2,
	3,
	1,
	1
	],
	"tdnn_dim": [
	512,
	512,
	512,
	512,
	1500
	],
	"tdnn_kernel": [
	5,
	3,
	3,
	1,
	1
	],
	"transformers_version": "4.17.0.dev0",
	"use_weighted_layer_sum": false,
	"vocab_size": 40,
	"xvector_output_dim": 512
	}

	dataset: DatasetDict({
	train: Dataset({
	features: ['client_id', 'path', 'audio', 'up_votes', 'down_votes', 'age', 'gender', 'accent', 'locale', 'segment', 'target_text'],
	num_rows: 3478
	})
	eval: Dataset({
	features: ['client_id', 'path', 'audio', 'up_votes', 'down_votes', 'age', 'gender', 'accent', 'locale', 'segment', 'target_text'],
	num_rows: 1647
	})
	})
	vocab: {'-': 1, 'a': 2, 'b': 3, 'c': 4, 'd': 5, 'e': 6, 'f': 7, 'g': 8, 'h': 9, 'i': 10, 'j': 11, 'k': 12, 'l': 13, 'm': 14, 'n': 15, 'o': 16, 'p': 17, 'q': 18, 'r': 19, 's': 20, 't': 21, 'u': 22, 'v': 23, 'w': 24, 'x': 25, 'y': 26, 'z': 27, 'â': 28, 'ç': 29, 'ë': 30, 'î': 31, 'ö': 32, 'ü': 33, 'ğ': 34, 'ı': 35, 'ş': 36, '̇': 37, '\|': 0, '[UNK]': 38, '[PAD]': 39}