mechanicalsea
/

speecht5-sid

Audio Classification

self-supervised learning

Speaker Identification

Speaker Recognition

Model card Files Files and versions Metrics Training metrics Community

speecht5-sid / results /validate-class.txt

mechanicalsea's picture

add log, results, and manifest

90556f9 almost 2 years ago

history blame contribute delete

23.7 kB

	2023-01-30 12:19:57 \| INFO \| fairseq_cli.validate \| loading model(s) from /home/wangrui/projects/SpeechT5/experimental/s2c/checkpoint_28_60000.pt
	2023-01-30 12:19:58 \| INFO \| speecht5.tasks.speecht5 \| No config file for s2c
	2023-01-30 12:19:58 \| INFO \| speecht5.tasks.speecht5 \| Cannot set input_feat_per_channel, input_channels, since:
	2023-01-30 12:19:58 \| WARNING \| speecht5.tasks.speecht5 \| 'NoneType' object has no attribute 'input_feat_per_channel'
	2023-01-30 12:19:58 \| INFO \| speecht5.tasks.speecht5 \| Set to: 80 and 1
	2023-01-30 12:20:03 \| INFO \| fairseq_cli.validate \| {'_name': None, 'common': {'_name': None, 'no_progress_bar': False, 'log_interval': 10, 'log_format': 'json', 'log_file': None, 'tensorboard_logdir': '/home/wangrui/projects/SpeechT5/experimental/s2c', 'wandb_project': None, 'azureml_logging': False, 'seed': 1, 'cpu': False, 'tpu': False, 'bf16': False, 'memory_efficient_bf16': False, 'fp16': True, 'memory_efficient_fp16': False, 'fp16_no_flatten_grads': False, 'fp16_init_scale': 128, 'fp16_scale_window': None, 'fp16_scale_tolerance': 0.0, 'on_cpu_convert_precision': False, 'min_loss_scale': 0.0001, 'threshold_loss_scale': None, 'amp': False, 'amp_batch_retries': 2, 'amp_init_scale': 128, 'amp_scale_window': None, 'user_dir': '/home/wangrui/projects/SpeechT5/SpeechT5/fairseq/examples/speecht5', 'empty_cache_freq': 0, 'all_gather_list_size': 16384, 'model_parallel_size': 1, 'quantization_config_path': None, 'profile': False, 'reset_logging': False, 'suppress_crashes': False, 'use_plasma_view': False, 'plasma_path': '/tmp/plasma'}, 'common_eval': {'_name': None, 'path': '/home/wangrui/projects/SpeechT5/experimental/s2c/checkpoint_28_60000.pt', 'post_process': 'sentencepiece', 'quiet': False, 'model_overrides': '{}', 'results_path': '/home/wangrui/projects/SpeechT5/experimental/s2c/results'}, 'distributed_training': {'_name': None, 'distributed_world_size': 4, 'distributed_num_procs': 4, 'distributed_rank': 0, 'distributed_backend': 'nccl', 'distributed_init_method': 'tcp://localhost:12742', 'distributed_port': 0, 'device_id': 0, 'distributed_no_spawn': False, 'ddp_backend': 'legacy_ddp', 'ddp_comm_hook': 'none', 'bucket_cap_mb': 25, 'fix_batches_to_gpus': False, 'find_unused_parameters': True, 'fast_stat_sync': False, 'heartbeat_timeout': -1, 'broadcast_buffers': False, 'slowmo_momentum': None, 'slowmo_algorithm': 'LocalSGD', 'localsgd_frequency': 3, 'nprocs_per_node': 4, 'pipeline_model_parallel': False, 'pipeline_balance': None, 'pipeline_devices': None, 'pipeline_chunks': 0, 'pipeline_encoder_balance': None, 'pipeline_encoder_devices': None, 'pipeline_decoder_balance': None, 'pipeline_decoder_devices': None, 'pipeline_checkpoint': 'never', 'zero_sharding': 'none', 'fp16': True, 'memory_efficient_fp16': False, 'tpu': False, 'no_reshard_after_forward': False, 'fp32_reduce_scatter': False, 'cpu_offload': False, 'use_sharded_state': False}, 'dataset': {'_name': None, 'num_workers': 4, 'skip_invalid_size_inputs_valid_test': True, 'max_tokens': None, 'batch_size': 1, 'required_batch_size_multiple': 1, 'required_seq_len_multiple': 1, 'dataset_impl': None, 'data_buffer_size': 0, 'train_subset': 'train', 'valid_subset': 'test', 'combine_valid_subsets': None, 'ignore_unused_valid_subsets': False, 'validate_interval': 1, 'validate_interval_updates': 0, 'validate_after_updates': 20000, 'fixed_validation_seed': None, 'disable_validation': False, 'max_tokens_valid': None, 'batch_size_valid': 8, 'max_valid_steps': None, 'curriculum': 0, 'gen_subset': 'test', 'num_shards': 1, 'shard_id': 0}, 'optimization': {'_name': None, 'max_epoch': 0, 'max_update': 60000, 'stop_time_hours': 0.0, 'clip_norm': 0.0, 'sentence_avg': False, 'update_freq': [2], 'lr': [1e-08], 'stop_min_lr': -1.0, 'use_bmuf': False}, 'checkpoint': {'_name': None, 'save_dir': '/home/wangrui/projects/SpeechT5/experimental/s2c', 'restore_file': 'checkpoint_last.pt', 'finetune_from_model': '/nfs-data/user1/PhDHub/ckpt/speecht5_base.pt', 'reset_dataloader': False, 'reset_lr_scheduler': False, 'reset_meters': False, 'reset_optimizer': False, 'optimizer_overrides': '{}', 'save_interval': 1, 'save_interval_updates': 10000, 'keep_interval_updates': -1, 'keep_interval_updates_pattern': -1, 'keep_last_epochs': -1, 'keep_best_checkpoints': -1, 'no_save': False, 'no_epoch_checkpoints': True, 'no_last_checkpoints': False, 'no_save_optimizer_state': False, 'best_checkpoint_metric': 's2c_accuracy', 'maximize_best_checkpoint_metric': True, 'patience': -1, 'checkpoint_suffix': '', 'checkpoint_shard_count': 1, 'load_checkpoint_on_all_dp_ranks': False, 'write_checkpoints_asynchronously': False, 'model_parallel_size': 1}, 'bmuf': {'_name': None, 'block_lr': 1.0, 'block_momentum': 0.875, 'global_sync_iter': 50, 'warmup_iterations': 500, 'use_nbm': False, 'average_sync': False, 'distributed_world_size': 4}, 'generation': {'_name': None, 'beam': 5, 'nbest': 1, 'max_len_a': 0.0, 'max_len_b': 200, 'min_len': 1, 'match_source_len': False, 'unnormalized': False, 'no_early_stop': False, 'no_beamable_mm': False, 'lenpen': 1.0, 'unkpen': 0.0, 'replace_unk': None, 'sacrebleu': False, 'score_reference': False, 'prefix_size': 0, 'no_repeat_ngram_size': 0, 'sampling': False, 'sampling_topk': -1, 'sampling_topp': -1.0, 'constraints': None, 'temperature': 1.0, 'diverse_beam_groups': -1, 'diverse_beam_strength': 0.5, 'diversity_rate': -1.0, 'print_alignment': None, 'print_step': False, 'lm_path': None, 'lm_weight': 0.0, 'iter_decode_eos_penalty': 0.0, 'iter_decode_max_iter': 10, 'iter_decode_force_max_iter': False, 'iter_decode_with_beam': 1, 'iter_decode_with_external_reranker': False, 'retain_iter_history': False, 'retain_dropout': False, 'retain_dropout_modules': None, 'decoding_format': None, 'no_seed_provided': False}, 'eval_lm': {'_name': None, 'output_word_probs': False, 'output_word_stats': False, 'context_window': 0, 'softmax_batch': 9223372036854775807}, 'interactive': {'_name': None, 'buffer_size': 0, 'input': '-'}, 'model': Namespace(_name='t5_transformer_base_asr', activation_dropout=0.1, activation_fn='gelu', adam_betas=(0.9, 0.999), adam_eps=1e-08, adaptive_input=False, adaptive_softmax_cutoff=None, adaptive_softmax_dropout=0, all_gather_list_size=16384, amp=False, amp_batch_retries=2, amp_init_scale=128, amp_scale_window=None, arch='t5_transformer_base_asr', attention_dropout=0.1, azureml_logging=False, bart_weight=1.0, batch_ratio=None, batch_size=1, batch_size_valid=8, bce_loss_lambda=1.0, bce_pos_weight=5.0, bert_init=True, best_checkpoint_metric='s2c_accuracy', bf16=False, bpe=None, bpe_tokenizer=None, broadcast_buffers=False, bucket_cap_mb=25, ce_weight=1.0, checkpoint_shard_count=1, checkpoint_suffix='', clip_norm=0.0, codebook_prob=0.5, combine_valid_subsets=None, config_yaml='config.yaml', conv_bias=False, conv_channels=1024, conv_feature_layers='[(512,10,5)] + [(512,3,2)] * 4 + [(512,2,2)] * 2', conv_kernel_sizes='5,5', conv_pos=128, conv_pos_groups=16, cpu=False, cpu_offload=False, criterion='speecht5', ctc_weight=0.0, curriculum=0, data='/home/wangrui/projects/SpeechT5/manifest', data_buffer_size=0, dataset_impl=None, ddp_backend='legacy_ddp', ddp_comm_hook='none', dec_use_scaled_pos_enc=True, dec_weight=1.0, decoder_attention_heads=12, decoder_embed_dim=768, decoder_ffn_embed_dim=3072, decoder_input_dim=768, decoder_layerdrop=0.1, decoder_layers=6, decoder_learned_pos=False, decoder_max_relative_position=160, decoder_normalize_before=False, decoder_output_dim=768, device_id=0, disable_validation=False, distributed_backend='nccl', distributed_init_method=None, distributed_no_spawn=False, distributed_num_procs=4, distributed_port=0, distributed_rank=0, distributed_world_size=4, dprenet_dropout_rate=0.5, dprenet_layers=2, dprenet_units=256, dropout=0.1, empty_cache_freq=0, enable_padding=False, enc_use_scaled_pos_enc=True, encoder_attention_heads=12, encoder_attn_branch='identity,full', encoder_embed_dim=768, encoder_ffn_embed_dim=3072, encoder_layerdrop=0.05, encoder_layers=12, encoder_max_relative_position=160, encoder_normalize_before=False, encoder_reduction_factor=1, encoder_sliding_window_attn=None, encoder_speech_prenet='conv', eos=2, eprenet_conv_chans=0, eprenet_conv_filts=0, eprenet_conv_layers=0, eprenet_dropout_rate=0.0, extractor_mode='default', fast_stat_sync=False, feature_grad_mult=1.0, final_dim=256, find_unused_parameters=True, finetune_from_model='/nfs-data/user1/PhDHub/ckpt/speecht5_base.pt', finetune_from_modules=None, finetune_out_of_modules=None, fix_batches_to_gpus=False, fixed_validation_seed=None, fp16=True, fp16_init_scale=128, fp16_no_flatten_grads=False, fp16_scale_tolerance=0.0, fp16_scale_window=None, fp32_reduce_scatter=False, freeze_decoder_updates=0, freeze_encoder_updates=0, gen_subset='test', guided_attn_loss_lambda=10.0, guided_attn_loss_sigma=0.4, heartbeat_timeout=-1, hubert_label_dir=None, hubert_labels=['km'], hubert_mask_length=10, hubert_weight=1.0, ignore_prefix_size=0, ignore_unused_valid_subsets=False, iid_noise_target=False, initial_decoder_alpha=1.0, initial_encoder_alpha=1.0, input_channels=1, input_feat_per_channel=80, insert=0.0, keep_best_checkpoints=-1, keep_interval_updates=-1, keep_interval_updates_pattern=-1, keep_last_epochs=-1, label_rates=-1, label_smoothing=0.0, latent_dim=0, latent_groups=2, latent_temp=(2, 0.5, 0.999995), latent_vars=100, layer_norm_eps=1e-05, layer_norm_first=False, load_checkpoint_on_all_dp_ranks=False, localsgd_frequency=3, log_file=None, log_format='json', log_interval=10, log_keys=[], logit_temp=0.1, loss_type='L1', loss_weights=[0.1], lr=[1e-08], lr_period_updates=60000.0, lr_scheduler='triangular', lr_shrink=0.5, mask=0.3, mask_channel_length=64, mask_channel_min_space=1, mask_channel_other=0, mask_channel_prob=0.0, mask_channel_selection='static', mask_length='span-poisson', mask_min_space=1, mask_other=0, mask_prob=0.0, mask_random=0.1, mask_selection='static', max_distance=1280, max_epoch=0, max_lr=0.0002, max_speech_positions=8000, max_speech_sample_size=None, max_text_positions=600, max_tokens=None, max_tokens_valid=None, max_update=60000, max_valid_steps=None, maximize_best_checkpoint_metric=True, memory_efficient_bf16=False, memory_efficient_fp16=False, min_loss_scale=0.0001, min_speech_sample_size=None, model_parallel_size=1, modules_applied_guided_attn=('encoder-decoder',), modules_filter=None, no_epoch_checkpoints=True, no_freeze_encoder_layer=None, no_last_checkpoints=False, no_mask_channel_overlap=False, no_mask_overlap=False, no_progress_bar=False, no_reshard_after_forward=False, no_save=False, no_save_optimizer_state=False, no_scale_embedding=True, no_seed_provided=False, no_token_positional_embeddings=False, normalize=False, nprocs_per_node=4, num_buckets=320, num_heads_applied_guided_attn=2, num_layers_applied_guided_attn=2, num_shards=1, num_workers=4, on_cpu_convert_precision=False, optimizer='adam', optimizer_overrides='{}', pad=1, pad_audio=False, path='/home/wangrui/projects/SpeechT5/experimental/s2c/checkpoint_28_60000.pt', patience=-1, permute=0.0, permute_sentences=0.0, pipeline_balance=None, pipeline_checkpoint='never', pipeline_chunks=0, pipeline_decoder_balance=None, pipeline_decoder_devices=None, pipeline_devices=None, pipeline_encoder_balance=None, pipeline_encoder_devices=None, pipeline_model_parallel=False, plasma_path='/tmp/plasma', poisson_lambda=3.5, post_process='sentencepiece', postnet_chans=256, postnet_dropout_rate=0.5, postnet_filts=5, postnet_layers=5, pred_masked_weight=1.0, pred_nomask_weight=0.0, profile=False, quant_noise_pq=0, quantization_config_path=None, quantizer_depth=1, quantizer_factor=3, random_crop=False, reduction_factor=2, relative_position_embedding=True, replace_length=1, report_accuracy=True, required_batch_size_multiple=1, required_seq_len_multiple=1, reset_dataloader=False, reset_logging=False, reset_lr_scheduler=False, reset_meters=False, reset_optimizer=False, restore_file='checkpoint_last.pt', results_path='/home/wangrui/projects/SpeechT5/experimental/s2c/results', rotate=0.0, sample_break_mode='eos', sample_rate=16000.0, sample_ratios=None, save_dir='/home/wangrui/projects/SpeechT5/experimental/s2c', save_interval=1, save_interval_updates=10000, scoring='bleu', se_decoder_input='previous_target', se_predict=None, seed=1, sentence_avg=False, shard_id=0, share_ctc_embed=False, share_input_output_embed=True, shorten_data_split_list='', shorten_method='none', shrink_min=False, sid_decoder_attn_dim=128, sid_embed_dim=128, sid_encoder_cls=None, sid_no_embed_postnet=True, sid_no_pooling_bn=True, sid_pooling_layer='decoder', sid_softmax_type='softmax', single_target=False, skip_invalid_size_inputs_valid_test=True, skip_masked=False, skip_nomask=False, slowmo_algorithm='LocalSGD', slowmo_momentum=None, softmax_easy_margin=False, softmax_margin=0.0, softmax_scale=1.0, speech_odim=80, spk_embed_dim=512, spk_embed_integration_type='pre', stop_min_lr=-1.0, stop_time_hours=0, subsample_stride='2,2', suppress_crashes=False, t5_task='s2c', target_glu=False, task='speecht5', tensorboard_logdir='/home/wangrui/projects/SpeechT5/experimental/s2c', threshold_loss_scale=None, tokenizer=None, tokens_per_sample=512, tpu=False, train_subset='train', transformer_dec_positional_dropout_rate=0.1, transformer_enc_positional_dropout_rate=0.1, unb_enc_layer=-1, unk=3, untie_final_proj=True, update_freq=[2], use_batch_norm=True, use_bmuf=False, use_codebook=False, use_conv_pos=True, use_guided_attn_loss=False, use_masking=True, use_old_adam=False, use_plasma_view=False, use_sent_enc_layer=True, use_sharded_state=False, use_sinc_pos=True, use_weighted_masking=False, user_dir='/home/wangrui/projects/SpeechT5/SpeechT5/fairseq/examples/speecht5', valid_subset='test', validate_after_updates=20000, validate_interval=1, validate_interval_updates=0, wandb_project=None, weight_decay=0.1, wer_args=None, wer_kenlm_model=None, wer_lexicon=None, wer_lm_weight=2.0, wer_word_score=-1.0, write_checkpoints_asynchronously=False, zero_infinity=False, zero_sharding='none'), 'task': Namespace(_name='speecht5', activation_dropout=0.1, activation_fn='gelu', adam_betas=(0.9, 0.999), adam_eps=1e-08, adaptive_input=False, adaptive_softmax_cutoff=None, adaptive_softmax_dropout=0, all_gather_list_size=16384, amp=False, amp_batch_retries=2, amp_init_scale=128, amp_scale_window=None, arch='t5_transformer_base_asr', attention_dropout=0.1, azureml_logging=False, bart_weight=1.0, batch_ratio=None, batch_size=1, batch_size_valid=8, bce_loss_lambda=1.0, bce_pos_weight=5.0, bert_init=True, best_checkpoint_metric='s2c_accuracy', bf16=False, bpe=None, bpe_tokenizer=None, broadcast_buffers=False, bucket_cap_mb=25, ce_weight=1.0, checkpoint_shard_count=1, checkpoint_suffix='', clip_norm=0.0, codebook_prob=0.5, combine_valid_subsets=None, config_yaml='config.yaml', conv_bias=False, conv_channels=1024, conv_feature_layers='[(512,10,5)] + [(512,3,2)] * 4 + [(512,2,2)] * 2', conv_kernel_sizes='5,5', conv_pos=128, conv_pos_groups=16, cpu=False, cpu_offload=False, criterion='speecht5', ctc_weight=0.0, curriculum=0, data='/home/wangrui/projects/SpeechT5/manifest', data_buffer_size=0, dataset_impl=None, ddp_backend='legacy_ddp', ddp_comm_hook='none', dec_use_scaled_pos_enc=True, dec_weight=1.0, decoder_attention_heads=12, decoder_embed_dim=768, decoder_ffn_embed_dim=3072, decoder_input_dim=768, decoder_layerdrop=0.1, decoder_layers=6, decoder_learned_pos=False, decoder_max_relative_position=160, decoder_normalize_before=False, decoder_output_dim=768, device_id=0, disable_validation=False, distributed_backend='nccl', distributed_init_method=None, distributed_no_spawn=False, distributed_num_procs=4, distributed_port=0, distributed_rank=0, distributed_world_size=4, dprenet_dropout_rate=0.5, dprenet_layers=2, dprenet_units=256, dropout=0.1, empty_cache_freq=0, enable_padding=False, enc_use_scaled_pos_enc=True, encoder_attention_heads=12, encoder_attn_branch='identity,full', encoder_embed_dim=768, encoder_ffn_embed_dim=3072, encoder_layerdrop=0.05, encoder_layers=12, encoder_max_relative_position=160, encoder_normalize_before=False, encoder_reduction_factor=1, encoder_sliding_window_attn=None, encoder_speech_prenet='conv', eos=2, eprenet_conv_chans=0, eprenet_conv_filts=0, eprenet_conv_layers=0, eprenet_dropout_rate=0.0, extractor_mode='default', fast_stat_sync=False, feature_grad_mult=1.0, final_dim=256, find_unused_parameters=True, finetune_from_model='/nfs-data/user1/PhDHub/ckpt/speecht5_base.pt', finetune_from_modules=None, finetune_out_of_modules=None, fix_batches_to_gpus=False, fixed_validation_seed=None, fp16=True, fp16_init_scale=128, fp16_no_flatten_grads=False, fp16_scale_tolerance=0.0, fp16_scale_window=None, fp32_reduce_scatter=False, freeze_decoder_updates=0, freeze_encoder_updates=0, gen_subset='test', guided_attn_loss_lambda=10.0, guided_attn_loss_sigma=0.4, heartbeat_timeout=-1, hubert_label_dir=None, hubert_labels=['km'], hubert_mask_length=10, hubert_weight=1.0, ignore_prefix_size=0, ignore_unused_valid_subsets=False, iid_noise_target=False, initial_decoder_alpha=1.0, initial_encoder_alpha=1.0, insert=0.0, keep_best_checkpoints=-1, keep_interval_updates=-1, keep_interval_updates_pattern=-1, keep_last_epochs=-1, label_rates=-1, label_smoothing=0.0, latent_dim=0, latent_groups=2, latent_temp=(2, 0.5, 0.999995), latent_vars=100, layer_norm_eps=1e-05, layer_norm_first=False, load_checkpoint_on_all_dp_ranks=False, localsgd_frequency=3, log_file=None, log_format='json', log_interval=10, log_keys=[], logit_temp=0.1, loss_type='L1', loss_weights=[0.1], lr=[1e-08], lr_period_updates=60000.0, lr_scheduler='triangular', lr_shrink=0.5, mask=0.3, mask_channel_length=64, mask_channel_min_space=1, mask_channel_other=0, mask_channel_prob=0.0, mask_channel_selection='static', mask_length='span-poisson', mask_min_space=1, mask_other=0, mask_prob=0.0, mask_random=0.1, mask_selection='static', max_distance=1280, max_epoch=0, max_lr=0.0002, max_speech_positions=8000, max_speech_sample_size=None, max_text_positions=600, max_tokens=None, max_tokens_valid=None, max_update=60000, max_valid_steps=None, maximize_best_checkpoint_metric=True, memory_efficient_bf16=False, memory_efficient_fp16=False, min_loss_scale=0.0001, min_speech_sample_size=None, model_parallel_size=1, modules_applied_guided_attn=('encoder-decoder',), modules_filter=None, no_epoch_checkpoints=True, no_freeze_encoder_layer=None, no_last_checkpoints=False, no_mask_channel_overlap=False, no_mask_overlap=False, no_progress_bar=False, no_reshard_after_forward=False, no_save=False, no_save_optimizer_state=False, no_scale_embedding=True, no_seed_provided=False, no_token_positional_embeddings=False, normalize=False, nprocs_per_node=4, num_buckets=320, num_heads_applied_guided_attn=2, num_layers_applied_guided_attn=2, num_shards=1, num_workers=4, on_cpu_convert_precision=False, optimizer='adam', optimizer_overrides='{}', pad=1, pad_audio=False, path='/home/wangrui/projects/SpeechT5/experimental/s2c/checkpoint_28_60000.pt', patience=-1, permute=0.0, permute_sentences=0.0, pipeline_balance=None, pipeline_checkpoint='never', pipeline_chunks=0, pipeline_decoder_balance=None, pipeline_decoder_devices=None, pipeline_devices=None, pipeline_encoder_balance=None, pipeline_encoder_devices=None, pipeline_model_parallel=False, plasma_path='/tmp/plasma', poisson_lambda=3.5, post_process='sentencepiece', postnet_chans=256, postnet_dropout_rate=0.5, postnet_filts=5, postnet_layers=5, pred_masked_weight=1.0, pred_nomask_weight=0.0, profile=False, quant_noise_pq=0, quantization_config_path=None, quantizer_depth=1, quantizer_factor=3, random_crop=False, reduction_factor=2, relative_position_embedding=True, replace_length=1, report_accuracy=True, required_batch_size_multiple=1, required_seq_len_multiple=1, reset_dataloader=False, reset_logging=False, reset_lr_scheduler=False, reset_meters=False, reset_optimizer=False, restore_file='checkpoint_last.pt', results_path='/home/wangrui/projects/SpeechT5/experimental/s2c/results', rotate=0.0, sample_break_mode='eos', sample_rate=16000.0, sample_ratios=None, save_dir='/home/wangrui/projects/SpeechT5/experimental/s2c', save_interval=1, save_interval_updates=10000, scoring='bleu', se_decoder_input='previous_target', se_predict=None, seed=1, sentence_avg=False, shard_id=0, share_ctc_embed=False, share_input_output_embed=True, shorten_data_split_list='', shorten_method='none', shrink_min=False, sid_decoder_attn_dim=128, sid_embed_dim=128, sid_encoder_cls=None, sid_no_embed_postnet=True, sid_no_pooling_bn=True, sid_pooling_layer='decoder', sid_softmax_type='softmax', single_target=False, skip_invalid_size_inputs_valid_test=True, skip_masked=False, skip_nomask=False, slowmo_algorithm='LocalSGD', slowmo_momentum=None, softmax_easy_margin=False, softmax_margin=0.0, softmax_scale=1.0, spk_embed_dim=512, spk_embed_integration_type='pre', stop_min_lr=-1.0, stop_time_hours=0, subsample_stride='2,2', suppress_crashes=False, t5_task='s2c', target_glu=False, task='speecht5', tensorboard_logdir='/home/wangrui/projects/SpeechT5/experimental/s2c', threshold_loss_scale=None, tokenizer=None, tokens_per_sample=512, tpu=False, train_subset='train', transformer_dec_positional_dropout_rate=0.1, transformer_enc_positional_dropout_rate=0.1, unb_enc_layer=-1, unk=3, untie_final_proj=True, update_freq=[2], use_batch_norm=True, use_bmuf=False, use_codebook=False, use_conv_pos=True, use_guided_attn_loss=False, use_masking=True, use_old_adam=False, use_plasma_view=False, use_sent_enc_layer=True, use_sharded_state=False, use_sinc_pos=True, use_weighted_masking=False, user_dir='/home/wangrui/projects/SpeechT5/SpeechT5/fairseq/examples/speecht5', valid_subset='test', validate_after_updates=20000, validate_interval=1, validate_interval_updates=0, wandb_project=None, weight_decay=0.1, wer_args=None, wer_kenlm_model=None, wer_lexicon=None, wer_lm_weight=2.0, wer_word_score=-1.0, write_checkpoints_asynchronously=False, zero_infinity=False, zero_sharding='none'), 'criterion': {'_name': 'speecht5', 'zero_infinity': False, 'sentence_avg': False, 'post_process': 'sentencepiece', 'wer_kenlm_model': None, 'wer_lexicon': None, 'wer_lm_weight': 2.0, 'wer_word_score': -1.0, 'wer_args': None, 'label_smoothing': 0.0, 'report_accuracy': True, 'ignore_prefix_size': 0, 'ce_weight': 1.0, 'ctc_weight': 0.0, 'use_masking': True, 'use_weighted_masking': False, 'loss_type': 'L1', 'bce_pos_weight': 5.0, 'bce_loss_lambda': 1.0, 'use_guided_attn_loss': False, 'guided_attn_loss_sigma': 0.4, 'guided_attn_loss_lambda': 10.0, 'num_layers_applied_guided_attn': 2, 'num_heads_applied_guided_attn': 2, 'modules_applied_guided_attn': ['encoder-decoder'], 'pred_masked_weight': 1.0, 'pred_nomask_weight': 0.0, 'loss_weights': [0.1], 'log_keys': [], 'hubert_weight': 1.0, 'dec_weight': 1.0, 'bart_weight': 1.0}, 'optimizer': {'_name': 'adam', 'adam_betas': [0.9, 0.999], 'adam_eps': 1e-08, 'weight_decay': 0.1, 'use_old_adam': False, 'tpu': False, 'lr': [1e-08]}, 'lr_scheduler': {'_name': 'triangular', 'max_lr': 0.0002, 'lr_period_updates': 60000.0, 'lr_shrink': 0.5, 'shrink_min': False, 'lr': [1e-08]}, 'scoring': {'_name': 'bleu', 'pad': 1, 'eos': 2, 'unk': 3}, 'bpe': None, 'tokenizer': None}
	2023-01-30 12:20:03 \| INFO \| speecht5.criterions.speech_to_text_loss \| Only using CE loss
	2023-01-30 12:20:03 \| INFO \| speecht5.data.speech_to_class_dataset \| max_keep=2048000, min_keep=None, loaded 8251, skipped 0 short and 0 long, longest-loaded=1223041, shortest-loaded=63361
	2023-01-30 12:20:03 \| INFO \| speecht5.data.speech_to_class_dataset \| max_length=2560000, normalize=False
	2023-01-30 12:23:16 \| INFO \| test \| valid on 'test' subset \| s2c_loss 0.231 \| loss 0.15996 \| s2c_nll_loss 0.231 \| s2c_accuracy 96.194 \| s2c_total 8251 \| s2c_n_correct 7937