# Running on r036.ib.bridges2.psc.edu
# Started at Mon Jan 31 02:20:17 EST 2022
# SLURMD_NODENAME=r036
# SLURM_ARRAY_JOB_ID=6473470
# SLURM_ARRAY_TASK_COUNT=32
# SLURM_ARRAY_TASK_ID=19
# SLURM_ARRAY_TASK_MAX=32
# SLURM_ARRAY_TASK_MIN=1
# SLURM_ARRAY_TASK_STEP=1
# SLURM_CLUSTER_NAME=bridges2
# SLURM_CONF=/var/spool/slurm/d/conf-cache/slurm.conf
# SLURM_CPUS_ON_NODE=1
# SLURM_EXPORT_ENV=PATH
# SLURM_GET_USER_ENV=1
# SLURM_GTIDS=0
# SLURM_JOBID=6473490
# SLURM_JOB_ACCOUNT=cis210027p
# SLURM_JOB_CPUS_PER_NODE=1
# SLURM_JOB_GID=24886
# SLURM_JOB_ID=6473490
# SLURM_JOB_NAME=stats.sh
# SLURM_JOB_NODELIST=r036
# SLURM_JOB_NUM_NODES=1
# SLURM_JOB_PARTITION=RM-shared
# SLURM_JOB_QOS=rm
# SLURM_JOB_UID=82326
# SLURM_JOB_USER=ganesank
# SLURM_LOCALID=0
# SLURM_MEM_PER_CPU=2000
# SLURM_NNODES=1
# SLURM_NODEID=0
# SLURM_NODELIST=r036
# SLURM_NODE_ALIASES='(null)'
# SLURM_OPEN_MODE=a
# SLURM_PRIO_PROCESS=0
# SLURM_PROCID=0
# SLURM_SUBMIT_DIR=/ocean/projects/cis210027p/ganesank/karthik_new/espnet/egs2/dstc2/asr2
# SLURM_SUBMIT_HOST=br012.ib.bridges2.psc.edu
# SLURM_TASKS_PER_NODE=1
# SLURM_TASK_PID=84032
# SLURM_TOPOLOGY_ADDR=r036
# SLURM_TOPOLOGY_ADDR_PATTERN=node
# SLURM_WORKING_CLUSTER=bridges2:br003:6814:9216:109
# python3 -m espnet2.bin.asr_train --collect_stats true --use_preprocessor true --bpemodel none --token_type word --token_list data/en_token_list/word/tokens.txt --non_linguistic_symbols none --cleaner none --g2p none --train_data_path_and_name_and_type dump/raw/train/wav.scp,speech,sound --train_data_path_and_name_and_type dump/raw/train/text,text,text --valid_data_path_and_name_and_type dump/raw/valid/wav.scp,speech,sound --valid_data_path_and_name_and_type dump/raw/valid/text,text,text --train_shape_file exp/asr_stats_raw_en_word/logdir/train.19.scp --valid_shape_file exp/asr_stats_raw_en_word/logdir/valid.19.scp --output_dir exp/asr_stats_raw_en_word/logdir/stats.19 --config conf/train_asr.yaml --frontend_conf fs=16k 
/ocean/projects/cis210027p/ganesank/karthik_new/espnet/tools/venv/bin/python3 /ocean/projects/cis210027p/ganesank/karthik_new/espnet/espnet2/bin/asr_train.py --collect_stats true --use_preprocessor true --bpemodel none --token_type word --token_list data/en_token_list/word/tokens.txt --non_linguistic_symbols none --cleaner none --g2p none --train_data_path_and_name_and_type dump/raw/train/wav.scp,speech,sound --train_data_path_and_name_and_type dump/raw/train/text,text,text --valid_data_path_and_name_and_type dump/raw/valid/wav.scp,speech,sound --valid_data_path_and_name_and_type dump/raw/valid/text,text,text --train_shape_file exp/asr_stats_raw_en_word/logdir/train.19.scp --valid_shape_file exp/asr_stats_raw_en_word/logdir/valid.19.scp --output_dir exp/asr_stats_raw_en_word/logdir/stats.19 --config conf/train_asr.yaml --frontend_conf fs=16k
[r036] 2022-01-31 02:20:59,157 (asr:382) INFO: Vocabulary size: 613
[r036] 2022-01-31 02:21:00,102 (abs_task:1132) INFO: pytorch.version=1.8.1+cu102, cuda.available=False, cudnn.version=7605, cudnn.benchmark=False, cudnn.deterministic=True
[r036] 2022-01-31 02:21:00,108 (abs_task:1133) INFO: Model structure:
ESPnetASRModel(
  (frontend): DefaultFrontend(
    (stft): Stft(n_fft=512, win_length=512, hop_length=128, center=True, normalized=False, onesided=True)
    (frontend): Frontend()
    (logmel): LogMel(sr=16000, n_fft=512, n_mels=80, fmin=0, fmax=8000.0, htk=False)
  )
  (specaug): SpecAug(
    (time_warp): TimeWarp(window=5, mode=bicubic)
    (freq_mask): MaskAlongAxis(mask_width_range=[0, 30], num_mask=2, axis=freq)
    (time_mask): MaskAlongAxis(mask_width_range=[0, 40], num_mask=2, axis=time)
  )
  (normalize): UtteranceMVN(norm_means=True, norm_vars=False)
  (encoder): TransformerEncoder(
    (embed): Conv2dSubsampling(
      (conv): Sequential(
        (0): Conv2d(1, 256, kernel_size=(3, 3), stride=(2, 2))
        (1): ReLU()
        (2): Conv2d(256, 256, kernel_size=(3, 3), stride=(2, 2))
        (3): ReLU()
      )
      (out): Sequential(
        (0): Linear(in_features=4864, out_features=256, bias=True)
        (1): PositionalEncoding(
          (dropout): Dropout(p=0.1, inplace=False)
        )
      )
    )
    (encoders): MultiSequential(
      (0): EncoderLayer(
        (self_attn): MultiHeadedAttention(
          (linear_q): Linear(in_features=256, out_features=256, bias=True)
          (linear_k): Linear(in_features=256, out_features=256, bias=True)
          (linear_v): Linear(in_features=256, out_features=256, bias=True)
          (linear_out): Linear(in_features=256, out_features=256, bias=True)
          (dropout): Dropout(p=0.0, inplace=False)
        )
        (feed_forward): PositionwiseFeedForward(
          (w_1): Linear(in_features=256, out_features=2048, bias=True)
          (w_2): Linear(in_features=2048, out_features=256, bias=True)
          (dropout): Dropout(p=0.1, inplace=False)
          (activation): ReLU()
        )
        (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (1): EncoderLayer(
        (self_attn): MultiHeadedAttention(
          (linear_q): Linear(in_features=256, out_features=256, bias=True)
          (linear_k): Linear(in_features=256, out_features=256, bias=True)
          (linear_v): Linear(in_features=256, out_features=256, bias=True)
          (linear_out): Linear(in_features=256, out_features=256, bias=True)
          (dropout): Dropout(p=0.0, inplace=False)
        )
        (feed_forward): PositionwiseFeedForward(
          (w_1): Linear(in_features=256, out_features=2048, bias=True)
          (w_2): Linear(in_features=2048, out_features=256, bias=True)
          (dropout): Dropout(p=0.1, inplace=False)
          (activation): ReLU()
        )
        (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (2): EncoderLayer(
        (self_attn): MultiHeadedAttention(
          (linear_q): Linear(in_features=256, out_features=256, bias=True)
          (linear_k): Linear(in_features=256, out_features=256, bias=True)
          (linear_v): Linear(in_features=256, out_features=256, bias=True)
          (linear_out): Linear(in_features=256, out_features=256, bias=True)
          (dropout): Dropout(p=0.0, inplace=False)
        )
        (feed_forward): PositionwiseFeedForward(
          (w_1): Linear(in_features=256, out_features=2048, bias=True)
          (w_2): Linear(in_features=2048, out_features=256, bias=True)
          (dropout): Dropout(p=0.1, inplace=False)
          (activation): ReLU()
        )
        (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (3): EncoderLayer(
        (self_attn): MultiHeadedAttention(
          (linear_q): Linear(in_features=256, out_features=256, bias=True)
          (linear_k): Linear(in_features=256, out_features=256, bias=True)
          (linear_v): Linear(in_features=256, out_features=256, bias=True)
          (linear_out): Linear(in_features=256, out_features=256, bias=True)
          (dropout): Dropout(p=0.0, inplace=False)
        )
        (feed_forward): PositionwiseFeedForward(
          (w_1): Linear(in_features=256, out_features=2048, bias=True)
          (w_2): Linear(in_features=2048, out_features=256, bias=True)
          (dropout): Dropout(p=0.1, inplace=False)
          (activation): ReLU()
        )
        (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (4): EncoderLayer(
        (self_attn): MultiHeadedAttention(
          (linear_q): Linear(in_features=256, out_features=256, bias=True)
          (linear_k): Linear(in_features=256, out_features=256, bias=True)
          (linear_v): Linear(in_features=256, out_features=256, bias=True)
          (linear_out): Linear(in_features=256, out_features=256, bias=True)
          (dropout): Dropout(p=0.0, inplace=False)
        )
        (feed_forward): PositionwiseFeedForward(
          (w_1): Linear(in_features=256, out_features=2048, bias=True)
          (w_2): Linear(in_features=2048, out_features=256, bias=True)
          (dropout): Dropout(p=0.1, inplace=False)
          (activation): ReLU()
        )
        (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (5): EncoderLayer(
        (self_attn): MultiHeadedAttention(
          (linear_q): Linear(in_features=256, out_features=256, bias=True)
          (linear_k): Linear(in_features=256, out_features=256, bias=True)
          (linear_v): Linear(in_features=256, out_features=256, bias=True)
          (linear_out): Linear(in_features=256, out_features=256, bias=True)
          (dropout): Dropout(p=0.0, inplace=False)
        )
        (feed_forward): PositionwiseFeedForward(
          (w_1): Linear(in_features=256, out_features=2048, bias=True)
          (w_2): Linear(in_features=2048, out_features=256, bias=True)
          (dropout): Dropout(p=0.1, inplace=False)
          (activation): ReLU()
        )
        (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (6): EncoderLayer(
        (self_attn): MultiHeadedAttention(
          (linear_q): Linear(in_features=256, out_features=256, bias=True)
          (linear_k): Linear(in_features=256, out_features=256, bias=True)
          (linear_v): Linear(in_features=256, out_features=256, bias=True)
          (linear_out): Linear(in_features=256, out_features=256, bias=True)
          (dropout): Dropout(p=0.0, inplace=False)
        )
        (feed_forward): PositionwiseFeedForward(
          (w_1): Linear(in_features=256, out_features=2048, bias=True)
          (w_2): Linear(in_features=2048, out_features=256, bias=True)
          (dropout): Dropout(p=0.1, inplace=False)
          (activation): ReLU()
        )
        (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (7): EncoderLayer(
        (self_attn): MultiHeadedAttention(
          (linear_q): Linear(in_features=256, out_features=256, bias=True)
          (linear_k): Linear(in_features=256, out_features=256, bias=True)
          (linear_v): Linear(in_features=256, out_features=256, bias=True)
          (linear_out): Linear(in_features=256, out_features=256, bias=True)
          (dropout): Dropout(p=0.0, inplace=False)
        )
        (feed_forward): PositionwiseFeedForward(
          (w_1): Linear(in_features=256, out_features=2048, bias=True)
          (w_2): Linear(in_features=2048, out_features=256, bias=True)
          (dropout): Dropout(p=0.1, inplace=False)
          (activation): ReLU()
        )
        (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (8): EncoderLayer(
        (self_attn): MultiHeadedAttention(
          (linear_q): Linear(in_features=256, out_features=256, bias=True)
          (linear_k): Linear(in_features=256, out_features=256, bias=True)
          (linear_v): Linear(in_features=256, out_features=256, bias=True)
          (linear_out): Linear(in_features=256, out_features=256, bias=True)
          (dropout): Dropout(p=0.0, inplace=False)
        )
        (feed_forward): PositionwiseFeedForward(
          (w_1): Linear(in_features=256, out_features=2048, bias=True)
          (w_2): Linear(in_features=2048, out_features=256, bias=True)
          (dropout): Dropout(p=0.1, inplace=False)
          (activation): ReLU()
        )
        (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (9): EncoderLayer(
        (self_attn): MultiHeadedAttention(
          (linear_q): Linear(in_features=256, out_features=256, bias=True)
          (linear_k): Linear(in_features=256, out_features=256, bias=True)
          (linear_v): Linear(in_features=256, out_features=256, bias=True)
          (linear_out): Linear(in_features=256, out_features=256, bias=True)
          (dropout): Dropout(p=0.0, inplace=False)
        )
        (feed_forward): PositionwiseFeedForward(
          (w_1): Linear(in_features=256, out_features=2048, bias=True)
          (w_2): Linear(in_features=2048, out_features=256, bias=True)
          (dropout): Dropout(p=0.1, inplace=False)
          (activation): ReLU()
        )
        (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (10): EncoderLayer(
        (self_attn): MultiHeadedAttention(
          (linear_q): Linear(in_features=256, out_features=256, bias=True)
          (linear_k): Linear(in_features=256, out_features=256, bias=True)
          (linear_v): Linear(in_features=256, out_features=256, bias=True)
          (linear_out): Linear(in_features=256, out_features=256, bias=True)
          (dropout): Dropout(p=0.0, inplace=False)
        )
        (feed_forward): PositionwiseFeedForward(
          (w_1): Linear(in_features=256, out_features=2048, bias=True)
          (w_2): Linear(in_features=2048, out_features=256, bias=True)
          (dropout): Dropout(p=0.1, inplace=False)
          (activation): ReLU()
        )
        (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (11): EncoderLayer(
        (self_attn): MultiHeadedAttention(
          (linear_q): Linear(in_features=256, out_features=256, bias=True)
          (linear_k): Linear(in_features=256, out_features=256, bias=True)
          (linear_v): Linear(in_features=256, out_features=256, bias=True)
          (linear_out): Linear(in_features=256, out_features=256, bias=True)
          (dropout): Dropout(p=0.0, inplace=False)
        )
        (feed_forward): PositionwiseFeedForward(
          (w_1): Linear(in_features=256, out_features=2048, bias=True)
          (w_2): Linear(in_features=2048, out_features=256, bias=True)
          (dropout): Dropout(p=0.1, inplace=False)
          (activation): ReLU()
        )
        (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (dropout): Dropout(p=0.1, inplace=False)
      )
    )
    (after_norm): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
  )
  (decoder): TransformerDecoder(
    (embed): Sequential(
      (0): Embedding(613, 256)
      (1): PositionalEncoding(
        (dropout): Dropout(p=0.1, inplace=False)
      )
    )
    (after_norm): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
    (output_layer): Linear(in_features=256, out_features=613, bias=True)
    (decoders): MultiSequential(
      (0): DecoderLayer(
        (self_attn): MultiHeadedAttention(
          (linear_q): Linear(in_features=256, out_features=256, bias=True)
          (linear_k): Linear(in_features=256, out_features=256, bias=True)
          (linear_v): Linear(in_features=256, out_features=256, bias=True)
          (linear_out): Linear(in_features=256, out_features=256, bias=True)
          (dropout): Dropout(p=0.0, inplace=False)
        )
        (src_attn): MultiHeadedAttention(
          (linear_q): Linear(in_features=256, out_features=256, bias=True)
          (linear_k): Linear(in_features=256, out_features=256, bias=True)
          (linear_v): Linear(in_features=256, out_features=256, bias=True)
          (linear_out): Linear(in_features=256, out_features=256, bias=True)
          (dropout): Dropout(p=0.0, inplace=False)
        )
        (feed_forward): PositionwiseFeedForward(
          (w_1): Linear(in_features=256, out_features=2048, bias=True)
          (w_2): Linear(in_features=2048, out_features=256, bias=True)
          (dropout): Dropout(p=0.1, inplace=False)
          (activation): ReLU()
        )
        (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (norm3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (1): DecoderLayer(
        (self_attn): MultiHeadedAttention(
          (linear_q): Linear(in_features=256, out_features=256, bias=True)
          (linear_k): Linear(in_features=256, out_features=256, bias=True)
          (linear_v): Linear(in_features=256, out_features=256, bias=True)
          (linear_out): Linear(in_features=256, out_features=256, bias=True)
          (dropout): Dropout(p=0.0, inplace=False)
        )
        (src_attn): MultiHeadedAttention(
          (linear_q): Linear(in_features=256, out_features=256, bias=True)
          (linear_k): Linear(in_features=256, out_features=256, bias=True)
          (linear_v): Linear(in_features=256, out_features=256, bias=True)
          (linear_out): Linear(in_features=256, out_features=256, bias=True)
          (dropout): Dropout(p=0.0, inplace=False)
        )
        (feed_forward): PositionwiseFeedForward(
          (w_1): Linear(in_features=256, out_features=2048, bias=True)
          (w_2): Linear(in_features=2048, out_features=256, bias=True)
          (dropout): Dropout(p=0.1, inplace=False)
          (activation): ReLU()
        )
        (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (norm3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (2): DecoderLayer(
        (self_attn): MultiHeadedAttention(
          (linear_q): Linear(in_features=256, out_features=256, bias=True)
          (linear_k): Linear(in_features=256, out_features=256, bias=True)
          (linear_v): Linear(in_features=256, out_features=256, bias=True)
          (linear_out): Linear(in_features=256, out_features=256, bias=True)
          (dropout): Dropout(p=0.0, inplace=False)
        )
        (src_attn): MultiHeadedAttention(
          (linear_q): Linear(in_features=256, out_features=256, bias=True)
          (linear_k): Linear(in_features=256, out_features=256, bias=True)
          (linear_v): Linear(in_features=256, out_features=256, bias=True)
          (linear_out): Linear(in_features=256, out_features=256, bias=True)
          (dropout): Dropout(p=0.0, inplace=False)
        )
        (feed_forward): PositionwiseFeedForward(
          (w_1): Linear(in_features=256, out_features=2048, bias=True)
          (w_2): Linear(in_features=2048, out_features=256, bias=True)
          (dropout): Dropout(p=0.1, inplace=False)
          (activation): ReLU()
        )
        (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (norm3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (3): DecoderLayer(
        (self_attn): MultiHeadedAttention(
          (linear_q): Linear(in_features=256, out_features=256, bias=True)
          (linear_k): Linear(in_features=256, out_features=256, bias=True)
          (linear_v): Linear(in_features=256, out_features=256, bias=True)
          (linear_out): Linear(in_features=256, out_features=256, bias=True)
          (dropout): Dropout(p=0.0, inplace=False)
        )
        (src_attn): MultiHeadedAttention(
          (linear_q): Linear(in_features=256, out_features=256, bias=True)
          (linear_k): Linear(in_features=256, out_features=256, bias=True)
          (linear_v): Linear(in_features=256, out_features=256, bias=True)
          (linear_out): Linear(in_features=256, out_features=256, bias=True)
          (dropout): Dropout(p=0.0, inplace=False)
        )
        (feed_forward): PositionwiseFeedForward(
          (w_1): Linear(in_features=256, out_features=2048, bias=True)
          (w_2): Linear(in_features=2048, out_features=256, bias=True)
          (dropout): Dropout(p=0.1, inplace=False)
          (activation): ReLU()
        )
        (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (norm3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (4): DecoderLayer(
        (self_attn): MultiHeadedAttention(
          (linear_q): Linear(in_features=256, out_features=256, bias=True)
          (linear_k): Linear(in_features=256, out_features=256, bias=True)
          (linear_v): Linear(in_features=256, out_features=256, bias=True)
          (linear_out): Linear(in_features=256, out_features=256, bias=True)
          (dropout): Dropout(p=0.0, inplace=False)
        )
        (src_attn): MultiHeadedAttention(
          (linear_q): Linear(in_features=256, out_features=256, bias=True)
          (linear_k): Linear(in_features=256, out_features=256, bias=True)
          (linear_v): Linear(in_features=256, out_features=256, bias=True)
          (linear_out): Linear(in_features=256, out_features=256, bias=True)
          (dropout): Dropout(p=0.0, inplace=False)
        )
        (feed_forward): PositionwiseFeedForward(
          (w_1): Linear(in_features=256, out_features=2048, bias=True)
          (w_2): Linear(in_features=2048, out_features=256, bias=True)
          (dropout): Dropout(p=0.1, inplace=False)
          (activation): ReLU()
        )
        (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (norm3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (5): DecoderLayer(
        (self_attn): MultiHeadedAttention(
          (linear_q): Linear(in_features=256, out_features=256, bias=True)
          (linear_k): Linear(in_features=256, out_features=256, bias=True)
          (linear_v): Linear(in_features=256, out_features=256, bias=True)
          (linear_out): Linear(in_features=256, out_features=256, bias=True)
          (dropout): Dropout(p=0.0, inplace=False)
        )
        (src_attn): MultiHeadedAttention(
          (linear_q): Linear(in_features=256, out_features=256, bias=True)
          (linear_k): Linear(in_features=256, out_features=256, bias=True)
          (linear_v): Linear(in_features=256, out_features=256, bias=True)
          (linear_out): Linear(in_features=256, out_features=256, bias=True)
          (dropout): Dropout(p=0.0, inplace=False)
        )
        (feed_forward): PositionwiseFeedForward(
          (w_1): Linear(in_features=256, out_features=2048, bias=True)
          (w_2): Linear(in_features=2048, out_features=256, bias=True)
          (dropout): Dropout(p=0.1, inplace=False)
          (activation): ReLU()
        )
        (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (norm3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (dropout): Dropout(p=0.1, inplace=False)
      )
    )
  )
  (ctc): CTC(
    (ctc_lo): Linear(in_features=256, out_features=613, bias=True)
    (ctc_loss): CTCLoss()
  )
  (criterion_att): LabelSmoothingLoss(
    (criterion): KLDivLoss()
  )
)

Model summary:
    Class Name: ESPnetASRModel
    Total Number of model parameters: 27.56 M
    Number of trainable parameters: 27.56 M (100.0%)
    Size: 110.26 MB
    Type: torch.float32
[r036] 2022-01-31 02:21:00,109 (abs_task:1136) INFO: Optimizer:
Adam (
Parameter Group 0
    amsgrad: False
    betas: (0.9, 0.999)
    eps: 1e-08
    initial_lr: 0.0002
    lr: 8e-09
    weight_decay: 0
)
[r036] 2022-01-31 02:21:00,109 (abs_task:1137) INFO: Scheduler: WarmupLR(warmup_steps=25000)
[r036] 2022-01-31 02:21:00,121 (abs_task:1146) INFO: Saving the configuration in exp/asr_stats_raw_en_word/logdir/stats.19/config.yaml
[r036] 2022-01-31 02:21:00,148 (abs_task:1157) INFO: Namespace(config='conf/train_asr.yaml', print_config=False, log_level='INFO', dry_run=False, iterator_type='sequence', output_dir='exp/asr_stats_raw_en_word/logdir/stats.19', ngpu=0, seed=0, num_workers=1, num_att_plot=3, dist_backend='nccl', dist_init_method='env://', dist_world_size=None, dist_rank=None, local_rank=None, dist_master_addr=None, dist_master_port=None, dist_launcher=None, multiprocessing_distributed=False, unused_parameters=False, sharded_ddp=False, cudnn_enabled=True, cudnn_benchmark=False, cudnn_deterministic=True, collect_stats=True, write_collected_feats=False, max_epoch=20, patience=None, val_scheduler_criterion=('valid', 'loss'), early_stopping_criterion=('valid', 'loss', 'min'), best_model_criterion=[('train', 'loss', 'min'), ('valid', 'loss', 'min'), ('train', 'acc', 'max'), ('valid', 'acc', 'max')], keep_nbest_models=5, grad_clip=5.0, grad_clip_type=2.0, grad_noise=False, accum_grad=1, no_forward_run=False, resume=False, train_dtype='float32', use_amp=False, log_interval=None, use_tensorboard=True, use_wandb=False, wandb_project=None, wandb_id=None, wandb_entity=None, wandb_name=None, wandb_model_log_interval=-1, detect_anomaly=False, pretrain_path=None, init_param=[], ignore_init_mismatch=False, freeze_param=[], num_iters_per_epoch=None, batch_size=20, valid_batch_size=None, batch_bins=1000000, valid_batch_bins=None, train_shape_file=['exp/asr_stats_raw_en_word/logdir/train.19.scp'], valid_shape_file=['exp/asr_stats_raw_en_word/logdir/valid.19.scp'], batch_type='folded', valid_batch_type=None, fold_length=[], sort_in_batch='descending', sort_batch='descending', multiple_iterator=False, chunk_length=500, chunk_shift_ratio=0.5, num_cache_chunks=1024, train_data_path_and_name_and_type=[('dump/raw/train/wav.scp', 'speech', 'sound'), ('dump/raw/train/text', 'text', 'text')], valid_data_path_and_name_and_type=[('dump/raw/valid/wav.scp', 'speech', 'sound'), ('dump/raw/valid/text', 'text', 'text')], allow_variable_data_keys=False, max_cache_size=0.0, max_cache_fd=32, valid_max_cache_size=None, optim='adam', optim_conf={'lr': 0.0002}, scheduler='warmuplr', scheduler_conf={'warmup_steps': 25000}, token_list=['<blank>', '<unk>', '<utt>', '<sep>', 'bye', 'the', 'food', 'you', 'thank', 'thankyou', 'good', 'request-phone', 'number', 'phone', 'request-addr', 'address', 'restaurant', 'of', 'i', 'what', 'is', 'a', 'in', 'town', 'reqalts', 'part', 'inform-this-dontcare', 'for', 'and', 'looking', 'im', 'whats', 'about', 'inform-pricerange-moderate', 'dont', 'that', 'care', 'affirm', 'cheap', 'inform-pricerange-cheap', 'south', 'inform-area-south', 'how', 'serves', 'have', 'moderately', 'yes', 'priced', 'expensive', 'north', 'any', 'inform-pricerange-expensive', 'can', 'request-postcode', 'anything', 'else', 'inform-area-north', 'code', 'post', 'it', 'price', 'west', 'inform-area-west', 'east', 'type', 'inform-area-east', 'range', 'there', 'request-food', 'okay', 'oriental', 'goodbye', 'european', 'request-pricerange', 'area', 'want', 'an', 'inform-food-indian', 'indian', 'matter', 'doesnt', 'uh', 'thai', 'serve', 'request-area', 'inform-food-thai', 'inform-food-asian', 'asian', 'chinese', 'like', 'inform-area-centre', 'find', 'inform-food-chinese', 'inform-food-italian', 'italian', 'negate', 'center', 'no', 'moderate', 'please', 'get', 'to', 'their', 'inform-food-european', 'serving', 'may', 'inform-area-dontcare', 'do', 'korean', 'spanish', 'inform-food-spanish', 'vietnamese', 'inform-food-vietnamese', 'inform-food-korean', 'id', 'could', 'american', 'british', 'inform-food-british', 'kind', 'need', 'inform-food-turkish', 'turkish', 'um', 'inform-food-portuguese', 'gastropub', 'portuguese', 'does', 'inform-food-gastropub', 'inform-food-french', 'french', 'would', 'inform-food-mediterranean', 'mediterranean', 'they', 'modern', 'hello', 'inform-food-modern', 'noise', 'inform-pricerange-dontcare', 'its', 'inform-food-international', 'international', 'me', 'should', 'inform-food-north', 'repeat', 'right', 'give', 'inform-food-seafood', 'inform-food-japanese', 'japanese', 'jamaican', 'inform-food-jamaican', 'inform-food-creative', 'creative', 'are', 'inform-food-mexican', 'mexican', 'telephone', 'another', 'one', 'hungarian', 'ah', 'something', 'inform-food-dontcare', 'inform-food-cantonese', 'cantonese', 'inform-food-cuban', 'cuban', 'inform-food-hungarian', 'hi', 'breath', 'sea', 'yea', 'am', 'inform-food-traditional', 'traditional', 'caribbean', 'restaurants', 'ack', 'inform-food-world', 'world', 'with', 'inform-food-caribbean', 'barbecue', 'inform-food-corsica', 'corsica', 'inform-food-lebanese', 'lebanese', 'be', 'inform-food-basque', 'postcode', 'inform-food-romanian', 'romanian', 'inform-food-greek', 'greek', 'inform-food-barbeque', 'inform-food-african', 'african', 'side', 'other', 'pan', 'inform-food-english', 'english', 'inform-food-danish', 'danish', 'venue', 'inform-food-malaysian', 'australian', 'inform-food-unusual', 'unusual', 'inform-food-moroccan', 'inform-food-kosher', 'kosher', 'thats', 'inform-food-scandinavian', 'inform-food-afghan', 'afghan', 'inform-food-polynesian', 'polynesian', 'bout', 'inform-food-german', 'german', 'not', 'inform-food-vegetarian', 'inform-food-persian', 'persian', 'scandinavian', 'basque', 'inform-food-belgian', 'malaysian', 'inform-food-australian', 'moroccan', 'christmas', 'inform-food-catalan', 'inform-food-canapes', 'vegetarian', 'on', 'swedish', 'inform-food-irish', 'irish', 'canapes', 'inform-food-christmas', 'catalan', 'inform-food-venetian', 'inform-food-swedish', 'where', 'inform-food-tuscan', 'tuscan', 'inform-food-eritrean', 'venetian', 'inform-food-steakhouse', 'fusion', 'unintelligible', 'inform-food-bistro', 'bistro', 'yeah', 'alright', 'inform-food-swiss', 'swiss', 'inform-food-singaporean', 'seafood', 'know', 'confirm-pricerange-expensive', 'confirm-pricerange-moderate', 'next', 'oh', 'inform-food-brazilian', 'brazilian', 'inform-food-scottish', 'scottish', 'inform-food-fusion', 'inform-food-russian', 'russian', 'singaporean', 'kay', 'fine', 'inform-food-welsh', 'welsh', 'over', 'belgium', 'belgian', 'great', 'addre', 'inform-food-crossover', 'cool', 'steakhouse', 'confirm-food-chinese', 'inform-food-austrian', 'austrian', 'inform-food-polish', 'polish', 'again', 'centre', 'then', 'ok', 'halal', 'steak', 'back', 'thanks', 'inform-food-indonesian', 'indonesian', 'correct', 'well', 'confirm-area-centre', 'confirm-area-north', 'inform-food-halal', 'see', 'welcome', 'house', 'postal', 'pri', 'more', 'anywhere', 'central', 'crossover', 'much', 'very', 'located', 'my', 'confirm-pricerange-cheap', 'restart', 'start', 'go', 'just', 'iam', 'confirm-food-thai', 'confirm-food-korean', 'city', 'as', 'wok', 'option', 'was', 'two', 'your', 'confirm-food-gastropub', 'time', 'chiquito', 'inform-name-prezzo', 'prezzo', 'fuck', 'prices', 'reqmore', 'bask', 'different', 'cambridge', 'turkiesh', 'show', 'chineese', 'confirm-area-east', 'rest', 'request-name', 'name', 'try', 'sorry', 'foo', 'ye', 'ser', 'sells', 'change', 'confirm-food-hungarian', 'eritrean', 'but', 'eartrain', 'options', 'location', 'served', 'cross', 'k', 'inform-name-chiquito', 'bar', 'tv_noise', 'confirm-food-canapes', 'day', 'parts', 'malyasian', 'airitran', 'so', 'new', 'at', 'confirm-food-indian', 'confirm-food-portuguese', 'place', 'tell', 'though', 'choice', 'awesome', 'stop', 'inform-food-australasian', 'portugese', 'missing', 'sock', 'deny-name-golden', 'golden', 'park', 'tur', 'vinci', 'pizzeria', 'endonesian', 'needs', 'deny-food-korean', 'confirm-area-west', 't', 'trying', 'dear', 'thatll', 'excellent', 'baskaye', 'confirm-food-basque', 'p', 'if', 'india', 'some', 'ran', 'moroccon', 'confirm-food-european', 'hut', 'all', 'airatarin', 'canope', 'tailand', 'vanessa', 'earatrain', 'shit', 'ts', 'confirm-food-steakhouse', 'cantonates', 'vegitarian', 'knocking', 'signaporian', 'mail', 'foods', 'got', 'us', 'lets', 'f', 'medium', 'un', 'downtown', 'portugeuse', 'venues', 'talking', 'nymber', 'every', 'this', 'moron', 'says', 'sucks', 'itailian', 'chinses', 'elses', 'request-signature', 'special', 'restaurnt', 'confirm-food-fusion', 'spensive', 'scandinavia', 'gastro', 'pub', 'anyone', 'deny-food-chinese', 'res', 'derately', 'down', 'fancy', 'wha', 'alternative', 'confirm-food-mediterranean', 'confirm-food-caribbean', 'first', 'least', 'bart', 'selection', 'finally', 'somewhere', 'ko', 'sounds', 'said', 'eat', 'huh', 'searching', 's', 'wrong', 'cute', 'ffood', 'earetree', 'earatree', 'confirm-food-modern', 'confirm-food-christmas', 'long', 'class', 'restauran', 'turk', 'deny-name-the', 'beside', 'yourself', 'hate', 'signaporean', 'restuarant', 'did', 'inform-name-da', 'da', 'only', 'int', 'inform-name-bloomsbury', 'bloomsbury', 'inaudible', 'scandanavian', 'done', 'confirm-food-indonesian', 'cancun', 'gasper', 'o', 'meant', 'plea', 'halo', 'inner', 'confirm-food-swedish', 'confirm-food-asian', 'wanna', 'catalanian', 'darling', 'canape', 'baskey', 'indians', 'bat', 'europ', 'now', 'canopy', 'restaraunt', 'medterranean', 'cant', 'deosnt', 'ostro', 'addrss', 'damn', 'deny-name-hk', 'hk', 'signapore', 'probably', 'ly', 'moderat', 'modereate', 'let', 'zip', 'spani', 'adddress', 'ori', 'euorpean', 'confirm-food-seafood', 'mistakes', 'ooh', 'confirm-food-spanish', 'worth', 'mediteranian', 'music', 'others', 'b', 'types', 'thing', 'fish', 'besides', 'confirm-food-halal', 'inform-name-pizza', 'pizza', 'ever', 'surprise', 'ones', 'train', 'arotrian', 'modertley', 'calling', 'minuet', 'york', 'sh', 'cost', 'confirm-area-south', 'bristish', 'confirm-food-british', 'loo', 'think', 'medetanian', 'wheres', 'his', 'confirm-food-turkish', 'inform-name-restaurant', 'euro', 'wondering', 'theres', 'afternoon', 'sure', 'might', 'umh', 'deny-food-vietnamese', 'art', 'rerestaurant', 'vietna', 'ne', 'take', 'modreately', 'air', 'tran', 'crosstalk', 'mind', 'ya', 'god', 'really', 'believe', 'confirm-food-italian', 'confirm-food-jamaican', 'preference', '<sos/eos>'], init=None, input_size=None, ctc_conf={'dropout_rate': 0.0, 'ctc_type': 'builtin', 'reduce': True, 'ignore_nan_grad': True}, model_conf={'ctc_weight': 0.5, 'ignore_id': -1, 'lsm_weight': 0.0, 'length_normalized_loss': False, 'report_cer': True, 'report_wer': True, 'sym_space': '<space>', 'sym_blank': '<blank>', 'extract_feats_in_collect_stats': True}, use_preprocessor=True, token_type='word', bpemodel=None, non_linguistic_symbols=None, cleaner=None, g2p=None, speech_volume_normalize=None, rir_scp=None, rir_apply_prob=1.0, noise_scp=None, noise_apply_prob=1.0, noise_db_range='13_15', frontend='default', frontend_conf={'fs': '16k'}, specaug='specaug', specaug_conf={'apply_time_warp': True, 'time_warp_window': 5, 'time_warp_mode': 'bicubic', 'apply_freq_mask': True, 'freq_mask_width_range': [0, 30], 'num_freq_mask': 2, 'apply_time_mask': True, 'time_mask_width_range': [0, 40], 'num_time_mask': 2}, normalize='utterance_mvn', normalize_conf={}, preencoder=None, preencoder_conf={}, encoder='transformer', encoder_conf={'output_size': 256, 'attention_heads': 4, 'linear_units': 2048, 'num_blocks': 12, 'dropout_rate': 0.1, 'positional_dropout_rate': 0.1, 'attention_dropout_rate': 0.0, 'input_layer': 'conv2d', 'normalize_before': True}, postencoder=None, postencoder_conf={}, decoder='transformer', decoder_conf={'attention_heads': 4, 'linear_units': 2048, 'num_blocks': 6, 'dropout_rate': 0.1, 'positional_dropout_rate': 0.1, 'self_attention_dropout_rate': 0.0, 'src_attention_dropout_rate': 0.0}, required=['output_dir', 'token_list'], version='0.10.3a3', distributed=False)
# Accounting: begin_time=1643613617
# Accounting: end_time=1643613668
# Accounting: time=51 threads=1
# Finished at Mon Jan 31 02:21:08 EST 2022 with status 0